Come eseguire la scansione di un sito di grandi dimensioni ed estrarre dati utilizzando il SEO Spider di Screaming Frog

Urlando Frog SEO Spider

Stiamo assistendo diversi clienti in questo momento con Marketo migrazioni. Poiché le grandi aziende utilizzano soluzioni aziendali come questa, è come una ragnatela che si intreccia in processi e piattaforme nel corso degli anni ... fino al punto che le aziende non sono nemmeno a conoscenza di ogni punto di contatto.

Con una piattaforma di automazione del marketing aziendale come Marketo, i moduli sono il punto di ingresso dei dati in tutti i siti e le pagine di destinazione. Le aziende hanno spesso migliaia di pagine e centinaia di moduli nei loro siti che devono essere identificati per l'aggiornamento.

Un ottimo strumento per questo è Screaming Frog's SEO Spider... forse la piattaforma più popolare sul mercato per la scansione, il controllo e l'estrazione di dati da un sito. La piattaforma è ricca di funzionalità e offre centinaia di opzioni praticamente per ogni attività richiesta.

Screaming Frog SEO Spider: Scansiona ed estrai

Una caratteristica chiave di Screaming Frog SEO Spider è che puoi eseguire estrazioni personalizzate basate su regex, XPath, o CSSPath specifiche. Ciò è estremamente utile in quanto desideriamo eseguire la scansione dei siti del cliente e controllare e acquisire i valori MunchkinID e FormId dalle pagine.

Con lo strumento, apri Configurazione> Personalizzato> Estrazione per identificare gli elementi che desideri estrarre.

estrazione personalizzata di screamingfrog

La schermata di estrazione consente una raccolta dati virtualmente illimitata:

Regole di estrazione del ragno SEO di Screaming Frog

Regex, XPath e CSSPath Extraction

Per MunchkinID, l'identificatore si trova all'interno dello script del modulo che si trova all'interno della pagina:

<script type='text/javascript' id='marketo-fat-js-extra'>
    /* <![CDATA[ */
    var marketoFat = {
        "id": "123-ABC-456",
        "prepopulate": "",
        "ajaxurl": "https:\/\/yoursite.com\/wp-admin\/admin-ajax.php",
        "popout": {
            "enabled": false
        }
    };
    /* ]]> */

Quindi applichiamo un file Regex Regex per acquisire l'id dall'interno del tag script inserito nella pagina:

Regex: ["']id["']: *["'](.*?)["']

Per l'ID modulo, i dati si trovano in un tag di input all'interno del modulo Marketo:

<input type="hidden" name="formid" class="mktoField mktoFieldDescriptor" value="1234">

Applichiamo un Regola XPath per acquisire l'id dall'interno del modulo inserito nella pagina. La query XPath cerca un modulo con un input con un nome formidabile, quindi l'estrazione salva il file APPREZZIAMO:

XPath: //form/input[@name="formid"]/@value

Rendering Javascript di Screaming Frog SEO Spider

Un'altra grande opzione di Screaming Frog è che non sei limitato all'HTML nella pagina, puoi eseguire il rendering di qualsiasi JavaScript che inserirà moduli all'interno del tuo sito. Entro Configurazione> Spider, puoi andare alla scheda Rendering e abilitarlo.

Rendering Javascript di Screaming Frog SEO Spider

Ciò richiede un po 'più di tempo per eseguire la scansione del sito, ovviamente, ma otterrai moduli che vengono visualizzati sul lato client da JavaScript e moduli inseriti sul lato server.

Sebbene questa sia un'applicazione molto specifica, è incredibilmente utile quando lavori con siti di grandi dimensioni. Dovrai assolutamente controllare dove sono incorporati i tuoi moduli in tutto il sito.

Scarica Screaming Frog SEO Spider

Cosa ne pensi?

Questo sito utilizza Akismet per ridurre lo spam. Scopri come vengono elaborati i dati dei tuoi commenti.