Crawl budget, come funziona (secondo me)

Il crawl budget è il margine delle risorse di scansione che Google è disposto a spendere per un sito web. Così come il margine di spesa per un’azienda ha un impatto sulle attività che la stessa potrà portare avanti oppure no, allo stesso modo il crawl budget potrà incidere direttamente sulla quantità di pagine che verranno scansionate e successivamente messe in indice da Google.

Crawl budget

Crawl budget

Faccio una premessa doverosa: giacché non mi fido ciecamente di quanto arriva dalle fonti ufficiali, ciò che leggerai in questo articolo è la mia esperienza di osservazione – giusta o sbagliata che sia – rispetto al modo in cui Google stanzia il crawl budget e definisce la frequenza di scansione per ciascun sito web.

 

Quando manca il crawl budget

Cominciamo subito col dire una cosa importante: il crawl budget in linea di massima non è un problema. Lo diventa se metti online improvvisamente un sito web con decine o centinaia di migliaia di pagine povere o molto simili tra loro. Quando ciò avviene, chiedi a Google di stanziare un grosso budget di scansione per un sito web neonato che non presenta ancora segnali comportamentali tali da stabilirne la qualità e che per altro – cosa forse più importante – presenta pagine molto simili tra loro e spesso povere nel contenuto.

Queste situazioni riguardano spesso siti web le cui pagine vengono sviluppate dinamicamente a seguito dell’impostazione di variabili come i nomi delle città o il set di parole chiave da inserire automaticamente nei titoli e nelle intestazioni. Sì, sono spesso progetti “furbi” che poco aggiungono all’internet in termini qualitativi e che peraltro sono particolarmente privi di intento benefico per gli utenti. A queste condizioni mi sono accorto in più occasioni che Google indicizza le prime 20.000 pagine, dopodiché si ferma per poi disinteressarsi del sito web. Un’altra cosa di cui mi sono accorto è che le poche pagine seguite vengono aggiornate molto di rado, quindi non solo Google decide che il sito web non merita lo stanziamento di un budget di scansione congruo a coprire l’intera volumetria delle pagine web, ma quelle che pure sono oggetto della scansionate vengono richieste da Googlebot molto più raramente rispetto a quelle di altri siti web.

In sostanza Google si accorge che il sito web è di bassa qualità e chiude i rubinetti di scansione.

 

Sito web in noindex

Un caso davvero molto brutto da vedere riguarda siti web che vengono messi online con il meta robots impostato su Noindex. Che si tratti di una disattenzione o di una mossa ingenua, quando Googlebot vede per la prima volta (e anche per la seconda) un sito web le cui pagine sono in noindex, tenderà a non tornarci più frequentemente e di conseguenza le richieste di scansione rallenteranno fino a ingolfarsi. Ho visto siti web stentare a indicizzarsi per mesi, solo perché il web master ha sviluppato il sito direttamente online tenendolo in noindex invece di seguire la procedura corretta che prevede lo sviluppo nella modalità manutenzione, oppure su spazio con accesso bloccato ai crawler, oppure in locale.

 

Differenze nella scansione per tipologia di siti web

Per quanto riguarda i siti web che pubblicano news, Googlebot ha capito di dover seguire prioritariamente solo quelle più fresche, (quasi) ignorando le meno recenti. In questo modo puoi tenere online siti web giganteschi senza doverti preoccupare più di tanto di cosa Google riterrà prioritario seguire. Cosa diversa e più problematica è invece per i siti web che non pubblicano notizie, ma che hanno comunque moltissime pagine, come i grossi shop online. Anche in questi casi mi sono accorto che non ci sono tanto problemi di crawl budget, perché dalla Search Console si vede che praticamente tutte le pagine vengono seguite, piuttosto su questi siti web si nota ancora più chiaramente come una SEO disorganizzata conduca a una proliferazione di colli di bottiglia tali da rendere l’indicizzazione del tutto casuale. Insomma, nella maggior parte dei casi, se il tuo sito non si posiziona bene, al netto della qualità dei contenuti, non è per via dell’esaurimento delle risorse di scansione, ma per i problemi SEO legati all’architettura dei contenuti e alla presenza di percorsi interni serviti male, da cui nascono appunto ridondanze e sovrapposizioni.

 

Pagina rilevata, ma non indicizzata

Tra le voci di esclusione in copertura indice trovi anche “pagina rilevata, ma al momento non indicizzata“. Ecco queste pagine rilevate, non vengono appunto scansionate, ma solo rilevate. Anche in questo caso, la mancata scansione non dipende dalla mancanza di Crawl Budget, ma dal fatto che queste pagine hanno altri problemi (di varia natura).

In conclusione, a meno che tu non decida di mettere online un sito web con un milione di pagine tutte uguali da un giorno all’altro, invece di preoccuparti del Crawl budget, preoccupati della SEO.

È molto meglio.

Rispondi all'articolo

L'indirizzo email non verrà pubblicato. I campi obbligatori sono contrassegnati *