Ok, proviamo a capirci qualcosa. Se vuoi che una pagina web del tuo sito non sia visibile su Google puoi bloccarne la scansione tramite file robots.txt o deindicizzarla attraverso l’uso del meta robots. Ma quali sono le differenze tra questi due strumenti? Quando è opportuno utilizzarne uno al posto dell’altro?
Il file robots.txt
Si tratta di un banale file di testo, la cui funzione è evitare la scansione di pagine singole (statiche) o file, ma più frequentemente intere cartelle (directory) interne al sito web. questo strumento è utile per i siti web statici, ma può essere utilizzato anche per quelli dinamici. Se le pagine in questione non sono mai state indicizzate rimangono in tale stato, altrimenti se sono già presenti negli indici, ne viene bloccata la scansione.
Esempio di compilazione di un file robots.txt
User-agent: googlebot
Disallow: /testi.html
Disallow: /mp3/
Il meta robots
Non è un file, ma un’istruzione che può essere presente come codice nella sezione “head” di ogni pagina web. Molto utilizzata per i contenuti dinamici, presenta 4 declinazioni:
meta name=”robots” content=”index,follow”
meta name=”robots” content=”noindex,follow”
meta name=”robots” content=”index,nofollow”
meta name=”robots” content=”noindex,nofollow”
A tali declinazioni standard se ne aggiungono altre con istruzioni precise come ad esempio noarchive, di cui si è parlato in passato.
Le differenze
Diciamo intanto che il file robots è personalizzabile per tutti gli spider dei principali motori di ricerca, mentre il meta robots lancia le sue istruzioni in modo globale, cioè per tutti i motori di ricerca. Un’altra differenza importante tra i due strumenti è che un nuovo contenuto non indicizzato, contrassegnato con il meta robots “noindex”, viene prima assorbito e poi deindicizzato, impiegando in ogni caso le risorse di scansione di Google. Non so perché avvenga ciò, ma c’è un doppio passaggio che richiede tempo e soprattutto crawling budget che non è detto Google abbia stanziato per il tuo sito web. Da questo punto di vista, agire “di violenza” escludendo le stesse pagine con il file robots.txs produce una scansione del sito più “economica”.
Attenzione alla rimozione url
La rimozione url è uno strumento dei Webmaster Tools di Google che andrebbe utilizzato solo per escludere definitivamente dalla visualizzazione in serp una pagina web che non vorremmo vedere. Attenzione, questo processo non è reversibile, nel senso che non puoi far riassorbire una url dopo che è stata rimossa, ma in caso devi modificarla, altrimenti la pagina non sarà più visibile.
In effetti il contenuto rimosso non viene del tutto deindicizzato, ma diventa semplicemente invisibile, vale a dire che continua ad occupare risorse di scansione perché Google continua a vederlo.
Qui puoi trovare tutti i casi in cui Google consiglia di non utilizzare lo strumento di rimozione url.
Conclusioni
In generale va benissimo utilizzare il meta robots per regolare i percorsi di scansione e definire le priorità tra i contenuti del tuo sito web, tieni solo conto che non tutto ciò che sparisce dalle serp è “deindicizzato”. La differenza tra i due strumenti sta proprio in questo.
Meta robots = può bloccare l’indicizzazione
Robots.txt = blocca la scansione
Quindi se blocchi la scansione di un contenuto con il file robots.txt, ma allo stesso tempo utilizzi per lo stesso contenuto il meta robots in “noindex”, questo potrebbe non venire deindicizzato. Guarda tu, i casi della vita!
A volte si ottimizza con il cesello, altre volte con le martellate. Tu come ti muovi in genere?