La sitemap è un’indicazione importante per i motori di ricerca. Contiene tutti gli indirizzi delle pagine web rilevanti che si trovano sul nostro sito web. Vediamo insieme come gestirla e perché è importante.
Oggi parliamo brevemente di quanto siano importanti le sitemap, cosa devono listare e come vanno gestite per evitare (o risolvere) problemi di scansione. Cominciamo col dire una cosa importante: la prima cosa che Googlebot guarda – prima ancora di entrare nel tuo sito web – è il file robots.txt, mentre la seconda cosa è la sitemap. Quando queste due cose dovessero mancare, spero davvero che il tuo sito web sia facile da seguire e ben ottimizzato per la SEO, perché tutto ciò che potrà fare il bot sarà entrare in casa e andarsene a zonzo seguendo i link interni a partire dalla homepage.
Differenza tra sitemap xml e html
La prima è per i motori di ricerca, la seconda è per facilitare la navigazione degli utenti. Il formato xml è tale da permetterci di inviare a google attraverso la Search Console, una o più sitemap contenenti liste di indirizzi delle pagine web. Serve ad orientare la scansione.
[adrotate banner=”1″]
Il formato di sitemap html invece non è altro che una pagina del tuo sito web che propone una lista degli indirizzi spesso segmentata per sezioni a seconda di come è strutturata l’alberatura dei contenuti. Viene utilizzata più frequentemente nei siti web di enti pubblici e più in generale nei progetti web molto vasti, per rispondere ad un criterio preciso legato al mondo dell’accessibilità web. È utile per le persone più anziane e per chiunque – per qualunque motivo – abbia difficoltà a fruire i contenuti in profondità per via di una struttura intricata. C’è da dire che negli ultimi anni stiamo assistendo via via alla sparizione delle sitemap html, perché il progresso tecnologico (evviva evviva) ci porta ad avere siti web sempre più facili da navigare anche in presenza di strutture molto annidate.
Perché la sitemap xml è importante
Ogni tanto mi è capitato di sentire cose tipo «Sì vabbè, ma non stare troppo a pensare alla sitemap, perché tanto Google scansiona le pagine del tuo sito web in ogni caso». In realtà direi proprio (e anche) no. Google non segue per forza TUTTE le pagine del tuo sito web e quanto meno non è detto che segua in modo prioritario esattamente quelle che per te hanno valore. Talvolta non ce ne rendiamo conto, ma riusciamo a mettere online autentici mostri che generano – senza che ce ne rendiamo conto – una enorme quantità di pagine da gestire. Soprattutto in questi casi che sono più frequenti di quanto non possa sembrare, una sitemap xml fa da filtro e dichiara prioritariamente che esistono pagine da prendere in considerazione. Ciò non risolve i problemi derivanti da una scansione viziata per la presenza eccessiva di percorsi in più, ma quantomeno aiuta Google a capirci qualcosa. Vogliamo sottovalutare anche questo?
Gli errori frequenti nelle sitemap xml
Il primo errore è non averla. Il secondo errore è inviare a Google un indice delle sitemap senza fare uno straccio di controllo su cosa ci sia dentro. Quante volte mi è capitato di trovare le sitemap “attachment” o quelle dei tag – con dentro cose meravigliose – o ancora quante volte mi sono ritrovato sitemap listanti intere sezioni di contenuti d’esempio, quelli scritti in simil latino… ma diamine.
Un altra leggerezza è lasciare nelle sitemap le pagine in Noindex, quelle non canoniche, quelle con reindirizzamento. Sono tutti problemi che (ad esempio) con WordPress non si presentano, perché il sistema evita a prescindere che queste tipologie di indirizzi vengano listate in sitemap. Ed è anche per questo che sostengo sempre l’importanza per gli sviluppatori, non per i coprywater e non per gli imprenditori, ma per gli SVILUPPATORI di conoscere la SEO. E mi rivolgo in particolare a quelli che odiano WordPress. Perché è loro la responsabilità di tutti i “mostri” che incontro facendo il mio lavoro. Parlo di CMS meravigliosamente “sviluppati a mano perché è meglio”, che si portano dietro TUTTI gli errori SEO possibili. Neanche a farlo apposta.
In conclusione, un controllo da fare subito
Vai in copertura indice nella tua Search Console e osserva le pagine valide, quelle che nessuno guarda mai perché essendo colorate di verde devono per forza essere a posto. Ora, le pagine valide in copertura vengono suddivise in Inviate e indicizzate e Indicizzate, ma non inviate. Sono tutte indicizzate, quindi visibili tra i risultati del motore di ricerca, ma le prime sono inviate attraverso la sitemap, le seconde no. Ecco, tra queste ultime potresti trovare cose sorprendenti, quindi vai a dare un’occhiata.
Soprattutto se le inviate e indicizzate sono 500, mentre le indicizzate, ma non inviate sono 5.000.
Vai a vedere, vai.