Tempo fa un utente pose una domanda precisa rispetto ai file PDF scaricabili da un sito web. Oggi colgo l’occasione per parlare del rapporto talvolta delicato tra pagine web “normali” e file PDF indicizzabili. È un tema interessante, perché apre problemi diversi su cui ragionare. Vediamo un po’.
Tanti anni fa realizzavo siti web con Joomla e ricordo che all’epoca, intorno al 2008, uno standard di quel CMS era fornire la versione PDF per ciascuna pagina del sito web, dunque in pratica tra le opzioni c’era quella di scaricare il contenuto e salvarlo sul tuo computer. Col senno e soprattutto con la connettività di poi, questa funzione è sparita praticamente da tutti i CMS e ad oggi restano pochi i casi in cui la versione PDF della pagina può avere un senso. Posso immaginare ad esempio siti web che pubblicano paper accademici, enti pubblici che pubblicano ordinanze o altro tipo di materiale utile o comunque documenti tecnici pieni di dati che potrebbe essere utile scaricare in formato PDF, ma in effetti poco altro.
Per i pochi casi che ho citato e che vanno effettivamente a caratterizzare le principali opportunità di utilizzo del file PDF per riprodurre l’esatto contenuto della pagina web, è molto probabile che non si sviluppi grande concorrenza e che anzi, non ce ne sia proprio, dunque si andrà con facilità ad ottenere un doppio presidio nelle pagine di risposta di Google.
Sulla base di ciò, potresti modificare la configurazione del server, utilizzando un’intestazione della risposta HTTP link
con un attributo target rel="canonical"
per indicare l’URL canonico per un documento supportato dalla Ricerca, tra cui documenti non HTML come file PDF. in linea di massima per i casi che ho menzionato prima, NON suggerisco di far puntare i canonical dai PDF alla pagina HTML corrispondente, proprio per non rischiare di perdere il doppio risultato in serp.
Ci sono poi almeno altri due casi in cui mi capita spesso di trovare e dover gestire file PDF linkati da un sito web:
Schede tecniche a corredo di schede prodotto:
in questi casi le schede tecniche vengono spesso fornite dal produttore, quindi con ogni probabilità sono già presenti su altri shop online, oltre che sul sito dello stesso produttore. In questi casi non ha senso il canonical, perché la scheda tecnica è diversa dalla scheda prodotto. Potresti fare due cose:
- tenere le schede tecniche in noindex via x-robots-tag, come specificato nelle guide di Google,
- bloccare il percorso di queste guide attraverso il file robots.txt.
In quest’ultimo caso sarà meglio se possibile hostare i file pdf su un dominio esterno, magari un terzo livello, da bloccare completamente per maggior sicurezza.
Documenti pubblici
Molti blog a tema lavoro o finanza, pubblicano spesso link interni a file PDF presi da enti pubblici. Con ogni probabilità questi PDF verranno scansionati, ma finiranno tra le pagine escluse perché duplicate, in quanto Google segnalerà di aver scelto una pagina canonica diversa rispetto a quella che gli diamo. In particolare avrà scelto il PDF hostato in origine sul sito dell’ente pubblico da cui l’abbiamo preso, che oltre ad avere un trust maggiore, avrà effettivamente pubblicato il contenuto per primo.
In questi casi, invece di prendere il PDF e hostarlo sul server del tuo sito, potresti forse più opportunamente linkare direttamente la stessa risorsa sul sito web che l’ha pubblicata per primo, ma è pur vero che spesso questi file vengono rimossi dalle piattaforme di partenza, generando spesso un vuoto che per i tuoi utenti può manifestarsi di fatto come un disservizio. Inoltre la risorsa hostata sul tuo sito potrebbe attirare backlink a tutto vantaggio del tuo progetto, quindi in questi casi la cosa più saggia da fare è valutare se il gioco vale la candela, vale a dire se gli eventuali backlink ricevuti giustificano l’aggravio prodotto da questi documenti sulle risorse di scansione che Google è disposto a destinarti.
Insomma, è una partita che si gioca ancora una volta sul filo delle opportunità.
Pensaci su.