Ho già parlato dei contenuti duplicati all'interno del web e cosa comportano. Spesso involontariamente e soprattutto con l'uso deiCMS capita di inserire all'interno del proprio sito contenuti duplicati.
Non è raro, sui
Blog
questo capita spesso, il testo di un post è presente in home page, nella pagina dell'articolo e nelle categorie/tag e negli archivi per data.
Non è questo l'unico caso in cui i
CMS
generano dei duplicati, basti pensare alle versioni stampabili delle discussioni sui forum. Sono tante le situazione in cui questo si può verificare.
Non è detto che il contenuto duplicato influisca negativamente sul posizionamento del sito ma nel caso in cui vengano indicizzate sia la versione ufficiale che quella stampabile potrebbe capitare che nei risultati dei motori di ricerca sia restituita la versione stampabile.
Non bisogna disperare e neppure pensare che sia meglio non utilizzare i cms, basta solo saper indicare ai motori di ricerca se è un duplicato oppure di non indicizzare una pagina.
Per far sapere ai motori di ricerca quale versione utilizzare si parla di url canoniche, niente di trascendentale, è un tag che viene inserito nell'header della pagina
HTML
che indica quale url va indicizzata perché è l'originale, il tag da utilizzare è link seguito dall'attributo rel="canonical", per indicare la url originale invece si usa l'attributo href="http://www.miosito.it/pagina-originale.html".
Per dire al
Motore di ricerca
di non indicizzare una pagina ci sono due sistemi:
-
file robots.txt Nella root del sito dovrebbe essere presente un file di testo che dice agli spider dei motori di ricerca cosa indicizzare, questo file si chiama robots.txt. E' formato da una struttura ricorsiva che per ogni user agent (es. *,googlebot,Slurp) dice a cosa può accedere, o negare l'accesso. Lo user agent viene specificato dalla direttiva User-agent. Le regole d'accesso vengono definite con le direttive Disallow e Allow. (es. per dire di non indicizzare la cartella faq bisogna che sia presente Disallow: /faq). Per tutte queste direttive è possibile usare il carattere jolly * per indicare tutti i
Browser
nel caso di User-agent o tutti i file o cartelle nel caso di Disallow e Allow. Per verificare se ci sono problemi con il file robots del proprio sito basta fare una verifica tramite i Google webmaster tools
-
Meta tag Robots Questo meta tag ha la stessa funzione del file robots.txt, non è obbligatorio e si riferisce alla pagina corrente. La sintassi è < meta name="robots" content="nofollow"> l'attributo content può contenere diversi parametri separati da “,”
-
Index o vuoto indica che la pagina può essere indicizzata
-
NoIndex, la pagina non va indicizzata
-
Follow o vuolto, indica allo spider che può seguire i link contenuti nella pagina
-
NoFollow, indica allo spider che non vanno seguiti i link contenuti nella pagina
-
NoArchive dice allo spider di non archiviare una copia cache della pagina.
Nel caso in cui volessimo creare un eccezione solo per lo spider di Google basta utilizzare il metatag GOOGLEBOT con la stessa sintassi utilizzata da robots
Nel caso in cui ci accorgessimo che nel nostro sito esistono dei contenuti duplicati, dopo essere intervenuti con i sistemi sopra elencati, bisogna aspettare che questi vengano rimossi, per accelerare i tempi con Google è possibile richiedere la rimozione di una o più pagine sempre con i Google webmasters tools. Nel caso in cui si sia intervenuti sul file robots.txt conviene aspettare che questo venga caricato da Google, che si può sapere sempre dai webmaster tools di Google e poi procedere con la richiesta di rimozione.
|