Contenuti duplicati sul proprio sito come evitarli

Scritto da Luca Boldori   
Giovedì 23 Dicembre 2010 08:45
Contenuti duplicati sul proprio sito come evitarliHo già parlato dei contenuti duplicati all'interno del web e cosa comportano. Spesso involontariamente e soprattutto con l'uso deiCMS capita di inserire all'interno del proprio sito contenuti duplicati.

Non è raro, sui glossary termBlog questo capita spesso, il testo di un post è presente in home page, nella pagina dell'articolo e nelle categorie/tag e negli archivi per data.

Non è questo l'unico caso in cui i glossary termCMS generano dei duplicati, basti pensare alle versioni stampabili delle discussioni sui forum. Sono tante le situazione in cui questo si può verificare.

Non è detto che il contenuto duplicato influisca negativamente sul posizionamento del sito ma nel caso in cui vengano indicizzate sia la versione ufficiale che quella stampabile potrebbe capitare che nei risultati dei motori di ricerca sia restituita la versione stampabile.

Non bisogna disperare e neppure pensare che sia meglio non utilizzare i cms, basta solo saper indicare ai motori di ricerca se è un duplicato oppure di non indicizzare una pagina.

Per far sapere ai motori di ricerca quale versione utilizzare si parla di url canoniche, niente di trascendentale, è un tag che viene inserito nell'header della pagina glossary termHTML che indica quale url va indicizzata perché è l'originale, il tag da utilizzare è link seguito dall'attributo rel="canonical", per indicare la url originale invece si usa l'attributo href="http://www.miosito.it/pagina-originale.html".

Per dire al glossary termMotore di ricerca di non indicizzare una pagina ci sono due sistemi:

  1. file robots.txt
    Nella root del sito dovrebbe essere presente un file di testo che dice agli spider dei motori di ricerca cosa indicizzare, questo file si chiama robots.txt. E' formato da una struttura ricorsiva che per ogni user agent (es. *,googlebot,Slurp) dice a cosa può accedere, o negare l'accesso.
    Lo user agent viene specificato dalla direttiva User-agent. Le regole d'accesso vengono definite con le direttive Disallow e Allow. (es. per dire di non indicizzare la cartella faq bisogna che sia presente Disallow: /faq).
    Per tutte queste direttive è possibile usare il carattere jolly * per indicare tutti i glossary termBrowser nel caso di User-agent o tutti i file o cartelle nel caso di Disallow e Allow.
    Per verificare se ci sono problemi con il file robots del proprio sito basta fare una verifica tramite i Google webmaster tools

  2. Meta tag Robots
    Questo meta tag ha la stessa funzione del file robots.txt, non è obbligatorio e si riferisce alla pagina corrente.
    La sintassi è < meta name="robots" content="nofollow"> l'attributo content può contenere diversi parametri separati da “,”

  • Index o vuoto indica che la pagina può essere indicizzata

  • NoIndex, la pagina non va indicizzata

  • Follow o vuolto, indica allo spider che può seguire i link contenuti nella pagina

  • NoFollow, indica allo spider che non vanno seguiti i link contenuti nella pagina

  • NoArchive dice allo spider di non archiviare una copia cache della pagina.

Nel caso in cui volessimo creare un eccezione solo per lo spider di Google basta utilizzare il metatag GOOGLEBOT con la stessa sintassi utilizzata da robots

Nel caso in cui ci accorgessimo che nel nostro sito esistono dei contenuti duplicati, dopo essere intervenuti con i sistemi sopra elencati, bisogna aspettare che questi vengano rimossi, per accelerare i tempi con Google è possibile richiedere la rimozione di una o più pagine sempre con i Google webmasters tools. Nel caso in cui si sia intervenuti sul file robots.txt conviene aspettare che questo venga caricato da Google, che si può sapere sempre dai webmaster tools di Google e poi procedere con la richiesta di rimozione.

  Categorie:
feed RSSSe sei interessato agli articoli e vuoi rimanere sempre aggiornato Iscriviti Gratuitamente ai feed RSS ! !
Profilo Autore: Luca Boldori  - G+ - Website

Si occupa di internet e delle tecnologie che ruotano attorno ad esso.

Aggiungi commento


Codice di sicurezza
Aggiorna

Joomla SEO by AceSEF
Luca Boldori. via Cozzo, 22 Valle Lomellina PV. P.I. 13264900153
Privacy sito web

Notizie Informatiche Il Bloggatore Top 100 Blog WebShake – tecnologia Segnala a Zazoom - Blog Directory Miglior Blog