NOIISE Définitions SEO Duplicate Content

Duplicate Content

Le Duplicate content (contenu dupliqué), c’est quoi ?

Parmi les nombreuses optimisations techniques à mettre en place sur votre site pour améliorer son référencement, vous devrez notamment veillez à avoir sur vos pages du contenu unique. Le contenu dupliqué est un des cauchemars des référenceurs…

Pour enrichir votre site, pas la peine d’imaginer copier du contenu déjà existant sur internet : Google sait détecter le contenu dupliqué, donc n’essayez même pas… Ne faites pas comme tout le monde, créez votre propre contenu

Duplicate content : définition

Le terme “duplicate content” (DC) désigne le contenu dupliqué. Cela signifie qu’il existe dans l’index de Google plusieurs contenus textuels similaires accessibles sur des url différentes.

2 cas de duplicate content :

Il s’agit d’une pratique mise en oeuvre par certains sites peu scrupuleux pour reprendre du contenu déjà existant sur un site externe (duplicate externe) et le recopier sur leur propre site.
Il peut aussi s’agir d’erreurs de votre part (même contenu pour des déclinaisons d’un même produit) ou de problèmes techniques de CMS qui créent du contenu dupliqué interne (un même site génère par exemple des url automatiques et crée ainsi du duplicate interne).
Évidemment, dupliquer du contenu est pénalisé par Google.

La notion de pourcentage de similarité : bien qu’il n’y ait pas de “règles” fixes en la matière, on estime qu’à partir de 70% de contenu éditorial similaire, il s’agit d’un cas de contenu dupliqué au sens de Google. Google estimerait en effet qu’une similarité jusqu’à 30% soit tolérée, c’est-à-dire qu’il n’y aurait pas d’impact négatif.

Qu’est-ce que le duplicate content externe ?

Le duplicate content externe correspond à la similarité entre plusieurs contenus publiés sur différents sites.

Par exemple, si deux bloggeurs s’amusaient à se partager des contenus pour enrichir leurs blog respectifs, il s’agirait d’un cas de duplicate content externe.

Ou bien si un de vos concurrents reprenaient à l’identique vos contenus sur son propre site.

Le cas des fiches produits et fiches descriptives :
Il arrive parfois que des sites e-commerce concurrents possèdent de nombreuses pages quasi identiques, à cause de la fameuse question du « descriptif fabriquant ». Si les pages descriptives des produits manufacturés que vous vendez (chaussures, vêtements, électroménager, informatique) se bornent à reprendre la description inscrite sur la notice ou sur l’étiquette, il y a fort à parier que certains de vos concurrents auront fait la même erreur et que le contenu de vos pages sera donc exactement le même que celui de plusieurs autres sites.

Si vous publiez des fiches produits sur des marketplace, en plus que sur votre site, vérifiez à ce que les contenus soient bien différents.

Quelle page sera choisie pour apparaître dans les résultats ?
Dans ce cas, Google ne fera ressortir qu’un seul de ces contenus identiques… En donnant en général priorité au site le plus populaire ou au contenu le plus ancien. Ce contenu qu’il identifie comme original est dit “contenu canonique”. Les autres sont alors considérés comme les contenus dupliqués.

Qu’est-ce que le duplicate content interne ?

Le contenu dupliqué interne correspond à la similarité entre plusieurs contenus d’un même site. Que ce soit volontaire ou involontaire, le risque de s’exposer à une pénalité de Google est bien présent. C’est pourquoi, il est primordial de le corriger.

Imaginons par exemple que vous proposiez 3 séjours de thalassothérapie différents mais situés dans un seul et même lieu. Vous avez créé 3 pages différentes pour présenter les séjours, et sur chaque page vous avez ajouté une longue et jolie description du lieu paradisiaque où vous accueillez vos clients… Si cette description est identique sur chacune des 3 pages, vous venez, sans vous en douter, de créer un grave handicap pour le référencement de ces pages… Dommage, non ?

Pour résoudre ce genre de problème, vous pouvez tout simplement reformuler à chaque fois la partie dupliquée pour que le texte soit différent sur chaque page, même si le sujet est le même. Sinon, il existe certaines techniques qui permettent d’afficher le texte dans un onglet à part ou encore de l’isoler dans un format différent. N’hésitez pas à demander conseil à une société de référencement si vous êtes confronté à ce type de problème très spécifique.

Un site optimisé ne devrait pas contenir de nombreux cas de contenus dupliqués. Mais il est possible que même sur un site correctement optimisé, quelques cas de contenus dupliqués apparaissent… Malgré le seuil de tolérance de Google, il est préférable de les corriger.

Google sanctionne-t-il le duplicate content ?

Comme le moteur de recherche n’a aucun intérêt à stocker des contenus similaires, il va tenter de limiter la prolifération de DC sur le web.

De plus, c’est un gage de qualité pour Google que de ne pas présenter aux internautes des résultats similaires (donc sans valeur ajoutée) dans ses SERPS (c’est-à-dire dans ses pages de résultats).

Si deux bloggueurs se partageaient un contenu : Google ne proposerait pas les deux articles identiques sur la première page de résultat. Cela pourrait perturber l’expérience de l’internaute sur le moteur de recherche.

Pour cela il analyse si la pratique du contenu en double est volontaire et intentionnelle, c’est-à-dire si elle a pour objectif de manipuler son algorithme de classement. Si tel est le cas, le site en cause peut voir son positionnement chuter (c’est ce que l’on nomme le déclassement : Google sanctionne le site et lui fait perdre des positions en le plaçant dans son index secondaire) et peut même, cas extrêmes, disparaître des résultats (Google retire le site de son index).

Il n’est donc pas recommandé pour le référencement de pratiquer le contenu dupliqué.

Eviter le duplicate content interne

Voici une liste de solutions pour éviter le duplicate content sur votre site :

Vérifiez que votre site n’est accessible que sur un nom de domaine : si ce n’est pas le cas votre webmaster réglera le souci via une redirection DNS ou 301.

Vérifiez que votre nom de site n’est pas dupliqué : votre site ne doit être accessible que via www.monsite.com ou monsite.com (sans les www.). Choisissez l’adresse sur laquelle vous avez l’habitude de communiquer et vérifiez ce point dans la Google Search Console, dans la rubrique “Domaine favori” et demandez au webmaster de gérer la réécriture avec un fichier.htaccess.

MAJ 2020 : Google a supprimé cette fonctionnalité. Seul votre domaine préférée doit être accessible. Pour cela, une réécriture d’URL dans le fichier htaccess est de mise.

Les redirections 301 : demandez au responsable de de votre site de vérifier les redirections 301, surtout si une refonte du site a eu lieu récemment.

Le sitemap : demandez à votre webmaster de vérifiez que le sitemap (c’est-à-dire le plan du site) est à jour.

L’indexation : faites simple et ne faites pas indexer par Google des pas sans intérêt, d’autant plus si elles sont en doublon. Ces manipulations peuvent se réaliser avec la balise no index et le fichier robots.txt.

Les url propres et simples : les paramètres d’url sont accessibles dans la Google Search Console et les cas de réécriture d’url devront être surveillés pour éviter le duplicate.

La pagination : inspectez votre système de pagination. Sur les sites e-commerce il est fréquent que la pagination avec des listes de produits génère automatiquement des pages dupliquées.

Retravaillez vos contenus : si certaines de vos pages sont en duplication, prenez le temps de les améliorer et faites en sorte de rédiger des contenus éditoriaux différents. Rendez vos pages uniques, ce sera une plus-value pour votre site, autant pour les internautes que pour Google.

Il existe des outils d’assistance à la rédaction optimisée, qui peuvent vous aider à créer du contenu unique. Ces outils suggère en général les termes que vous pouvez utiliser pour vous positionner sur des mots clés, même s’ils se ressemblent sémantiquement. Très utile pour les site e-commerce qui ont plusieurs produits similaires.

Site multilingue et traduction : Qu’en-est-il du contenu dupliqué ?

Les propriétaires de sites multilingues posent régulièrement la question à leur agence SEO : “Si je traduis mes pages dans différentes langues, est-ce du contenu dupliqué ?”.

Mettons rapidement fin au suspens : Non. Google n’est pas capable de reconnaître un contenu qui a été traduit.

De plus, dans ce cas-ci, il ne s’agit pas d’une tentative de manipulation du classement des résultats. Il s’agit simplement de proposer ses contenus à différents internautes, du monde entier. Et donc, qui répondent à des requêtes effectuées dans différentes langues.

Cela veut-il dire qu’un site pourrait se contenter de traduire des contenus d’un autre site ?
Oui… plus ou moins.

Ici, il s’agit d’une question d’éthique. Mais également de confiance.

Si un site fidélise des internautes, mais que ces derniers se rendent compte que les contenus viennent en réalité d’un autre site et ne sont qu’une traduction… Qu’en sera-il pour la pérennité du site ? Lorsque la confiance avec vos prospects est rompue, il peut être difficile de la gagner de nouveau.

Résoudre les problèmes de DC externe

Il arrive qu’il y ait des pages piratées

Dans certains cas, le DC résulte de sites qui ont repris votre contenu. Plusieurs solutions pour tenter d’y remédier :

Contacter le site qui a pris en copier-coller des blocs de votre site et lui demander de mettre fin à cette pratique ou d’indiquer avec des balises que votre contenu est l’original.

Améliorer votre page pour qu’elle passe devant la page piratée : pour cela vous devrez travailler fortement le netlinking, c’est-à-dire l’obtention de liens externes de qualité qui pointent vers votre page. Ainsi, vous ferez augmenter la notoriété de cette page qui pourra alors se positionner devant la page “fraudeuse” si celle-ci a moins de liens puissants.

mettre des rétro liens, c’est-à-dire des liens vers votre site dans votre contenu. En cas de copie les liens ramèneront vers votre site indiquant que votre contenu est l’original (à condition que le lien soit un lien absolu).

Vous souhaitez en savoir plus les services de
NOIISE en référencement naturel ?

Découvrez notre agence SEO !

Autres définitions :

EEAT de Google

N-gramme

Algorithme A9 (Amazon)

Google Cache

Time To Interactive (TTI)

Knowledge Graph

Erreur 502

Google Business Profile

Google Keyword Planner

Google Trends