Définition: Duplicate Content (contenu dupliqué)

Le duplicate content aussi appelé contenu dupliqué en français est un effet qui consiste à retrouver des contenus identiques sur plusieurs pages.

Lorsque Google analyse les pages d’un site web il va alors comparer le contenu à ceux qu’il connait déjà et déterminer si OUI le contenu est original dans ce cas tout va bien ou si NON le contenu n’est pas original et qu’il l’a déjà détecté ailleurs (sur votre site ou sur un autre). Auquel cas il risque de ne pas classer cette page dans ses résultats.

Cette duplication peut être interne au site

Lorsque la duplication est interne au site il peut y en avoir plusieurs causes

  1. De la duplication technique (exemple : la page sans filtre VS. la même page avec un filtre pour classer les produits par prix croissant)
  2. La même page a été créée plusieurs fois

Ou la duplication est externe au site

Là aussi il peut y avoir plusieurs raisons

  1. Le contenu a été copié coller d’un autre site
  2. Le contenu est repris depuis un flux XML

La notion de Near duplicate (ou duplication proche)

Puisque les choses ne sont pas toujours simple, on parle aussi de « duplication proche » en effet si seulement quelques mots d’un paragraphe changent alors l’algorithme de Google est également capable de le détecter.

Quels outils utiliser pour détecter la duplication de contenu ?

Il y a de nombreux outils pour faire cela, voici deux d’entre eux :

Copyleaks : https://copyleaks.com/fr/text-compare (gratuit limité à 3 tests) peut vous permettre de comparer 2 textes.
(Pour l’exemple nous avons analysé ici le texte que vous êtes en train de lire à une version similaire dans laquelle nous avons juste modifié quelques mots)

Tester 2 pages duplicate content

Screaming Frog dans sa version payante permet quant à lui d’analyser la globalité d’un site.

Analyser la duplication de contenu avec Screaming Frog