Script SEO : Détection du contenu dupliqué avec Ruby et le Cosinus de Salton

Trouvé le 14 octobre 2015 à 18:35 par - 1 148 vues


Les solutions logicielles ou saas permettant de détecter le contenu dupliqué sur un site web sont, soit un peu trop opaques, soit un peu trop onéreuses à mon goût. Je vous présente donc ici un script rudimentaire, permettant à la fois, de crawler un site web en aspirant son contenu page à page, et de calculer la similarité de chacune des pages entre elles, en utilisant le cosinus de Salton.

http://www.antoine-brisset.com/blog/similarite-ruby/


<- Actualité précédente: 8 facteurs qui influencent le référencement de votre site web !
->Actualité suivante: Google va corriger les bugs de désindexation et déclassement des sites Wix

Publié dans Antoine Brisset, Techniques et Conseils, W3C, ergonomie, codes |

Découvrez les articles sur le même thème