Détecter le spam par l’analyse du contenu

Trouvé le 15 février 2008 à 11:32 par - 1 227 vues


Dans une étude intitulée « Detecting Spam Web Pages through Content Analysis », Alexandros Toulas,chercheur au département de génie informatique de l’université de Los Angeles, Marc Najork, Mark Manasse et Dennis fetterly, chercheurs au sein du laboratoire de recherche Microsoft, proposent plusieurs indicateurs qui, combinés, permettent de détecter les pages constitutives de spam avec une efficacité de plus de 86%.

Parmi les indicateurs pouvant laisser penser qu’une page est du spam :

  • L’usage d’extensions plus susceptibles de contenir du spam que d’autres (.biz et .us).
  • L’utilisation de langues plus spammées que d’autres (le français, dans une moindre mesure l’anglais).
  • Une longueur anormale de la balise (plus d’une quinzaine de mots).</li> <li>Une longueur moyenne des mots anormale (plus de 6 caractères).</li> <li>Un ratio ancres de liens / texte trop important.</li> <li>Une compressibilité de la page plus élevée que la moyenne (via l’algorithme Gzip).</li> <li>Un ratio balisage / contenu anormalement faible.</li> <li>Une fréquence anormalement faible des mots les plus fréquents du corpus.</li> <li>Une fraction anormalement élevée des mots les plus fréquents du corpus (plus de 65%).</li> <li>Une présence anormale élevée de <a href="http://fr.wikipedia.org/wiki/N-gramme">n-grammes</a> soit trop fréquents, soit improbables.</li> </ul> <p>Il est important de noter que quasiment aucun de ces indicateurs ne peut servir isolément à caractériser le spam. C’est uniquement en cumulant les indicateurs et en mettant au point une <a href="http://fr.wikipedia.org/wiki/Heuristique">heuristique</a> qu’une détection fiable du spam devient possible.</p> <p><font style="font-size:11px;">Source et suite de l’article : </font><a target="_blank" href="http://s.billard.free.fr/referencement/?2008/02/15/458-detecter-le-spam-par-lanalyse-du-contenu"><font style="font-size:11px;">http://s.billard.free.fr/referencement/?2008/02/15/458-detecter-le-spam-par-lanalyse-du-contenu</font></a></p> </div> <br/> <strong><-</strong> <em>Actualité précédente:</em> <a href="http://www.secrets2moteurs.com/article6089.html">SEO Camp : Assemblée Générale constitutive</a><br> <strong>-></strong><em>Actualité suivante:</em> <a href="http://www.secrets2moteurs.com/article6090.html">Un sain patron pour les référenceurs ?</a> <!-- <h3>Partagez l'article sur les réseaux sociaux</h3> <p> <a href="http://twitter.com/share" class="twitter-share-button" data-count="vertical" data-lang="fr">Tweet</a><script type="text/javascript" src="http://platform.twitter.com/widgets.js"></script> <g:plusone></g:plusone><script src="http://platform.linkedin.com/in.js" type="text/javascript"></script> <script type="IN/Share"></script></p> --> <p class="info">Publié dans <a href="http://www.secrets2moteurs.com/veille/archives" rel="category tag">Archives</a> <strong>|</strong> <br></p> <!--<h3>Abonnez vous à la newsletter Hebdomadaire</h3> <p>Recevez chaque début de semaine le TOP 15 des articles publiés sur secrets2moteurs.com avec la newsletter hebdomadaire <br/><a style="padding:4px;background:#FF0000;color:#FFF;font-weight: bold;"href="http://www.secrets2moteurs.com/inscription-newsletter">S'abonner à la newsletter</a></p> <a href="http://www.secrets2moteurs.com/politique-de-confidentialite">* Politique de confidentialité</a> </br> --> <!-- <h3>Suivez les actualités de Secrets2moteurs.com sur les réseaux sociaux !</h3> <a href="https://twitter.com/secrets2moteurs"><img src="http://www.secrets2moteurs.com/wp-content/uploads/2015/04/twitter.jpg" alt="Secrets 2 moteurs sur Twitter"></a> <a href="https://www.linkedin.com/company/secrets-2-moteurs"><img src="http://www.secrets2moteurs.com/wp-content/uploads/2015/04/linkedin.jpg" alt="Secrets 2 moteurs sur Linkedin"></a> <a href="https://www.facebook.com/secrets2moteurs"><img src="http://www.secrets2moteurs.com/wp-content/uploads/2015/04/facebook.jpg" alt="Secrets 2 moteurs sur Facebook"></a> <a href="https://plus.google.com/u/0/104932493014336420226/posts"><img src="http://www.secrets2moteurs.com/wp-content/uploads/2015/04/google-.jpg" alt="Secrets 2 moteurs sur Google +"></a> <br/> --> <h3>Découvrez les articles sur le même thème</h3> <ul>Aucun article trouvé </ul><!-- Similar Posts took 106.943 ms --> </div> </div> <div id="footer"> <div style="text-align:center">Copyright 2000-2015 - <a href="/" class="menuhaut"><font color="#FFFFFF">S2M</font></a> : service et outil de veille et curation sur le référencement naturel et le webmarketing, maintenu par l'agence <strong><font color="#FFFFFF">1ère Position</font></strong>.<br />Tous les logos et marques cités sont des propriétés respectives. Les articles et commentaires sont la propriété respective de leurs auteurs et n'engagent pas S2M.</div> <script src="//platform.twitter.com/oct.js" type="text/javascript"></script> <script type="text/javascript">twttr.conversion.trackPid('l6u5k', { tw_sale_amount: 0, tw_order_quantity: 0 });</script> <noscript> <img height="1" width="1" style="display:none;" alt="" src="https://analytics.twitter.com/i/adsct?txn_id=l6u5k&p_id=Twitter&tw_sale_amount=0&tw_order_quantity=0" /> <img height="1" width="1" style="display:none;" alt="" src="//t.co/i/adsct?txn_id=l6u5k&p_id=Twitter&tw_sale_amount=0&tw_order_quantity=0" /> </noscript> <script> (function(w,d,t,u,n,a,m){w['MauticTrackingObject']=n; w[n]=w[n]||function(){(w[n].q=w[n].q||[]).push(arguments)},a=d.createElement(t), m=d.getElementsByTagName(t)[0];a.async=1;a.src=u;m.parentNode.insertBefore(a,m) })(window,document,'script','https://secrets2moteurs.mautic.net/mtc.js','mt'); mt('send', 'pageview'); </script> <script src="https://secrets2moteurs.mautic.net/mpower/focus/1.js" type="text/javascript" charset="utf-8" async="async"> </script> </div> </div></div> </body> </html>