Détecter le spam par l’analyse du contenu

Publié le 15 février 2008 - 71 vue(s) -

Dans une étude intitulée "Detecting Spam Web Pages through Content Analysis", Alexandros Toulas,chercheur au département de génie informatique de l'université de Los Angeles, Marc Najork, Mark Manasse et Dennis fetterly, chercheurs au sein du laboratoire de recherche Microsoft, proposent plusieurs indicateurs qui, combinés, permettent de détecter les pages constitutives de spam avec une efficacité de plus de 86%.

Parmi les indicateurs pouvant laisser penser qu'une page est du spam :

  • L'usage d'extensions plus susceptibles de contenir du spam que d'autres (.biz et .us).
  • L'utilisation de langues plus spammées que d'autres (le français, dans une moindre mesure l'anglais).
  • Une longueur anormale de la balise (plus d'une quinzaine de mots).</li> <li>Une longueur moyenne des mots anormale (plus de 6 caractères).</li> <li>Un ratio ancres de liens / texte trop important.</li> <li>Une compressibilité de la page plus élevée que la moyenne (via l'algorithme Gzip).</li> <li>Un ratio balisage / contenu anormalement faible.</li> <li>Une fréquence anormalement faible des mots les plus fréquents du corpus.</li> <li>Une fraction anormalement élevée des mots les plus fréquents du corpus (plus de 65%).</li> <li>Une présence anormale élevée de <a href="http://fr.wikipedia.org/wiki/N-gramme">n-grammes</a> soit trop fréquents, soit improbables.</li> </ul> <p>Il est important de noter que quasiment aucun de ces indicateurs ne peut servir isolément à caractériser le spam. C'est uniquement en cumulant les indicateurs et en mettant au point une <a href="http://fr.wikipedia.org/wiki/Heuristique">heuristique</a> qu'une détection fiable du spam devient possible.</p><br><br><font style="font-size:11px;">Source et suite de l'article : </font><a target="_blank" href="http://s.billard.free.fr/referencement/?2008/02/15/458-detecter-le-spam-par-lanalyse-du-contenu"><font style="font-size:11px;">http://s.billard.free.fr/referencement/?2008/02/15/458-detecter-le-spam-par-lanalyse-du-contenu</font></a> <br><br> </div> <p class="info">Publié dans <a href="http://www.secrets2moteurs.com/veille/archives" title="Voir tous les articles dans Archives" rel="category tag">Archives</a> <strong>|</strong> <br> </p> <div><h2>Articles similaires:</h2><ul> <li><a href="http://www.secrets2moteurs.com/article2573.html" rel="bookmark">Algorithme de détection du link spam de masse</a></li> <li><a href="http://www.secrets2moteurs.com/article3854.html" rel="bookmark">Technique de spam polonaise</a></li> <li><a href="http://www.secrets2moteurs.com/article3772.html" rel="bookmark">Splog : quand le spam rencontre le blog</a></li> <li><a href="http://www.secrets2moteurs.com/article1139.html" rel="bookmark">Google, MSN et Yahoo! luttent contre le spam</a></li> <li><a href="http://www.secrets2moteurs.com/article3090.html" rel="bookmark">Spam Report sur Google</a></li> </ul></div><br/><br/> </div> <!-- You can start editing here. --> <!-- If comments are open, but there are no comments. --> <h3 id="respond">Laisser un commentaire </h3> <p>Vous devez être <a href="http://www.secrets2moteurs.com/wp-login.php?redirect_to=http%3A%2F%2Fwww.secrets2moteurs.com%2Farticle6099.html">connecté</a> pour publier un commentaire.</p> - Actualité précédente: <a href="http://www.secrets2moteurs.com/article6096.html">Outil de test d’indexation Google + analyse de l’âge d’un site</a><br> - Actualité suivante: <a href="http://www.secrets2moteurs.com/article6090.html">Un sain patron pour les référenceurs ?</a> <!--p align="center"> </p--> </div> <div id="footer"> <div style="text-align:center">Copyright 2000-2008 - <a href="/?PHPSESSID=ff95fa79d9bbdd4d2e8304c2ae0be59f" class="menuhaut">Secrets 2 Moteurs</a> est l'outil de veille référencement de l'Agence <font color="#FFFF00"><b>1ère Position SA</b></font>. Tous les logos et marques cités sont des propriétés respectives. Les articles et commentaires sont la propriété respective de leurs auteurs. </div> <script language="JavaScript1.1" type="text/javascript"> <!-- xtsite = "102400"; xtn2 = ""; //utiliser le numero du niveau 2 dans lequel vous souhaitez ranger la page xtpage = ""; //placer un libell� de page pour les rapports Xiti roimt = ""; //valeur du panier pour ROI (uniquement pour les pages d�finies en transformation) roitest = false; //� true uniquement si vous souhaitez effectuer des tests avant mise en ligne visiteciblee = false; //� true pour les pages qui caract�risent une visite cibl�e //--> </script> <script language="javascript1.1" src="http://www.secrets2moteurs.com/xtroi.js"></script> <noscript> <img width="1" height="1" src="http://logi3.xiti.com/hit.xiti?s=102400&p=&roimt=&roivc=&" > </noscript> <script type='text/javascript' src='http://track3.mybloglog.com/js/jsserv.php?mblID=2006122211512852'></script> <script src="http://www.google-analytics.com/urchin.js" type="text/javascript"> </script> <script type="text/javascript"> _uacct = "UA-814974-3"; urchinTracker(); </script> <script type="text/javascript"> var gaJsHost = (("https:" == document.location.protocol) ? "https://ssl." : "http://www."); document.write(unescape("%3Cscript src='" + gaJsHost + "google-analytics.com/ga.js' type='text/javascript'%3E%3C/script%3E")); </script> <script type="text/javascript"> try { var pageTracker = _gat._getTracker("UA-151853-1"); pageTracker._trackPageview(); } catch(err) {}</script> </div> </body> </html>