Comment supprimer le spam des faux sites référents de vos rapports Google Analytics?

En finir avec le spam sur Google Analytics?

Depuis plusieurs mois, de nombreux comptes Google Analytics sont la cible de spammeurs qui font remonter des données provenant de sites référents tels que free-share-buttons.com4webmasters.org ou free-social-buttons.com et bien d’autres encore !

Il existe également des variantes à ce spam : générer des fausses sessions provenant des moteurs de recherche comme Google. Il est donc possible de voir apparaître dans vos rapports des mots clés tels que forum.topic<VOTRE_ID_ANALYTICS>.darodar.comsanjosestartups.com et непереводимая.рф (il est impossible de tous les lister ici, chaque site étant touché différemment)

A l’heure actuelle, on trouve de tout et de rien à ce sujet, alors je vous propose de faire un point et vous aider à nettoyer votre Analytics :)

Pourquoi supprimer les données de ces sites référents?

Car ces données ne sont pas réelles ! Elles ne sont pas générées par des “humains” comme vous et moi mais par des robots qui utilisent votre ID Google Analytics pour envoyer des données fictives dans votre compte grâce au protocole de mesure de Google Analytics (et donc sans même visiter votre site)

On parle de “ghost referrals“, ou de “visites fantômes“.

Ces données étant générées via une utilisation détournée de l’API Google Analytics, les blocages techniques (.htaccess etc…) et les plugins wordpress comme SPAMREFERRERBLOCK s’avèrent inefficaces.

D’après certaines sources, un blocage serveur serait tout de même intéressant car cela permettrait aux robots de ne pas pouvoir collecter l’identifiant Analytics et donc d’éviter les spams par la suite. A vérifier car je ne sais pas si les identifiants sont collectés sur site ou générés aléatoirement…

Quoi qu’il en soit, ces données faussent tous vos indicateurs (taux de rebond, temps passé sur le site, nombre de sessions….) Il est donc impératif de les supprimer afin de conserver l’intégrité de vos données.

Quel est le but de cette pratique? Quels sont les objectifs de ces spammeurs?

Tout simplement récupérer du trafic! Comment? Le webmaster, curieux de savoir quel est ce nouveau site qui semble lui envoyer du trafic, va se rendre sur le site du spammeur pour voir de quoi il s’agit, l’objectif du spammeur est atteint (que ce soit un affilié, une société de référencement, de la publicité déguisée, une tentative de virus/trojan…)

Le site tythewebguy.com fournit plus de détails sur cette pratique, notamment dans le cas d’un site affilié :

– Dans un premier temps,  le spammeur souscrit à un programme d’affiliation auprès d’Amazon (ou autre comme aliexpress etc) dont le but est de percevoir une commission sur les ventes Amazon qu’il aura générées en tant qu’affilié.

– Dans un second temps, cet individu crée un site qui effectue une redirection vers les produits sur lesquels il recevra une commission.

– Dans un troisième temps, il met en place un automate qui est en charge d’injecter des données dans Google Analytics et notamment l’adresse du site qu’il a créée en étape 2.

– Enfin, vous constatez beaucoup de visites provenant toutes du même site (référent), vous êtes tentés, soit par curiosité, soit par exaspération d’aller sur ce site qui vous procure autant de visites.
Lors de votre accès au site référent, vous serez redirigé vers un site, vous serez gratifié d’un cookie par Amazon dans le but d’identifier le partenaire ayant envoyé un acheteur potentiel vers le site.
La durée de vie de ce cookie (traceur) est de 24 h. Ainsi, si vous effectuez un achat sur Amazon dans les 24h qui suivent cette visite, l’acte d’achat sera affecté à votre spammeur et il percevra une commission.

Est-ce dangereux pour mon site? Mes serveurs?

Rassurez-vous, la réponse est non !
Comme indiqué en début d’article, il s’agit de fausses visites, aucune activité ne se passe directement sur votre site ou vos serveurs. Les données sont envoyées par le spammeur directement sur les serveurs Analytics grâce à l’API dédiée et normalement destinée au webmaster du site.

Comment bloquer ce spam sur Google Analytics?

Pour éliminer ces sites référents de vos rapports, nous allons devoir utiliser les filtres.

Attention toutefois : il est important de noter que les filtres ne sont pas rétroactifs, l’historique de vos données ne sera donc pas modifié !

A partir de la création des filtres que nous allons voir par la suite dans cet article, seules les données futures seront “propres”.
Il sera toutefois possible de nettoyer les données de votre historique grâce à l’utilisation des segments avancés (nous en discuterons à la fin de l’article)

Ce qu’il ne faut surtout pas faire :

Utiliser l’exclusion de sites référents !

Certes le trafic référent va disparaître mais celui-ci sera transformé par  Analytics comme étant du trafic direct, le problème ne sera donc que déplacé !

Spam referrer : ne pas utiliser l'exclusion des sites référents Google Analytics !
1. Conserver une vue non filtrée et créer une vue de test

Avant de mettre en place vos filtres, la bonne pratique consiste à conserver une vue “non filtrée” sur laquelle aucun filtre ne sera configuré. En cas d’erreur lors de la configuration de vos filtres, cette vue pourrait vous être très utile pour conserver un historique.

Le minimum serait donc d’avoir 3 vues :

  • Une vue de sauvegarde (non filtrée, données brutes uniquement)
  • Une vue générale (filtrée)
  • Une vue de “test” (pour tester vos filtres dans un premier temps avant de les dupliquer sur la vue générale)

2. Créer un filtre sur le nom d’hôte pour nettoyer le plus gros du trafic ghost referrals

Le nom d’hôte pour Google Analytics représente votre nom de domaine (audiaweb.com ou encore blog.audiaweb.com par exemple)

Lorsque des données sont envoyées à Google Analytics depuis votre site, le nom d’hôte associé à ces données doit donc être égal à votre nom de domaine. Hors les robots des spammeurs qui font remonter des données dans vos comptes ne connaissent pas forcément votre nom de domaine puisque les ID utilisés sont sélectionnés aléatoirement par ces robots.

Dans le cas du trafic ghost referrals, cette donnée est souvent soit vide, soit égale au nom de domaine du spammeur (ou même sélectionnée au hasard dans certains cas)

Voici un exemple ci-dessous :

Filtrer le spam referrer avec le nom d'hôte de votre site

La création d’un filtre sur votre nom d’hôte permet donc de faire un premier gros nettoyage et d’éliminer la quasi totalité du trafic de type ghost referral.

Voici comment configurer ce filtre :

Allez dans “Admin”, sélectionnez la vue à filtrer (1) et cliquez sur “Filtres” (2)

Créer un filtre sur le nom d'hôte pour éliminer le spam referrer?
Cliquez sur le bouton “Nouveau filtre”

Nous allons donc créer un filtre prédéfini en nous basant sur le nom d’hôte (nom de domaine)
N’oubliez pas de remplacer la valeur du filtre par votre propre nom de domaine :)

Attention : si des données remontent sur votre compte depuis plusieurs domaines (prestataire de paiement e-commerce, blog hébergé sur un autre domaine, chaîne Youtube etc…) il faudra utiliser les expressions régulières afin de bien inclure tous vos domaines grâce à ce filtre.

En cliquant sur “Vérifier ce filtre” vous pouvez avoir un aperçu des données qui ne remonteront plus dans vos rapports (voir exemple ci-dessous)

Créer un filtre sur le nom d'hôte pour éliminer le spam referrer?Dans certains cas, le filtre sur le nom d’hôte n’est pas suffisant. Il sera alors nécessaire de mettre en place des filtres supplémentaires (c’est le cas notamment pour les crawlers qui sont des robots d’origines diverses qui visitent votre site et faussent également vos données)

3. Filtrer pour exclure le reste des sites référents et les crawlers (semalt, best-seo-offer.com etc…)

Lorsque le filtre sur le nom d’hôte n’est pas suffisant, il faudra alors mettre en place des filtres plus spécifiques pour exclure les sources identifiées comme étant du spam ou des crawlers (semalt, best-seo-offer.com etc..)

A la différence du filtre sur le nom d’hôte de l’étape 2 qui est spécifique pour chaque site, nous allons pouvoir créer ce filtre sur le compte entier. Celui-ci sera ainsi automatiquement déployé sur tous les sites de votre compte Google Analytics.

Exclure le spam de votre compte Google Analytics

Cliquez ensuite sur “Nouveau filtre”

Filtre contre le spam des sites référents Google Analytics

Avec ce filtre, vous avez la possibilité d’exclure tous les noms de domaine listés dans le champ “règle de filtrage” de vos rapports Google Analytics

Important : les filtres sont limités à 255 caractères, il est donc possible que vous deviez utiliser plusieurs filtres.

Si vous n’êtes pas familier avec les expressions régulières, voici un fichier excel que vous pouvez utiliser pour construire vos filtres :)

excel

Fichier excel pour construire vos filtres d’exclusion des sites référents

4. Activer le filtrage des robots connus par Google Analytics

Pour finir, pensez à bien activer l’option de filtrage des robots connus sur toutes vos vues Google Analytics (Admin > Vue > Paramètres de la vue)

Exclure les robots - configuration Google Analytics

A l’heure actuelle cette fonctionnalité n’est pas suffisante pour exclure ces spams mais j’espère que Google va réagir face à ces nouvelles attaques :)

Si vos filtres sont bien configurés, vous devriez constater un retour rapide à la normale. Il faut toutefois rester vigilant et ne pas hésiter à adapter régulièrement les filtres en fonction de l’évolution des spams/crawlers en attendant une réaction de Google à ce sujet.

Une autre méthode proposée par LunaMetrics est d’utiliser les cookies et Google Tag Manager. Si cela vous intéresse, n’hésitez pas lire l’article disponible à cette adresse: http://www.lunametrics.com/blog/2015/03/19/eliminating-dumb-ghost-referral-traffic/

Comment nettoyer les données historiques en utilisant la segmentation?

Cliquez sur “Ajouter un segment” dans la partie haute de votre interface Google Analytics

Ajouter un segment Google Analytics

Cliquez ensuite sur “Nouveau segment”

  • Choisissez un segment de type “Conditions”
  • Créez un nouveau filtre sur le nom d’hôte de type “Inclure” de manière à n’inclure que votre propre nom de domaine (ou vos noms de domaine)
  • Ajoutez un nouveau filtre de manière à exclure les sources des crawlers (voir fichier excel disponible ci-dessus pour créer l’expression régulière)

Votre segment final devrait donc ressembler à ceci :

Configuration d'un segment Google Analytics anti-spam

Enregistrez-le et retournez dans vos rapports, les données affichées sont normalement propres et vous pouvez donc travailler sur un historique qui ne contient pas de spam.

Liste (non exhaustive) des domaines spammeurs répertoriés sur les comptes des clients AUDIAWEB (ghost et crawler) :

  • guardlink.org
  • semalt.com
  • free-share-buttons.com
  • www.event-tracking.com
  • ilovevitaly.com
  • ilovevitaly.co
  • Get-Free-Traffic-Now.com
  • free-social-buttons.com
  • buy-cheap-online.info
  • darodar.com
  • best-seo-offer.com
  • best-seo-solution.com
  • buttons-for-your-website.com
  • buttons-for-website.com
  • anticrawler.org
  • sitevaluation.org
  • sanjosestartups.com
  • social-buttons.com
  • simple-share-buttons.com
  • rapidgator-porn.ga
  • websites-reviews.com
  • 4webmasters.org
  • 2linkto.com
  • ilovevitaly.info
  • savetubevideo.com
  • blog.ranksonic.com.
  • youporn-forum.ga
  • pornhub-forum.ga
  • maridan.com.ua
  • trafficmonetize.org
  • непереводимая.рф
  • makemoneyonline.com
  • theguardlan.com
  • hulfingtonpost.com
  • econom.co
  • o-o-6-o-o.com
  • o-o-8-o-o.ru
  • priceg.com
  • aliexpress.com
  • 12masterov.com
  • savetubevideo.com
  • kambasoft.com
  • acads.net
  • adcash.com
  • akuhni.by
  • allwomen.info
  • affordablewebsitesandmobileapps.com
  • adviceforum.info
  • cenoval.ru
  • 100dollars-seo.com
  • 7makemoneyonline.com
  • alpharma.net
  • altermix.ua
  • amt-k.ru
  • anal-acrobats.hol.es
  • webmaster-traffic.com
  • websocial.me
  • android-style.com
  • youporn-forum.uni.me
  • снятьдомвсевастополе.рф
  • грузоподъемные-машины.рф
  • наркомания.лечениенаркомании.com
  • sexyali.com

J’espère que cet article vous aidera à nettoyer vos données !
N’hésitez pas à me contacter pour obtenir des renseignements complémentaires ou si une prestation de nettoyage de votre Analytics vous intéresse 😉

25 commentaires

  1. Julien says:

    Merci pour ce HOW TO très complet. Je m’interroge toutefois sur les mesures préventives plutôt que curatives : pourquoi ne pas obfusquer tout simplement l’UA Analytics ? J’utilise principalement Piwik pour mes clients donc je ne suis pas embêté par ce spam referer, mais ça me donne envie de faire un mini-site rien que pour tester tiens…

    • Robin Brebant says:

      Merci de participer à ce sujet :)

      Si les identifiants Analytics sont récupérés par un scrapper/robot, cela peut en effet être une solution.
      Par contre, si les identifiants sont générés et ciblés aléatoirement, cela ne fonctionnera pas. (et je pense que c’est le cas actuellement, sinon le nom d’hôte serait renseigné lors de l’envoi des données afin de contourner les filtres mis en place par les webmasters)
      A priori certains comptes Google Analytics contiendraient même des données de trafic ghost referrals sans qu’aucun site ne soit en ligne, ce qui semble prouver que ces identifiants soient générés de manière aléatoire.

      • Julien says:

        Merci pour la réponse, j’ignorais que les UA étaient générés aléatoirement. Dans ce cas, il faut définitivement fuir Analytics et prendre un outil alternatif…

        • Robin Brebant says:

          Si Google Analytics est attaqué aujourd’hui, c’est surtout car c’est l’outil le plus utilisé et qu’il offre donc plus de cibles aux spammeurs.

          Des attaques de ce type sont très faciles à mettre en place avec les autres outils (Piwik propose également une API similaire à celle de Google Analytics)

          D’ailleurs après quelques recherches rapides, je viens de voir que Piwik est également touché par ces attaques, comme quoi… :)

  2. Iron Star says:

    Merci pour cet article très instructif et très complet !

  3. Seofred34 says:

    Très bonne synthèse. Notons que ces parasites (auxquels on peut ajouter hulfingtonpost ) apparaissent aussi en tant que requêtes dans les visites naturelles et les campagnes publicitaires !
    Compter que Google agisse rapidement me paraît encore optimiste. Tiens je vais leur demander…

  4. Robin Brebant says:

    Merci
    C’est exact, j’ai vu aussi chez certains comptes des requêtes dans les événements.
    Heureusement dans le plupart des cas, le filtre sur le nom d’hôte est suffisant pour éradiquer le problème.
    Ah si seulement Google pouvait mettre en place un système d’authentification sur son API (login/mot de passe) !
    Affaire à suivre !

  5. Seofred34 says:

    oui, mais quelle galère en attendant !
    je viens de repérer un certain 100dollars-seo que tu peux rajouter à la liste :)

  6. david says:

    tres bon tuto,

    juste une question rapide… apres avoir appliqué le filtre en etape 2… dans la sectnio acquisition > tout le trafic > sites referents, ils y sont toujours… et oui, jai utilisé le fichier excel pour generer la bonne syntaxe.

    merci !

    • Robin Brebant says:

      Attention, comme indiqué dans l’article les filtres ne sont pas rétroactifs, l’historique de vos données ne pourra donc pas être nettoyé avec un filtre. Par contre vos données futures seront normalement “propres” à partir de la date de création du filtre.

      Si vous souhaitez travailler sur des données historiques, vous devrez utiliser un segment avancé (voir exemple en fin d’article)

  7. curpsy says:

    Merci pour ce tuto! Enfin une solution qui fonctionne.
    J’ai essayé plusieurs méthodes proposer sur divers sites/blogs mais il y en avait encore qui passait au travers et même si ils n’apparaissaient pas dans la liste des sites référents, le compteur d’utilisateurs continuait à s’incrémenter.
    Pour l’instant j’ai mis en place cette méthode depuis 2 jours et mes stats sont maintenant très propre.

  8. Arnaud YHUEL says:

    Un énorme merci pour ce tableau très pratique qui permet de gagner pas mal de temps. Avec tous ceux que j’avais noté de mon côté, j’arrive à 9 filtres ! Il faut un peu de temps la première fois pour tout mettre en place mais ensuite on est tranquille…

  9. PieceofCake says:

    Dommage !!

    (pour moi :) ) Une grosse semaine de tests et validations diverses pour arriver exactement au même point que vous! Comme quoi j’aurais vraiment dû commencer mes recherches par votre site.

    Globalement je n’ai rien trouvé de mieux (et j’ai lu beaucoup !) pour en finir par placer d’abord un filtre sur mon hostname dans une vue spécifique et pouvoir comparer avec ma vue de base (que des filtres sur les referrers concernés) plus une vue de test (avec seulement des segments).

    Quelques jours encore avant d’en tirer des résultats comparables (Google n’est pas rapide à nous afficher les données finales :) )

  10. Barbara says:

    Merci et bravo pour cet article très complet et très précis. Espérons que Google réagissent rapidement pour détecter et exclure automatiquement ce nombre (hallucinant) de spammeurs.

  11. Bonjour,
    Super article.
    Nous avons développé une plateforme d’échange des spam referrers que nous pouvons trouver dans nos rapports.
    De plus, il vous est possible, sur http://www.saystoptospam.org/ , de télécharger le dernier segment personnalisé pour Google Analytics.
    Plus nous serons nombreux, plus l’outil fonctionnera bien.
    Je compte sur toi pour partager le site à un maximum de personne.
    Merci

  12. Paul says:

    Bonjour et merci pour cet article très clair !

    Mon problème est que lorsque je consulte ma liste des noms d’hôtes, je ne vois rien d’anormal. Hormis mes noms de domaines, il y a seulement (no set) et google.com.

    Pourtant lorsque je consulte ma liste de referral, je suis rempli de spam tels que с.новым.годом.рф ou encore site-71486316-1.snip.tw.

    Comment dois-je procéder dans ce genre de cas ? Dois-je inclure google.com et (no set) dans mon filtre include ?

    Merci d’avance

    Paul

    • Robin Brebant says:

      Bonjour,
      D’après ce que vous décrivez, le problème est justement d’avoir les noms d’hôtes (not set) et google.com à la place de votre-domaine.com dans votre liste (j’ai la même chose chez la plupart de mes clients)
      Votre filtre include devrait simplement être du type : Inclure uniquement trafic vers le nom d’hôte : votre-domaine.com

      Ce filtre devrait faire disparaître la quasi totalité du spam (с.новым.годом.рф, site-71486316-1.snip.tw, traffic2cash.xyz etc…)

      Robin

  13. Philo says:

    Super article MERCI j’aurais aimé le découvrir plus tôt :)

  14. Chris1984 says:

    Bonjour,

    Merci pour votre tuto, mais même après avoir appliqué tous vos conseils mes visiteurs (russes…) arrivent à passer au travers et se connectent !!

    Merci d’avance pour votre aide

    • Robin Brebant says:

      Attention, cet article ne concerne que le “Ghost/Spam Traffic”.

      Si vos utilisateurs russes ou autres sont réels, il faudra appliquer d’autres filtres (ou même travailler sur le .htaccess pour véritablement bloquer l’accès sur le site et pas uniquement sur Analytics)

      • Chris1984 says:

        Non ce n’est pas des visiteurs réels c’est des ghost.
        Pour preuve j’ai coupé l’accès à mon site en le supprimant totalement du serveur et je continuais à avoir des visiteurs d’après analytics (provenant uniquement de russie)

        • Robin Brebant says:

          Pouvez-vous m’envoyer une capture d’écran des filtres mis en place? (ici ou par mail : contact[at]audiaweb.com)

          Vous pouvez aussi m’ouvrir un accès sur cette même adresse pour que je regarde rapidement :)

  15. Chris1984 says:

    J’ai trouvé la solution ici : http://botcrawl.com/reddit-com-refrral-spam-in-google-analytics/

    5 jours de galère pour les bloquer…!!!

    Merci à vous pour votre aide en tout cas !

Laisser un commentaire

Your email address will not be published. Required fields are marked *

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>