Depuis plusieurs mois, de nombreux comptes Google Analytics sont la cible de spammeurs qui font remonter des données provenant de sites référents tels que free-share-buttons.com, 4webmasters.org ou free-social-buttons.com et bien d’autres encore !
Il existe également des variantes à ce spam : générer des fausses sessions provenant des moteurs de recherche comme Google. Il est donc possible de voir apparaître dans vos rapports des mots clés tels que forum.topic<VOTRE_ID_ANALYTICS>.darodar.com, sanjosestartups.com et непереводимая.рф (il est impossible de tous les lister ici, chaque site étant touché différemment)
A l’heure actuelle, on trouve de tout et de rien à ce sujet, alors je vous propose de faire un point et vous aider à nettoyer votre Analytics 🙂
Pourquoi supprimer les données de ces sites référents?
Car ces données ne sont pas réelles ! Elles ne sont pas générées par des “humains” comme vous et moi mais par des robots qui utilisent votre ID Google Analytics pour envoyer des données fictives dans votre compte grâce au protocole de mesure de Google Analytics (et donc sans même visiter votre site)
On parle de “ghost referrals“, ou de “visites fantômes“.
Ces données étant générées via une utilisation détournée de l’API Google Analytics, les blocages techniques (.htaccess etc…) et les plugins wordpress comme SPAMREFERRERBLOCK s’avèrent inefficaces.
D’après certaines sources, un blocage serveur serait tout de même intéressant car cela permettrait aux robots de ne pas pouvoir collecter l’identifiant Analytics et donc d’éviter les spams par la suite. A vérifier car je ne sais pas si les identifiants sont collectés sur site ou générés aléatoirement…
Quoi qu’il en soit, ces données faussent tous vos indicateurs (taux de rebond, temps passé sur le site, nombre de sessions….) Il est donc impératif de les supprimer afin de conserver l’intégrité de vos données.
Quel est le but de cette pratique? Quels sont les objectifs de ces spammeurs?
Tout simplement récupérer du trafic! Comment? Le webmaster, curieux de savoir quel est ce nouveau site qui semble lui envoyer du trafic, va se rendre sur le site du spammeur pour voir de quoi il s’agit, l’objectif du spammeur est atteint (que ce soit un affilié, une société de référencement, de la publicité déguisée, une tentative de virus/trojan…)
Le site tythewebguy.com fournit plus de détails sur cette pratique, notamment dans le cas d’un site affilié :
– Dans un premier temps, le spammeur souscrit à un programme d’affiliation auprès d’Amazon (ou autre comme aliexpress etc) dont le but est de percevoir une commission sur les ventes Amazon qu’il aura générées en tant qu’affilié.
– Dans un second temps, cet individu crée un site qui effectue une redirection vers les produits sur lesquels il recevra une commission.
– Dans un troisième temps, il met en place un automate qui est en charge d’injecter des données dans Google Analytics et notamment l’adresse du site qu’il a créée en étape 2.
– Enfin, vous constatez beaucoup de visites provenant toutes du même site (référent), vous êtes tentés, soit par curiosité, soit par exaspération d’aller sur ce site qui vous procure autant de visites.
Lors de votre accès au site référent, vous serez redirigé vers un site, vous serez gratifié d’un cookie par Amazon dans le but d’identifier le partenaire ayant envoyé un acheteur potentiel vers le site.
La durée de vie de ce cookie (traceur) est de 24 h. Ainsi, si vous effectuez un achat sur Amazon dans les 24h qui suivent cette visite, l’acte d’achat sera affecté à votre spammeur et il percevra une commission.
Est-ce dangereux pour mon site? Mes serveurs?
Rassurez-vous, la réponse est non !
Comme indiqué en début d’article, il s’agit de fausses visites, aucune activité ne se passe directement sur votre site ou vos serveurs. Les données sont envoyées par le spammeur directement sur les serveurs Analytics grâce à l’API dédiée et normalement destinée au webmaster du site.
Comment bloquer ce spam sur Google Analytics?
Pour éliminer ces sites référents de vos rapports, nous allons devoir utiliser les filtres.
Attention toutefois : il est important de noter que les filtres ne sont pas rétroactifs, l’historique de vos données ne sera donc pas modifié !
A partir de la création des filtres que nous allons voir par la suite dans cet article, seules les données futures seront “propres”.
Il sera toutefois possible de nettoyer les données de votre historique grâce à l’utilisation des segments avancés (nous en discuterons à la fin de l’article)
Ce qu’il ne faut surtout pas faire :
Utiliser l’exclusion de sites référents !
Certes le trafic référent va disparaître mais celui-ci sera transformé par Analytics comme étant du trafic direct, le problème ne sera donc que déplacé !
1. Conserver une vue non filtrée et créer une vue de test
Avant de mettre en place vos filtres, la bonne pratique consiste à conserver une vue “non filtrée” sur laquelle aucun filtre ne sera configuré. En cas d’erreur lors de la configuration de vos filtres, cette vue pourrait vous être très utile pour conserver un historique.
Le minimum serait donc d’avoir 3 vues :
- Une vue de sauvegarde (non filtrée, données brutes uniquement)
- Une vue générale (filtrée)
- Une vue de “test” (pour tester vos filtres dans un premier temps avant de les dupliquer sur la vue générale)
2. Créer un filtre sur le nom d’hôte pour nettoyer le plus gros du trafic ghost referrals
Le nom d’hôte pour Google Analytics représente votre nom de domaine (audiaweb.com ou encore blog.audiaweb.com par exemple)
Lorsque des données sont envoyées à Google Analytics depuis votre site, le nom d’hôte associé à ces données doit donc être égal à votre nom de domaine. Hors les robots des spammeurs qui font remonter des données dans vos comptes ne connaissent pas forcément votre nom de domaine puisque les ID utilisés sont sélectionnés aléatoirement par ces robots.
Dans le cas du trafic ghost referrals, cette donnée est souvent soit vide, soit égale au nom de domaine du spammeur (ou même sélectionnée au hasard dans certains cas)
Voici un exemple ci-dessous :
La création d’un filtre sur votre nom d’hôte permet donc de faire un premier gros nettoyage et d’éliminer la quasi totalité du trafic de type ghost referral.
Voici comment configurer ce filtre :
Allez dans “Admin”, sélectionnez la vue à filtrer (1) et cliquez sur “Filtres” (2)
Cliquez sur le bouton “Nouveau filtre”
Nous allons donc créer un filtre prédéfini en nous basant sur le nom d’hôte (nom de domaine)
N’oubliez pas de remplacer la valeur du filtre par votre propre nom de domaine 🙂
Attention : si des données remontent sur votre compte depuis plusieurs domaines (prestataire de paiement e-commerce, blog hébergé sur un autre domaine, chaîne Youtube etc…) il faudra utiliser les expressions régulières afin de bien inclure tous vos domaines grâce à ce filtre.
En cliquant sur “Vérifier ce filtre” vous pouvez avoir un aperçu des données qui ne remonteront plus dans vos rapports (voir exemple ci-dessous)
Dans certains cas, le filtre sur le nom d’hôte n’est pas suffisant. Il sera alors nécessaire de mettre en place des filtres supplémentaires (c’est le cas notamment pour les crawlers qui sont des robots d’origines diverses qui visitent votre site et faussent également vos données)
3. Filtrer pour exclure le reste des sites référents et les crawlers (semalt, best-seo-offer.com etc…)
Lorsque le filtre sur le nom d’hôte n’est pas suffisant, il faudra alors mettre en place des filtres plus spécifiques pour exclure les sources identifiées comme étant du spam ou des crawlers (semalt, best-seo-offer.com etc..)
A la différence du filtre sur le nom d’hôte de l’étape 2 qui est spécifique pour chaque site, nous allons pouvoir créer ce filtre sur le compte entier. Celui-ci sera ainsi automatiquement déployé sur tous les sites de votre compte Google Analytics.
Cliquez ensuite sur “Nouveau filtre”
Avec ce filtre, vous avez la possibilité d’exclure tous les noms de domaine listés dans le champ “règle de filtrage” de vos rapports Google Analytics
Important : les filtres sont limités à 255 caractères, il est donc possible que vous deviez utiliser plusieurs filtres.
Si vous n’êtes pas familier avec les expressions régulières, voici un fichier excel que vous pouvez utiliser pour construire vos filtres 🙂
4. Activer le filtrage des robots connus par Google Analytics
Pour finir, pensez à bien activer l’option de filtrage des robots connus sur toutes vos vues Google Analytics (Admin > Vue > Paramètres de la vue)
A l’heure actuelle cette fonctionnalité n’est pas suffisante pour exclure ces spams mais j’espère que Google va réagir face à ces nouvelles attaques 🙂
Si vos filtres sont bien configurés, vous devriez constater un retour rapide à la normale. Il faut toutefois rester vigilant et ne pas hésiter à adapter régulièrement les filtres en fonction de l’évolution des spams/crawlers en attendant une réaction de Google à ce sujet.
Une autre méthode proposée par LunaMetrics est d’utiliser les cookies et Google Tag Manager. Si cela vous intéresse, n’hésitez pas lire l’article disponible à cette adresse: http://www.lunametrics.com/blog/2015/03/19/eliminating-dumb-ghost-referral-traffic/
Comment nettoyer les données historiques en utilisant la segmentation?
Cliquez sur “Ajouter un segment” dans la partie haute de votre interface Google Analytics
Cliquez ensuite sur “Nouveau segment”
- Choisissez un segment de type “Conditions”
- Créez un nouveau filtre sur le nom d’hôte de type “Inclure” de manière à n’inclure que votre propre nom de domaine (ou vos noms de domaine)
- Ajoutez un nouveau filtre de manière à exclure les sources des crawlers (voir fichier excel disponible ci-dessus pour créer l’expression régulière)
Votre segment final devrait donc ressembler à ceci :
Enregistrez-le et retournez dans vos rapports, les données affichées sont normalement propres et vous pouvez donc travailler sur un historique qui ne contient pas de spam.
Liste (non exhaustive) des domaines spammeurs répertoriés sur les comptes des clients AUDIAWEB (ghost et crawler) :
- guardlink.org
- semalt.com
- free-share-buttons.com
- www.event-tracking.com
- ilovevitaly.com
- ilovevitaly.co
- Get-Free-Traffic-Now.com
- free-social-buttons.com
- buy-cheap-online.info
- darodar.com
- best-seo-offer.com
- best-seo-solution.com
- buttons-for-your-website.com
- buttons-for-website.com
- anticrawler.org
- sitevaluation.org
- sanjosestartups.com
- social-buttons.com
- simple-share-buttons.com
- rapidgator-porn.ga
- websites-reviews.com
- 4webmasters.org
- 2linkto.com
- ilovevitaly.info
- savetubevideo.com
- blog.ranksonic.com.
- youporn-forum.ga
- pornhub-forum.ga
- maridan.com.ua
- trafficmonetize.org
- непереводимая.рф
- makemoneyonline.com
- theguardlan.com
- hulfingtonpost.com
- econom.co
- o-o-6-o-o.com
- o-o-8-o-o.ru
- priceg.com
- aliexpress.com
- 12masterov.com
- savetubevideo.com
- kambasoft.com
- acads.net
- adcash.com
- akuhni.by
- allwomen.info
- affordablewebsitesandmobileapps.com
- adviceforum.info
- cenoval.ru
- 100dollars-seo.com
- 7makemoneyonline.com
- alpharma.net
- altermix.ua
- amt-k.ru
- anal-acrobats.hol.es
- webmaster-traffic.com
- websocial.me
- android-style.com
- youporn-forum.uni.me
- снятьдомвсевастополе.рф
- грузоподъемные-машины.рф
- наркомания.лечениенаркомании.com
- sexyali.com
J’espère que cet article vous aidera à nettoyer vos données !
N’hésitez pas à me contacter pour obtenir des renseignements complémentaires ou si une prestation de nettoyage de votre Analytics vous intéresse 😉
Merci pour ce HOW TO très complet. Je m’interroge toutefois sur les mesures préventives plutôt que curatives : pourquoi ne pas obfusquer tout simplement l’UA Analytics ? J’utilise principalement Piwik pour mes clients donc je ne suis pas embêté par ce spam referer, mais ça me donne envie de faire un mini-site rien que pour tester tiens…
Merci de participer à ce sujet 🙂
Si les identifiants Analytics sont récupérés par un scrapper/robot, cela peut en effet être une solution.
Par contre, si les identifiants sont générés et ciblés aléatoirement, cela ne fonctionnera pas. (et je pense que c’est le cas actuellement, sinon le nom d’hôte serait renseigné lors de l’envoi des données afin de contourner les filtres mis en place par les webmasters)
A priori certains comptes Google Analytics contiendraient même des données de trafic ghost referrals sans qu’aucun site ne soit en ligne, ce qui semble prouver que ces identifiants soient générés de manière aléatoire.
Merci pour la réponse, j’ignorais que les UA étaient générés aléatoirement. Dans ce cas, il faut définitivement fuir Analytics et prendre un outil alternatif…
Si Google Analytics est attaqué aujourd’hui, c’est surtout car c’est l’outil le plus utilisé et qu’il offre donc plus de cibles aux spammeurs.
Des attaques de ce type sont très faciles à mettre en place avec les autres outils (Piwik propose également une API similaire à celle de Google Analytics)
D’ailleurs après quelques recherches rapides, je viens de voir que Piwik est également touché par ces attaques, comme quoi… 🙂
Merci pour cet article très instructif et très complet !
[…] Sourced through Scoop.it from: http://www.audiaweb.com […]
Très bonne synthèse. Notons que ces parasites (auxquels on peut ajouter hulfingtonpost ) apparaissent aussi en tant que requêtes dans les visites naturelles et les campagnes publicitaires !
Compter que Google agisse rapidement me paraît encore optimiste. Tiens je vais leur demander…
Merci
C’est exact, j’ai vu aussi chez certains comptes des requêtes dans les événements.
Heureusement dans le plupart des cas, le filtre sur le nom d’hôte est suffisant pour éradiquer le problème.
Ah si seulement Google pouvait mettre en place un système d’authentification sur son API (login/mot de passe) !
Affaire à suivre !
oui, mais quelle galère en attendant !
je viens de repérer un certain 100dollars-seo que tu peux rajouter à la liste 🙂
tres bon tuto,
juste une question rapide… apres avoir appliqué le filtre en etape 2… dans la sectnio acquisition > tout le trafic > sites referents, ils y sont toujours… et oui, jai utilisé le fichier excel pour generer la bonne syntaxe.
merci !
Attention, comme indiqué dans l’article les filtres ne sont pas rétroactifs, l’historique de vos données ne pourra donc pas être nettoyé avec un filtre. Par contre vos données futures seront normalement “propres” à partir de la date de création du filtre.
Si vous souhaitez travailler sur des données historiques, vous devrez utiliser un segment avancé (voir exemple en fin d’article)
Merci pour ce tuto! Enfin une solution qui fonctionne.
J’ai essayé plusieurs méthodes proposer sur divers sites/blogs mais il y en avait encore qui passait au travers et même si ils n’apparaissaient pas dans la liste des sites référents, le compteur d’utilisateurs continuait à s’incrémenter.
Pour l’instant j’ai mis en place cette méthode depuis 2 jours et mes stats sont maintenant très propre.
Un énorme merci pour ce tableau très pratique qui permet de gagner pas mal de temps. Avec tous ceux que j’avais noté de mon côté, j’arrive à 9 filtres ! Il faut un peu de temps la première fois pour tout mettre en place mais ensuite on est tranquille…
Content d’avoir pu aider 🙂
Dommage !!
(pour moi 🙂 ) Une grosse semaine de tests et validations diverses pour arriver exactement au même point que vous! Comme quoi j’aurais vraiment dû commencer mes recherches par votre site.
Globalement je n’ai rien trouvé de mieux (et j’ai lu beaucoup !) pour en finir par placer d’abord un filtre sur mon hostname dans une vue spécifique et pouvoir comparer avec ma vue de base (que des filtres sur les referrers concernés) plus une vue de test (avec seulement des segments).
Quelques jours encore avant d’en tirer des résultats comparables (Google n’est pas rapide à nous afficher les données finales 🙂 )
Merci et bravo pour cet article très complet et très précis. Espérons que Google réagissent rapidement pour détecter et exclure automatiquement ce nombre (hallucinant) de spammeurs.
Bonjour,
Super article.
Nous avons développé une plateforme d’échange des spam referrers que nous pouvons trouver dans nos rapports.
De plus, il vous est possible, sur http://www.saystoptospam.org/ , de télécharger le dernier segment personnalisé pour Google Analytics.
Plus nous serons nombreux, plus l’outil fonctionnera bien.
Je compte sur toi pour partager le site à un maximum de personne.
Merci
Bonjour et merci pour cet article très clair !
Mon problème est que lorsque je consulte ma liste des noms d’hôtes, je ne vois rien d’anormal. Hormis mes noms de domaines, il y a seulement (no set) et google.com.
Pourtant lorsque je consulte ma liste de referral, je suis rempli de spam tels que с.новым.годом.рф ou encore site-71486316-1.snip.tw.
Comment dois-je procéder dans ce genre de cas ? Dois-je inclure google.com et (no set) dans mon filtre include ?
Merci d’avance
Paul
Bonjour,
D’après ce que vous décrivez, le problème est justement d’avoir les noms d’hôtes (not set) et google.com à la place de votre-domaine.com dans votre liste (j’ai la même chose chez la plupart de mes clients)
Votre filtre include devrait simplement être du type : Inclure uniquement trafic vers le nom d’hôte : votre-domaine.com
Ce filtre devrait faire disparaître la quasi totalité du spam (с.новым.годом.рф, site-71486316-1.snip.tw, traffic2cash.xyz etc…)
Robin
Super article MERCI j’aurais aimé le découvrir plus tôt 🙂
Bonjour,
Merci pour votre tuto, mais même après avoir appliqué tous vos conseils mes visiteurs (russes…) arrivent à passer au travers et se connectent !!
Merci d’avance pour votre aide
Attention, cet article ne concerne que le “Ghost/Spam Traffic”.
Si vos utilisateurs russes ou autres sont réels, il faudra appliquer d’autres filtres (ou même travailler sur le .htaccess pour véritablement bloquer l’accès sur le site et pas uniquement sur Analytics)
Non ce n’est pas des visiteurs réels c’est des ghost.
Pour preuve j’ai coupé l’accès à mon site en le supprimant totalement du serveur et je continuais à avoir des visiteurs d’après analytics (provenant uniquement de russie)
Pouvez-vous m’envoyer une capture d’écran des filtres mis en place? (ici ou par mail : contact[at]audiaweb.com)
Vous pouvez aussi m’ouvrir un accès sur cette même adresse pour que je regarde rapidement 🙂
J’ai trouvé la solution ici : http://botcrawl.com/reddit-com-refrral-spam-in-google-analytics/
5 jours de galère pour les bloquer…!!!
Merci à vous pour votre aide en tout cas !