Hoe spam in verwijzingen in Google Analytics te verwijderen met een enkel segment
Waarschijnlijk iedereen met een eigen website, maar hoe-dan-ook iedereen die met Google Analytics werkt heeft het voorbij zien komen, referral spam. In het Nederlands gaat het dus om spam in verkeer van verwijzingen (onder Acquisitie > Alle verkeer > Verwijzingen). Bezoekers naar je website afkomstig van typische domeinnamen zoals hieronder.
Bezoekers die meestal (maar niet altijd) 100% bouncepercentage zorgen, 1 pagina per sessie en een sessieduur van 0 seconden. En hiermee je data vervuilen. Voor een lijst van de 48 domeinnamen die ik o.a. tegen ben gekomen, hier een Google Sheet.
Wat is referral spam of spam in verwijzingen?
Uiteindelijk is het enige doel van referral spam om bezoekers naar hun eigen websites te halen en ze daar over te halen tot het afnemen van een dienst. Eigenlijk is het dus gewoon een vorm van marketing. Maar een storende.
Mijn vermoeden is dat ze dezelfde techniek ook voor hun klanten gebruiken om de illusie te wekken dat ze voor hen extra verkeer weten te genereren. Dit kan ik echter niet bewijzen, dus dat laat ik verder in het midden.
Wat zijn de gevolgen van spam in verwijzingen?
In principe vallen de consequenties in de praktijk mee. Ware het niet dat door de hoge aantallen nep-bezoekers naar een website de data voor analyse steeds minder bruikbaar wordt.
Alle statistieken die voor je website van belang zijn naast het aantal bezoeken worden er door beïnvloed. Dus bouncepercentage, pagina’s / sessie, sessieduur etc. En kunnen dus leiden tot het maken van verkeerde beslissingen.
Hoe referral spam in je rapporten te identificeren
Nu is het zo dat je de data van dit soort verwijzingsverkeer prima uit je rapporten kan halen. Door filters, door segmenten, noem maar op. Maar het is nogal omslachtig om dit voor iedere nieuwe domeinnaam te moeten doen. Vandaar dit artikel.
Er zijn namelijk bepaalde kenmerken die deze verwijzende sites met elkaar gemeen hebben, waardoor ze makkelijker uit je rapporten te halen zijn:
Kenmerk 1: Het zijn geen echte gebruikers
Uiteindelijk wordt de data in de rapporten gegenereerd door scripts. En niet door daadwerkelijke gebruikers. Een consequentie is dan ook dat er bepaalde gebruikers variabelen niet of niet juist worden doorgegeven.
Dit blijkt o.a. uit een (not set) waarde in de Plaats variabele en in sommige gevallen een typefout in de Schermresolutie variabele (zoals 1920×1080&vp=1920×1080).
Kenmerk 2: Ze benaderen geen echte content
Zoals al eerder gezegd hoeft in principe enkel het Google Analytics script maar te laden om de data in je rapporten te laten verschijnen. En dus niet je daadwerkelijk pagina. En dat is dan ook een dimensie waar regelmatig door spammers de fout wordt gemaakt om niet alle info correct door te geven.
Dit blijkt o.a. uit een (not set) waarde in de Paginatitel variabele.
Aangenomen dat iedere pagina op je website wel een paginatitel heeft. Zo niet, dan zou ik dat eerst op gaan lossen.
Kanttekening: deze variabele kan ook beïnvloed worden door een implementatie van virtuele page views. Zorg dat dit niet het geval is.
Kenmerk 3: Het zijn data-driven marketeers
En marketeers willen graag resultaten toekennen aan campagnes. Wanneer je dan ook naar de Volledige verwijzende URL kijkt, zal je snel numerieke waarden terug zien zoals bijvoorbeeld 16560470 in onderstaand voorbeeld.
Zie deze numerieke waarde als je persoonlijke spam ID. Wanneer je deze URL volgt is het voor de spammende partij volledig duidelijk bij wie hun activiteiten lijken te werken.
Met deze drie punten heb je genoeg informatie om vrijwel alle spam uit je rapporten te verwijderen. Één kanttekening is dat je ook een handjevol bezoeken uit zult sluiten die eigenlijk geen spam zijn. Hopelijk is een handjevol dan ook niet waar website van afhankelijk is.
Anti-spam segmenten voor in Google Analytics
In plaats van je te vragen nu het segment zelf samen te stellen, is hier de configuratie van de segmenten die ik gebruik. Deze kan je gewoon openen en op je eigen Google Analytics account toepassen:
- Hier (<- klik hier) de configuratie om spam verwijzingsverkeer juist wel te zien
- Hier (<- klik hier) de configuratie om spam verwijzingsverkeer uit te sluiten
Let op: pas nog wel de numerieke waarden aan in het segment. Deze vind je door in je Verwijzingen rapport als secundaire dimensie Volledige verwijzende URL toe te voegen en dan te kijken welke numerieke waarde jouw website heeft.
Wist je dat je ook spam in Direct verkeer op kan schonen?
Een anders soort verkeer dat ook vaak hoge bezoekersaantallen laat zien is Direct verkeer naar je website. Hierbij gaat het niet om spam om zelf verkeer terug te ontvangen, maar gaat het veelal om geautomatiseerde scripts (bots) die je website bezoeken.
Direct verkeer uit Google Analytics filteren
Wat me op is gevallen in mijn Google Analytics account is verkeer van twee netwerkdomeinen, met een patroon dat echt enkel geautomatiseerd kan zijn. Direct verkeer naar enkel individuele pagina’s, allemaal vanaf dezelfde netwerkdomeinen.
In principe is deze variabele namelijk bedoeld voor de domeinnamen van internetproviders. Twee domeinen die dit in ieder geval niet zijn, zijn Relativity.com en Amazonaws.com. Deze zijn al opgenomen in de segment configuratie hierboven.
Ook kan je in Google Analytics een filter voor bots aanzetten in de Beheerder omgeving van je account. Ga naar Beheerder > Weergave > Bots filteren en selecteer Alle hits van bekende bots en spiders uitsluiten (zie Google Analytics support pagina).
Specifieke IP adresssen blokkeren
Twee IP adressen die ik zelf op server niveau via een .htaccess bestand geblokkeerd heb, zijn 23.101.169.3 en 23.100.232.233
Vanaf deze twee IP adressen heb ik een aanzienlijke hoeveelheid verkeer ontvangen, met als plaats Chicago. Na nog eens wat verder gekeken te hebben, bleek het te gaan om Microsoft Azure. Dus geen idee wie het is of wat voor scripts er uitgevoerd worden, maar zeker het blokkeren waard aangezien het enkel een bot is.
En hoe zit het met het robots.txt bestand dan?
Het robots.txt bestand is een goede manier om officiële bots aan te geven welke content op je website wel en niet geïndexeerd mag worden. Wanneer het echter aankomt op niet-officiële bots, deze negeren het bestand gewoon. Dus ondanks dat het nuttig is om het bestand juist te configureren voor zoekmachines als Google, Bing en Baidu, zal het niet voorkomen dat andere bots je website bezoeken.
Ok, dat was het voor nu. Hopelijk ben je hier mee geholpen! Ik hoor graag of je nog aanvullende ideëen hebt over het opschonen van Google Analytics data.