Machine learning moet fraude tegengaan

28-09-2020, 21:00 Bijgewerkt op: 17-08-2022, 07:42 4 min leestijd

Een vaak onderbelicht deel van cybercrime is de handel in domeinnamen. Belangrijke wereldevenementen worden misbruikt om surfers naar kwaadaardige sites te lokken met een url als ‘mondmaskers.be’.

Voor de beheerders van de domeinnamen is het een vervelende zaak. “Het uiteindelijke doel is toch om vertrouwen te bouwen”, zegt Marc Van Wesemael, general manager van EURid. Zijn organisatie beheert voor de Europese Commissie de .eu-domeinnaam. Samen met de KU Leuven startte EURid een uitzonderlijk machinelearningproject om frauduleuze domeinnaamregistraties in de kiem te smoren. De monitoringtool APEWS (Abuse Prediction and Early Warning System) moet voorspellen of een aanvraag voor een domeinnaamregistratie frauduleus is.

Volledig geautomatiseerd

De meeste domeinnamen worden via een volledig geautomatiseerd formulier aangevraagd. Willen we morgen datanews.eu aanvragen, dan vullen we onze gegevens in bij de lokale domeinnamenboer, en die stuurt dat automatisch naar EURid. “Als je dus vraagt ‘waarom heb je zo’n naam toegelaten’, dan is dat omdat het automatisch gebeurt, omdat er niemand op zit te kijken”, zegt Van Wesemael. Met een paar miljoen domeinnamen is dat ook bijzonder moeilijk. Een gevolg daarvan is dat er nogal wat foute domeinnamen worden geregistreerd, die vervolgens worden gebruikt voor phishing, spam, valse webshops en meer.

‘Die mensen registreren een naam, sturen spam uit en tegen dat de wereld weet wat er gebeurt, is hun werk al gedaan’

De mensen daarachter gebruiken, om logische redenen, niet hun echte identiteitsgegevens om ze te registreren. En dat is het idee achter APEWS. “Als we op het ogenblik van registratie een check kunnen doen waarbij de machine kan identificeren dat die data fake zijn, dan zouden wij behoorlijk wat van die misbruiken kunnen tegenhouden”, legt Van Wesemael uit.

Waarom doet de registrar, die de data eerst aankrijgt, dat dan niet? “Het probleem is dat een domeinnaam iets van een 3-4 euro kost”, zegt hij, “en daarvoor kan je geen dure modellen opzetten, zeker als je er mankracht bij haalt om de resultaten te checken. Wij hebben 3,6 miljoen domeinnamen, daarvoor kan je wel investeren.”

Het uiteindelijke doel van het project is om vertrouwen te bouwen. “Als je iets koopt op een webshop met .eu dan zou je erop moeten vertrouwen dat het niet bijvoorbeeld een vals product zal zijn”, zegt Van Wesemael. “Dat is een gigantische uitdaging. En de paradox wil dat hoe meer we dat imago krijgen, hoe interessanter we zijn voor fake webshops, want dan krijgen zij ook die stempel.”

Voorspellend model

Het model waarin EURid investeerde is gebaseerd op de gegevens die ze de voorbije jaren al binnenkregen. “Als er vanop een adres bijvoorbeeld spam wordt gestuurd, dan komt die naam terecht op allerlei zwarte lijsten, en gaan wij de registratie vaak ook afnemen. Maar zodra die mails zijn verstuurd, is het kwaad al geschied”, zegt Van Wesemael. “Die mensen registreren een naam, sturen spam uit en tegen dat de wereld weet wat er gebeurt, is hun werk al gedaan.”

Dezelfde lijsten worden nu in een machine learning model ingevoerd, zodat het zichzelf kan trainen om gelijkaardige situaties te voorspellen. “Als er twijfel is over de geldigheid van een nieuwe aanvraag, dan wordt die naam niet geactiveerd, maar wordt hij opzij gezet zodat een medewerker ernaar kan kijken”, zegt Van Wesemael. “En dan gaan we in de meeste gevallen aan die registrant vragen om hun identiteit te bewijzen. Als ze slechte bedoelingen hebben, gaan ze dat meestal niet doen, en dan hebben we het kwaad in de kiem gesmoord.”

Geeft het systeem aan dat de aanvraag in orde is, gaat de naam wel automatisch door. Blijkt er achteraf toch misbruik in het spel, dan wordt die aanvraag ook weer in het systeem ingevoerd.

“Zo krijg je een continu leerproces en wordt het systeem beter. Anderzijds vinden onze tegenstanders ook altijd nieuwe manieren om het systeem te omzeilen. Het voordeel is dat wij een machine hebben waar we niet naar moeten kijken, aan de andere kant zijn mensen beperkt door hun creativiteit.”

Accuraatheid

Het systeem werkt door groepen van spamadressen te clusteren om gemeenschappelijke kenmerken te zoeken. Nieuwe registraties worden dan vergeleken met die clusters. Voor de kenmerken kijkt APEWS onder meer naar de url zelf en naar de gegevens die op de registratie werden ingevoerd. Als iemand een adres in het VK opgeeft, is het telefoonnummer dat ze intikken dan ook een Brits nummer? Maar ook: waar staan de nameservers die het adres van de website moeten doorverwijzen naar een effectief IP-adres? Als die in Rusland of China staan, is er al een iets grotere kans dat het niet om een onschuldige Europese webwinkel gaat.

Hoe goed werkt dat systeem nu? Van Wesemael is best trots op de ‘recall’ en ‘precision’ van het project. Recall is daarbij het aantal foute domeinnamen die werden gevonden, precision is het percentage van de uitgefilterde namen die correct werden geblokkeerd. “Die moet je in balans houden”, zegt Van Wesemael. “Stel dat je elke domeinnaam als potentieel fout aantikt. Dan ga je ze allemaal vinden. Je recall is 100% want alle domeinnamen die abusive waren stonden in je lijst. Maar de precision van die voorspelling gaat heel laag zijn, want ik heb iedereen als abusive aangevinkt, terwijl maar een kleine fractie dat echt was. Omgekeerd, als je van één domeinnaam zegt dat je honderd procent zeker bent dat ie frauduleus is, en van de rest zeg je niks, dan heb je met die ene domeinnaam een precision van honderd procent, maar omdat je maar één domeinnaam vond terwijl er duizenden waren, is de recall erg laag.”

De kunst is dus om er zoveel mogelijk te vinden, die ook echt correct weggefilterd worden. “We hebben die in de testfase beide boven de tachtig procent gehouden”, zegt Van Wesemael. “We vinden dus tachtig procent van de frauduleuze registraties, en in tachtig procent van de gevallen die we aanvinkten waren we ook correct.” In de testfase, die een jaar draaide, voerde APEWS voorspellingen in, maar werden de namen toch doorgelaten, zodat ze later konden gecheckt worden.

Ondertussen draait het systeem live en is die feedback weggevallen, maar het aantal misbruiken is ook stevig gedaald, zegt Van Wesemael. “Je ziet dat foute domeinnaamregistraties in de loop van de jaren al zijn verminderd. Al in juli 2018, nog voor APEWS live ging, zijn we veel minder foute namen gaan registreren. Ze zijn bij ons weggebleven omdat ze zagen dat we hen aan het achternajagen waren. Daar is het ons ook in zekere zin om te doen.” Of de criminelen in kwestie dan ook gestopt zijn met hun activiteiten is een andere zaak. “Zij zijn waarschijnlijk naar andere extensies verhuisd”, zegt Van Wesemael.

Hoe werken domeinnamen?

Registrant: Degene die de domeinnaam nodig heeft. Data News is bijvoorbeeld de registrant van Datanews.be.

Registrar: Degene die de aanvraag verwerkt, vaak ook de host of web developer. Denk aan partijen als Combell, Telenet of Proximus, waar u een domeinnaam gaat aanvragen. Zij sluiten een contract met de verschillende registries om domeinnamen aan te bieden.

Registry: De beheerder van een specifieke domeinnaam. Voor .eu is dat EURid, voor .be is het bijvoorbeeld DNS Belgium. Deze overkoepelende organisaties werken met verschillende partijen om hun domeinnaam te verdelen, maar je kan als website-eigenaar vaak niet rechtstreeks bij hen aankloppen.

Fout opgemerkt of meer nieuws? Meld het hier

Volledig geautomatiseerd

Voorspellend model

Accuraatheid

Partner Expertise

Meest recent

Data News

Rubrieken

Bekijk ook...

Partners