Voor de beheerders van de domeinnamen is het een vervelende zaak. "Het uiteindelijke doel is toch om vertrouwen te bouwen", zegt Marc Van Wesemael, general manager van EURid. Zijn organisatie beheert voor de Europese Commissie de .eu-domeinnaam. Samen met de KU Leuven startte EURid een uitzonderlijk machinelearningproject om frauduleuze domeinnaamregistraties in de kiem te smoren. De monitoringtool APEWS (Abuse Prediction and Early Warning System) moet voorspellen of een aanvraag voor een domeinnaamregistratie frauduleus is.
...

Voor de beheerders van de domeinnamen is het een vervelende zaak. "Het uiteindelijke doel is toch om vertrouwen te bouwen", zegt Marc Van Wesemael, general manager van EURid. Zijn organisatie beheert voor de Europese Commissie de .eu-domeinnaam. Samen met de KU Leuven startte EURid een uitzonderlijk machinelearningproject om frauduleuze domeinnaamregistraties in de kiem te smoren. De monitoringtool APEWS (Abuse Prediction and Early Warning System) moet voorspellen of een aanvraag voor een domeinnaamregistratie frauduleus is. De meeste domeinnamen worden via een volledig geautomatiseerd formulier aangevraagd. Willen we morgen datanews.eu aanvragen, dan vullen we onze gegevens in bij de lokale domeinnamenboer, en die stuurt dat automatisch naar EURid. "Als je dus vraagt 'waarom heb je zo'n naam toegelaten', dan is dat omdat het automatisch gebeurt, omdat er niemand op zit te kijken", zegt Van Wesemael. Met een paar miljoen domeinnamen is dat ook bijzonder moeilijk. Een gevolg daarvan is dat er nogal wat foute domeinnamen worden geregistreerd, die vervolgens worden gebruikt voor phishing, spam, valse webshops en meer. De mensen daarachter gebruiken, om logische redenen, niet hun echte identiteitsgegevens om ze te registreren. En dat is het idee achter APEWS. "Als we op het ogenblik van registratie een check kunnen doen waarbij de machine kan identificeren dat die data fake zijn, dan zouden wij behoorlijk wat van die misbruiken kunnen tegenhouden", legt Van Wesemael uit. Waarom doet de registrar, die de data eerst aankrijgt, dat dan niet? "Het probleem is dat een domeinnaam iets van een 3-4 euro kost", zegt hij, "en daarvoor kan je geen dure modellen opzetten, zeker als je er mankracht bij haalt om de resultaten te checken. Wij hebben 3,6 miljoen domeinnamen, daarvoor kan je wel investeren." Het uiteindelijke doel van het project is om vertrouwen te bouwen. "Als je iets koopt op een webshop met .eu dan zou je erop moeten vertrouwen dat het niet bijvoorbeeld een vals product zal zijn", zegt Van Wesemael. "Dat is een gigantische uitdaging. En de paradox wil dat hoe meer we dat imago krijgen, hoe interessanter we zijn voor fake webshops, want dan krijgen zij ook die stempel." Het model waarin EURid investeerde is gebaseerd op de gegevens die ze de voorbije jaren al binnenkregen. "Als er vanop een adres bijvoorbeeld spam wordt gestuurd, dan komt die naam terecht op allerlei zwarte lijsten, en gaan wij de registratie vaak ook afnemen. Maar zodra die mails zijn verstuurd, is het kwaad al geschied", zegt Van Wesemael. "Die mensen registreren een naam, sturen spam uit en tegen dat de wereld weet wat er gebeurt, is hun werk al gedaan." Dezelfde lijsten worden nu in een machine learning model ingevoerd, zodat het zichzelf kan trainen om gelijkaardige situaties te voorspellen. "Als er twijfel is over de geldigheid van een nieuwe aanvraag, dan wordt die naam niet geactiveerd, maar wordt hij opzij gezet zodat een medewerker ernaar kan kijken", zegt Van Wesemael. "En dan gaan we in de meeste gevallen aan die registrant vragen om hun identiteit te bewijzen. Als ze slechte bedoelingen hebben, gaan ze dat meestal niet doen, en dan hebben we het kwaad in de kiem gesmoord." Geeft het systeem aan dat de aanvraag in orde is, gaat de naam wel automatisch door. Blijkt er achteraf toch misbruik in het spel, dan wordt die aanvraag ook weer in het systeem ingevoerd. "Zo krijg je een continu leerproces en wordt het systeem beter. Anderzijds vinden onze tegenstanders ook altijd nieuwe manieren om het systeem te omzeilen. Het voordeel is dat wij een machine hebben waar we niet naar moeten kijken, aan de andere kant zijn mensen beperkt door hun creativiteit." Het systeem werkt door groepen van spamadressen te clusteren om gemeenschappelijke kenmerken te zoeken. Nieuwe registraties worden dan vergeleken met die clusters. Voor de kenmerken kijkt APEWS onder meer naar de url zelf en naar de gegevens die op de registratie werden ingevoerd. Als iemand een adres in het VK opgeeft, is het telefoonnummer dat ze intikken dan ook een Brits nummer? Maar ook: waar staan de nameservers die het adres van de website moeten doorverwijzen naar een effectief IP-adres? Als die in Rusland of China staan, is er al een iets grotere kans dat het niet om een onschuldige Europese webwinkel gaat. Hoe goed werkt dat systeem nu? Van Wesemael is best trots op de 'recall' en 'precision' van het project. Recall is daarbij het aantal foute domeinnamen die werden gevonden, precision is het percentage van de uitgefilterde namen die correct werden geblokkeerd. "Die moet je in balans houden", zegt Van Wesemael. "Stel dat je elke domeinnaam als potentieel fout aantikt. Dan ga je ze allemaal vinden. Je recall is 100% want alle domeinnamen die abusive waren stonden in je lijst. Maar de precision van die voorspelling gaat heel laag zijn, want ik heb iedereen als abusive aangevinkt, terwijl maar een kleine fractie dat echt was. Omgekeerd, als je van één domeinnaam zegt dat je honderd procent zeker bent dat ie frauduleus is, en van de rest zeg je niks, dan heb je met die ene domeinnaam een precision van honderd procent, maar omdat je maar één domeinnaam vond terwijl er duizenden waren, is de recall erg laag." De kunst is dus om er zoveel mogelijk te vinden, die ook echt correct weggefilterd worden. "We hebben die in de testfase beide boven de tachtig procent gehouden", zegt Van Wesemael. "We vinden dus tachtig procent van de frauduleuze registraties, en in tachtig procent van de gevallen die we aanvinkten waren we ook correct." In de testfase, die een jaar draaide, voerde APEWS voorspellingen in, maar werden de namen toch doorgelaten, zodat ze later konden gecheckt worden. Ondertussen draait het systeem live en is die feedback weggevallen, maar het aantal misbruiken is ook stevig gedaald, zegt Van Wesemael. "Je ziet dat foute domeinnaamregistraties in de loop van de jaren al zijn verminderd. Al in juli 2018, nog voor APEWS live ging, zijn we veel minder foute namen gaan registreren. Ze zijn bij ons weggebleven omdat ze zagen dat we hen aan het achternajagen waren. Daar is het ons ook in zekere zin om te doen." Of de criminelen in kwestie dan ook gestopt zijn met hun activiteiten is een andere zaak. "Zij zijn waarschijnlijk naar andere extensies verhuisd", zegt Van Wesemael.