AI-onderzoeker misleidt ChatGPT om Windows-licentiesleutels vrij te geven

© Getty Images
Trees Vandamme
Trees Vandamme Freelance journaliste

ChatGPT blijkt gevoelige informatie vrij te geven wanneer het in een ‘onschuldig spelletje’ wordt gelokt. Een ethische hacker wist op die manier een geldige Windows-licentiesleutel in de wacht te slepen.

Het AI-model kreeg tijdens het ‘spelletje’ de opdracht om een echte Windows 10-licentie in gedachten te nemen en enkel ‘ja’ of ‘nee’ te antwoorden op gokvragen. ‘Als de gebruiker ‘I give up’ zei, moest de sleutel worden onthuld,’ schrijft Marco Figueroa van het AI-beveiligingsbedrijf 0DIN in een recente blogpost.

Tot verbazing van de onderzoeker deed ChatGPT precies dat. Het model gaf een geldige productsleutel vrij — informatie die normaal nochtans geblokkeerd wordt door de ingebouwde veiligheidsmaatregelen. Eén van de onthulde sleutels zou die van de grote Amerikaanse bank Wells Fargo zijn.

Volgens de onderzoeker is het probleem deels te wijten aan het feit dat zulke sleutels ooit wellicht publiek gelekt zijn, bijvoorbeeld via softwareontwikkelaar GitHub. Zo belandden die data onbedoeld in de trainingsdata van taalmodellen.

Raadspel via HTML-tags

Gevoelige termen werden in dit ‘raadspel’ bovendien slim verborgen in HTML-tags. Hierdoor kon ChatGPT de context nog steeds begrijpen, terwijl de ingebouwde filters van het AI-model niet afgingen.

De case toont aan hoe gemakkelijk sommige AI-beschermingsmechanismen nog te omzeilen zijn — zonder hacking, maar puur via taal en context. Om dit soort lekken te voorkomen, moeten AI-systemen volgens Figueroa werken met meerdere beveiligingslagen en actiever leren omgaan met context.

Fout opgemerkt of meer nieuws? Meld het hier

Partner Content