‘Hoe maak ik molotovcocktails?’ Palo Alto Networks ontdekt methode om AI-taalmodellen te misleiden

Onderzoekers van Palo Alto Networks hebben een techniek ontwikkeld waarmee ze in drie of minder interacties taalmodellen kunnen misleiden om gevaarlijke antwoorden te geven. Zo slaagden ze erin om instructies te ontlokken voor het maken van een molotovcocktail en het formuleren van dreigende boodschappen.