Computerwetenschappers gelinkt aan IBM en verschillende universiteiten in China en de Verenigde staten hebben een manier ontdekt om stiekem boodschappen te sturen naar AI software. Het gaat om stemcommando's, bijvoorbeeld voor Apple Siri, Amazon Alexa, Google Assistant en Microsoft Cortana, die in populaire songs verstopt worden.

En omdat het helemaal op een sci-fi film (of een aflevering van Black Mirror) moet lijken, hebben de onderzoekers deze liedjes 'CommanderSongs' genoemd. De onderzoekers doen hun theorie uit de doeken in een paper op Arxiv. De techniek in kwestie leidt de deep learning software van de verschillende techgiganten om de tuin met wat de paper zelf 'tegenstrijdige storingen' noemt.

De grenzen van machine learning

Het idee daarachter is niet nieuw. Eerder slaagden MIT studenten er bijvoorbeeld al in om Google's beeldherkenning zo ver te krijgen dat het een schildpad als een geweer zou labelen, of een baseball als een kopje koffie. Machine learning leert door duizenden foto's van eenzelfde object voorgeschoteld te krijgen om zo te leren om die schildpad te herkennen. Maar dat werkt vooral bij dingen die duidelijk een schildpad zijn. Door ruis of kleine veranderingen aan een foto te maken, is het dus mogelijk om Google zover te krijgen om dingen fout te labelen.

Dat soort onderzoek is vooral belangrijk omdat je, bijvoorbeeld, niet wilt dat de camera's van de luchthaven op Zaventem jouw rugzak (al dan niet met schildpadprint) herkennen als een machinegeweer.

Hetzelfde gebeurt in dit onderzoek nu met geluid. Vorig jaar kwamen onderzoekers al op de proppen met een 'dolfijnaanval' die gebruik maakt van ultrasone geluiden om spraakherkenning te manipuleren. Die aanval kan wel worden geblokkeerd met technologie die ultrasone signalen onderdrukt. De techniek in het nieuwe rapport zou niet geblokkeerd kunnen worden met filters voor geluidsfrequenties. "Ons idee om een spraakcommando onzichtbaar te maken is om het in een song te integreren," zo meldt de paper, "Op die manier zal het systeem het bevel decoderen en uitvoeren zodra het aangepaste liedje afgespeeld wordt, terwijl de gebruiker het nummer kan beluisteren zonder iets te merken."

Eerder was al aangetoond dat er 'nonsensgeluiden' kunnen worden gebruikt om bevelen naar spraakherkenningssoftware te sturen, maar dat soort geluiden zijn heel herkenbaar. Door ze te verstoppen in een liedje, wordt het veel moeilijker om uit te vissen wat er aan de hand is. Het klinkt vaak alsof de mp3 een beetje hapert.