De deepfake-technologie, waarbij artificiële intelligentie gebruikt wordt om valse video's te maken, staat weer een stapje verder. Voortaan volstaat een toetsenbord om iemand woorden in de mond te leggen.

Het was al langer mogelijk om met artificiële intelligentie valse video's te genereren. Nadat iemand een gratis tooltje had gelanceerd waarmee je gezichten in films kunt 'swappen', circuleerden vorig jaar de eerste deepfake-video's op het web. Dergelijke video's werden onder meer gebruikt om beroemdheden woorden in de mond te leggen, door iemand anders de tekst te laten inspreken.

Onderzoekers van Stanford University, het Max Planck Instituut, Princeton University en Adobe Research zijn er nu in geslaagd om hetzelfde te doen, maar dan op basis van tekst. De wetenschappers demonstreren hoe ze iemand de beroemde Apocalypse Now-quote "I love the smell of napalm in the morning" laten uitspreken, waarna ze al typend de uitspraak aanpassen. "I love the smell of french toast in the morning", klinkt het uit de mond van diezelfde persoon in de bewerkte video. Op die manier kunnen allerlei woorden vervangen, verwijderd of toegevoegd worden in een video. De technologie laat ook toe om iemand iets in een andere taal te laten zeggen.

Het algoritme gaat in het originele videomateriaal op zoek naar vergelijkbare klanken (fonemen) en voegt ze samen tot ze de tekst vormen die je iemand wil laten uitspreken. Tegelijk worden ook de bijhorende mondbewegingen gezocht. Door daar een aantal neurale netwerken op los te laten, wordt alles netjes aan elkaar geplakt, tot een naadloze video overblijft.

Als er slechts enkele woorden vervangen worden, is het moeilijk om de bewerkte video te onderscheiden van echte beelden. Daarvoor is wel veertig minuten aan origineel videomateriaal nodig. Een realistische video maken waarin volledige zinnen vervangen zijn, is ook nog niet mogelijk. De onderzoekers noemen hun werk wel een "eerste belangrijke stap" naar "volledig op tekst gebaseerde bewerking en synthese van algemene audiovisuele inhoud".

De techniek zou in de toekomst gebruikt kunnen worden voor de nabewerking van films. Als een acteur zich verspreekt of als er iets wijzigt in het script, dan moet de opname nu opnieuw gedaan worden of moet ze achteraf handmatig bewerkt worden. Dat kost veel tijd, terwijl met deze techniek kleine foutjes al typend kunnen gecorrigeerd worden.

Tegelijk verlaagt de technologie opnieuw de drempel om nepvideo's te maken met de bedoeling om fake news te verspreiden. De onderzoekers laten in een blog hun bezorgdheid over dergelijk misbruik blijken. Door hun resultaten openbaar te maken, willen ze het bewustzijn rond videobewerkingstechnieken vergroten, zodat kijkers sceptischer worden. Tegelijk wijzen ze erop dat de AI-community technieken moet ontwikkelen om gemanipuleerde video's te identificeren.

De paper, getiteld Text-based Editing of Talking-head Video, wordt deze maand gepubliceerd in het wetenschappelijk tijdschrift ACM Transactions on Graphics. De resultaten zullen volgende maand voorgesteld worden op de SIGGRAPH-conferentie in Los Angeles.