AI van Microsoft kan stem nabootsen met geluidsfragment van drie seconden

© Getty Images
Pieterjan Van Leemputten

Microsoft is er in geslaagd om stemmen synthetisch na te bootsen met slechts drie seconden aan audio van de bronstem. De tool wordt nu verder uitgewerkt.

Na bewerkte foto’s en deepfake video’s is ook stemgeluid niet langer veilig voor manipulatie. Microsoft stelt haar text-to-speech AI model VALL-E voor. Het systeem kan met korte voorbeelden van iemands stem die stem eender wat laten zeggen op dezelfde toon.

Microsoft omschrijft haar tool als een neural codec language model. Waar klassieke spraakgeneratie gebeurde door geluidsgolven te manipuleren, genereert VALL-E subiele audio codec codes van de tekst en akoestiek. Hoe iemand klinkt wordt daarbij in kleine delen opgebroken en gesynthetiseerd.

Het project bouwt verder op EnCodec, dat in oktober vorig jaar werd aangekondigd door Facebook. Microsoft ziet er toepassingen in voor audiobewerking. Wanneer je bijvoorbeeld in een opname iets moet aanpassen of de persoon iets laten zeggen wat er niet letterlijk werd gezegd.

Maar de onderzoekers bij het project zijn zich ook bewust van mogelijk misbruik. Daarom is de tool momenteel (nog) niet met je eigen stem uit te proberen. Wel kan je een demo bij Github uitproberen, waar je ook de paper over het onderzoeksproject kan vinden.

Fout opgemerkt of meer nieuws? Meld het hier

Partner Content