Waarschijnlijk heb je nog niet gehoord van Hokkien, en dat heeft een reden. Het is een taal die voornamelijk in China wordt gesproken en door Chinezen die buiten China wonen. In China zelf zijn er 28 miljoen sprekers (op bijna anderhalf miljard inwoners), in Taiwan gaat het om 13,5 miljoen sprekers en ook in landen als Maleisië, Singapore of de Filippijnen zitten telkens 1-2 miljoen sprekers. Maar de taal heeft geen geschreven basis en wordt dus alleen mondeling gebruikt.

Meta AI, de AI-afdeling van Meta, werkt al een tijdje aan een Universal Speech Translator. Het wil een systeem dat in real time spraak naar spraak kan vertalen in andere talen. Volgens Meta zijn er zo'n zevenduizend levende talen, veertig procent daarvan is hoofdzakelijk mondeling.

Geen geschreven bronmateriaal

Dat kunnen vertalen is een pak lastiger dan pakweg Chinees naar Zweeds. Bij geschreven talen kan een computersysteem honderdduizenden schriften analyseren. Vaak met behulp van teksten die vrij letterlijk zijn vertaald. Hier is een andere aanpak nodig.

Voor een zogenaamde low resource language als Hokkien heeft Meta hier Mandarijns (de belangrijkste taal in China) genomen als tussenstap om de taal te kunnen labelen. Tegelijk werden met spraakcodering uitspraken in semantische delen opgedeeld, zonder de nood om ze neer te schrijven. In praktijk wil dat zeggen dat Meta Hokkien naar het Mandarijns vertaalde en van daaruit naar het Engels, en omgekeerd.

Om de vertalingen te evalueren werd Hokkien gestandaardiseerd naar een fonetische notatie, met een systeem dat een score geeft op niveau van de klinkers om de vertaalkwaliteit te beoordelen. Uiteraard ook met behulp van heel wat sprekers van de taal.

Zelf proberen

Het Hokkien vertaalmodel, de evaluatiesets en research papers worden open source gemaakt zodat ook anderen er mee aan de slag kunnen. Tegelijk zegt Meta dat dergelijke projecten nog veel verbetering vragen, maar de basis ligt er wel en biedt mogelijkheden om in de toekomst meerdere talen relatief vlot met elkaar te laten vertalen.

Wie wil kan de vertaling ook zelf proberen. Je kan iets inspreken in het Engels en je krijgt de vertaling in het Hokkien.

Voor Meta, maar ook andere technologiebedrijven die wereldwijd actief zijn, is zo'n vertaling een heilige graal. Zeker met de stappen richting metaverse is het een natte droom voor bedrijven om alle gebruikers in hun taal te begrijpen en bedienen, en idealiter ook dat ze elkaar kunnen verstaan.

Tegelijk is het ook nuttig om enorme platformen zoals Facebook of een metaverse als Horizon Worlds vlotter te monitoren voor wanneer het foutloopt. In het verleden is al gebleken dat Meta soms te laat of te beperkt reageert op incidenten in niet-engelstalige landen. Idem voor filmpjes op hun platform waar dingen in een vreemde taal worden gezegd (bijvoorbeeld dreigen met terreur, of haatspraak). In een ideale wereld kan een live automatische vertaling zulke zaken automatisch en veel sneller oppikken dan vandaag het geval is.

Waarschijnlijk heb je nog niet gehoord van Hokkien, en dat heeft een reden. Het is een taal die voornamelijk in China wordt gesproken en door Chinezen die buiten China wonen. In China zelf zijn er 28 miljoen sprekers (op bijna anderhalf miljard inwoners), in Taiwan gaat het om 13,5 miljoen sprekers en ook in landen als Maleisië, Singapore of de Filippijnen zitten telkens 1-2 miljoen sprekers. Maar de taal heeft geen geschreven basis en wordt dus alleen mondeling gebruikt.Meta AI, de AI-afdeling van Meta, werkt al een tijdje aan een Universal Speech Translator. Het wil een systeem dat in real time spraak naar spraak kan vertalen in andere talen. Volgens Meta zijn er zo'n zevenduizend levende talen, veertig procent daarvan is hoofdzakelijk mondeling.Dat kunnen vertalen is een pak lastiger dan pakweg Chinees naar Zweeds. Bij geschreven talen kan een computersysteem honderdduizenden schriften analyseren. Vaak met behulp van teksten die vrij letterlijk zijn vertaald. Hier is een andere aanpak nodig.Voor een zogenaamde low resource language als Hokkien heeft Meta hier Mandarijns (de belangrijkste taal in China) genomen als tussenstap om de taal te kunnen labelen. Tegelijk werden met spraakcodering uitspraken in semantische delen opgedeeld, zonder de nood om ze neer te schrijven. In praktijk wil dat zeggen dat Meta Hokkien naar het Mandarijns vertaalde en van daaruit naar het Engels, en omgekeerd.Om de vertalingen te evalueren werd Hokkien gestandaardiseerd naar een fonetische notatie, met een systeem dat een score geeft op niveau van de klinkers om de vertaalkwaliteit te beoordelen. Uiteraard ook met behulp van heel wat sprekers van de taal.Het Hokkien vertaalmodel, de evaluatiesets en research papers worden open source gemaakt zodat ook anderen er mee aan de slag kunnen. Tegelijk zegt Meta dat dergelijke projecten nog veel verbetering vragen, maar de basis ligt er wel en biedt mogelijkheden om in de toekomst meerdere talen relatief vlot met elkaar te laten vertalen.Wie wil kan de vertaling ook zelf proberen. Je kan iets inspreken in het Engels en je krijgt de vertaling in het Hokkien.Voor Meta, maar ook andere technologiebedrijven die wereldwijd actief zijn, is zo'n vertaling een heilige graal. Zeker met de stappen richting metaverse is het een natte droom voor bedrijven om alle gebruikers in hun taal te begrijpen en bedienen, en idealiter ook dat ze elkaar kunnen verstaan.Tegelijk is het ook nuttig om enorme platformen zoals Facebook of een metaverse als Horizon Worlds vlotter te monitoren voor wanneer het foutloopt. In het verleden is al gebleken dat Meta soms te laat of te beperkt reageert op incidenten in niet-engelstalige landen. Idem voor filmpjes op hun platform waar dingen in een vreemde taal worden gezegd (bijvoorbeeld dreigen met terreur, of haatspraak). In een ideale wereld kan een live automatische vertaling zulke zaken automatisch en veel sneller oppikken dan vandaag het geval is.