Er is een andere manier om kunstmatige intelligentie taal te doen leren, ontdekten twee Belgische academische AI-onderzoekers. Niet door statistische voorspellingen te doen op basis van reusachtige hoeveelheden tekst, wel op de manier waarop ook een kind een taal leert: via directe interactie met de wereld. Meteen opent dat ook nieuwe perspectieven voor robotica.
Wanneer ChatGPT, Claude of LLaMA een antwoord afleveren op een ingewikkelde vraag lijkt het vaak alsof het taalmodel in kwestie je helemaal begrepen heeft, maar in realiteit ‘snapt’ het helemaal niets. ‘Ze hebben vooral geleerd om het volgende woord te voorspellen’, zegt Paul Van Eecke, docent aan het Artificial Intelligence Laboratory van de Vrije Universiteit Brussel. ‘Ze genereren tekst op basis van enorme hoeveelheden geschreven data op het internet, waarop dan statistische berekeningen worden losgelaten. Dat geeft indrukwekkende resultaten, maar het is fundamenteel verschillend van hoe mensen taal leren.’
Maar computers moeten dat laatste op termijn ook kunnen, denken Van Eecke en Katrien Beuls, hoofddocent computationele taalkunde aan de universiteit van Namen. Samen ontwikkelden ze een artificieel intelligent taalmodel dat taal leert zoals mensen dat doen, en ze lieten zich daarbij inspireren door de manier waarop kinderen hun moedertaal leren: via interactie. Door actief de betekenis te ontcijferen van hetgeen wat ze ervaren in hun omgeving, produceren de AI-agents die de twee hebben ontwikkeld niet alleen taal, maar begrijpen ze die ook.
‘Door te communiceren met hun leefomgeving leren kinderen de intenties te interpreteren van diegenen waarmee ze praten: met elkaar, met hun ouders, met andere caregivers’, zegt Beuls. ‘Zo leren ze gaandeweg om taalconstructies te begrijpen en te gebruiken. Ze leren taal via betekenisvolle context, via een link tussen hun taal en de wereld.’

Experimenten
Beuls en Van Eecke bouwden daarvoor eerst AI-agents uit, waarmee ze vervolgens experimenten uitvoerden. Zo lieten ze hun agenten bijvoorbeeld zelf woorden uitvinden om naar wijnen uit een database van bijna 5.000 wijnen te verwijzen, op basis van meetwaarden als zuurte, restsuiker, alcohol en sulfaten. Na veel interacties hadden die virtuele ‘sommeliers’ een vrij consistente huistaal ontwikkeld waarmee ze elkaar begrepen. Om te refereren aan een wijn met ongeveer 12,34 gram restsuiker per liter, hadden de agents bijvoorbeeld het woord ‘zapose’ bedacht. En dat werd dan ook consistent gebruikt in hun gemeenschappelijke taal. In een andere proef leerden de agents om een soort kunstmatige ‘boekhouders’ te worden, en hun eigen woorden te bedenken voor bepaalde soorten van kredietkaarttransacties.
‘Het is niet de bedoeling om chatbots te ontwikkelen op basis van onze architectuur’, zegt Van Eecke. ‘We denken eerder aan artificiële agenten die de wereld in moeten en zelf beslissingen moeten maken. Om onderling te communiceren hoeven die zelfs geen menselijke taal meer te leren: ze zullen wellicht hun eigen taal ontwikkelen. Taal is gebaseerd op wat we waarnemen via onze zintuigen, maar die zijn veel complexer. Kleuren bijvoorbeeld: wij kennen alleen kleuren die binnen het visuele spectrum liggen. Het heeft geen zin om kleuren te kennen die we niet kunnen zien. Maar bij robots is die perceptie veel beter. Wij hebben geen LiDAR, geen temperatuurssensoren. Een robot zal die wel hebben, en heeft dus ook een taal nodig die gekoppeld is aan die complexere waarnemingen.’

Betekenis en intentie
De methode waarmee Beuls en Van Eecke toekomstige taalmodellen willen ontwikkelen heeft een paar inherente voordelen op de huidige Large Language Models (LLM’s), zeggen ze. Omdat de hunne gebaseerd zijn op directe interactie met de wereld, en dus sterker geworteld zijn in betekenis en intentie, zouden ze ten eerste minder vatbaar moeten zijn voor hallucinaties en bias: ze begrijpen meer context.
‘De limieten van de huidige taalmodellen zijn inherent aan hun voorspellende natuur’, zegt Van Eecke. ‘Hoe krijg je een hallucinatie? Doordat het taalmodel woorden heeft voorspeld die misschien statistisch correct zijn, maar niets meer te maken hebben met de werkelijkheid. Bij onze methode is er wel nog altijd een link met wat het computersysteem voelt en ziet, het zit verankerd in de wereld. Ook de hoeveelheden data die onze experimentele systemen nodig hebben zijn veel kleiner, omdat ze niet met tekstuele data werken.’
Ook de grote taalmodelfabrieken zijn bezig aan contextually aware LLM’s: taalmodellen die hun antwoorden aftoetsen aan context van buiten de huidige conversatie, met elementen als de conversatiegeschiedenis, de persoonlijke voorkeuren van de gebruiker of het culturele kader. ‘Ook in de LLM’s wordt er meer en meer intentie opgenomen in de antwoorden’, zegt Beuls. ‘Alleen zitten ze nog vast aan dat voorspellende systeem en diens limieten.’
Het is ook niet dat het taalmodel van de VUB- en UNamur-onderzoekers in de plaats moet komen van bestaande modellen, vervolgt Van Eecke: ‘Het is een andere manier van taal leren, verbonden aan de ‘zintuigen’ – lees: sensoren – van een computersysteem. De modellen die we aan het uitdokteren zijn kunnen een nieuwe generatie taalmodellen worden, dat is eerder hoe we het zien. Maar misschien kunnen de twee in de toekomst wel in elkaar overgaan. Want ook dat zien we bij kinderen: eens ze voldoende van een taal kennen zien we dat er, tot op zekere hoogte, ook predictieve mechanismes spelen in hun brein. Het ene hoeft dus niet het andere te vervangen. Terwijl wij nu praten, zijn we evengoed constant hypotheses aan het maken over wat het volgende zou kunnen zijn wat we kunnen zeggen. Alleen heb je dat niet in het begin, het is niet de basis. Er valt dus een brug te slaan met bestaande taalmodellen, op applicatieniveau zou dat wel interessant kunnen worden. Maar we moeten eerst vertrekken van een basis die vanuit interactieve communicatie vertrekt, en van daaruit naar predictive statistisch leren gaan.’

Robots die hun wereld kennen
Een AI-systeem dat taal leert van zijn omgeving kan ook compatibeler zijn met robotica, denken de twee onderzoekers. Wanneer robots – bewegende computers, in essentie – nu ook taal kunnen leren vanuit hun zintuigen, staan ze weer een stap dichter bij het soort embodied reasoning dat als een essentiële stap wordt gezien in de evolutie van artificieel intelligente robots. ‘De data waarmee ons model werkt zijn sensordata, niet tekst’, zegt Van Eecke. ‘Het is multimodaal leren: het model haalt zijn informatienuit verscheidene bronnen. Zoals een mens dingen leert begrijpen en benoemen vanuit zijn zintuigen. Het feit dat je weet dat een appel sappig is, dat heb je niet geleerd van tekst of beeld, dat weet je van ervaring. We denken dan ook dat toekomstige taalmodellen meer en meer via sensoren de wereld in zullen gaan. En ja, ook misschien in robots kunnen belanden. Een robot zal misschien niet altijd online zijn, die zal in bepaalde situaties zijn plan moeten trekken om te communiceren. Dan is bijven leren via hun sensoren een betere manier.’
Het onderzoek dat Beuls en Van Eecke hebben uitgevoerd, en hebben gebundeld in hun artikel ‘Humans Learn Language from Situated Communicative Interactions. What about Machines?’, is nog pril. Er worden fondsen gezocht voor vervolgonderzoeken. Maar ze veroorzaakten alvast wel wat deining in de wereldwijde AI-gemeenschap. ‘We hebben onze ideeën voorgesteld op een internationale topconferentie onder AI-vorsers, en wat we vertelden werd alvast niet als controversieel onthaald’, zegt Beuls. ‘Er is veel interesse in de ideeën die we hebben aangedragen. De vraag is nu alleen: hoe schaal je dat op? OpenAI, Google en Meta zijn miljardenbedrijven, die hebben allemaal ingezet op de statistische benadering. Die willen dat pad waarin ze hebben geïnvesteerd natuurlijk helemaal doorzetten. Maar voor een stuk is het ook een eindig verhaal: op een bepaald moment zijn alle data gebruikt.’