Wie in 2020 technologie op de markt brengt kan dat bijna niet zonder ergens 'iets met AI' te doen. Maar fundamenteel AI-onderzoek is meer dan iemands leeftijd schatten of honden van katten onderscheiden. Het gaat om het streven naar kunstmatige intelligentie die zich aan alle omstandigheden aanpast, en liefst zelf leert hoe het complexere dingen aankan.
...

Wie in 2020 technologie op de markt brengt kan dat bijna niet zonder ergens 'iets met AI' te doen. Maar fundamenteel AI-onderzoek is meer dan iemands leeftijd schatten of honden van katten onderscheiden. Het gaat om het streven naar kunstmatige intelligentie die zich aan alle omstandigheden aanpast, en liefst zelf leert hoe het complexere dingen aankan. Karl Tuyls werkt sinds 2017 voor DeepMind en doet dat sinds 2018 vanuit Parijs. Daarnaast was hij onder meer professor aan de universiteiten van Maastricht en Liverpool en is hij gastprofessor aan de universiteit van Leuven. Vandaag is hij hoofd van het Game Theory team bij DeepMind, het AI-bedrijf dat Google in 2014 overnam. Karl Tuyls: Game theory is een economische theorie die handelt over beslissingen nemen in een interactieve setting. In zo'n omgeving zijn meerdere 'agents' aanwezig en die agents kunnen zowel kunstmatig als menselijk zijn. De theorie helpt ons een AI te ontwikkelen in een context waar je meer dan één AI hebt, of gewoon in een omgeving die niet geïsoleerd is met één agent die iets probeert te leren. Het spel Breakout, waar je een balk bedient die een bolletje moet terugkaatsen, is een spel met één agent. Maar zet daar meerdere agents en er moet met veel meer factoren rekening worden gehouden. Tuyls: Daar zijn heel veel facetten aan. Ik geloof zelf dat intelligentie zich ontwikkeld heeft doorheen de evolutie, waarbij het multi-agentsverhaal, het sociale verhaal van mensen die met elkaar interageren, een heel belangrijke rol speelt. Speltheorie is een vrij jonge theorie en de klassieke game theory focust zich hard op het vinden van een evenwicht. Denk bijvoorbeeld aan het Nash-evenwicht, dat bepaalt hoe een mens of een agent zich best gedraagt in aanwezigheid van andere agenten. Je kiest daarbij een strategie waarbij het te verwachten resultaat niet kan verbeteren zolang de andere agent zijn strategie niet wijzigt. Tuyls: De klassieke speltheorie is normatief, ze zegt hoe je je zou moeten gedragen als je rationeel bent. Een voorbeeld daarvan is het prisoners dilemma: Je hebt twee misdadigers, 'agents', opgepakt door de politie voor een misdaad die ze samen gepleegd hebben. Ze zitten apart in een cel en worden apart ondervraagd. Elke misdadiger heeft twee keuzes. Enerzijds kan je niets zeggen en hopen dat je medegevangene dat ook doet. Dat is de coöperatieve strategie. Doen ze dat beiden, dan krijgen ze een minimale straf. Anderzijds kan één van hen samenwerken met de politie. Dat is de defecting strategy. Als je overloopt en je partner doet het niet, dan wordt de partner gestraft maar ga je zelf vrijuit. Dat creëert een spanning en een verleiding. Ga je voor je eigen profijt, of ben je sociaal en blijf je samenwerken met hem? Tuyls: De klassieke speltheorie zegt dat je moet defecten. Dat je moet meewerken met de politie en de andere verraden, dat is het Nash-evenwicht. Terwijl de beste oplossing eigenlijk is dat je beiden blijft samenwerken, maar dat is risicovol en dus niet het Nash-evenwicht in dit spel. Waarom is defect-defect een Nash-evenwicht? Als we beiden kiezen om over te lopen, en ik hou vast aan die strategie, maar jij niet, dan kan je het resultaat niet verbeteren. Switch jij naar medewerking dan ben je slechter af. Dat is de klassieke speltheorie. Daar doen we op zich niet zo heel veel mee. Want het Nash-evenwicht is wel heel belangrijk, maar het is ook statisch. Het kan niet omgaan met veranderende omgevingen waarin AI's opereren die continu veranderen, door dingen buitenaf of door dingen die andere agenten doen. Tuyls: Een groot computerspel, bijvoorbeeld Starcraft, is een multi-agentomgeving waar je niet noodzakelijk weet wat de andere doet en verandert aan de omgeving, terwijl het wel invloed heeft op je beslissingen. Dat is imperfect information. Het verkeer is eigenlijk ook een gigantisch multi-agentsysteem. Veel mensen willen 's morgens naar Brussel om snel op hun werk te geraken. Je hoort op de radio dat er een ongeval is op de E19 en dat er een alternatieve route wordt aangeraden via de A12. Wat doe je? Tuyls: Precies. Tuyls: We werken zelf veel op het kruispunt van speltheorie en multi-agent reinforcement learning (waarbij de AI dingen uitprobeert tot hij tot het juiste resultaat komt, nvdr.). Daarbij helpt speltheorie ons om beslissingen te evalueren op bepaalde punten in het leerproces om zo tot betere beslissingen te komen. Al is het eerder een dynamische speltheorie. Tuyls: De bedoeling is dat deze systemen zelflerend zijn. Voetbal is bijvoorbeeld een multi-agentsysteem waar veel onderzoek in gebeurt. Andere agenten (bijvoorbeeld tegenspelers, nvdr.) doen dingen die je niet noodzakelijk onder controle hebt, maar waar je wel op wilt anticiperen. Hoe train je agenten met reinforcement learning zodat ze in staat zijn om daar de juiste beslissingen te nemen? Tuyls: Onze missie bij DeepMind is om AGI, artificial general intelligence, te ontwikkelen. Intelligentie die veel verschillende taken aankan en leert anticiperen op dingen die gebeuren in zijn omgeving. Tuyls: Dat evolueert, in onderzoek ontdek je ook nieuwe dingen en die geven dan weer aanleiding tot nieuwe onderzoeken. Een van de dingen waar we op gebotst zijn in een multi-agentomgeving is dat je agents kan trainen om bepaalde taken goed te doen, maar het blijkt dat een curriculum, waarbij je begint met makkelijke taken die vervolgens complexer worden, ook belangrijk is. Wat daar uit verder komt is: hoe bepaal je wat goede taken zijn om uit te leren? In AI is totnogtoe fel gefocust op het 'policy-probleem', wat je leert als AI is 'policy'. Maar er is weinig aandacht voor wat wij het 'problem-probleem' noemen. Hoe kom je met goede problemen? Wat zijn de juiste taken die je een AI moet voorleggen om hem te ontwikkelen? Tuyls: Ja. Tuyls: Ik ben al langer bezig met het bouwen van AI op basis van wat we in de natuur zien. Destijds keek ik naar hoe intelligentie in kolonies, bijvoorbeeld van mieren, ontstaat. Een mierenkolonie is een heel robuust multi-agentsysteem. Haal daar een paar mieren uit en dat blijft functioneren. Veel systemen die we als mens ontwikkelen werken zo niet. Wanneer je daar een paar bouwstenen uithaalt, ligt het plat. Toen keken we onder meer naar hoe we principes uit zo'n kolonie zelf kunnen inzetten. Voor bijen is onder andere de manier waarop ze hun voedsel zoeken enorm willekeurig. Maar hoe ze dat terug naar het nest brengen is bijzonder efficiënt. Hoe doen ze dat en kan je dat terugbrengen naar AI-robots? Aan de Universiteit van Maastricht waren we ook met roboticasystemen bezig. Kan je bijvoorbeeld een hoop kleine robotjes laten samenwerken, die nog steeds functioneren als er één of enkele uitvallen? Dat kan interessant zijn als je bijvoorbeeld op Mars aan de slag wil gaan. Maar de intelligentie bij bijen zit niet op basis van het individu. Dat individu volgt enkel zeer simpele regels, maar als alle individuele robots dat doen, ontstaat er een soort 'emergentie', intelligentie op niveau van de groep, en dat is enorm interessant. Tuyls: Dat is gelukt tot op een zeker niveau. In simulaties gaat dat heel goed, maar met robotica hangt veel af van hoe goed je hardware en sensoren zijn. We hebben die experimenten gedaan met als doel een zwerm van honderd robots, wat toen enorm veel was. Op sommige vlakken stond de hardware van toen misschien nog niet ver genoeg. Tuyls: We kunnen er in veel gevallen wel uit leren hoe intelligentie ontstaat en hoe evolutie werkt. In ons recent onderzoek proberen we reinforcement learning agents te maken die socialer zijn. Dat zie je ook in kolonies van bijen en mieren, maar in ons domein wil je vooral dat ze meer menselijk gedrag vertonen. We willen bijvoorbeeld agents die eerlijk zijn. Maar wat is eerlijk? Daar is enorm veel onderzoek naar gedaan tussen verschillende culturen waarbij mensen ultimatum games spelen. Stel, je krijgt van iemand honderd euro en je moet die verdelen tussen ons twee. Je kan zeggen 'Karl jij krijgt van mij 20 en ik hou 80'. Dat is meer voor jou, maar als ik het verwerp krijgen we beiden niets. De klassieke speltheorie zegt dat je het laagst mogelijke bod, bijvoorbeeld 1 euro, moet doen en dat ik het moet aanvaarden, want het is beter dan niets. Maar dat is niet fair. Dat is voer voor gedragseconomen en in veel culturen zal je zien dat een bod van 30 à 40 tot 50 aanvaardbaar is. In veel culturen gaan ze een te laag bod ook afwijzen. Dat is interessant, maar hoe bouw je dat in zodat onze agenten leren wat eerlijk is? Tuyls: Wel het blijkt dat het fairness concept in bepaalde culturen, in de context van ultimatum games, redelijk universeel is. Behalve dat in de ene cultuur dertig euro aanvaardbaar is, en in de andere twintig euro. Geen enkele bevolkingsgroep volgt daar de klassieke speltheorie. Tuyls: Dat heeft een enorme rol gespeeld. In de jaren zeventig was men ook al bezig met belangrijke onderzoeksvragen in AI, maar men had gewoon de computerkracht niet om het uit te werken. De hoeveelheid data en rekenkracht van het afgelopen decennium hebben een enorme rol gespeeld in het efficiënt trainen en zorgt ervoor dat we bepaalde grenzen doorbreken rond kunstmatige intelligentie. In mijn eigen doctoraatsonderzoek begin jaren 2000 was ik al bezig met multi-agent learning, maar de rekenkracht om dat te doen was er toen niet. Veel algoritmes van 15 tot 20 jaar geleden worden nu heruitgevonden, maar in de context van diep-neurale netwerken waarvoor die kracht en data er nu wel is. Tuyls: Dat voorspellen is heel moeilijk. Er zijn nog altijd aspecten van het menselijk brein die we niet goed begrijpen en die heel belangrijk zijn. Maar het is ook belangrijk om menselijke controle te houden: dat AI onder controle staat van mensen en in een juist kader wordt ingezet. Uiteraard gaan we binnen vijftig jaar veel verder staan, maar het moment dat we AGI gaan bereiken is heel moeilijk te voorspellen. Daar durf ik geen tijdstip op te plakken. Je ziet die evolutie ook in fabrieken. De eerste robotarmen zijn heel statische armen die repetitieve taken doen. Recenter kijkt men naar mobiele robotarmen die ook samen met mensen kunnen werken. Dat vraagt heel veel onderzoek, maar daar gaan we heel veel vooruitgang zien in de nabije toekomst. Tuyls: Voor mij persoonlijk is dat die 'problem - problem'. Dat is een key enabler op de weg naar AGI. We kunnen het al op een vrij abstracte manier. Maar hoe doe je dat met heel concrete taken en omgevingen? Waar komen die vandaan, wat zijn de essentiële taken die moeten gekraakt worden? Als we dat probleem oplossen kunnen we een hele stap vooruit. Tuyls: Precies. Er niet van uitgaan dat de omgeving waarin je leert een gegeven is, zodat we niet de beste AI ontwikkelen voor één specifieke omgeving. Daar is nog enorm veel werk te doen. Ook op taalvlak. Hoe ontstaat taal en als je agents hebt die een probleem moeten oplossen, hoe ontwikkelen die een taal onderling? Kan je een AI nog sterker maken in het communiceren met mensen? Er liggen nog grote uitdagingen bij natuurlijke taal, grammatica, betekenis en semantiek, of van de ene taal naar de andere gaan. Ook in dat domein staat veel te gebeuren.