Pieter Abbeel: ‘Deep learning heeft voor een grote shift gezorgd’
Pieter Abbeel staat al jaren aan het hoofd van het Robot Learning Lab aan de universiteit van Berkeley, hij was een van de eerste werknemers van OpenAI en staat ook aan de wieg van Covariant, een bedrijfje dat multi-inzetbare robots maakt.
Berkeleys Robot Learning Lab leerde een paar jaar terug robots om handdoeken te vouwen. Hoe ziet uw onderzoek er tegenwoordig uit?
PIETER ABBEEL: Er zijn twee natuurlijke manieren waarop je vooruitgang kan maken in onderzoek. Je kan enerzijds een uitdaging kiezen die buiten het bereik ligt van de huidige systemen. Denk aan een robot die de was vouwt, of een afwasmachine uitlaadt. En dan ga je werken om daar in kleine stappen vooruitgang te boeken.
Een andere manier is om de grenzen van de technologie zelf te gaan opzoeken. Tot 2012 draaide veel van het werk in mijn lab rond kleine incrementele stappen richting zo’n verre uitdaging. Maar in dat jaar toonden Geoffrey Hinton en zijn studenten aan de University of Toronto aan dat je met deep learning een groot neuraal netwerk kunt leren om beelden erg goed te herkennen. Door dat netwerk veel data te voeden kan je het aanleren om te herkennen wat er in die data zit. En dat heeft voor een grote shift gezorgd.
Dus jullie zijn overgeschakeld op deep learning?
ABBEEL: Het was duidelijk dat we zo op korte tijd het meeste vooruitgang konden boeken. Bij deep learning train je in essentie een neuraal netwerk om patronen te herkennen in data. Voor robots gebruiken we een gelijkaardige techniek. Je kan bijvoorbeeld een VR-headset opzetten en via controllers de robot te ‘sturen’, zodat die dan kan leren wat hij moet doen in welke situatie. Dat is imitation learning. En die data kun je vervolgens gebruiken om een neuraal netwerk te trainen.
De robot voert zo bijvoorbeeld honderd keer dezelfde taak uit, pakweg een appel oprapen en die op een bord leggen. Het zijn relatief eenvoudige taken, maar het is interessant dat je ze dankzij deep learning toch vrij snel kan aanleren. Dat soort training leidt overigens tot zo’n 80 à 90% betrouwbaarheid. Je wil in principe een nog hogere reliability, tot 99%. Daarvoor kijken we onder meer naar deep reinforcement training. Daarbij gaat de AI leren van zijn eigen fouten, net zoals mensen dat doen. De robot verzamelt zijn eigen data: niemand moet hem zeggen wat er goed of slecht is, maar je moet wel aangeven of het een goede poging was. Het is een beetje zoals een score in een videogame.
U bent zelf bij OpenAI gewerkt, het bedrijf achter de ChatGPT llm. Hoe kijkt u zelf naar het effect dat die op de sector heeft gehad?
ABBEEL: OpenAI werd gestart door een van mijn studenten, John Schulman, eind 2015. Ik werd een van de vroegste medewerkers, samen met nog enkele van mijn studenten. Ik heb daar zo’n twee jaar gewerkt. En van bij het begin van OpenAI was het duidelijk dat de toekomst van AI ligt bij grote hoeveelheden data, omdat de intelligentie daar vandaan komt. Het draait om patronen zien in data.
Maar wilde je eind 2015, begin 2016 grote datasets, dan moest je data verzamelen en die specifiek van notities voorzien voor het doel dat je in gedachten had. Als je een taalsysteem wilde dat automatisch kon herkennen of er een positieve of negatieve ondertoon aan een artikel zit, of je wilde talen kunnen vertalen van de ene taal naar de andere, dan moest je specifieke data verzamelen voor dat doel. Je zat daar met een flessenhals qua snelheid en kostenefficiëntie.
‘Je kan AI zien als de krachtigste technologie die momenteel bestaat’
Generatieve AI, daarentegen, laat je elke data gebruiken. Je traint je netwerk gewoon om data te creëren die is zoals de gegevens in je dataset. Voor talen neem je bijvoorbeeld tekst op het internet en train je een neuraal netwerk om het volgende woord te voorspellen, gebaseerd op de vorige woorden in het artikel. Je leert het neurale netwerk in essentie om de data na te maken uit je dataset. Niemand moet dat eerst gaan annoteren en op die manier wordt het proces goedkoop, in termen van menselijke inbreng. Die inbreng is namelijk al op voorhand gebeurd, al die data leeft al op het internet.
Dat is wat we nu generatieve AI noemen, en het is een van de grote technologieën die we hadden om vooruitgang te maken. Daarnaast was het ook duidelijk dat je reinforcement learning nodig hebt, omdat het een manier is voor AI om feedback te krijgen over de kwaliteit. Die twee samen gaan de toekomst van AI vormen.
Is dat ook wat bijvoorbeeld ChatGPT heeft gemaakt?
ABBEEL: ChatGPT is generatieve AI gecombineerd met reinforcement learning. Dat is wat het doet werken. Jarenlang was men daar met pure generatieve AI bezig: gewoon het volgende woord voorspellen, gebaseerd op tekst van het internet. Maar het probleem was dat het niet deed wat men wou dat het deed. Je vroeg bijvoorbeeld ‘hoe maak ik een omelet’, en het zou antwoorden ‘Hoe maak ik een gekookt ei’, ‘Hoe bak ik spek’. Je kan je voorstellen hoe die zaken op het internet naast elkaar staan op een receptenpagina, maar daar klik je door naar het eigenlijke recept. Dat is niet wat je wil van een AI.
Dus eind 2022 besloot John Schulman om reinforcement learning te combineren met generatieve AI. Nadat de generatieve training is gebeurd, laat je de AI praten met mensen en gaan zij die gesprekken quoteren. Specifiek zou de AI twee antwoorden geven en moest de persoon aangeven welke van de twee voor hen beter was. Dat is de feedback. Uit dat proces is de conversationele bot genaamd ChatGPT gekomen.
Het verzamelen van heel veel data voor het bouwen van llm’s leidt ook tot ethische vragen, bijvoorbeeld rond auteursrecht. Hoe kijkt u daar als computeronderzoeker naar?
ABBEEL: Er zijn verschillende aspecten aan het bouwen van AI. Je gaat enerzijds AI bouwen voor commercialisering, om geld te verdienen met wat je bouwt, en anderzijds is er de pure AI-research. Daarbij ga je zoeken naar de mechanismen die de volgende generatie van AI kunnen ondersteunen. En dat laatste is iets dat je best open laat, zodat anderen daarop kunnen bouwen.
Ik denk dat als je een technologie commercialiseert, je de vraag moet beantwoorden hoe je auteurs compenseert, gezien hun data bijdragen aan het succes van AI. Er zijn daar drie partijen: je hebt degenen die AI-systemen bouwen, degenen die de data maakten en ook de partij die de AI aan gebruikers levert, meestal via de cloud. Hoe verdeel je de inkomsten daarvan? In het huidige Wild West krijgt degene die het model uitbaat ook de inkomsten. Dat is meestal ook het bedrijf dat het model heeft getraind. De mensen die de data hebben gegenereerd vallen daar vaak buiten, maar je begint nu al rechtszaken en wetten te zien die dat willen rechttrekken. De wetten moeten er voor zorgen dat niet één bedrijf zijn winsten kan maximaliseren.
‘Voor 2012 was de standaard in AI dat niets werkte hoe je wilde dat het werkte’
Idealiter zou je een systeem hebben dat de winst verdeelt. Ik weet niet hoe makkelijk dat is om te bouwen, maar je zou een splitsing kunnen hebben tussen degene die het model heeft getraind, die het host en degene die de data heeft gecreëerd waarop een specifiek antwoord is gebaseerd.
U bent nu een paar tientallen jaren in deze technologie bezig. Hebt u de indruk dat het nu ineens wel heel snel gaat?
ABBEEL: Ik denk dat onze technologie constant aan het versnellen is. Dat heeft deels te maken met het paradigma waar we nu op zitten. Tot 2012 was bijna niemand bezig met deep learning. Nu is dat de technologie waar bijna iedereen aan werkt, en ik denk dat het er voor zorgt dat die technologie veel sneller gaat. Iedereen zit op hetzelfde paradigma en naarmate je de data en de computerkracht opschaalt, gaat dat steeds beter worden.
Verbaast die snelheid u?
ABBEEL: Op dit punt niet meer, maar in het begin zeker wel. Voor 2012 was de standaard in AI dat niets werkte hoe je wilde dat het werkte. Nu gaan we er standaard van uit dat het wel in orde komt, en dat had niemand voor 2012 kunnen voorspellen.
OpenAI werkt onder meer aan een ‘algemene AI’, het idee van een AI die een hele reeks taken zo goed of beter kan doen dan een mens. Begint dat realistisch te worden?
ABBEEL: Artificial general intelligence (AGI) is deels het originele doel van onderzoek in AI, maar het was lang ook een doel dat erg veraf stond. Sinds GPT-3 in 2020 zie je echter modellen die generaliseerde functies hebben. In pakweg 2012 trainden we gespecialiseerde AI’s voor specifieke doeleinden. Maar sinds 2020 zie je dat we een AI trainen voor alle doeleinden. We bouwen een enkel model om samen te vatten, te vertalen, emoties te lezen enzovoort. Dat zou dan allemaal door één model worden gedaan, zij het ChatGPT of Gemini of nog een ander model. Dan ben je op de weg naar AGI.
Sterker nog, zo’n algemeen systeem werkt beter, zelfs als je maar om één specifieke taak geeft. Stel dat je alleen wil samenvatten, dan blijkt dat ChatGPT beter is in samenvatten dan alle andere toegewijde samenvattingssystemen. De reden daarvoor is net dat ChatGPT getraind is op alles. Alles is aan elkaar gelinkt, dus als je een model traint op verschillende tekstfuncties, wordt het beter dan de aparte modellen die voor één tekstfunctie getraind zijn. Dat zet je automatisch al op het pad richting AGI, omdat je een model maakt voor alles.
Hoe kijkt u naar de toekomst van robots? Komen die binnen afzienbare tijd naar onze kantoren? Onze huizen?
ABBEEL: Dat is iets waar ik aan werk met Covariant. Ik ben naast professor bij Berkeley ook chief scientist en mede-oprichter van dat bedrijf. We willen grote AI-modellen trainen en die voor robotica gebruiken. Het idee is om het Tesla-style te doen. Wat doet Tesla om zelfrijdende systemen te maken? Ze verkopen auto’s, en die verzamelen data waarmee ze hun zelfrijdende software kunnen bouwen. Wij doen iets gelijkaardigs met robots.
We willen robots maken die veel skills hebben en daarom verkopen we ze, zodat ze verschillende ervaringen in de wereld kunnen opdoen. De grote droom is om robots te maken die de fysieke taken doen die we zelf niet kunnen of willen doen. Als bedrijf gaan we ze in een markt zetten waar ze ingezet kunnen worden. En naarmate ze meer taken leren, kunnen ze ook ingezet worden in andere markten, tot ze capabel zijn in een hele reeks omgevingen.
We hebben daarbij lang nagedacht over de eerste markten waarin we ze wilden zetten, maar het werd voor ons snel duidelijk dat een logistiek centrum de beste markt is om te beginnen. In bijvoorbeeld een Amazon warehouse heb je een turnover rate van bijna honderd procent in een jaar. De meeste mensen kunnen niet lang in die job blijven. Het is een best saaie job die zwaar is voor je lichaam. Maar mensen willen snelle pakjesleveringen, dus daar kan een robot de leemte invullen. Onze robot moet ondertussen niet eens foto’s hebben van alle items in het magazijn, je kan hem gewoon vragen om items uit een bak te halen en in te pakken. Hij kan dat gewoon, omdat de robot getraind is op miljoenen producten.
We krijgen in die sector als bedrijf ervaring bij het uitrollen van robots, en de robots kunnen data verzamelen om beter en flexibeler te worden. En omdat alle markten gelinkt zijn, kan je van daar verder gaan. Pick and place in een logistiek centrum is interessant want het is een combinatie van navigatie en herkenning. Dus als hij daar beter in wordt, kan je bijvoorbeeld leren om dingen op te rapen van de grond. Zo kan hij bijvoorbeeld je huis opruimen.
Dus die thuisrobot komt er?
ABBEEL: De vraag is: wil iemand betalen voor een robot die je huis opruimt? En hoeveel willen ze daarvoor betalen? Ik denk dat mensen bij een thuisrobot aan iets meer denken. Zo’n robot moet kunnen koken en de was doen, dat soort dingen. We zijn nog niet op het niveau dat een robot die dingen allemaal kan, of dat wordt heel duur. En bovenop de huidige beperkingen van de artificiële intelligentie voor thuisrobots is het ook belangrijk dat de markt groot genoeg is dat je de prijs van de hardware kan drukken, en daar zijn we nog niet.
De opkomst van AI zorgt bij veel mensen ook voor angst, bijvoorbeeld om hun job te verliezen. Hoe gaat u daar als onderzoeker mee om?
ABBEEL: De vraag is wat voor toekomst we willen. Als beschaving en als mensen in die gemeenschap. Verschillende mensen gaan altijd hun voorkeuren hebben, maar er zijn ook dingen die we allemaal wel zouden willen. Zoals een behandeling voor kanker: die komt er waarschijnlijk dankzij AI. Andere dingen zoals hernieuwbare energie gaan er ook waarschijnlijk komen, en ik zie dat niet meteen gebeuren zonder een vooruitgang in AI. Maar er zijn ook meer controversiële dingen, zeker in de huidige overgangsperiode.
Ik denk dat het uiteindelijk niet aan de bouwers van technologie is om te bepalen wat de wereld daar doet. Daar hebben we overheden voor. Ik denk dat veel mensen zich bewust zijn van het feit dat het veel impact gaat hebben, en dan is het ook goed dat iedereen daarover wilt praten. Je kan het zien als de krachtigste technologie die momenteel bestaat. En zo’n technologie moet je op de juiste manier reguleren. Je moet daar nog de balans vinden tussen regulering en innovatie, en dat is niet makkelijk, maar ik denk wel dat we er komen.
Fout opgemerkt of meer nieuws? Meld het hier