
‘AI is nog niet goed in debuggen’

Nogal wat mensen vrezen dat kunstmatige intelligentie hun job gaat overnemen, maar voor programmeurs is dat nog niet te snel aan de orde. Microsoft Research meldt dat de technologie slecht is in het op punt stellen van code.
Hoewel de software-industrie een van de eersten is om met kunstmatige intelligentie te experimenteren, bijvoorbeeld door kleine apps te bouwen met de hulp van GitHub Copilot of een large language model, is die AI nog niet goed in het meest tijdrovende werkje van veel programmeurs: debuggen. Dat schrijft Microsoft Research.
Met Debug-gym heeft Microsoft een omgeving gebouwd die AI-modellen toelaat om bestaande code te proberen op punt te stellen. Ze krijgen daarvoor tools ter beschikking die geen onderdeel vormden van de training van de AI-modellen en moeten daar dan gaandeweg mee leren werken. AI-modellen die niet in die Debug-gym ‘getraind’ hebben, zijn eerder slecht in het debuggen, zo schrijft Microsoft. Zelfs AI-modellen die in de Debug-gym hebben geleerd hebben om met veel debug-tools te werken, zijn nog lang niet zo goed als een ervaren programmeur.
Het onderzoek is interessant, omdat de meeste bedrijven die LLM’s en andere AI-modellen inzetten, meestal de stap overslaan om die code ook te leren om met de debug-tools te werken. De resultaten daarvan gaan dus niet goed zijn. Zelfs met de Debug-gym is de succes ratio 48,4 procent. Microsoft zelfs geeft aan dat het bedrijf een toekomst ziet waar in AI suggesties kan geven om code te verbeteren, die dan moeten worden goedgekeurd door een ervaren programmeur. Het idee dat AI-agents voor veel bedrijven de dure IT-werknemers volledig kunnen vervangen, lijkt daarbij alvast veraf.
Fout opgemerkt of meer nieuws? Meld het hier