Toen Data News recent een conferentie over Watson bezocht, moesten we vaststellen dat de ai zes jaar na de overwinning in Jeopardy vooral veel variaties op hetzelfde kunstje toonde : het interpreteren van spraak of tekst in een bepaalde context. Watson is geen hyper-intelligent superwezen dat ons toespreekt, al onze menselijke taken meteen overbodig maakt en tussendoor nog koffie zet. Ook Peter Staar, een Belg die sinds 2,5 jaar voor IBM Research werkt bij de Cognitive Solutions & Foundations weet dat : "Machine learning kan een pak zaken maar je moet nuchter blijven : het is uiteraard niet de magic bullet. Vooral bij repetitieve taken waar er veel data is om uit te leren, kan de technologie ...

Toen Data News recent een conferentie over Watson bezocht, moesten we vaststellen dat de ai zes jaar na de overwinning in Jeopardy vooral veel variaties op hetzelfde kunstje toonde : het interpreteren van spraak of tekst in een bepaalde context. Watson is geen hyper-intelligent superwezen dat ons toespreekt, al onze menselijke taken meteen overbodig maakt en tussendoor nog koffie zet. Ook Peter Staar, een Belg die sinds 2,5 jaar voor IBM Research werkt bij de Cognitive Solutions & Foundations weet dat : "Machine learning kan een pak zaken maar je moet nuchter blijven : het is uiteraard niet de magic bullet. Vooral bij repetitieve taken waar er veel data is om uit te leren, kan de technologie veel werk uit handen nemen. De moeilijkheid bij machine learning is niet zozeer om een algoritme te schrijven, maar wel om genoeg data te vinden om het systeem op een intelligente manier te trainen. Dat wordt vaak vergeten. Voor bepaalde zaken is het vaak een paar weken leren voor de machine alles vlot herkent." Specifiek focust Staar zich op PDF parsing. "Het doel is dat een machine leert om een pdf-bestand te lezen en daar alle semantische info uit te halen. Inclusief de auteur, de titels en een correcte interpretatie van de tabellen." Dat lijkt op het eerste zicht eenvoudig als je weet dat Watson tekst kan interpreteren maar niets is minder waar. "Bij een Word document geeft het bestand zelf al aan wat een titel of subtitel is. Bij een pdf heb je enkel tekens, lijnen en waar die staan of welke grootte ze hebben. Een pdf maken is makkelijk maar alle data nauwkeurig weer uit een pdf halen is extreem moeilijk." Staar zegt dat de huidige systemen dat voor 90 procent accuraat kunnen doen. Maar Watson haalt volgens hem 99,5 procent. "Dat lijkt een klein verschil maar voor een bedrijf dat zijn financiële documenten wil analyseren is negentig procent niet genoeg. Op dat vlak doen we met Watson veel taken die al langer mogelijk zijn maar nu veel accurater kunnen." Het herkennen van pdf's is vooral belangrijk in een groter geheel. "Als je wilt weten wie een expert is in pakweg quantum computing, dan kan Watson doorheen patenten en wetenschappelijke artikels pluizen en meteen de auteurs herkennen, met de domeinen waarin ze publiceren. Ook verwijzingen naar andere werken worden herkend en zo kan het systeem bepalen wie het vaakst voorkomt en dus als de grootste expert wordt gezien." Daar zit volgens Staar ook het ideologische verschil met Google : "Zij kunnen inaccuraat zijn, zo lang je maar in de buurt zit met relevante zoekresultaten. Je weet echter niet of het ook de beste zoekresultaten zijn. Bij ons gaat het er om dat een heel specifieke vraag, bijvoorbeeld "wat is de band gap (bandkloof, nvdr.) van silicium" een exact antwoord vereist, gebaseerd op de juiste bronnen." Daarnaast wil Watson volledig de kaart van de business trekken. "Bij Google bouwen ze voor consumenten. Neem je een foto, dan zeggen ze dat het een hond is. Wij gaan ai in een zakelijke context inbouwen zodat je bijvoorbeeld in het ziekenhuis een betere zorg krijgt of zeldzame ziektes vlotter ontdekt. In wezen gaat het er om dat we op B2B-vlak het werk makkelijker en beter maken voor specialisten zonder hen te overstelpen met data." Al nuanceert hij wel dat de oplossingen van de verschillende spelers ook veel gemeen hebben : "Op zich zijn de technieken voor machine learning overal heel gelijklopend, alleen zijn de applicaties die er uit voortvloeien totaal verschillend."Pieterjan Van Leemputten