Els Bellens
Machine learning: het zijn ook maar mensen
Via machine learning en algoritmes bouwen we steeds vaker artificiële intelligentie die op eigen houtje dingen kan beslissen of berekenen. Maar die AI is lang niet zo objectief als velen lijken te denken, schrijft Data News-redactrice Els Bellens.
In Australië komt Volvo tot de conclusie dat het sensorsysteem waarmee zijn zelfrijdende auto afstanden berekent geen kangoeroes herkent. Op zich is het een fait divers, een drempeltje in de ontwikkeling van de zelfrijdende auto. Een komkommer in zomerse nieuwstijden, zelfs. Maar tegelijk is het ook een heel mooi voorbeeld van wat ik voor de gemakkelijkheid maar ‘developer bias’ zal noemen. Het idee dat al die algoritmes en machine-learningtoestanden ook maar door mensen worden ontwikkeld. En mensen vergeten al eens dingen.
Je kan je namelijk makkelijk voorstellen dat zo’n Zweedse of Amerikaanse Volvo-ontwikkelaar niet meteen aan de botsende beestjes denkt. Ze komen amper voor in diens dagelijkse leven. De in noordelijke streken iets voor-de-hand-liggender eland wordt bijvoorbeeld wel makkelijk herkend.
Een gelijkaardig, zij het iets pijnlijker, fenomeen zie je gebeuren bij gezichtsherkenningssoftware. De code voor dat soort software wordt meestal initieel geschreven en getest door de (veelal blanke, mannelijke) programmeurs van dienst en – menselijk als ze zijn – denken die niet altijd aan andere huidtypes. Het gevolg laat zich raden. Gezichtsherkenningssoftware heeft een lange, kwalijke geschiedenis als het gaat om het herkennen van zwarte gezichten. Toen de Microsoft Kinect, een camera voor de Xbox gameconsole, in 2010 uitkwam, werd hij als racistisch aanzien omdat hij donkere gezichten niet kon herkennen. “Een probleem van lichtinval”, zei ook HP, toen uit een veelbekeken YouTube-filmpje bleek dat de ‘face tracking’ functie van zijn camera moeite had met het volgen van een zwarte medemens, maar niet met zijn blanke collega.
Gezocht: ethicus (m/v) om machines te leren denken
Ergens is het logisch. We zijn maar mensen en mensen worden beïnvloed door hun omgeving en ervaringen. Een studie uitgevoerd aan de universiteit van Texas berekende bijvoorbeeld dat software die in Oost-Azië werd ontwikkeld, beter was in het identificeren van Aziatische gezichten. Terwijl software gemaakt in Noord-Amerika dan beter was in het identificeren van blanke gezichten. Volgens hoofdonderzoeker Jonathon Phillips heeft veel te maken met de datasets waarop de machines werken. “Artificiële intelligentie leert van de voorbeelden waarmee het getraind werd, dus als je ze niet de juiste mix van gezichten aangeeft, dan is ze misschien niet in staat om dingen in de echte wereld te herkennen,” aldus Phillips in een interview in de krant The Guardian. “Als je maar weinig beelden uit een bepaalde etnische subgroup gebruikt, bijvoorbeeld, dan zal de AI niet zo goed presteren bij die groep.”
Het is daar dat het vaak mis gaat. Denk aan beauty.ai. De ‘eerste internationale schoonheidswedstrijd met een artificiële intelligentie als jury’. Het zou voor het eerst zijn dat er ‘objectief’ over schoonheid werd beslist, door een AI die vrij was van vooroordelen. Meer dan zesduizend mensen stuurden hun foto in, van over heel de wereld. Gek dan, dat de grote meerderheid van de 44 winnaars blank waren. Zoals één onderzoeker het aan de website Vice uitlegde, lag het probleem bij de dataset. De voorbeelden waarop het algoritme getraind waren, hadden niet de juiste balans qua ras.
Machine learning is maar zo goed als de datasets waarop het gebaseerd is
De New York Times heeft het ondertussen al over het ‘white guy’ probleem van AI: het idee dat die toestellen en algoritmes in de eerste plaats voor en door blanke mannen gemaakt worden. Leuk voorbeeldje: heeft u zich ooit al afgevraagd waarom al die vriendelijke, uiterst hulpvaardige digitale assistenten (de Alexa’s, Siri’s en Cortana’s) standaard stuk voor stuk zoetgevooisde dames zijn? Terwijl Samuel L. Jackson bestaat. Maar het gaat natuurlijk veel breder dan dat. Het zou te lui zijn om het gewoon op enkele programmeurs te steken.
Machine learning is zo goed als de datasets waarop het gebaseerd is. In principe gebruikt de technologie algoritmes om gegevens te verwerken, patronen te berekenen en enorm slimme berekeningen, beslissingen en voorspellingen te maken. Daar zijn leuke dingen mee te doen. Zoekmachines, gezichtsherkenning, digitale assistenten, noem maar op. En hoe meer data ze krijgen, hoe beter het algoritme wordt. Het is een van de redenen waarom data zo’n kostbaar goed is dezer dagen. Maar zoals alles wat leert, gaan ook machines inherente voorkeuren oppikken.
Al wordt ook maar door mensen ontwikkeld. En mensen vergeten al eens dingen
Een boeiende studie uit 2016 naar vooroordelen in machine learning stelde bijvoorbeeld dat zelfs een algoritme dat getraind werd op Google News artikels, dingen teruggeeft als ‘man staat tegenover programmeur zoals vrouw staat tegenover huisvrouw’. En weet je, statistisch gezien is dat niet eens verkeerd. Ja, de meerderheid van de it’ers zijn mannen, en jawel, er zijn statistisch gezien meer huisvrouwen dan er huismannen zijn. Maar daarom is het nog geen goed idee om dat zo in een algoritme te stoppen. Vooral als je die algoritmes en datasets vervolgens in software gaat steken die, ik zeg maar wat, door HR-departementen of jobsites worden gebruikt. Dan is het namelijk wel een probleem als it-vacatures alleen naar mannen gaan.
Zo’n dataset moet, met andere woorden, met zorg worden samengesteld. Er moet al van bij de eerste stapjes van zo’n AI-training stevig worden nagedacht over implicaties en impact op de bredere samenleving. Over ethiek en zo. Multiculturalisme. Hippie stuff. Dingen waarbij, vergeef me het vooroordeel, de it’ers in Silicon Valley, met hun vaak uitgesproken ‘bro culture’, misschien niet meteen stilstaan. Nu technologie steeds meer invloed op ons leven krijgt is dat nochtans een belangrijke basis. Als een zelfrijdende wagen moet kiezen of ie mij al dan niet omver rijdt, dan wil ik wel dat iemand, liefst meerdere iemanden, daar ergens toch stevig over hebben nagedacht. Iets waar MIT alvast mee bezig is, trouwens. Het biedt misschien nog boeiende carrièrekansen voor een master moraalfilosofie of ethiek. Gezocht: ethicus (m/v) om machines te leren denken.
Of zouden we dat probleem toch met een algoritme kunnen oplossen?
Fout opgemerkt of meer nieuws? Meld het hier