
Medische AI maakt vaker fouten bij zwarte en vrouwelijke patiënten

Een onderzoeker heeft aangetoond dat een AI-model voor het ontdekken van ziektes op x-rays aanzienlijk vaker fouten maakt bij minderheden.
De studie werd gepubliceerd in Science Advances en werd ingekeken door Science. Het gaat om onderzoek op het AI-model CheXzero, in 2022 ontwikkeld door onderzoekers van de universiteit van Standford (VS). Dat model werd getraind op een dataset van vierhonderdduizend X-rays van borstkassen van mensen uit Boston met bepaalde aandoeningen in de longen. Het model kon bij eerdere testen even goed diagnoses stellen als echte radiologen.
Maar een computerwetenschapper aan de universiteit van Los Angeles, UCLA, wou testen of het model ook aan vooroordelen (bias) leidde op basis van de trainingsdata die het kreeg. Onderzoeker Yuzhe Yang nam 666 scans uit de dataset die ook voorzien waren van informatie over het geslacht, de leeftijd en het ras van de patiënt.
Uit het extra onderzoek bleek dat het AI-model veel vaker fouten maakte in het ontdekken van ziektes bij zwarte of vrouwelijke patiënten. Ook mensen onder de veertig kregen vaker een verkeerde diagnose. Bij zwarte vrouwen werd de helft van de ziektes niet gedetecteerd door CheXzero. Het onderzoek werd nadien herhaald met scans uit Spanje en Vietnam, met dezelfde conclusies.
Dalend foutenpercentage
Uit het onderzoek bleek wel dat CheXzero iemands ras wel vrij accuraat kon voorspellen op basis van een x-ray beeld. Het was daarbij in tachtig procent van de gevallen correct, waar ervaren radiologen bij een gelijkaardige test maar de helft van de tijd juist zaten.
Bij een extra test om de vooringenomenheid te filteren, werd wel het ras, geslacht en de leeftijd bewust meegedeeld met de AI. Daarbij daalde het foutenpercentage plots met de helft.
Diversere datasets nodig
Volgens Yang ligt het probleem in de training van het model zelf. Daarin zitten proportioneel meer mannen, meer mensen boven de veertig en meer witte patiënten. De onderzoeker pleit daarom voor grotere en meer diverse datasets. Het toont, niet voor het eerst, aan dat AI-systemen getraind op een specifiek deel van de bevolking sneller fouten maakt als het die kennis ook moet toepassen op patiënten die buiten de grootst gemene deler vallen.
Fout opgemerkt of meer nieuws? Meld het hier