Database voor gezichtsherkenning blijkt gewoon van Flickr geschraapt
Kunstmatige intelligentie wordt getraind op gezichten van mensen die daar nooit toestemming voor hebben gegeven. Dat melden privacygroepen. Kop van jut is hier de IBM-database Diversity in Faces. Die blijkt te bestaan uit foto’s die van fotodienst Flickr werden gehaald.
IBM gaf in januari een collectie vrij van een miljoen foto’s van gezichten. Bedoeling van de database is om diversiteit te verbeteren bij het opleren van algoritmes die kunstmatige gezichtsherkenning moeten uitvoeren. De database bestaat echter uit foto’s die werden opgehaald van Flickr, zonder medeweten van de fotografen, of de ‘modellen’
De Diversity in Faces dataset is volgens IBM gebouwd op een collectie van 100 miljoen beelden met Creative Commons licentie die Yahoo (de toenmalige eigenaar van Flickr) in 2014 vrijgaf voor onderzoekers.
De dataset linkt de foto’s niet aan namen en IBM hamert er in een blogpost bij het uitbrengen van de database op dat het rekening heeft gehouden met de privacy van de mensen in de foto’s. Een deel van het probleem lijkt dan ook te maken te hebben met de reputatie van IBM, dat onder meer surveillancetechnologie verkoopt aan politiediensten. Daarmee zou het onder meer mogelijk zijn om op ‘etniciteit’ te zoeken.
De dataset werd, ironisch genoeg, gelanceerd als antwoord op eerder onderzoek waaruit moet blijken dat IBM’s gezichtsherkenning veel slechter is in het herkennen van mensen met een donker huidtype. Met de database wil IBM nu zogeheden ‘bias’ of vooringenomenheid van kunstmatige intelligentie een beetje recht trekken.
De vrees leeft nu dat de technologie die met deze database wordt ontwikkeld, in de toekomst gebruikt kan worden om Chinagewijs automatische surveillance te bouwen, een vrees die erg gevoelig ligt bij minderheden, die al vaak het gevoel hebben dat ze meer in het vizier van veiligheidsdiensten lopen.
Creative commons
De database van IBM krijgt nu veel kritiek, maar ze is lang niet de enige. Als er de laatste jaren vooruitgang is in de accuraatheid van gezichtsherkenning, dan heeft dat veel te maken met grote collecties foto’s die op het net rondzweven en door academici worden gebruikt. Veel databases worden samengesteld door het internet af te zoeken in plaats van iemand te vragen of betalen voor een foto.
In die zin is Flickr een dankbare bron. De fotodienst bood jarenlang een gratis terabyte aan opslagruimte voor fotografen, en heeft momenteel meer dan 400 miljoen foto’s die onder Creative Commons vallen. Dat soort licentie maakt het makkelijker om beelden en ander werk te delen, en legt minder restricties op dan een meer traditioneel auteursrecht. Over het algemeen maakt een Creative Commons licentie het mogelijk voor anderen om het werk te gebruiken, meestal met de voorwaarde dat het niet voor commerciële doeleinden gebruikt mag worden.
De foto’s die in Faces in Diversity database werden gebruikt, zijn ook beelden met zo’n Creative Commons licentie. Juridisch is er waarschijnlijk dus geen vuiltje aan de lucht, al konden veel van de ‘modellen’ nooit vermoeden dat ze ooit in een gezichtsherkenningsdatabase terecht zouden komen. De gezichten in de database werden zo bijvoorbeeld getagd met geslacht en leeftijd.
Een van de problemen in deze zaak is natuurlijk dat auteursrechten niet echt voorzien zijn op gebruik in machine learning databases. “Onze tools werden gebouwd om copyright op te lossen, en ze doen dat goed”, zegt Ryan Merkley, die aan het hoofd staat van de Creative Commons organisatie, aan nieuwssite Cnet, “maar copyright is geen goed werktuig om privacy te adresseren, of onderzoeksethiek, of surveillance AI.”
Fout opgemerkt of meer nieuws? Meld het hier