Microsoft is een van de luidste stemmen in de discussie over gezichtsherkenning en over hoe techbedrijven de juiste balans kunnen vinden tussen ethiek en winst. Het bedrijf riep op tot regulering en liet recent nog weten een verzoek van de politie in Californië te hebben afgewezen om gezichtsherkenning te installeren in auto's en draagbare camera's.

Wat Microsofts nog niet heeft aangehaald in die discussie is haar eigen publieke database om software voor gezichtsherkenning te trainen. Het was kunstenaar-onderzoeker Adam Harvey die het bestaan ervan in de aandacht bracht. Met zijn project Megapixels onderzoekt hij de privacy-implicaties van dergelijke datasets. De grootste openbaar beschikbare dataset ter wereld is MS-Celeb. De database, drie jaar geleden door Microsoft online gezet, bevat zo'n tien miljoen foto's van bijna honderdduizend personen - vooral van beroemdheden.

Al reikt de naam 'celebrity' in MS-Celeb verder dan de betekenis die Hollywood eraan geeft, merkt Harvey op. De database zou niet alleen foto's van Amerikaanse en Britse acteurs bevatten, maar ook van ambtenaren, journalisten, academici, kunstenaars en zelfs van activisten die zich kritisch uitlaten over surveillance. Alle foto's werden geüpload onder een creative commons licensie, die gebruik voor academische doeleinden toestaat. De personen in kwestie werden echter niet op de hoogte gebracht van het feit dat hun foto gebruikt wordt om gezichtsherkenningssoftware te ontwikkelen.

De Financial Times ging in wetenschappelijke AI-papers opzoeken welke commerciële bedrijven van MS-Celeb gebruikmaken. De krant vermeldt onder meer IBM, Panasonic, Alibaba, Nvidia, Hitachi, Sensetime en Megvii. De laatste twee bedrijven leveren appratuur aan ambtenaren in Xinjiang, een regio in het noordwesten van China waar gezichtsherkenning ingezet wordt om geautomatiseerde repressie te organiseren tegen de Oeigoerse moslims die daar wonen.

Enkele dagen nadat de Financial Times daarover berichtte in april, heeft Microsoft de publieke database stilletjes offline gehaald. "De website was bedoeld voor wetenschappelijke doeleinden", reageert het bedrijf nu in de krant. MS-Celeb werd offline gehaald "omdat ze werd beheerd door een medewerker die niet langer bij Microsoft werkt." Ook twee andere datasets die Harvey aan het onderzoeken was, een van Duke University en een van Stanford University, werden verwijderd.

Dat Microsoft de bijbehorende website nu offline heeft gehaald, betekent niet dat de dataset niet meer bestaat, merkt Harvey op. "Je kunt een dataset niet zomaar laten verdwijnen. Zodra je ze online plaatst en mensen beginnen ze te downloaden, blijft de dataset bestaan op harde schijven over de hele wereld," zegt hij in de Financial Times. Op zijn website toont hij dat delen van MS-Celeb nog steeds te downloaden zijn via GitHub.