Grote techspelers gebruiken YouTube voor AI-training

Pieterjan Van Leemputten

17-07-2024, 11:39 Bijgewerkt op: 17-07-2024, 12:04 Bron: Data News 3 min leestijd

Spelers als Anthropic, Apple, Nvidia, Salesforce en Bloomberg hebben meer dan 170.000 YouTube video’s gebruikt om hun eigen AI te trainen. Dat gebeurde zonder toestemming van YouTube of de makers van de video’s.

Het gaat specifiek om de ondertiteling van de video’s. Die helpen AI-systemen beter te worden om zowel video’s als tekst te genereren, of om video’s automatisch te transcriberen of samen te vatten. Daarbij is het nuttig dat de collectie video’s waaruit het leert verschillende accenten, dialectwoorden of slang bevatten die netjes staan uitgeschreven in de ondertitels.

Concreet gaat het om 173.536 video’s, voor zover bekend Engelstalig, verspreid over 48.000 kanalen. Onder meer populaire YouTubers als MrBeast en Marques Brownlee, maar ook TED talks, lessen van MIT en Harvard, nieuwsfragmenten van de BBC of talkshows zoals The Late Show en Last Week Tonight staan op de lijst.

Bij elkaar geschraapte data

De ontdekking komt van Proof News dat voor haar onderzoek samenwerkte met Wired. Het kwam uit op een nonprofit met de naam EleuterhAI, dat een openbare dataset heeft met de naam ‘the Pile’. Die omvat data van YouTube, maar ook van Wikipedia, het Europees Parlement en zelfs e-mails van het ter ziele gegane energiebedrijf Enron die tijdens de rechtszaken rond het faillissement publiek werden gemaakt.

Die publiek beschikbare dataset werd gebruikt door verschillende techbedrijven, maar ook door mediabedrijf Bloomberg. Dat is niet zomaar te achterhalen, maar Proof News zegt dat het, via vage omschrijvingen van de betrokken bedrijven over de afkomst van hun trainingsdata (bijvoorbeeld ‘een dataset van 800 GB’) kon bepalen dat het om the Pile ging.

De YouTube-ondertitels waren in principe geanonimiseerd, maar Proof News kon de geanonimiseerde identificatienummers van de video’s of hun kanalen alsnog aan elkaar linken en zo met zekerheid stellen welke video’s werden gebruikt om de dataset op te bouwen. Het bouwde ook een tool om na te gaan of een video werd gebruikt in de dataset.

Niet volgens de regels

Anthropic, bekend van de Claude chatbot, en Salesforce hebben aan Proof News bevestigt dat ze de dataset in kwestie hebben gebruikt. Nvidia zegt tegenover het medium geen commentaar te hebben. Anderen zoals Apple, Nvidia en Bloomberg reageerden niet op vragen.

Het schrapen van ondertitels voor het trainen van AI is tegen de regels van YouTube. Een woordvoerder van Google zegt aan Proof News dat het daar al jaren stappen tegen onderneemt, al gaat hij niet in detail over het specifiek gebruik voor AI-training door bovengenoemde spelers.

Ook ethisch is het een probleem. Want de makers of uploaders van de video’s zijn nooit geïnformeerd geweest, laat staan dat ze hun goedkeuring hebben gegeven om hun werk te gebruiken voor AI-training.

Ter vergelijking: Meta wou recent nog openbare data van Facebook en Instagram gebruiken voor AI. In Europa moest het daar mee stoppen nog voor het formeel van start ging, omdat het vragen kreeg van de privacyautoriteiten. In de VS gebeurt dat momenteel wel. Daar valt ook kritiek op te geven, maar gebruikers werden wel geïnformeerd.

De houding van sommige grote techbedrijven is daarbij op zijn minst flexibel te noemen. Nog geen maand geleden gaf Mustafa Suleyman, topman van Microsoft AI, te kennen dat inhoud die vrij toegankelijk is op het internet, mag gebruikt worden voor AI-training.

Dat is voor alle duidelijkheid fout. Het is niet omdat tekst, video of audio vrij te bekijken is, dat het ook vrij is van auteursrechten of dat het, zeker zonder toestemming, mag gebruikt worden voor commerciële doeleinden.

AI Vs. mensen

De ontdekking is opmerkelijk, maar ook niet helemaal verrassend. Grote AI-modellen moeten getraind worden op enorme hoeveelheden data en het is al meermaals gebleken dat AI-spelers daarvoor teruggrijpen naar publiek beschikbare data van het internet. Sommige spelers zoals OpenAI hebben ook al deals afgesloten met mediabedrijven om hun data te mogen gebruiken. Maar dat gebeurt lang niet met elk bedrijf of elk individu wiens tekst, video of audio ze gebruiken om uit te leren.

Dat schept een heel woelig maatschappelijk kader. De bedrijven die dergelijke data nu gebruiken om hun systemen te trainen, hebben een miljardenomzet of boeken heel wat winst of beurswaarde omwille van hun AI-capaciteiten, terwijl ze niet betalen voor (alle) trainingsdata.

Maar AI wordt ook elk kwartaal beter en sterker, waardoor veel werk van creatievelingen kan worden overgenomen door AI. Het maken van stilstaande of bewegende beelden met AI is een stuk goedkoper en sneller dan wanneer je een tekenaar, fotograaf of videoteam inhuurt. Velen vrezen dat ze inkomsten mislopen omdat hun werk (deels) wordt vervangen door AI, die ironisch genoeg werd getraind op eerder werk van die creatievelingen.

Lees meer over: