Stichting BREIN haalt grote Nederlandstalige AI-dataset offline
Stichting BREIN, de Nederlandse anti-piraterijorganisatie, heeft ervoor gezorgd dat een grote Nederlandstalige dataset offline is gehaald. De gegevens werden gebruikt om kunstmatige intelligentie (AI)-modellen te trainen.
De stichting ontdekte na een tip dat de dataset bestond uit illegale kopieën van tienduizenden boeken, miljoenen regels uit nieuwsartikelen van websites zoals nu.nl en ondertitels van talloze films en tv-series uit illegale bron.
De maker van de dataset heeft een verklaring ondertekend waarin hij belooft geen inbreuk meer te maken en heeft informatie gegeven over wie de dataset heeft ontvangen. BREIN onderzoekt nu welke AI-modellen deze dataset hebben gebruikt en zal de betrokken partijen aanspreken.
De stichting, die auteurs, artiesten, uitgevers, producenten en distributeurs beschermt tegen illegaal aanbod, treedt op tegen onrechtmatig gebruik van AI. Directeur Bastiaan van Ramshorst van BREIN stelt in de dataset te hebben gezocht naar de letterlijke tekst:
‘Niets uit deze uitgave mag worden verveelvoudigd’. Dit leverde volgens hem meer dan 10.000 resultaten op. ‘Stuk voor stuk betrof dit illegaal gekopieerde boeken. Ook de nieuwsartikelen zijn gekopieerd van websites met auteursrechtvoorbehoud. Dit toont duidelijk aan dat de auteursrechten niet zijn gerespecteerd, een heterdaadje noemen we dat ook wel’, aldus Van Ramshorst.
De grote dataset was gecomprimeerd zodat deze makkelijk te gebruiken was door AI-computermodellen. Hoewel de dataset niet direct geschikt was voor consumenten om te lezen als e-book of nieuwswebsite, is dit niet toegestaan. Het kopiëren en dus ook het dataminen uit illegale bron is nooit toegestaan.
Ook voor het dataminen van legale bronnen met een auteursrechtenvoorbehoud is volgens BREIN toestemming van de auteursrechthebbenden vereist. Bij dataminen worden grote hoeveelheden informatie onderzocht en geanalyseerd om patronen en trends te ontdekken.