Nieuw project verzamelt pre-AI teksten in tijdscapsule

© Getty Images/iStockphoto
Els Bellens
Els Bellens Technologiejournaliste bij Data News

Een nieuwe site verzamelt teksten en beelden die werden gemaakt voor de introductie van AI. De inhoud wordt behandeld als een kostbaar goed, dat gearchiveerd moet worden.

John Graham-Cumming, een voormalige Cloudflare-baas, heeft het project opgestart om content te verzamelen die volledig door mensen is gemaakt. Het gaat om teksten en beelden die ‘organisch’ werden gemaakt, van voor de tijd dat machines mee in de conversatie kwamen.

Enter Low-backgroundSteel.ai. De naam van de site verwijst naar een tijd waarin onderzoekers staal verzamelden dat werd gemaakt voordat de eerste nucleaire testen werden uitgevoerd. Die kerntesten, en de radioactieve isotopen die daarbij vrijkwamen, tastten wereldwijd namelijk het nieuw gemaakte metaal aan. Voor specifieke doeleinden moesten onderzoekers dus staal en lood gaan halen uit schepen die gezonken waren voor 1945.

Iets gelijkaardigs wil low-backgroundsteel.ai dus doen voor menselijke expressie. Nu er steeds meer artikels en beelden worden gegenereerd door kunstmatige intelligentie, wordt het ook steeds moeilijker om teksten te vinden die met 100% zekerheid door een mens zijn geschreven. Dat heeft onder meer gevolgen voor onderzoeksprojecten die instanties van menselijke expressie nodig hebben. Een voorbeeld daarvan is wordfreq, een langlopend project dat taalgebruik opvolgde in een veertigtal talen. Bedoeling was onder meer om door de jaren heen de evolutie van taal te documenteren. Een van de belangrijke bronnen daar was echter het internet, maar omdat steeds meer sites zich afsluiten om tegen te gaan dat er op hun teksten getraind wordt, en omdat veel van de rest van het internet wordt gevuld met ‘AI slop’, zoals wordfreq het noemt, moest het project worden stilgelegd.

‘Model collapse’ en tijdscapsules

Het opbouwen van een archief met geverifieerde menselijke teksten heeft meerdere doelen. Een daarvan is het tegengaan van zogeheten ‘model collapse’. Het idee daar is dat als je een large language model blijft trainen op zijn eigen output, of de output van andere large language models, je op den duur zoveel data van slechte kwaliteit gaat binnenhalen dat het model in elkaar stort.

Daarnaast gaat het ook om een soort tijdscapsule van een tijd (grotendeels pre-2022) waarin men zeker is dat alles nog door effectieve mensen werd geschreven. De website lijst bijvoorbeeld een Wikipedia-archief op uit augustus 2022 (voor de eerste release van ChatGPT in november van dat jaar dus), naast meer klassieke sites zoals Project Gutenberg (boeken in het publieke domein) en foto-archieven van de Amerikaanse Library of Congress. Je kan zelf ook archieven voorstellen voor dit moderne archeologieproject.

Fout opgemerkt of meer nieuws? Meld het hier

Partner Content