De Wayback Machine hapert: waarom archiveert het Internet Archive ineens minder webpagina’s?

© Getty Images/iStockphoto
Kristof Van der Stadt
Kristof Van der Stadt Hoofdredacteur bij Data News

Het Internet Archive slaat sinds mei beduidend minder webpagina-archieven op. Nog zorgwekkender: veel van die websites zijn nieuwsgerelateerd.

Als je dit leest is de kans groot dat je af en toe of zelfs regelmatig al eens de ‘Wayback Machine’ van het Internet Archive gebruikt hebt. Daarmee tover je webartikels of webpagina’s van jaren en zelfs decennia geleden weer tevoorschijn. Het is een bron van onschatbare waarde die precies doet wat de naam van de non-profitorganisatie aangeeft: het archiveert het internet. Het Internet Archive is verantwoordelijk voor het archiveren van ongeveer 500 miljoen webpagina’s per dag.

Maar de afgelopen maanden lijkt de Wayback Machine te haperen, en dat is vanuit historisch standpunt toch wel zorgwekkend. Volgens een nieuw rapport van Nieman Lab waarover Mashable bericht, archiveert de Wayback Machine van het Internet Archive bepaalde websites de laatste tijd veel minder. Nog zorgwekkender: veel van van die websites zijn nieuwsgerelateerd.

Volgens het rapport van Nieman Lab heeft de Wayback Machine tussen 1 januari en 15 mei 2025 1,2 miljoen snapshots gearchiveerd van de homepagina’s van 100 grote nieuwswebsites. Plotseling veranderde dit echter midden mei. Tussen 17 mei en 1 oktober 2025 nam de archiveringsmachine ineens slechts 148.628 snapshots van de homepagina’s van diezelfde 100 nieuwswebsites. Dat is een zeer significante daling van 87 procent in het aantal gearchiveerde pagina’s tussen de eerste vier maanden van het jaar en de daaropvolgende vijf maanden. En dat roept ernstige vragen op over de volledigheid van ‘s werelds grootste digitale archief voor het recente verleden.

Storing of toch meer aan de hand?

Mark Graham, de directeur van de Wayback Machine, vertelde aan Nieman Lab dat een storing in enkele specifieke archiveringsprojecten in mei de reden is. Volgens Graham is voor sommige van de ontbrekende snapshots de indexstructuur nog niet opgebouwd en zouden deze binnenkort aan het Wayback Machine-archief worden toegevoegd. Maar volgens Nieman Lab is een vertraging van vijf maanden als gevolg van indexeringsproblemen wel zeer ongebruikelijk. Graham wijst dan weer naar ‘diverse operationele redenen’ zoals ‘de toewijzing van middelen’ zonder extra duiding of uitleg.

31 miljoen accountgegevens gestolen bij Internet Archive

Sinds 1996 heeft het Internet Archive de verantwoordelijkheid op zich genomen om webpagina-archieven van nieuwsartikelen op te slaan. Maar de non-profitorganisatie heeft de afgelopen jaren al heel wat moeilijke waters doorzwommen. Het vergt veel middelen om niet alleen het internet te crawlen, maar ook de data op te slaan en doorzoekbaar te houden. Zoals Nieman Lab meldt, bedroegen de uitgaven van het Internet Archive in 2023 32,7 miljoen dollar. De non-profit haalde datzelfde jaar slechts 23 miljoen aan inkomsten binnen. Daarnaast werd het Internet Archive afgelopen oktober het slachtoffer van een enorm datalek, waardoor de site, samen met de Wayback Machine, offline ging. Het duurde weken voordat de site volledig was hersteld, waarna zelfs nog een nieuwe aanval volgde.

Internet Archive is weer terug na cyberaanval

Internet Archive opnieuw gehackt

Juridische druk

De daling in web-crawling activiteiten lijkt niet los te staan van de zware juridische druk waaronder het Internet Archive momenteel opereert. Zo is de organisatie onder meer verwikkeld in een strijd tegen een consortium van grote uitgeverijen (zoals Hachette, Wiley en Penguin Random House) over zijn ‘Controlled Digital Lending’-programma, waarbij het scannen en uitlenen van boeken centraal staat. Daarnaast hebben grote platenlabels het Internet Archive aangeklaagd wegens het digitaliseren van oude 78-toerenplaten in het ‘Great 78 Project’.

Internet Archive redt half miljoen liedjes van de vergetelheid

Hoewel het Internet Archive geen officiële verklaring heeft gegeven die de daling van de snapshots direct koppelt aan de juridische uitgaven, lijkt de correlatie sterk. Als non-profitorganisatie is het IA afhankelijk van donaties. De middelen die nu moeten worden aangewend voor juridische verdediging tegen miljardenclaims, kunnen niet tegelijkertijd worden besteed aan de rekenkracht en opslag die nodig zijn voor het intensief crawlen van het web. ‘De timing van de daling van de Wayback Machine-snapshots valt precies samen met de periode waarin de juridische strijd van het Internet Archive escaleerde’, merkt Mashable op.

Hoe bewaar je data voor in de verre toekomst?

Fout opgemerkt of meer nieuws? Meld het hier

Partner Expertise