Hoe het ‘digitale zwarte gat’ vermijden?
Wat zal er over 30 jaar nog overblijven van het digitale patrimonium dat we nu aan het opbouwen zijn?
Wat zal er over 30 jaar nog overblijven van het digitale patrimonium dat we nu aan het opbouwen zijn? Voor het eerst in de geschiedenis produceren we content in overvloed, die natuurlijk niet duurzaam is in de tijd. Aangezien de opslagcapaciteiten nog nooit zo groot waren en de bijbehorende kosten nog nooit zo laag, is de verleiding groot om te denken dat het volstaat om het digitale patrimonium op te slaan om het in stand te houden. Maar beschermen is in dit geval niet hetzelfde als redden.
Het gevaar dat digitale gegevens verloren gaan, is een onderwerp dat iedereen aanbelangt. Als we dit gevaar aankaarten, waarschuwen we de opinie enkel voor de fysieke broosheid van de opnamedragers. Er bestaat echter nog een meer verraderlijk gevaar.
In de praktijk is het verlies van data omdat de fysieke dragers waarop ze opgeslagen zijn beschadigd geraken, minder groot dan het verlies vanwege het formaat. Men beseft te laat dat gegevens niet meer bruikbaar zijn omdat het formaat van het bestand waarin het opgeslagen is niet meer herkend kan worden, of omdat het formaat niet de informatie opslaat die nodig is voor de gewenste conversie.
We hebben bijvoorbeeld voor een grote persgroep gewerkt die haar digitale foto’s op cd’s wilde recupereren om ze in een raadpleegbare database te stoppen. Zo verwerkten we meer dan 10.000 cd’s/dvd’s om de beeldbestanden te recupereren. Slechts 0,33% van al deze dragers was volledig onleesbaar geworden. Er waren daarentegen wel heel wat problemen om de inhoud van de 800.000 bestanden te recupereren. De eerste moeilijkheid die we tegenkwamen had te maken met een slecht beheer van de gearchiveerde bestanden. De mengelmoes in de mappen met beeldbestanden en bijbehorende bestanden (20%) die door de gebruikte software aangemaakt waren, maakt het ingewikkeld om de drager te raadplegen. Bovendien waren de bestandsnamen niet op een genormaliseerde manier gegeven, zodat de bestanden onverenigbaar (2%) zijn met de huidige omgevingen. De tweede en belangrijkste moeilijkheid is de ondoorgrondelijkheid van de formaten. We kwamen bestanden tegen die geen suffix hadden of die een suffix hadden dat niet overeenstemde met het effectieve grafische formaat van het bestand. We moesten de formaten bepalen door de ‘image’-bestanden te confronteren met een basis van handtekeningen van digitale formaten die meer dan 3.500 entries bevatte. Ondanks deze confrontatie stelden we vast dat 16% van de bestanden niet gerecupereerd kon worden omdat ze met geen enkel getest grafisch formaat gelezen konden worden. Deze bestanden worden als verloren beschouwd omdat ze in een te archaïsch formaat zijn opgemaakt of omdat ze definitief naar de vaantjes zijn.
Het probleem heeft rechtstreeks te maken met het overwicht van proprietary formaten. In vele gevallen worden de documenten bewaard in native formaten van de gebruikte software. Ofwel gaat het om volkomen ondoorgrondelijke proprietary formaten of om gedocumenteerde formaten maar waarvan de specificaties even snel evolueren als er nieuwe versies en functies komen, die voor stijgende onverenigbaarheden zorgen. Deze korte levensduur is intrinsiek aan de software-economie, die juist aangedreven wordt door licentievernieuwingen. Er is hier dus sprake van een belangenconflict tussen de software-industrie en de gebruikers.
De risico’s blijken min of meer groot te zijn naargelang het betrokken gegevenstype. Voor tekstbestanden gebruiken de meest professionele uitgevers immers al standaarden zoals xml, maar in bestanden afkomstig van prepress en multimedia en 3D zijn er tal van proprietary formaten.
De grote instellingen die instaan voor het behoud van ons patrimonium zijn zich bewust geworden van het probleem en de verschillende aspecten ervan. Ze hebben het probleem van de fragiele drager opgelost dankzij een herkopieersysteem (meer bepaald op magnetische dragers). Bovendien voeren ze experimentele emulatorplatformen in die softwarematig computerarchitecturen reproduceren die van de markt verdwenen zijn, zodat ze de oude besturingssystemen en de bijbehorende software kunnen laten draaien. Een dergelijke oplossing blijft echter moeilijk denkbaar voor particulieren en de meeste ondernemingen.
Een alternatieve oplossing is het nauwgezette gebruik van standaardformaten via de creatie van echte technische, rechtsgeldige standaarden onder de bescherming van werkgroepen. De standaardformaten hebben immers waardevolle voordelen: de gegeven specificaties zijn van zeer goede kwaliteit, ze waarborgen ondubbelzinnigheid en zijn zo gemaakt dat opwaartse compatibiliteit vermeden wordt.
De digitale inhoud redden en duurzaam maken is maar mogelijk als we ons toespitsen op de fysieke gegevensdragers. Zelfs als we de back-ups vermenigvuldigen en de gegevens voortdurend van de ene fysieke drager naar de andere overzetten, beperken we ons tot het trouw herkopiëren van een boodschap waarvan we de sleutel verloren hebben. We zouden constant strikt standaardformaten moeten gebruiken en integreren als een van de fundamentele principes van het archiveringsbeleid van digitale gegevens.
Jean-Charles Morisseau Jean-Charles Morisseau is Voorzitter van de Diadeis Groep. Diadeis komt uit de wereld van de grafische kunsten en heeft zijn dienstenwaaier geleidelijk uitgebreid naar de digitaliseringssector (digitalisering van historische fondsen met foto’s, boeken, plannen en archieven; publicatie en digitalisering van juridische werken; outsourcing van diensten) en reclameproductie.
Fout opgemerkt of meer nieuws? Meld het hier