Met de plechtige inhuldiging van het nagelnieuwe digitaliseringslaboratorium bekende het Rijksarchief definitief kleur tegenover de buitenwereld: het zet volop in op digitalisering.
Eind oktober pronkte het Algemeen Rijksarchief met de opening van het ‘digitaliseringslaboratorium’. Dat is een speciaal ingericht, ruim lokaal, waar verschillende geavanceerde scanners staan en in hoogte verstelbare tafels, met klimaatregeling en aangepast licht. Maar het Rijksarchief getrootst zich al jaren digitaliseringsinspanningen. Het eerste digitaliseringsproject werd al in 2000 voorgesteld, gevolgd door een rist andere, zo stelde hoofd digitalisering Lucie Verachten. Sinds 2005 is binnen het ‘Digit’-project, gefinancierd door de POD Wetenschapsbeleid, een team medewerkers specifiek bezig met het online brengen van de gedigitaliseerde documenten.
Een eerste stap in de digitalisering is de creatie van metadata, zeg maar de ontsluiting van de documenten. Dat gebeurt bij het Rijksarchief volledig op basis van de bestaande standaarden voor de beschrijving van archiefdocumenten (opgemaakt volgens het ISAD(G)-principe en bewaard in xml-formaat (EAD)). In de eerste plaats werd ervoor geopteerd alle inventarissen, gidsen en andere toegangen online ter beschikking te stellen. Vandaag is op die manier 99 procent van de archiefbestanden die in de verschillende vestigingen van het Rijksarchief beheerd worden, terug te vinden via de website. Maar uiteraard is de grootste opdracht de digitalisering (en dus ook beschrijving) van de 235 strekkende kilometer archiefstukken van het Rijksarchief. Voor de creatie van die metadata heeft het Rijksarchief voltijds twee mensen in dienst die de documenten beschrijven alvorens ze onder de scanner gaan. Nog eens drie mensen doen hetzelfde met de digitale documenten.
Scannen
Dat scannen is uiteraard een belangrijke stap in het proces. Dat gebeurt ofwel in het onlangs plechtig geopende digitaliseringslabo, ofwel in de provinciale rijksarchieven zelf, ofwel door een extern bedrijf. Het Rijksarchief zelf heeft in ons land in totaal vandaag 1 A0-scanner, 2 boekscanners (kleur), 19 boekscanners (grijswaarden), 1 geautomatiseerde microfilmscanner en 14 manuele microfilmscanners. Voor specifieke archiefdocumenten is een raamovereenkomst afgesloten met een reeks (niet nader genoemde) bedrijven. Afhankelijk van het document wordt daarvoor een bepaalde leverancier ingeschakeld.
Er is trouwens goed nagedacht over de resolutie waarin gescand moet worden. De kwaliteit moet immers worden afgewogen tegen de bestandsgrootte. Na berekeningen bleek een aanvaardbare resolutie tussen 200 en 300 dpi te liggen. 200 dpi zou moeten volstaan, zo concludeerde Verachten, zelfs om in te zoomen op een detail. En de keuze voor 300 dpi betekent wel dat meer dan dubbel zoveel opslagcapaciteit nodig is in vergelijking met 200 dpi. En toch opteerde ze voor 300 dpi. “Digitalisering betekent ook een enorme investering in middelen en personeel”, klinkt de redenering. “Het is dus belangrijk dat we opteren voor een duurzame oplossing zodat de investering over enkele jaren niet opnieuw gedaan moet worden. Gezien de technische evolutie kan je vermoeden dat de kwaliteit van beeldschermen en afdrukken in de toekomst nog zal verbeteren zodat een iets hogere resolutie nuttig zou kunnen zijn.”
Eenmaal een document volledig beschreven en gescand is, volgt een kwaliteitscontrole en wordt de link gelegd tussen het beeld en de metadata. Voor de opslag op lange termijn is geopteerd voor het ‘Tiff uncompressed’-formaat, “nog steeds de veiligste keuze” (lees: vooral omdat ook de metadata in het bestand worden opgeslagen), hoewel Jpeg2000 beschouwd wordt als een aanvaardbaar alternatief. Om het bestand te kunnen raadplegen, wordt het geconverteerd naar topview, een bestandformaat dat uit verschillende lagen bestaat.
Digistore
De opslag zelf gebeurt in het nieuwe serverlokaal van het Rijksarchief, ‘Digistore’ genaamd. Dat wordt op dit moment volop uitgebouwd, zelfs met een ‘cold corridor’-systeem voor optimale koeling. EMC is er de belangrijkste technologieleverancier. “Momenteel hebben we zo’n 50 TB opslagcapaciteit”, zegt Verachten. “In de loop van de maand november is een uitbreiding met 200 TB voorzien. Een volgende uitbreiding van 200 TB is gepland voor december of januari.” Andere geplande nieuwigheden zijn een lopend testproject rond tekstherkenning en de aanbesteding rond een nieuwe zoekrobot voor de archiefstukken.
Het hoeft weinig betoog dat de investeringen in de digitalisering van het archief hoog liggen. Het geld is afkomstig van allerlei kanalen: externe financiering door de POD Wetenschapsbeleid, Nationale Loterij, de Regie der Gebouwen en het Rijksarchief zelf. Onder meer om die reden noemt Verachten het berekenen van de totale kost van de digitaliseringsinspanningen “bijna onmogelijk”…
Stefan Grommen
Fout opgemerkt of meer nieuws? Meld het hier