Met het oog op de viering van de honderdste verjaardag van het begin van de Eerste Wereldoorlog worden er allerlei initiatieven opgezet om documenten en overblijfselen in verband met de "Grote Oorlog" te verzamelen en te digitaliseren. Zo werd de Europese groep Numen (vroeger Infotechnique) vorig jaar uit enkele leveranciers uitgekozen door ProQuest om de database "Trench Journal and Unit Magazines of the First World War" te creëren (loopgraafkranten en eenheidstijdschriften uit de Eerste Wereldoorlog) op basis van documenten die bewaard worden...

Met het oog op de viering van de honderdste verjaardag van het begin van de Eerste Wereldoorlog worden er allerlei initiatieven opgezet om documenten en overblijfselen in verband met de "Grote Oorlog" te verzamelen en te digitaliseren. Zo werd de Europese groep Numen (vroeger Infotechnique) vorig jaar uit enkele leveranciers uitgekozen door ProQuest om de database "Trench Journal and Unit Magazines of the First World War" te creëren (loopgraafkranten en eenheidstijdschriften uit de Eerste Wereldoorlog) op basis van documenten die bewaard worden in het Imperial War Museum van Duxford in Groot-Britannië. Om dit project in goede banen te leiden, besloot Numen een high definition scanningatelier in te richten in de lokalen van het museum en er een gespecialiseerd team naartoe te sturen. Oorspronkelijk waren deze lokalen niet speciaal uitgerust voor dit soort operatie, want het is een gewezen militaire basis van de Royal Air Force. Op het vlak van hardware werden er bijzonder stevige A2-scanners (2 x een A3-pagina) geïnstalleerd. Het scannen zelf zorgde niet echt voor problemen, want het ging vooral om documenten die niet omvangrijk, maar wel vrij broos zijn. Naast het scannen van de afbeeldingen (in high definition), werden de teksten ingelezen via ocr (er werden meerdere talen verwerkt, waaronder Frans en Vlaams, maar ook Duits, Engels, Italiaans, Pools en Russisch, met 4 verschillende ocr-motors), voordat ze werden geïndexeerd en een xml-structuur kregen. "Er werd een semantische laag toegevoegd dankzij onze expertise in het digitaliseren van cultureel erfgoed", aldus projectleider Philippe Schweitzer. In totaal werden er 720 titels van verschillende kranten verwerkt, goed voor meer dan 120.000 pagina's. Numen voerde dit project uit in 5 maanden tijd, naverwerking inbegrepen, met 2 maanden scannen ter plaatse. Een uitdaging die volgens de projectleider des te opmerkelijker was omdat de eisen van de klant in de loop van het contract zijn veranderd (omdat de inputs van verschillende leveranciers gecombineerd moesten worden). Philippe Schweitzer benadrukt nog dat de hele infrastructuur van nul moest worden ingevoerd en dat de lokalen moesten worden aangepast. Er moest een gespecialiseerd team worden overgebracht (Numen doet een beroep op kunsthistorici en documentalisten die de te verwerken documenten begrijpen) en er kwam heel wat flexibiliteit en uiterste nauwkeurigheid aan te pas. "Er zijn maar weinig actoren in de Benelux die in staat zijn om zo'n project met succes uit te voeren", aldus nog Schweitzer. Numen had eerder al de Belgische Spoorwegen gedigitaliseerd voor rekening van Infrabel (zie Data News nr. 10 van 2013) en onlangs nog de archieven van de r&d-afdeling van Solvay ingescand. Marc Husquinet