Canadese onderzoekers aan de Universiteit van Alberta hebben vooruitgang geboekt in het ontcijferen van een van 's werelds belangrijkste codeschriften, dat schrijven ze in hun rapport. Het gaat om het Voynich manuscript, een van 's werelds bekendste 'geheimschriften'.

Het Voynich manuscript is een document van 240 pagina's vellum perkament, gevuld met een vreemde codetaal en even vreemde tekeningen van planten, diagrammen en naakte dames. Het is genoemd naar Wilfrid Voynich, de Poolse boekhandelaar die het ding in 1912 aankocht, en niemand weet eigenlijk waarover het gaat. Omdat de tekst in een ongekend schrift is geschreven, dat een onbekende taal versleutelt, is hij bijzonder moeilijk, zo niet onmogelijk, te ontcijferen.

In de eeuw sinds de ontdekking van het manuscript, hebben heel wat linguïsten en cryptografen zich dan ook het hoofd gebroken over de tekst. Dat gaat dan bijvoorbeeld om codebrekers uit de tweede wereldoorlog, nochtans professionals in de materie, die niet erg ver kwamen met hun ontcijfering. Een en ander leidde tot theorieën dat het hier om een hoax gaat. Anderen zijn ervan overtuigd dat het allemaal de schuld is van buitenaardse wezens.

Patroonherkenning

Tijd, dan, voor artificiële intelligentie. Computeranalyse, door zijn focus op patroonherkenning, is vrij goed in het ontcijferen van dingen. Elke taal heeft letters en woorden die vaker voorkomen dan anderen. Het is de reden waarom de letter 'e' in Scrabble zo weinig punten waard is, en ook hoe men zelfs vrij complexe codetalen kan ontcijferen. Een code zoals het Vigenère Cipher, dat zo sterk was dat het doorheen de hele Renaissance dienst deed als 'onbreekbaar', werd misschien niet voor niets door Charles Babbage gebroken. Dezer dagen vindt u voor het codeschrift online een vrij simpel scriptje.

Het is dan ook verregaande patroonherkenning die Greg Kondrak, expert in taalverwerking bij de Universiteit van Alberta losliet op het Voynich manuscript om zijn doorbraak te forceren. Met de hulp van enkele studenten zou hij nu hebben uitgevist dat de tekst is geschreven in het Hebreeuws, waarbij de letters worden geplaatst in een vast patroon. Daarmee is het manuscript nog niet ontcijferd, maar het moet andere teams alvast in de goede richting sturen.

De Rechten van de Mens

Om zo ver te geraken, leerden de onderzoekers een AI op door hem de tekst van de Universele Verklaring van de Rechten van de Mens te laten bestuderen in 380 verschillende talen, in een poging om daar patronen in te vinden. Met die training op zak, analyseerde de AI het Voynich manuscript en kwam hij tot de conclusie dat de tekst met grote waarschijnlijkheid geschreven was in versleuteld Hebreeuws.

In een tweede stap, gebruikten de onderzoekers de hypothese die al door eerdere onderzoeksteams werd geponeerd, dat de tekst gecreëerd werd met alphagrammen. Daarbij worden woorden vervangen worden door een setje alfabetisch gerangschikte anagrammen. Met die techniek zou 'Datanews' bijvoorbeeld 'Aadenstw' worden. Het Canadese team schreef dus opnieuw een algoritme, deze keer om alphagrammen terug om te zetten in Hebreeuwse woorden. "Het kwam erop neer dat tachtig procent van de woorden die we zo vonden in een Hebreeuwse woordenboek stonden, maar we wisten niet of ze ook betekenis hadden in een zin," vertelt Kondrak aan techsite Gizmodo.

Google Translate

Dus ontcijferden ze de eerste zin in het manuscript, en gaven ze hem aan collega Moshe Koppel, een computerwetenschapper met Hebreeuws als moedertaal. En die kwam tot de conclusie dat het nergens op sloeg. Een extra tussenstap, via Google Translate, wist de zin wel in aanvaardbaar Engels te zetten. 'She made recommendations to the priest, man of the house and me and people'. Een beetje een gekke openingszin, maar het is dan ook een vreemd manuscript, zo lijkt de theorie te gaan.

Kondrak geeft aan dat het vooral gezien moet worden als een eerste stap, en dat historici met kennis van oud-Hebreeuws nu de tekst moeten bestuderen. Het team is wel van plan om hun AI nu toe te passen op andere oude teksten, om mogelijk nog meer manuscripten te ontcijferen.