De Belgische integrator TenForce werkt mee aan een prestigieus onderzoeksproject van de Europese Commissie rond de exploitatie van het semantische web. “Het is de bedoeling om een soort van Google te ontwikkelen waarmee je getagde informatie toegankelijk en opvraagbaar maakt.”
Het internet werd altijd beschouwd als een instrument voor het delen van documenten, niet zozeer als een platform voor het delen van de informatie die vervat zit in die documenten. Bij het internet van morgen, ook wel het semantische web of het dataweb genoemd, gaat dat anders zijn, zo wil men ons nu toch al een tijdje doen geloven.
Tim-Berners Lee himself opperde als eerste het idee om de betekenis van informatie met computers te ontsluiten en machine readable te maken. Op dit eigenste ogenblik brengt het ‘Linked Open Data’-project van de internetgoeroe trouwens al een hele hoop gestructureerde databases en datamodellen van over de hele wereld samen in een gigantische virtuele datavijver voor web 3.0 (zie kaderstukje).
Een mooie illustratie is de website van de BBC. Sommige onderdelen van die site zijn ook in rdf-formaat beschikbaar, waardoor derden de data kunnen interpreteren en hergebruiken.
Een ander voorbeeld is DBpedia, het alternatief voor Wikipedia waarop dezelfde informatie gestructureerd en getagd is met behulp van rdf-triples.
“Het komt er nu op aan om classificaties te bouwen (‘taxonomieën’) die al deze databronnen betekenisvol kunnen ontsluiten en verwerken”, vertelt Bastiaan Deblieck van TenForce. Zijn bedrijf werd gevraagd om mee in het Europese project te stappen dat een dergelijke ‘exploitatie’ van het dataweb mogelijk moet maken.
“Het aantal inwoners per Belgische provincie vind je gemakkelijk op Wikipedia. Maar tag je die cijfers en steek je ze in een duidelijke structuur, dan kan de computer echt gaan spelen met de informatie: optellen, aftrekken, linken aan kaartjes, noem maar op. Zo worden er geautomatiseerde integraties mogelijk die verder gaan dan onze stoutste dromen.”
Concreet wil het consortium rond TenForce dus tot een soort van Google komen waarmee getagde datasets bevraagd en gecombineerd kunnen worden. Op dit moment is daar nog geen werkbare industriële software voor beschikbaar. Het project (waar 6,45 miljoen euro voor is vrijgemaakt door het Directoraat Generaal Research van de Europese Commissie) loopt over vier jaar en wordt in goede banen geleid door de Universiteit van Leipzig.
“Samen met de Universiteit van Berlijn zit Leipzig onder meer achter het DBpedia-project”, weet Deblieck. “De Britse softwareboer Open Link Group zit trouwens mee in het consortium. Onder meer de Amerikaanse president Obama en de Britse overheid gebruiken technologie gelijkaardig aan die van Open Link om hun data te verspreiden op het web.”
Ook de Commissie begint stilaan te beseffen hoe belangrijk het is om informatie beschikbaar te maken als lod, en om met enterprise ready toepassingen te komen. “Wat dat betreft zit er zelfs een missionarisclausule in ons contract”, aldus nog Deblieck. “Wij zijn verplicht om contact op te nemen met onze eigen overheid, om ze een beetje te pushen in de richting van het lod-verhaal.”
“Er zijn alleszins agentschappen waarbij dat nuttig zou zijn”, klinkt het. “Denk maar aan de VDAB of het Nationaal Instituut voor de Statistiek. Als deze instellingen hun datasets in rdf-formaat op het net gooien, is de kans dat ze gekoppeld worden aan die van de Commissie veel groter. Met als mogelijk resultaat dat de VDAB automatisch haar beroepsclassificaties zou kunnen gaan ophalen bij de Commissie.”
Voorts is er het probleem van de betrouwbaarheid. De technologie om het dataweb te ontsluiten moet zo gebouwd worden dat eindgebruikers er altijd van op aan kunnen dat de data van een betrouwbare bron komt.
“Sommige partijen willen een vergoeding voor het gebruik van de data die ze beschikbaar stellen”, besluit de medeoprichter van TenForce. “Die data moet dus traceerbaar zijn, zodanig dat je betaald kan worden telkens je informatie ergens opduikt.”
Information and Communication Technologies
Frederik Tibau
Fout opgemerkt of meer nieuws? Meld het hier