De voorbije jaren is het world wide web het slachtoffer geworden van zijn eigen succes. Er staat zo veel gefragmenteerde informatie online, dat gebruikers door de bomen het bos niet meer zien. Eén van de problemen is dat het internet altijd beschouwd werd als een instrument voor het delen van documenten, en niet zozeer als een platform voor het delen van de informatie die vervat zit in die documenten. Bij het internet van morgen, vaak het semantische web of web 3.0 genoemd, zal dat anders zijn, zo wil men ons doen geloven.
...

De voorbije jaren is het world wide web het slachtoffer geworden van zijn eigen succes. Er staat zo veel gefragmenteerde informatie online, dat gebruikers door de bomen het bos niet meer zien. Eén van de problemen is dat het internet altijd beschouwd werd als een instrument voor het delen van documenten, en niet zozeer als een platform voor het delen van de informatie die vervat zit in die documenten. Bij het internet van morgen, vaak het semantische web of web 3.0 genoemd, zal dat anders zijn, zo wil men ons doen geloven. Maar wat is semantiek eigenlijk in deze context? En waarvoor wordt de semantische technologie juist gebruikt? Iemand die ons een heel eind op weg kan helpen, is professor Robert Meersman van de Vrije Universiteit Brussel. Hij was het die in 1995 het Semantics Technology and Applications Research Laboratory (STARLab) oprichtte, en ook vandaag nog volgt Meersman de sector op de voet. "In de jaren '90 werden er miljarden documenten beschikbaar gesteld op het internet", keert de professor terug in de tijd. "Tim Berners-Lee opperde toen als eerste het idee om de semantiek, de échte betekenis van al die data op het web, met behulp van computers te ontsluiten. Maar als je machines wil bouwen om informatiebronnen te raadplegen, dan moet je ze eerst uitleggen wat een betekenis juist is, en hoe ze die betekenis uit de informatiebron kunnen halen." "Dat was een erg interessant researchprobleem, waar rond de eeuwwende verschillende communities op gesprongen zijn. Al snel ging de Artificial Intelligence community (AI) het terrein domineren, en wist ze grote sommen geld aan te boren. In het zeer recente verleden is men echter beginnen inzien dat AI toch niet altijd even geschikt is om betekenis te ontsluiten." Om een informatiebron semantisch te kunnen exploiteren, moet je ze in eerste instantie annoteren. Er moet met andere woorden een 'formeel verband' vastgelegd worden tussen de verschillende elementen in de informatiebron (tussen de zelfstandige naamwoorden, de werkwoorden, de feiten, ...) enerzijds, en de betekenis ervan anderzijds. Om de elementen te taggen, gebruikt men RDF-triples (meer uitleg in het tekstkader 'Wat is...'). Het formele verband vastleggen tussen de triples, gebeurt dan weer met behulp van een on-tologie, wat eigenlijk niets anders is dan een formele kennisbron over een bepaald domein, opgeslagen op een server. "Het is daar dat de AI-specialisten in de fout gegaan zijn", vindt Meersman. "Ze hebben geprobeerd om het hele redeneringsproces met RDF-triples in één universele taal te gieten. OWL is een mooie taal, dat wel, maar ook veel te academisch." "Beschrijvende logica leidt vaak tot erg complexe interpretaties, en het resultaat is niet schaalbaar. It'ers die databanken vol RDF-triples online plaatsen, hebben vaak geen kaas gegeten van formele logica. En bedrijven die toch grote ontologieën beginnen te schrijven, verzanden steevast in de complexiteit. Met als gevolg dat het voor grotere ontologieën bijna onmogelijk is om efficiënte softwareprogramma's te ontwerpen die gebruik maken van OWL. Dit gezegd zijnde, is men er toch mee doorgegaan. De Europese Commissie en tal van onderzoeksinstellingen hebben de voorbije jaren tientallen miljoenen euro's in op OWL gebaseerde technologieën gestoken. Ik vraag me nog steeds af waarom." Volgens Meersman hebben de onderzoekers van de VUB het geweer net op tijd van schouder veranderd. "Wij hadden gelukkig al snel door dat we het pad van de beschrijvingslogica niet moesten bewandelen", klinkt het nog. "Want opnieuw: de complexe interpretaties inherent aan OWL en description logic verhinderen schaalbaarheid. En schaalbaarheid is nodig, want de kennis over zelfs het meest elementaire domein is gigantisch groot." Een voorbeeld dat de professor vaak aanhaalt tijdens presentaties, is dat van de laserpointer. "Meestal is de kleur van het stipje op het bord rood. Mensen die kleurenblind zijn, zien misschien wel een ander rood, maar de consensus is toch altijd dat het stipje een rode kleur heeft. Hoe kan je een computer daar over laten redeneren? Er zijn twee mogelijkheden. Ofwel neem je aan dat de stip effectief rood is, en zet je hem als dusdanig in de databank onder de noemer 'rood'. Op dit soort van eenvoudige concepten zijn vrijwel alle databanken gebaseerd. Maar wat willen de AI-adepten? Dat de machine ook moet kunnen aantonen dat het wel degelijk over het concept 'rood' gaat in de toepas-singen. Dat de rode laser een golflengte van 650 nanometer heeft. En dat ook nanometer juist gedefinieerd staat." "Aan de VUB zijn we pragmatischer. Het eenvoudige akkoord dat we bijna onmiddellijk krijgen over het concept 'rood', volstaat als initieel werkinstrument. Een computer kan daar al een heel eind mee verder. Om semantiek te kunnen vatten, is het vooral zaak om tot akkoorden te komen binnen groepen van belanghebbenden. En gezien de schaalbaarheid moet je die akkoorden heel snel kunnen maken. Zo offer je de logische redeneermogelijkheden over wat je opslaat misschien tijdelijk een beetje op, maar het eindresultaat is wel dat je gemakkelijk te onderhouden en commercieel exploiteerbare ontologieën krijgt. Dàt is essentieel." "Academische onderzoeksinstellingen vonden het natuurlijk leuk om met OWL en description logic bezig te kunnen zijn, maar intussen zijn er heel wat bedrijven die om meer concrete toepassingen smeken. De jongens van Collibra, een spin-off van het STARlab, hebben dat goed begrepen. Zij stoppen de logische redenering in aparte doosjes, om ze er enkel uit te halen wanneer dat echt nodig is, op maat van de klant. In de toolsuite van Collibra wordt de basisbetekenis van een concept op-geslagen in gestructureerde natuurlijke taal, om sneller tot een akkoord te kunnen komen. Bedrijven wéten immers wel waarom bepaalde informatie in verband moet gebracht worden met andere informatie. Door het 'redeneerstuk' uit te stellen en te behandelen als een 'separate concern', kan je gemakkelijk grote en schaalbare ontologieën bouwen, die bovendien zelfs door een leek kunnen worden aangevuld." Wat er nu met het 'Linked Open Data'-initiatief gebeurt (zie tekstkader), kan eigenlijk als een eerste belangrijke tegenreactie vanuit de sector op de complexiteit van OWL worden gezien. "Linked Open Data is zeker een stap in de goede richting", vindt ook Meersman, "het is een soort van reculer pour mieux sauter, gestuurd vanuit de bedrijfswereld. Heel wat ondernemingen en instellingen komen op de proppen met grote hoeveelheden RDF-triples, met als doel hun informatiebronnen aan elkaar te linken. Op dat niveau, dat eigenlijk een stap terug is in vergelijking met description logics, zal men zeker kunnen werken met de triples. Al moet ik er meteen bij vertellen dat er nog niet veel aandacht wordt besteedt aan de kwaliteit van de links zelf. Een volgende stap zou de standaardisatie van de methode die gebruikt wordt om te linken, moeten zijn." "Bij LOD linkt men de tags zo veel mogelijk naar bestaande ontologieën -er moet immers een akkoord zijn- maar wie zegt dat de link zinvol is? Is een 2PK een auto of een oldtimer? En zijn oldtimers nog auto's? Wie beslist als die informatie niet in mijn ontologie staat, en ik het toch in mijn databank wil hebben? Google? Als Google de meest gebruikte ontologie heeft, allicht wel. Waardoor we weer een stukje afhankelijker zouden worden van de internetgigant." Hoe lang nog voor de éne applicatie de data van een andere applicatie écht gaat kunnen gebruiken? Want daar draait het toch allemaal om bij Linked Open Data? "Tot op zekere hoogte zie je dat nu al bij heel wat toepassingen", besluit Meersman. "De twee applicaties moeten gewoon annoteren volgens eenzelfde ontologie. Op het moment dat dat gebeurt, krijg je interopererende applicaties." "Overigens denk ik daarom dat het sociale web dé sturende kracht achter het semantische web gaat worden. Bij sociale media duikt de ene na de andere community op. En je ziet nu al een snel toenemende structurering opduiken van de informatie op die platformen. Het kunnen gebruiken van de informatie die daar wordt uitgewisseld, wordt steeds belangrijker. Neem nu LinkedIn. Dat bedrijfje is volop bezig met het structureren van de informatie die wij op dat platform plaatsen, en met het beschikbaar maken van die informatie voor verdere exploitatie (aan derden, om er verder over te 'redeneren'). Maar wie die redeneermodules bouwt, moet natuurlijk weten wat de informatie juist inhoudt. Eén keer dat het begrip er is, en het geconsolideerd wordt in een ontologie, krijg je een erg kostbare informatiebron."Frederik TibauAI-specialisten hebben geprobeerd om het hele redeneringsproces met RDF-triples in één universele taal te gieten.