Informatie zoeken, interpreteren en samenvatten met behulp van een semantische analysemotor. De oplossing van het bedrijfje iKnow uit Diepenbeek kan het allemaal!
iKnow is specialist in ‘knowledge streaming’, het automatisch onttrekken van belangrijke informatie uit gegevens afkomstig van verschillende bronnen. Daarnaast focust het bedrijfje op ‘information forensics’, een proces dat verbanden blootlegt en complexe en ambigue informatie interpreteert, zodat gebruikers situaties snel en in real time kunnen vatten.
De ‘belangrijke informatie’ wordt als dusdanig geïdentificeerd door een semantische analysemotor. “De traditionele oplossingen structureren tekstgegevens op basis van hun conceptuele inhoud”, legt directeur en mede-oprichter Michaël Brands uit. “Maar concepten evolueren en vermenigvuldigen zich in de loop der tijden, en dit over de ganse wereld. Het essentiële is de relatie tussen de dingen, het netwerk van verbanden, denk maar aan ruimte en tijd, of oorzaak en gevolg, …”
Relationele elementen
“In de Europese talen telt men 20 tot 30.000 ‘relationele’ elementen, en om een efficiënt werktuig te bekomen moeten er al miljoenen concepten opgelijst worden. Het is met die relationele elementen dat een conceptuele context geanalyseerd kan worden.”
Neem nu een eenvoudig voorbeeld: Jan gaat naar school. “Gaat naar” is het relationele element, het verband tussen het concept Jan en het concept school. Om concepten te categoriseren (persoon, voorwerp, gebeurtenis …) moet de semantische motor minimaal vijf ‘mogelijkheden’ van dit concept identificeren, en vijf verschillende verbanden met een ander element, om te kunnen garanderen dat het geval in kwestie van een welbepaald type is (een persoon bijvoorbeeld). Als het systeem minder dan vijf verbanden ontdekt, suggereert het een klasse of resultaat, en moet de gebruiker zelf het finale oordeel vellen.
“Met een klassiek systeem dat bijvoorbeeld naar het concept ‘noise’ zoekt in een medische database met 18 miljoen artikels, zullen er misschien 50.000 resultaten gevonden worden. Ons systeem verfijnt de zoekopdracht tot 18.000 resultaten, en maakt bovendien automatisch het onderscheid tussen ‘lawaai’, en de gevolgen die worden veroorzaakt door lawaai”, zegt Brands. “Het systeem vormt automatisch een lijst met verwante concepten (duo’s of trio’s van elementen die conceptueel verbonden zijn met het gezochte concept): noise level, noise exposure, noise ratio, noisy, noise analysis… Het creëert ook een soort van nomenclatuur van onderwerpen (in ons voorbeeld : etiologie, therapie …) die worden gedefinieerd op basis van het netwerk van relaties dat zich uittekent tussen de concepten.
De iKnow-technologie kan worden gebruikt als zoekmotor, of als werktuig voor de automatische samenvatting van teksten en informatiebronnen (zie ook Early Tracks op p.15). Het bedrijf richt zich vooral op de medische sector, de media en de financiële wereld.
Semantische zeef
Drie jaar geleden gaf de Britse mediagroep Claverley zijn it-filiaal PCS (Press Computer Systems) de opdracht een applicatie te ontwikkelen voor een efficiënt beheer van de multimediale evolutie van zijn titels (inclusief internet en mobiele toepassingen), en voor het opstellen van inhoud via het internet (redactie, lay-out, planning van de advertenties …). Allemaal op basis van de Caché- en Ensemble-software van Intersystems.
PCS Knowledge beheert de gedeelde informatiestromen tussen de verschillende media (dagbladen, weekbladen …), versies (regionale edities) en dragers (papier, websites, versies voor gsm’s of e-paper).
Met de motor van iKnow kan informatie worden georganiseerd volgens semantische regels. Caché is objectgericht, dus de verschillende inhoudelijke elementen – teksten van artikels, video’s, foto’s, bronnen … – gekoppeld aan de informatie worden beheerd als ‘voorwerpen’ (niet als klassieke bestanden) en georganiseerd in ‘packages’, opgeslagen in de database. Via de semantische analyse kan men onderwerpen terugvinden die specifieke lokale doelgroepen zullen interesseren.
PCS Knowledge treedt op als orkestleider en stuurt de onderwerpen door naar de redacties die rechtstreeks betrokken zijn bij een topic. iKnow kan ook worden gebruikt voor automatische samenvattingen van teksten, kwestie van meteen ook verkorte versies op te stellen met het oog op de (redactionele of fysieke) beperkingen van verschillende media (gsm, websites …). Los van de semantische mechanismen die eigen zijn aan iKnow, verrijkt PCS de tool door zijn eigen ontologische basis uit te werken en te verfijnen om de verschillende selectie-, samenvattings- of routingregels aan te passen, al naargelang de voorkeuren van de verschillende doelgroepen of de eisen van de uitgever.
“De informatie komt van verschillende bronnen”, zegt Philip Walker, directeur van PCS. “Met deze tool kunnen we automatisch informatie terugvinden met lokale accenten, en ze labelen volgens een ontologie op basis van bijvoorbeeld geografische criteria en verbanden (streken, dorpen, delen van dorpen …), of specifieke lokale kenmerken (scholen, parlementsleden in de regio …).”
Brigitte Doucet
Fout opgemerkt of meer nieuws? Meld het hier