Knowbel, ontstaan vanuit het Cental (Centre de Traitement Automatique du Language) van de UCL, heeft zijn toetreding tot de markt voor kennismanagement voorbereid door samen met het agentschap Belga een prototype te ontwikkelen “dat biografische informatie kan extraheren en organiseren die gebruikt kan worden in het redactieproces.” Doel en bestaansreden van het bedrijf: “software en diensten met hoge toegevoegde waarde ontwikkelen voor de productie van gestructureerde informatie op basis van ongestructureerde tekstinformatie.” Denk dan aan notulen van vergaderingen, communiqués, e-mails, of webpagina’s. Hiervoor maakt het team niet alleen gebruik van statistische technologie, maar ook – en vooral – van taaltechnologie.
Sinds zijn commerciële lancering positioneert Knowbel zich als dienstverlener op maat om informatie te extraheren. Eerste beoogde sectoren: de financiële en medische wereld. “Wij positioneren onszelf als een oplossing in aanvulling op tools als Google door te mikken op een geleide pagina-analyse. De semantische dimensie maakt de informatie nauwkeuriger”, benadrukt medeoprichter Patrick Watrin. De Knowbel-zoekmachine werkt via statistische, taalkundige en semantische hergroepering, en bepaalt de relevantie van de resultaten op basis van de documenten en concepten die van belang zijn in de context of het domein van de klant. Dit heeft niets te maken met de vermeende relevantie van de resultaten van bijvoorbeeld Google, dat zich baseert op de zoekfrequentie van de ongedifferentieerde massa internetgebruikers.
De gebruikte taalkundige engineeringtools analyseren de teksten, halen er relevante informatie-elementen uit voor de beoogde context (zoals de financiële, commerciële of medische sector) en beheren de correlaties tussen “entiteiten” (woorden of reeksen woorden die onderling verbonden zijn door vooraf gedefinieerde relaties). Een voorbeeldje: “groei van de omzet” vormt één zelfde concept.
“De taalkundige regels maken een fijnere analyse mogelijk dan enkel statistische regels”, aldus Patrick Watrin. Keerzijde van de medaille: het vergt een zwaar en langdurig (manueel) werk om elk domein te modelleren om de referentiestelsels te ontwikkelen. “Op zich is dat geen probleem,” zegt hij, “want de doelgroep verwacht werk van hoge kwaliteit en solide resultaten.” Naast de manuele ontwikkelingen steunt het team op automatische leertechnieken en specifieke algoritmen.
Knowbel werkt momenteel in het Frans, Nederlands en Engels. Indien nodig zouden er nog 17 andere talen aan kunnen worden toegevoegd.
[BD]
Fout opgemerkt of meer nieuws? Meld het hier