Multimediale en tekstuele informatie, in eender welke taal, mooi gerangschikt op inhoud: dat lijkt de toekomst van de zoektechnologie. De Legal Informatics and Information Retrieval-groep (LIIR) van de KU Leuven coördineert daarrond een IWT-project, Amass++ genaamd.
Het is een open deur intrappen, maar alle informatiewerkers worden dagelijks geconfronteerd met massa’s tekst, maar ook met videobeelden. Het bos nog door de bomen zien is vaak moeilijk. De KU Leuven coördineert een vierjarig SBO-project (strategisch basisonderzoek) bij het IWT om die problematiek technologisch aan te pakken: Amass++, dat staat voor Advanced Multimedia Alignment and Structured Summarization. Het project wordt geleid door professor Marie-Francine Moens.
“Het globale opzet van Amass++ is om informatie – tekst in verschillende talen en beelden – te herkennen, de vergelijkbare content te ‘aligneren’ (bij elkaar plaatsen en elkaar doen aanvullen), te synthetiseren over de talen heen en in verschillende bruikbare en duidelijke interfaces ter beschikking te stellen”, legt Moens uit. “We kunnen dus tal van onderzoeksvragen stellen: hoe kan je verschillende beelden van eenzelfde iets herkennen? Hoe herken je dezelfde inhoud in verschillende talen? Hoe kan je die content aligneren, over beelden en talen heen? Wanneer toon je de synthese in tekst, wanneer in beeld? En ga zo maar door.”
Audio
Het hoeft geen betoog dat de expertise voor het onderzoek uit diverse hoeken moest worden geplukt. De LIIR is gespecialiseerd in informatieherkenning, de Leuvense ingenieursgroep Visics zorgt voor de technologie voor beeldherkenning, het Centrum voor Computerlinguïstiek staat in voor de taalproblematiek en de interfaces worden geleverd door het Expertisecentrum voor Digitale Media (EDM) van de Universiteit Hasselt.
Multimedia is ook geluid, maar dat lijkt bij Amass++ te ontbreken. “Klopt, die hebben we in dit basisonderzoek even achterwege gelaten. Het is nu al een erg ambitieus project”, legt Moens uit. “Al hebben we wel professor Werner Verhelst van de Electronics and Informatics (ETRO) -afdeling van de VUB aangesproken om ons bij te staan als consulent rond audio. Op termijn moet die geluidscomponent zeker kunnen worden toegevoegd, de idee van crossmediale verwerking van informatie indachtig.”
Commerciële producten
De interesse uit de bedrijfs- en overheidswereld is enorm. Agfa Healthcare, de federale overheidsdienst Justitie, SAS, Telenet of VMMa, zijn maar enkele partners van het project. Dat wat in academische bewoordingen het ‘valorisatieperspectief’ wordt genoemd, is dan ook ten volle aanwezig. Hoewel het onderzoek van Amass++ zich zal toespitsen op nieuwsinformatie, afkomstig van Nederlandstalige en Engelstalige bronnen, beseffen de partners namelijk dat de toepassingsdomeinen van de technologie legio zijn: in de medische wereld, waar beeldmateriaal en tekstuele informatie al hand in hand gaan, als krachtige dataminingtechnologie voor de politie (vb. in terrorismebestrijding),… De industriële partners zijn betrokken bij de zesmaandelijkse vergaderingen van Amass++. Na het project is het de bedoeling dat de technologie aan hen wordt doorgegeven. Zij kunnen die dan verder ontwikkelen en in sommige gevallen verwerken in eigen commerciële producten.
Amass++ ging in mei van start. “Ons voorbereidend werk – het verzamelen van (nieuws)data en het opkuisen ervan – is achter de rug”, aldus nog Moens. “We zijn nu begonnen met het schrijven van de algoritmen, wij voor tekstherkenning, onze collega’s voor beeld.” Het eerste grote onderdeel van het onderzoek, inhoudsherkenning en de alignering van de content, zou moeten zijn afgerond rond de 30ste onderzoeksmaand. Vanaf dan kunnen de andere hoofdstukken worden aangesneden, het maken van de syntheses en het aanbieden van geschikte visualisaties en interfaces. In 2011 moet Amass++ worden afgerond.
Stefan Grommen
Fout opgemerkt of meer nieuws? Meld het hier