Bepalen welke zinnen in Wikipedia-artikels moeten gestoffeerd worden met een verwijzing naar een wetenschappelijke publicatie: het is geen triviale taak. Zelfs ogenschijnlijk voor de hand liggende claims zoals 'de lucht is blauw', hebben toch nood aan bronvermelding, zo merkt de online encyclopedie op.

In heel wat artikels ontbreken zulke referenties - in een kwart van de Engelstalige artikels staat er zelfs geen enkele. Artificiële intelligentie moet de Wikipedianen nu tonen aan welke nog niet onderbouwde claims ze prioriteit moeten geven.

"Na een uitgebreide studie, uitgevoerd met Engelse, Italiaanse en Franse Wikipedia-redacteurs, hebben we een lijst met regels opgesteld om te bepalen welke zinnen een citatie nodig hebben. Deze resultaten hebben we gebruikt om een machine learning-model te trainen dat kan voorspellen of een bepaalde zin al dan niet ondersteund moet worden door een verwijzing", legt de Wikimedia Foundation uit in een blog.

Dat algoritme kan nu voor negentig procent van de zinnen correct aanduiden of een verwijzing naar wetenschappelijke studies nodig is of niet. Het algoritme werd ook geleerd om aan te geven waarom dat nodig is, door het te laten kiezen uit acht redenen. In 62 procent van de gevallen werd de juiste reden aangegeven.

De technologie kan voorlopig enkel gebruikt worden voor Engelstalige Wikipedia-pagina's, maar moet de komende drie maanden ook beschikbaar worden voor andere talen.

De Wikimedia Foundation, de overkoepelende vzw die zich inzet voor de verspreiding van kennis, heeft haar dataset en haar onderzoekspaper vrijgegeven en zal binnenkort ook de software voor iedereen beschikbaar maken.

© Randall Munroe