Het herkennen van videobeelden met behulp van AI kan onder meer worden gebruikt om ongepaste beelden op YouTube of Facebook snel te herkennen, om bewakingsbeelden te analyseren of een videobibliotheek beter doorzoekbaar te maken. Maar die video's automatisch laten herkennen vraagt heel wat training van systemen waardoor de omvang van dergelijke computermodellen vaak groot is.

Het MIT-IBM Watson Lab, een samenwerking tussen de gelijknamige Amerikaanse universiteit en IBM, komen nu met een mogelijke doorbraak die het trainen versnelt en beter toepasbaar maakt op minder zware computers. Vooralsnog gebeurt zo'n herkenning meestal in de cloud (in een datacenter), maar volgens Engadget kan dit binnenkort ook op smartphones of op edge-toestellen. Dat zijn lokale computers die data verwerken vooraleer ze naar de cloud worden gestuurd.

De essentie zit hem in hoe de AI-modellen omgaan met tijd. Vandaag worden video's verwerkt als een volgorde van beelden waaraan het computermodel het verloop van tijd koppelt. De onderzoekers hebben daarom een zogenaamd temporal shift module ontwikkeld waardoor het computermodel tijd kan inschatten zonder dat die expliciet moet worden getoond. Dat kan videoherkenning tot drie keer sneller maken.

Het blijft voorlopig bij eerste bevindingen, het zal dus nog enige tijd duren vooraleer het tot commerciële toepasisngen komt. Later deze maand wordt de methode formeel voorgesteld op de International Conference on Computer Vision in Seoul.