MLCommons: benchmarks voor machine learning

Dries Van Damme

20-02-2025, 08:00 Bron: Data News 3 min leestijd

Meten is weten, dat geldt ook bij het evalueren en vergelijken van technologische oplossingen. MLCommons wil bij de gebruikers van technologie meer bewustzijn creëren rond het belang van benchmarking.

MLCommons is een non-profitorganisatie die naar eigen zeggen AI ‘voor iedereen beter wil maken’. Het consortium bestaat zeven jaar en telt 125 leden uit de academische wereld en de industrie. Als executive director is David Kanter binnen MLCommons verantwoordelijk voor de MLPerf-benchmarks die AI – en meer specifiek machine learning – naar een hoger niveau moeten tillen. Data News ontmoette Kanter in het kader van de IT Press Tour in Silicon Valley. ‘We zijn hiermee gestart omdat er geen goede benchmark voor machine learning bestond.’

MLPerf positioneert zichzelf als de open, collaboratieve industriestandaard voor het meten van de prestaties en energie-efficiëntie van AI. Daarbij is het benchmarkwerk van MLCommons niet enkel afgeleid van MLPerf, het bouwt er ook doelbewust op voort. Met meer dan 50.000 MLPerf-benchmarkresultaten op het palmares, noemt David Kanter het creëren, uitvoeren en beheren van die benchmarks een van de belangrijkste activiteiten van zijn organisatie.

Open en eerlijk

Het gebruik van MLPerf als basis voor benchmarks moet MLCommons toelaten om op termijn een representatieve benchmarksuite voor AI aan te leveren. Die moet in staat zijn om de systeemprestaties eerlijk te evalueren. Daarbij moet de suite aan een aantal doelstellingen voldoen. Zo moeten de benchmarks repliceerbaar zijn om betrouwbare resultaten te garanderen. De gebruikte workloads moeten representatief zijn en reële gebruiksscenario’s weerspiegelen. De benchmarks moeten innovatie stimuleren om de stand van zaken op het gebied van machine learning te verbeteren en de vooruitgang in machine learning versnellen door nuttige of zinvolle metingen voorop te stellen.

‘Een benchmark moet op een open, eerlijke en transparante wijze gebeuren, zodat iedereen de resultaten ervan kan vertrouwen’

‘Het belangrijkste is dat de benchmarks op een open, eerlijke en transparante wijze gebeuren,’ benadrukt David Kanter, ‘zodat iedereen de resultaten ervan kan vertrouwen: de kopers van de technologie, uiteraard, maar ook concurrerende technologiebedrijven, bijvoorbeeld. Als non-profitorganisatie zijn het de leden van onze community die ons aansturen en financieren. Tegelijk is het aan ons om die leden eerlijk te houden. Dat is net het punt van een neutrale en betrouwbare organisatie.’

Beter is sneller

In die zin helpen benchmarks volgens Kanter ook om een community bij elkaar te brengen rond één gemeenschappelijk streefdoel. In dit geval: het verbeteren van de technologie voor machine learning. ‘Het doel van benchmarken is in eerste instantie om iedereen op één lijn te krijgen over wat die verbetering precies inhoudt,’ verduidelijkt hij, ‘en om ons als industrie de juiste richting uit te sturen. Want dat is hoe we collectief het snelst vooruitgaan, zoals ook een roeiboot sneller vooruitgaat als alle roeiers met elkaar in harmonie zijn en perfect synchroon roeien.’

‘Beter’ in het geval van machine learning is ‘accurater’, ‘veiliger’, ‘efficiënter’, maar bovenal ‘sneller’. ‘Bij het benchmarken is snelheid voor ons het belangrijkste criterium’, geeft Kanter aan. ‘Als we het over de training van ML-modellen hebben, bijvoorbeeld, dan meten wij in eerste instantie de ‘time to train’.’

Data + model + compute = innovatie

Terwijl de introductie van big data de resultaten van machine learning enerzijds accurater heeft gemaakt, heeft ze anderzijds de nood doen groeien aan grotere modellen om te leren uit die data. Alleen: als de omvang van de modellen voor machine learning om de twee jaar met een factor 240 of meer toeneemt, dan moet ook de rekenkracht volgen. Zonder extra rekenkracht en snelheid stopt de innovatie. Meer rekenkracht vraagt natuurlijk ook meer energieverbruik. Ook daar wil de benchmark op inspelen: een beter zicht krijgen op hoe je de vraag naar compute en de benodigde energie in balans houdt.

‘Om onze prestaties correct in te schatten, moeten wij ons daarom afvragen hoe wij het als industrie doen ten opzichte van de wet van Moore’, besluit David Kanter. ‘En het antwoord is: veel, veel beter. We hebben die wet al meermaals over een langere periode met wel factor tien weten te overtreffen. Afhankelijk van hoe je ernaar kijkt, zijn we in ongeveer vijf jaar tijd tot vijftig maal sneller geworden. Daar ben ik erg trots op, al moeten wij tegelijk ook bescheiden blijven: uiteindelijk meten wij maar de snelheid. Het is onze bredere community die de snellere systemen bouwt.’

Lees meer over: