De markt wordt overspoeld met AI-taalmodellen, elk met eigen sterktes en zwaktes. Hunch ziet toch nog een gat in die markt: een overkoepelende AI die de keuze voor jou maakt.
De jonge Californische startup Hunch bouwt aan wat een soort van ultieme AI-tool moet worden: one AI to rule them all, om het in filmtermen te zeggen. Hun platform kiest zelf het meest geschikte model voor een specifieke taak en fungeert zo als een slimme regisseur bovenop de bestaande AI-chaos. We ontmoeten mede-oprichter en CEO David Wilson tijdens een bezoek van de IT Press Tour in San Francisco.
Huidige AI vult beloften niet in
De opkomst van artificiële intelligentie heeft een nieuwe vorm van last met zich meegebracht: de ‘busywork tax’ zoals Wilson het noemt. Kenniswerkers besteden een aanzienlijk deel van hun tijd aan repetitieve, routinematige taken die in principe geautomatiseerd kunnen worden – hallo ChatGPT, Gemini, Copilot & co! Maar hij heeft het dan ook over het transformeren van content van het ene systeem naar het andere, zonder dat er geen of weinig meerwaarde toegevoegd wordt. Hoewel de technologie in theorie bestaat om dat allemaal te automatiseren, schieten de huidige AI-tools volgens David Wilson, CEO en medeoprichter van Hunch, toch tekort.
Waarom slagen we er vandaag niet in om ons werk te automatiseren, terwijl alle hulpmiddelen beschikbaar zijn? No-code platformen zoals Zapier zijn volgens hem vaak omslachtig en de gemaakte flows zijn broos en moeilijk te onderhouden. Simpele ‘ChatGPT-hacks’ zijn dan weer niet schaalbaar en leren niet bij, terwijl de meer geavanceerde AI-agents een te steile leercurve hebben voor de gemiddelde gebruiker. Of vaak blijven vastlopen binnen de grenzen van de vendor.
De AI die andere AI’s aanstuurt
Hunch wil deze problemen oplossen met een dubbele aanpak. Enerzijds is er het Hunch-platform zelf; een visueel canvas voor ‘power users’ die verschillende AI-modellen van diverse aanbieders zoals OpenAI, Anthropic, Gemini, Groq, Mistral en ElevenLabs aan elkaar willen knopen voor complexe taken. Anderzijds is er de nieuwe telg, Overclock – weliswaar nog in een prille testfase – die zich richt op het automatiseren van terugkerend werk via eenvoudige, Engelstalige opdrachten. ‘Describe once. Done forever’: dat is het mooi klinkende devies.

In plaats van de gebruiker te dwingen een keuze te maken, selecteert het platform zelf de meest geschikte tool voor de job. Maar bestaan daar dan geen benchmarks en een hoop vergelijkende testen over? David Wilson klinkt bijzonder kritisch over de huidige methodes om modellen te vergelijken. ‘Ik denk dat bijna elke LLM-benchmark zo goed als betekenisloos is’, stelt hij onomwonden. Volgens hem zijn die benchmarks te veel geoptimaliseerd voor een vlotte chat-ervaring, en zeggen ze weinig over de werkelijke capaciteiten van een model om een taak ook effectief uit te voeren. En vooral: effectief goed en volledig naar wens uit te voeren.
‘AI-modellen gaan uit elkaar groeien, minder modellen zie ik niet gebeuren’
Wilson denkt dat in de nabije toekomt de LLM’s oftewel de AI-modellen steeds meer van elkaar gaan verschillen, niet minder. ‘De enige manier om echt te weten welk model het beste presteert, is door ze te gebruiken. Maar wie heeft tijd om dat voor elke taak zelf, manueel uit te zoeken en telkens alle resultaten te vergelijken?’, stelt hij een retorische vraag.
Het Hunch-platform faciliteert dit door een meta-laag te bieden. Voor Overclock vertaalt zich dat in een pragmatische aanpak. ‘Wat Overclock kan doen, is een paar van de allerbeste modellen gebruiken die vandaag beschikbaar zijn, zoals Claude 3.5 Sonnet, voor de meerderheid van de taken. Voor zaken waar dat niet het beste model is, kan het delegeren naar andere, meer gespecialiseerde modellen en tools’, aldus Wilson. Als er een afbeelding gegenereerd moet worden, zal het een beeldmodel aanroepen. Moet er vooral hard nagedacht worden, dan kan het een ‘reasoning model’ zoals GPT-4o inschakelen. ‘Maar die keuze maken we met ons platform en daar hoef je als eindgebruiker niet meer van wakker te liggen. De keuze wordt door ons gemaakt en je mag er van uit gaan dat altijd het beste model voor jouw opdracht gekozen wordt’, meent Wilson.
Verdienmodel
Je hoeft als eindgebruiker van Hunch dus ook niet langer eigen accounts te openen of premium-abonnementen te kopen op al die AI-diensten. ‘Dat zit bij ons. Jij betaalt als gebruiker per opdracht, in tokens. Zijn de tokens op? Dan koop je extra tokens, zo simpel is het’, schetst de oprichter het verdienmodel. Wilson belooft ‘redelijke prijzen’, maar die formules blijken nog niet helemaal rond. Wie wil, kan Hunch gratis proberen op https://hunch.tools.

Van netwerkbeheer naar kenniswerk
De oprichters, David Wilson, Ross Douglas en Alex Leibhammer, zijn geen onbekenden in de techwereld. Ze verkochten eerder hun startup Cape Networks, gespecialiseerd in het vereenvoudigen van netwerkmonitoring met behulp van machine learning, aan Aruba wat op zijn beurt nadien in handen viel van HPE. Die ervaring met het vertalen van complexe data naar bruikbare inzichten passen ze nu toe op kenniswerk. Het doel is niet zozeer om bestaand werk volledig over te nemen, maar om taken mogelijk te maken die nu te omslachtig of te pijnlijk zijn.
Voorbeelden
Wilson geeft het voorbeeld van een marketingagentschap dat Hunch gebruikt om voor een potentiële klant in één ochtend duizenden URL’s van al hun submerken te scrapen, de data te analyseren en er een volledig werkende demo-website mee te bouwen als onderdeel van hun sales pitch. ‘Het kan gebruikt worden om zoveel meer te doen dan wat mensen vandaag doen, in plaats van enkel de dingen te automatiseren die mensen nu al doen’, besluit Wilson. De ambitie is om repetitief kenniswerk te behandelen als ‘infrastructure as code’, maar dan voor bedrijfsprocessen: beschreven in mensentaal en betrouwbaar uitgevoerd door een zwerm van gespecialiseerde AI-agenten.
Virale hit op LinkedIn als proof-of-concept
Is het je afgelopen jaareinde ook opgevallen hoeveel van je connecties op LinkedIn plotseling een samenvatting van hun activiteiten op het platform posten? Die ‘LinkedIn Rewind’ is van de hand van het team achter Hunch: vooral bedacht om de kracht van hun onderliggende platform te demonstreren en in amper vier dagen gebouwd als een ‘leuk speeltje’. Maar ‘LinkedIn Rewind’ sloeg aan en ging in geen tijd viraal. ‘In twee weken tijd gebruikten meer dan 300.000 mensen de tool’, herinnert David Wilson zich nog levendig.
De tool analyseerde de LinkedIn-posts en -ervaring van een gebruiker over het voorbije jaar en genereerde een deelbare ‘highlight-kaart’, vergelijkbaar met Spotify Wrapped: het razendpopulaire persoonlijke jaaroverzicht van Spotify-gebruikers. De LinkedIn Rewind toonde niet enkel statistieken, maar ook zaken als ‘top quotes’ en een ‘superpower’ die werd afgeleid uit de content van de posts.