Tobiko Data haalt bijna 22 miljoen dollar op

Kristof Van der Stadt Hoofdredacteur bij Data News

Hoofdredacteur bij Data News 11-06-2024, 02:13 Bijgewerkt op: 13-06-2024, 02:11 4 min leestijd

Wat gebeurt er wanneer drie jonge veteranen bij Netflix, Airbnb, Google en Apple een probleem in data transformation zien? Dan richten ze een start-up op die het probleem oplost. Tobiko Data kan meteen rekenen op een investering van 22 miljoen dollar.

Een starter met een hoodie van het bedrijf? Dat is redelijk standaard in Silicon Valley. Maar branded pants, dat hadden we nog niet gezien. Toby Mao voelt er zich kennelijk wel goed in, wanneer hij een klein kwartiertje te laat de vergaderzaal komt binnenwandelen. Zijn t-shirt leest een ander merk: dat van een bekende puzzelkubus. Geen toeval, zo blijkt: Toby – of Tobias zo je wil – had een tijdlang het wereldrecord Rubik’s Cube in handen. Zijn broer Tyson trouwens ook en die richtte de World Cube Association op. Maar de broers richtten samen met Iaroslav Zeigerman ook de start-up Tobiko op – en dat is waarover we het met Toby Mao hebben tijdens een bezoek van de IT Press Tour aan de Californische Bay Area, beter bekend als Silicon Valley.

Meer efficiëntie en minder kosten

Nauwelijks vijf dagen voor onze afspraak maakte Tobiko een investeringsronde bekend van bijna 22 miljoen dollar. Niet slecht voor een bedrijf dat nog geen twee jaar bestaat en ondertussen 20 medewerkers telt. Maar Toby Mao gooide eerder al hoge ogen bij Airbnb en Netflix waar hij respectievelijk het metrics- en het XP-platform leidde. Het is trouwens bij Netflix dat hij ook Iaroslav ontmoette, die op zijn beurt nog het AI/ML data engineering team bij Apple leidde. Jonge veteranen dus. Van het soort die wanneer ze een probleem of gat in de markt zien er ook zelf een oplossing voor willen en kunnen ontwikkelen.

‘Tobiko Data is een open source data transformation platform met SQLMesh als belangrijkste product. En dat product is een framework dat data scientists toelaat om correcte en efficiënte pipelines te bouwen’, vertelt Toby Mao met de nodige nadruk die verraadt dat dit meteen de oplossing is voor het probleem dat ze zien.

‘Data zijn bijzonder belangrijk geworden, zeker als ze in je bedrijf de AI- en ML-applicaties moeten ondersteunen. Maar het grote probleem is dat het huidige datalandschap ongelofelijk rommelig is. Je hebt een hoop analisten die niet te onderhouden spaghetti code schrijven. Niemand weet nog echt wat er allemaal in huis rondslingert aan code en data, en de controle op data is ook verre van matuur waardoor heel wat data onbetrouwbaar of gewoon fout zijn. Efficiënt is dat allemaal niet, en de IT-sector denkt er op zich ook niet over na om dat in één keer met z’n allen goed aan te pakken’, meent Mao.

Aanvulling voor Snowflake en Databricks

En net wanneer we hem voor de voeten willen gooien dat daar toch oplossingen voor bestaan à la Snowflake en Databricks heeft Toby Mao zijn antwoord op de te verwachten vraag al klaar. ‘Snowflake en Databricks zijn heel goed op te schalen. Maar wanneer je niet efficiënt werkt, dan lopen de kosten al heel erg snel heel erg hoog op. Dat is waarom bedrijven als Netflix en Apple heel de tijd nadenken over hun efficiency: om zulke hoge opschaalkosten te vermijden’, weet Toby Mao uit eerste hand.

Bij Netflix bouwde hij net daarom SQLGlot: een open source SQL parser framework dat ondertussen in heel wat bedrijven gebruikt wordt in hun ontwikkelingsomgeving. ‘Bekijk dat als een van de onderliggende technologische puzzelstukken dat de motor is van onze SQLMesh-oplossing’, zegt Mao. En die oplossing moet dus voor efficiëntie in de ontwikkelomgeving zorgen. ‘Wat je ziet is dat in heel development-omgevingen heel veel werk opnieuw gebeurt. Bij elke kleinste verandering in SQL, wordt het hele warehouse opnieuw aangemaakt. Met heel wat tijd én dus extra kosten tot gevolg’, aldus Mao.

Niet met SQLMesh dus, ‘want die begrijpt wat er precies moet berekend worden. En dat is wat onze tool uniek maakt. SQLMesh zal nooit iets opnieuw berekenen wat al eens berekend is. Pas je queries aan? SQLMesh weet wat je wil bereiken en weet wat er dan nog wel opnieuw berekend moet worden. Dat scheelt heel veel tijd en kosten. Ja, er zijn andere frameworks beschikbaar maar die begrijpen SQL niet. Die behandelen alles als raw tekst of strings en gaan er maar van uit dat de uiteindelijke afhandeling van al die onnodige herberekeningen hun probleem niet zijn.’

Business model?

Mao heeft naar eigen zeggen het bedrijf vanuit eerste instantie niet vanuit winstbejag opgericht maar vanuit de eenvoudige vaststelling dat hij en zijn kompanen een idee hadden om een oplossing te brengen voor een probleem. Hoe denken ze nu hun idee – dat in open source uitgewerkt zit – te rentabiliseren? ‘We zijn een open source bedrijf, dus het staat iedereen vrij om onze technologie te downloaden en te gebruiken. Maar wat we wel vorige week beslist hebben is dat we naast de open source versie ook een betalende enterprise-variant van SQLMesh gaan aanbieden die dan extra functionaliteit zal bieden zoals de Observer-module. Die kan je dan niet alleen vertellen dat er ergens iets fout gelopen is met je code, maar ook en vooral wat en waarom. Nogmaals, dat kan alleen omdat SQLMesh jouw SQL ook begrijpt en dus data onderling met elkaar in verband kan brengen’, aldus nog Mao.

Snowflake en DataBricks ziet Mao eerder als ‘partners’ en niet zozeer als concurrenten. Zijn er dan écht geen concurrenten, willen we toch nog weten voor we hem weer naar zijn thuisbasis in San Mateo laten vertrekken. ‘Ja, dbt Labs. Die zijn sinds 2016 actief en bieden ook een belangrijk framework voor datatransformatie aan. Toen ik bij Airbnb werkte heb ik hun platform ook leren kennen, maar besefte ik ook dat het voor Airbnb nooit goed genoeg zou werken omdat dbt niet goed schaalt. En via SQLGlot begrijpt onze oplossing ook veel meer de SQL die geschreven wordt’, besluit Mao.

Lees meer over: