Hoe Silicon Valley ook innoveert rond data-architecturen

© Getty Images
Kristof Van der Stadt
Kristof Van der Stadt Hoofdredacteur bij Data News

Twee bedrijven uit de Amerikaanse Silicon Valley illustreren hoe ook de radars in de machinekamer hertekend kunnen worden.

Nee, dit is eens géén artikel over hoe de ‘Bay Area’ van San Francisco in het Noorden tot San Jose in het Zuiden volop inzet op AI. Niet dat de bedrijven uit Silicon Valley dat niet doen voor alle duidelijkheid, maar er zijn evengoed disruptieve start-ups te vinden die veel dieper in de keten innoveren. Het genre dieptechnische start-up dat innoveert door bottlenecks weg te halen. Of door komaf te maken met inefficiëntie. Enkele weken geleden reisden we mee met de IT Press Tour doorheen de Amerikaanse techbuurten in Californië en we spraken met twee van zo’n ‘disruptors’ in de machinekamer van de datawereld: Tabsdata en PuppyGraph.

‘Weg met inefficiënte ETL’

Tabsdata en PuppyGraph hebben een compleet andere focus, maar wat ze wel gemeen hebben is dat ze de status quo van data-architectuur durven uitdagen. En dat verdient sowieso al bewondering op zich: het gaat om het durven in vraag stellen of de machinerie achter jouw en mijn data-oplossingen wel efficiënt draait. Tabsdata en PuppyGraph zien een gemeenschappelijke vijand: de inefficiëntie van de traditionele ETL-pipeline (Extract, Transform, Load, nvdr.).

In de haast om ‘data-driven’ te worden, hebben bedrijven decennialang geïnvesteerd in complexe architecturen voor het verplaatsen en transformeren van data. Een absolute noodzaak is dat – uiteraard – wil je effectief een datagedreven aanpak in je bedrijf of organisatie invoeren. Maar het resultaat is vaak wel een kluwen van ETL-processen die duur zijn in onderhoud, die datasilo’s creëren en die maken dat je bedrijf helemaal niet wendbaar is. Wat Tabsdata en PuppyGraph doen, is niet nog eens een nieuwe applicatielaag toevoegen maar de onderliggende ‘loodgieterij’ fundamenteel herdenken.

Op naar een toekomst waar data-integratie niet langer bestaat, maar enkel betrouwbare datasets, onmiddellijk toegankelijk in de hele onderneming

Tabsdata: Eigenaarschap terug naar de bron

En dit is waar het technisch wordt. Die details besparen we je, maar het eerste bedrijf, Tabsdata, richt zich op het proces van data-integratie zelf. Volgens mede-oprichter en CEO Arvind Prabhakar, een veteraan van StreamSets en Cloudera, leidt de huidige aanpak tot een absurde situatie. Data wordt uit bronsystemen gekopieerd en vervolgens door een centraal team, dat vaak de businesscontext mist, door de mangel gehaald om de oorspronkelijke realiteit te proberen reconstrueren.

Mede-oprichter van Tabsdata en CEO Arvind Prabhakar. © KVdS/DN

Tabsdata stelt een ‘Pub/Sub for Tables’-model voor.  In plaats van ruwe data te extraheren, kunnen de verantwoordelijken van sales- of financeafdelingen (of andere departementen) zelf strak afgelijnde, betekenisvolle tabellen publiceren als een soort datacontract.  Dataconsumenten abonneren zich vervolgens op deze ‘datapunten’. ‘Onze missie is om dit nieuwe concept voor datasets –  Pub/Sub fot Tables zoals wij het noemen – tot de standaard te maken voor datadoorvoer in de onderneming’, aldus Prabhakar. Hun visie klinkt heerlijk helder: ‘een toekomst waar data-integratie niet langer bestaat, maar enkel betrouwbare datasets, onmiddellijk toegankelijk in de hele onderneming’, klinkt het.

PuppyGraph: Graph -analyse zonder datamigratie

Een gelijkaardige kritiek op onnodige datamigratie horen we bij PuppyGraph, maar dan toegepast op de wereld van graph-analyse. Traditionele graph databases zoals Neo4j vereisen dat data eerst via ETL-processen wordt overgezet naar een aparte, gespecialiseerde datastack.  Dit leidt tot hoge kosten, latency, en een opgeblazen architectuur.

PuppyGraph positioneert zich als een ‘Zero ETL’ graph analytics engine.  De technologie legt een virtuele graph-laag over bestaande datawarehouses en datalakes, zoals Snowflake, BigQuery, Databricks of zelfs PostgreSQL-databases. Gebruikers kunnen hun data, die op zijn oorspronkelijke locatie blijft, rechtstreeks bevragen met graph-talen zoals openCypher en Gremlin. ‘Er zijn zeker  gebruikers die de waarde van graph data-analyse inzien, maar geen nieuwe datastack willen’, stelt Weimo Liu, CEO & Co-founder van PuppyGraph. Voorbeelden krijgen we ook, en niet van de minste. Cryptobeurs- en platform Coinbase bijvoorbeeld. ‘PuppyGraph is een zeer interessante graph query engine. Het vereist niet dat we data laden of via ETL overzetten naar een gespecialiseerde of proprietary database-opslaglaag. We kunnen simpelweg alles rechtstreeks bevragen op ons datalake’, aldus Eric Sun, senior manager van het data platform bij Coinbase.

Weimo Liu, CEO & Co-founder van PuppyGraph © KVdS/DN

‘Breng analyse naar data, niet omgekeerd’

Hoewel ze compleet verschillende problemen oplossen, delen beide bedrijven een filosofie: stop met het onnodig verplaatsen van data en breng de analyse naar de data toe in plaats van omgekeerd. Dit vereenvoudigt niet alleen de architectuur en verlaagt de TCO,  maar het levert ook prestatiewinst op. Als we PuppyGraph mogen geloven tenminste. Het bedrijf claimt in benchmarks 20 tot 70 keer sneller te zijn dan Neo4j bij complexe ‘3-hop’ queries en stelt dat Neo4j crasht bij nog diepere queries, terwijl hun eigen motor er wel mee overweg kan.

Zowel Tabsdata als PuppyGraph – met thuisbasis in respectievelijk Sunnyvale en Santa Clara – tonen aan dat de innovatie in de datasector dieper gaat dan de applicatielaag; iets wat vaak vergeten of onderschat wordt. Maar waar dus ook in Silicon Valley tijd en ruimte voor bestaat. Oh ja, én geld. PuppyGraph haalde vorig jaar – in het tweede jaar van hun bestaan – in totaal 5 miljoen dollar op. Tabsdata geniet dan weer de financiële steun van Laude Ventures: vooral bekend als investeerder van Perplexity AI en Foundry.

Fout opgemerkt of meer nieuws? Meld het hier

Partner Content