In het AI-tijdperk draait alles om data. De uitdaging is om gegevens uit verspreide systemen samen te brengen en inzetbaar te maken. Bedrijven focussen beter op de kwaliteit van die data, stelt CTERA Networks, dan op het zelf bouwen van genAI-toepassingen.
CTERA Networks is een Israëlisch bedrijf dat een hybride clouddataplatform en datadiensten aanbiedt. Het verbindt vestigingen en gebruikers met private, hybride en publieke clouds, zonder toegevingen op het vlak van veiligheid en prestaties. Data News ontmoette CTO Aron Brand in New York, in het kader van de IT Press Tour. Hij is recent naar New York verhuisd, zo blijkt. ‘Driekwart van onze omzet komt uit de VS’, zegt hij. ‘Tijdens corona werkte iedereen vanop afstand, maar dat is de voorbije twee jaar sterk veranderd. Het is opnieuw belangrijk om mensen fysiek te ontmoeten.’
Prioriteiten en opportuniteiten
Uit een rondvraag die CTERA bij bedrijven opzette, blijkt dat cybersecurity nog altijd als topprioriteit geldt. Daarna volgen strategische AI-projecten en het beheer van de datagroei. ‘Over de belangrijkste opportuniteit, zijn de bedrijven het eens’, zegt Aron Brand. ‘Dat is hun eigen data.’ CTERA ziet in dat verband drie fasen. In de eerste plaats gaat het om de locatie van de data. Bedrijven blijven hun capaciteit voor ongestructureerde data almaar verder uitbreiden – met factor drie tegen 2028, zegt Gartner – zowel on-prem, in de edge als in de public cloud. De architecturale complexiteit van het geheel neemt daardoor hand over hand toe.
Een eerste uitdaging bestaat erin om al die silo’s tot een eengemaakte omgeving om te vormen. ‘In de tweede fase wil je met die data aan de slag. Maar in de praktijk gaat het om almaar meer types data. In een klassiek datawarehouse lukt dat niet.’ Het antwoord schuilt in het beheer van de metadata – en in het omvormen van die eengemaakte omgeving tot een veilig data lake. ‘In de derde fase gaat het erom de stap te zetten van data lake naar data asset: inzetbaar voor je business’, zegt Brand. ‘Alles staat of valt daarbij met datakwaliteit.’ Dat blijkt vandaag – met name in de context van generatieve AI – meer dan ooit cruciaal.
Zelfverzekerd, maar fout
Een gebrek aan zicht op de eigen data – en met name de kwaliteit ervan – leidt in de context van generatieve AI onvermijdelijk tot ongelukken. ‘Veel bedrijven laten genAI zonder veel omkadering los op hun data’, zegt Aron Brand. ‘Ze denken dat alles vanzelf loopt, maar dat is natuurlijk niet zo. Wie data met een lage kwaliteit in genAI invoert, krijgt vooral very confident errors.’ Die resultaten zien er overtuigend uit, lijken goed gemaakt en geloofwaardig. ‘Maar dat zijn ze dus niet. Dat is vandaag het grote probleem met genAI: mensen nemen resultaten voor waar aan, omdat ze er goed uitzien. En het ergste van al: na verloop van tijd worden die foute resultaten daardoor de waarheid.’
‘Het probleem ligt niet bij de data – daarvan hebben bedrijven er genoeg – maar bij de kwaliteit van de data’
Het probleem ligt dus niet zozeer bij de data – daarvan hebben bedrijven er meestal genoeg – maar bij de kwaliteit van de data. Brand ziet diverse quality killers. ‘Data is vaak erg slordig en ordeloos opgeslagen’, zegt hij. ‘Je hebt tools nodig om de data te classificeren en met metadata te verrijken.’ Dat zijn de eerste fases waar Brand het eerder over had: data uit silo’s halen en ervoor zorgen dat specifieke dataformaten ook bruikbaar zijn buiten de eigen silo. Maar evengoed werken te strikte regels op het vlak van compliance en beveiliging het gebruik van data tegen. ‘Al moet je natuurlijk wel een goede toegangscontrole en de gepaste guardrails hebben’, voegt hij daar nog aan toe.
Ieder zijn stiel
Het ding is dat medewerkers van een bedrijf eigenlijk maar op één doel uit zijn: efficiënt werken. ‘Dat is de reden waarom ze vroeger bedrijfsdata zomaar in Dropbox stopten’, zegt Brand. ‘En het is precies dezelfde reden waarom ze vandaag diezelfde data in ChatGPT gooien.’ Het gebruik van generatieve AI valt niet tegen te houden, denkt hij. ‘Verbieden is hier niet het juiste antwoord, wel ervoor zorgen dat het gebruik van genAI op een veilige manier verloopt.’
Kortom, data governance krijgt meer belang, met name de rol van de datacurator. Want alleen data die op punt staat – correct, vindbaar en veilig bruikbaar – laat genAI toe om precieze, relevante antwoorden aan te bieden. De inmiddels beruchte studie van MIT stelt dat 95% van alle projecten rond genAI niet voorbij het pilootstadium raken. Maar dat heeft volgens Aron Brand niet alleen met dataproblemen te maken. ‘Een luchtvaartmaatschappij gebruikt vliegtuigen om een specifieke dienst te verlenen, maar ze bouwt die vliegtuigen niet zelf. Bedrijven moeten niet per se zelf AI-oplossingen willen bouwen. Ze moeten focussen op het gebruik ervan.’