Google: ‘Data analytics zijn nog altijd te moeilijk’

Els Bellens
Els Bellens Technologiejournaliste bij Data News

Google is het grootste advertienetwerk ter wereld, en de tweede grootste cloudprovider. Maar het bedrijf kijkt verder. Op Google Next, het cloudevenement van de techspelers, rolt het bedrijf zijn machine learning strategie uit.

“Google had twintig jaar geleden een geweldige visie. Ze zouden de informatie van deze wereld organiseren en aanspreekbaar maken. En dat hebben ze nu voor miljarden mensen gedaan”, zegt Diane Greene, CEO van Google Cloud tijdens haar keynote in Londen, voor een publiek van 8.000 mensen. “Met Google Cloud willen we nu ook aan miljoenen bedrijven de technologie leveren waarmee ze hun eigen data kunnen organiseren en aanspreekbaar maken.” Hetzelfde, maar dan op enterprise-niveau. Google haalt hier dan ook klanten als Airbus, Carrefour en SEP op het podium, die elk verschillende cloudplatformen van de techgigant gebruiken, van machine learningdiensten tot G Suite.

Diane Green:
Diane Green: “We willen met Google Cloud aan miljoenen bedrijven de technologie leveren waarmee ze hun eigen data kunnen organiseren en aanspreekbaar maken.”

Data analyse zonder data scientists

Opvallend is daarbij de nadruk op kunstmatige intelligentie of AI. Google wil namelijk niet alleen een leverancier zijn van clouddiensten. Het bedrijf wil AI en machine learning bereikbaar maken voor alle bedrijven, ook die zonder data scientists op de loonlijst. “80 procent van data is ongestructureerd”, zegt Rajen Sheth, director of product management. “Het gaat dan om mails, videos enzovoort. Met deep learning en machine learning kan je daar nu eindelijk wat uit halen. Maar dat is moeilijk, want zoveel data scientists zijn er niet.” De oplossing van Google is Cloud AI, een openbronplatform dat volledig beheerde diensten aanbiedt om machine learning modellen te maken. “We doen dat met bouwblokken die je in je eigen applicaties kan stoppen”, legt Sheth uit, “Er zijn bijvoorbeeld blokken voor beeldherkenning, vertaling, tekst-naar-spraak modules enzovoort.”

Rajen Sheth:
Rajen Sheth: “We willen bouwblokken aanbieden om machine learning modellen te maken.”

“Data analytics zijn nog altijd te moeilijk”, knikt ook Sudhir Hasbe, director Product Management (Analytics) voor Google Cloud. “Traditionele platformen verwachten dat je zelf alles doet van monitoring over performance tuning enzovoort, zodat er weinig tijd overblijft voor de analyse zelf. Daarom willen wij al die rest overnemen en voor jou doen. We voorzien alles van tools voor het binnenhalen van gegevens, onderzoek, voorbereiding, pre-process en meer.” De diensten moeten via modellen alles klaar zetten voor een degelijke analyse van data. En daarna? Daarna zijn nog er meer tools. “We bieden ook een volledig machine learning portfolio aan waarmee je makkelijk een model kunt trainen”, aldus Hasbe.

Sophie Maxwell van de Zoological Society London legt uit hoe haar team automatische beeldherkenning gebruikt om zeldzame diersoorten op te sporen.
Sophie Maxwell van de Zoological Society London legt uit hoe haar team automatische beeldherkenning gebruikt om zeldzame diersoorten op te sporen.

Machine learning voor dummies

Een van de grote beloftes van Cloud AutoML, het machine learning aanbod van Google, is dan ook dat u geen expertise nodig hebt om machine learning te gebruiken. “Met een simpele interface kan je bestaande machine learning modellen nemen en ze aanpassen aan de specifieke noden van je bedrijf”, aldus Sheth.

Een voorbeeld wordt alvast gegeven door Sophie Maxwell, conservation technology lead bij de Zoological Society London, een conservatie-instituut dat verbonden is aan de London Zoo. Zij spreekt over een typisch werkmiddel van veel onderzoekers naar diersoorten: de cameraval. Daarbij worden camera’s over een gebied verspreid. Elk zijn ze uitgerust met een sensor en nemen ze een foto als ze beweging detecteren. Bedoeling is om zeldzame diersoorten waar te nemen en te ‘tellen’ in hun eigen leefgebied. “Maar die data die je uit zo’n project haalt is heel divers”, zegt Maxwell. “Daar zitten beelden bij die vaag zijn, er zitten ook heel veel foto’s in van diersoorten die niet bedreigd zijn of die je voor je specifieke onderzoek niet nodig hebt. En met 400.000 beelden per onderzoek, is dat een hele hoop werk voor onderzoekers om daardoor te gaan.”

Google: 'Data analytics zijn nog altijd te moeilijk'

De oplossing is, voorspelbaar, machine learning. Met versimpelde software als Cloud ML werd het model getraind op een ‘gelabelde’ set, zodat het algoritme leerde om bepaalde zeldzame diersoorten te herkennen. Daarna werd het getest op een ongelabelde set foto’s van een reeks camera’s in Borneo. Het project is succesvol genoeg om uitbreiding te vinden. “Uiteindelijk willen we een platform maken waar zoölogen hun modellen kunnen delen voor specifieke niches”, zegt Sophie Maxwell, “zodat ze bijvoorbeeld een specifieke diersoort in een specifieke regio kunnen zoeken.”

Voor de programmeurs

Het is iets dat we Rajen Sheth meerdere keren horen zeggen op deze conferentie: “Er zijn veel meer ontwikkelaars in de wereld, dan data scientists en machine learning experts.” Het valt daarbij op dat Google de ontwikkelaars via verschillende routes benadert. BigQuery ML laat SLQ developers toe om machine learning rechtstreeks in het data warehouse te ontwikkelen, met enkele lijnen SQL code. Kubeflow laat analyses dan weer draaien bovenop Kubernetes.

Maar dat alles blijft wel aan de technische kant. Google giet de infrastructuur en de programmering in een makkelijkere interface, maar lost daarmee niet meteen de problemen op die machine learning nu al tegenkomt. Denk daarbij bijvoorbeeld aan databases die niet juist gebalanceerd zijn, of onvolledig zijn. Gaat Google een zoöloog het concept van ‘garbage in, garbage out’ uitleggen?

Ja, zo blijkt. Google wil dat in de eerste plaats oplossen met documentatie, zegt Rajen Sheth. “We leggen mensen wel uit hoe ze op de juiste manier moeten coderen”, vertelt hij aan Data News. “Dat als je begint met onvolledige databases, dat je dan bevooroordeelde algoritmes krijgt. We proberen ook tools te schrijven om te zorgen dat mensen doorhebben, of dat ze zich ervan bewust zijn hoe ze daarmee moeten omgaan.” Als het van Google afhangt, wordt binnenkort iedereen alvast een beetje ‘data scientist’.

Google wil partnernetwerk in Europa

Google is in Europa volop mensen aan het aannemen, zegt Sebastien Marrotte, VP EMEA bij het bedrijf. Vooral dan customer engineers om klanten bij te staan. Google wil zijn klantenbestand uitbouwen met meer dienstverlening en, opvallend, met een partnernetwerk. “Ik zou het liefst 100 % van onze business via partners willen beheren”, zegt Marrotte. “We zoeken nu de beste combinatie van technologische en zakelijke expertise. Daar heb je partners voor nodig in de verschillende industrieën, die de sector door en door kennen.”

Een en ander moet duidelijk maken dat Google hier de kaart trekt van dienstenleverancier, want met technologie alleen kom je er niet, zegt hij. “Als ik de CIO van Carrefour ontmoet en hem vraag waar hij van wakker ligt, is dat niet technologie. Zijn bedrijf ligt onder vuur door Amazon, door hard discounters. Hij wil oplossingen, hij wil een plan. Dus we gaan niet zeggen ‘wij hebben de beste technologie’, maar we gaan een strategie uitwerken, met partners en ideeën, om dat bedrijf te rebooten.”

Google: 'Data analytics zijn nog altijd te moeilijk'

De digitale luchtvaartmaatschappij

“Ik kom uit de muziekindustrie. Ik verliet Time Warner zeventien jaar geleden omdat ze geen digitale muziek wilden uitrollen. En ik kocht een luchtvaartmaatschappij voor 25 cent.” Aan het woord is Tony Fernandes, group CEO van AirAsia. De man, die met de nodige flair iedereen die naar hem komt luisteren de hand schudt, staat ondertussen aan het hoofd van een van de grootste vliegtuigmaatschappijen in Zuid-Oost Azië. Zijn bedrijf vervoert nu 90 miljoen passagiers per jaar en groeide van twee vliegtuigen naar tweehonderd, van 200 medewerkers naar 20.000. Via een digitale strategie, zo zegt Fernandes. “We waren de eerste luchtvaartmaatschappij die in Azië tickets online verkochten”, vertelt hij. “Toen we met AirAsia begonnen, gebruikte niemand internet, ze gebruikten allemaal reisbureau’s. Je had toen ook niet zoveel kredietkaarten in Azië. Wij zagen die shift echter aankomen, en we zagen het als een manier om ons lot in eigen handen te nemen.”

Het zal u niet verbazen dat de man Google gebruikt om de digitale kant van zijn bedrijf te bestieren. “Ik vond dat we als luchtvaartmaatschappij niet in dat soort technologie moesten investeren. We kunnen daar toch niet volgen. Toen cloud uitkwam was ik dan ook een van de eersten om het te gebruiken. Ik heb er geen problemen mee dat onze gegevens bij iemand anders zitten. Het is hun core business. Als Google die privacy in de war stuurt, is het uit met hun bedrijf. Andersom, als er bij mij iets mis gaat met de veiligheid van mijn vliegtuig, is het uit met mijn bedrijf.”

AirAsia zet onder meer G Suite in, met Hangouts en Meetings om de verschillende werknemers over heel Azië te laten samenwerken. En de volgende stap? Dat is machine learning en AI. “We hebben een gigantische berg data die we over de vorige zeventien jaar verzameld hebben”, zegt Fernandes. “We hebben niets weggegooid. Nu kunnen we met Google Cloud ML daar iets mee doen. We werken onder meer aan voorspellingen. We zetten een hoop sensoren op onze vliegtuigen en kunnen nu voorspellen wanneer we onderhoud moeten inplannen. Eens je met voorspellingen begint, kan je ook gaan kijken naar weerpatronen en toekomstige vertragingen. Hopelijk kunnen we u in de toekomst vertellen ‘er komt een storm, je moet niet naar de luchthaven komen’.”

Google: 'Data analytics zijn nog altijd te moeilijk'
© Getty Images/iStockphoto

Machine learning voor hiëroglyfen

Als we iets moeten leren op Google Next, dan is het dat machine learning nu echt voor alles kan worden ingezet. Van zeldzame aapjes identificeren tot, welja, hiërogliefen helpen vertalen. Dat laatste is het idee achter het Hieroglyphics Initiative. Daarmee willen digitaal agentschap Psycle en gamemaker Ubisoft de wereld van de Egyptologie naar de, euh, 21ste eeuw brengen.

Het project draait om het vertalen van hiërogliefen, een proces dat al een eeuw ongeveer hetzelfde is. Iemand trekt naar Egypte om foto’s te nemen van de ruïnes, en vervolgens worden de glyphen met de hand getraceerd. “In de Egyptologie hebben we bronmateriaal dat niet meteen makkelijk te bereiken is”, zegt Alex Fry, directeur van Psycle Interactive aan Data News. Die tekeningen moeten vervolgens in vertaalbaar materiaal, facsimiles, worden omgezet. Dat hele proces vergt veel tijd en betekent dat vertalingen en glyphen niet breed voorhanden zijn.

En da’s een probleem wanneer u probeert geautomatiseerde vertaling mogelijk te maken. Psycle wilde een tool maken om elke individuele glyph te herkennen, waarna die konden worden geanalyseerd als woorden, om de uiteindelijke vertaling te doen. “Maar daarvoor heb je veel beelden nodig, die correct gelabeld zijn”, legt Alex Fry uit. “Dus we hebben de gestileerde glyphen genomen en in tekentool gestopt, en Ubisoft heeft zijn gamers gevraagd om ze te tekenen.” Die gamers, dat gaat dan om fans van Assassin’s Creed Origins, een spel dat zich afspeelt in het Oude Egypte. Ubisoft riep hen op om mee te doen, en in één nacht werden zo 80.000 glyphen getekend. Krijg je dan geen, hoe zullen we het zeggen, ‘creatief seksuele’ beelden? “We moesten ze wel manueel checken”, lacht Fry. “Maar uiteindelijk was dat een heel klein percentage dat grapjes probeerde uit te halen. De meeste beelden die we terugkregen waren correct.” Met een dataset in de hand, is het machine learning model nu een feit. De tool wordt later dit jaar als openbron framework uitgerold. “Voor academici is dit een goede ondersteunende tool”, zegt Pierre Miazga, marketing director bij Ubisoft. Het platform moet vooral dienen om snel bronmateriaal om te zetten, en om een grote database uit te bouwen waarin glyphen, facsimiles en vertalingen aan elkaar gelinkt zijn. “Egyptologen hebben de code van hiërogliefen wel al een tijdje gekraakt”, zegt Pierre Miazga, “maar er zijn puzzels in de grammatica die nog niet opgelost zijn. Om die vragen te beantwoorden, moet je veel data analyseren zodat je trends kunt zien. Dat duurde tot nu toe gewoon heel lang.”

Fout opgemerkt of meer nieuws? Meld het hier

Partner Content