Overigens is het bovenstaande geen nieuwe constatatie. Immers, 'je kan een paard wel naar het water leiden, maar het niet doen drinken,' is een oud spreekwoord dat vandaag eminent toepasbaar is op het gebied van 'big data'. Evengoed als dat eertijds het geval was voor ontwikkelingen als 'data warehouses', 'decision support systems', 'data mining' en tutti quanti. Ook die ontwikkelingen werden vaak met veel bombarie (en tegen hoge investeringen) in bedrijven ingevoerd om wonderen te verrichten met historische en operationele bedrijfsdata, maar waren vaak slechts succesvol in heel specifieke niches, en werden niet echt begrepen door de potentiële gebruikers.
...

Overigens is het bovenstaande geen nieuwe constatatie. Immers, 'je kan een paard wel naar het water leiden, maar het niet doen drinken,' is een oud spreekwoord dat vandaag eminent toepasbaar is op het gebied van 'big data'. Evengoed als dat eertijds het geval was voor ontwikkelingen als 'data warehouses', 'decision support systems', 'data mining' en tutti quanti. Ook die ontwikkelingen werden vaak met veel bombarie (en tegen hoge investeringen) in bedrijven ingevoerd om wonderen te verrichten met historische en operationele bedrijfsdata, maar waren vaak slechts succesvol in heel specifieke niches, en werden niet echt begrepen door de potentiële gebruikers. Maar vandaag lijken 'big data' bewegingen en de bijhorende 'analytics'-tools heel wat meer succes te scoren! Hoe verklaar je dat succes ten opzichte van de eerste generaties van big data, is dan ook de vraag waarmee we van start gaan bij prof. Bart Baesens, verbonden aan de faculteit Economie en Bedrijfswetenschappen van de KU Leuven en actief in het Leuven Institute for research on Information Systems (LIRIS). Heel wat externe regels en wetten dwingen bedrijven daartoe, meent Baesens. "Zo eisen de Basel-regels dat banken beter toezicht houden op hun werking. Dat vereist analyses, en dus modellen, bijvoorbeeld voor risk management." Er zijn dus vandaag meer en andere noden dan enkel rond marketing-modellen. Bovendien is er vandaag ook wel meer bereidheid om er gebruik van te maken, in tegenstelling tot het scepticisme voor modellen eertijds, waar er "geen vertrouwen in was." Die modellen waren "heel wat complexer en vaak was het moeilijk een vertaalslag naar de 'business' te maken." Dat scepticisme was vaak ook gerechtvaardigd, zoals Bart Baesens het voorbeeld van de Nederlandse Rabobank aanhaalt. "Die is zonder veel kleerscheuren door de crisis gekomen omdat een aantal personen in de cxo-suite de toxische producten niet begrepen en dus niet meegingen op die golf. Het resultaat is dat die bank lange tijd een triple-A rating van alle bureaus behield." Een belangrijke rol werd dus door de begrijpbaarheid (of het gebrek eraan) van de toenmalige modellen gespeeld. Hoe moet dan een succesvol model, voor gebruik in 'big data analytics', worden gecreëerd? Een model moet "relevant voor de business zijn," benadrukt Baesens, met een voorspellingsvermogen dat "accuraat is in statistische zin." Kortom, het moet echte patronen weergeven, en statistisch solide zijn - op zich al een stevige uitdaging. Het moet interpreteerbaar zijn, en "verdedigbaar" tegenover de gebruikers, en operationeel efficiënt. "Het moet werken wanneer nodig, en eventueel zelfs in reële tijd." Kortom, de modellen moeten vandaag een heel wat stevigere reality check kunnen doorstaan, dan voordien het geval was. En niet onbelangrijk, een model moet "economisch leefbaar zijn", of nog, "de kost moet naar verhouding zijn." Daarnaast moeten de modellen ook de reglementen en het wettelijk kader eerbiedigen. "Stel dat blijkt dat vrouwen minder risicovol zijn. Mag je dat opnemen in een model en op basis daarvan beslissingen nemen? Niet in West-Europa," klinkt het vermanend. Kortom, een model uit de beschikbare gegevens puren en vervolgens inzetbaar maken is een klus die best met aandacht en zorg wordt uitgevoerd, allicht met wat hulp van derden. "Zorg in ieder geval voor een multidisciplinair team," onderstreept Bart Baesens, "met de volle medewerking van een business expert." Daarnaast is daarin ook plaats voor data-wetenschappers/experten (de 'data scientist') met analyse-expertise, technologie-specialisten (met het oog op de 'big data' stack, gaande van systeemtechnologie zoals clusters, langs het beheer van grote volumes van niet-gestructureerde data tot query- en presentatietools) en database/datawarehouse beheerders. Kortom, een heel team, want alle kennis en expertise in één persoon vinden is schier onmogelijk. Anderzijds tonen heel wat toepassingen in verschillende sectoren, zoals fraudebestrijding in de bankwereld, duidelijk aan dat dit best een haalbare kaart vormt. Een succesvol gebruik vereist tevens dat het bedrijf of de instelling zijn huiswerk doet voorafgaandelijk aan het gebruik in de praktijk. Wees realistisch inzake de gebruikte modellen. Waren die vroeger hoogst complex door de beperkte datasets, dan is vandaag duidelijk dat "met grote datasets ook simpele analytische modellen geschikt zijn!" Bij het 'huiswerk' hoort tevens de verplichting om "de kwaliteit van de data te verbeteren", benadrukt Baesens een belangrijke succesfactor. Zorg ervoor dat de data correct zijn, volledig, weet welke bias die vertonen en dies meer. Of nog: ken en begrijp je data. Die data moeten overigens ook in een bruikbare vorm beschikbaar zijn. Modellen, big data en dergelijke baten weinig als "die data nog op papier staan, zoals tot voor een aantal jaren nog wel vaker het geval was." Of verstrooid en verspreid over rekenbladen en wat al niet meer. Om er voor te zorgen dat de belanghebbenden ook echt gebruik maken van modellen, big data en analytics, moet "het model ook echt bruikbare resultaten opleveren, dankzij echte domeinkennis, en met een waarde op lange termijn." Overigens wordt er wel degelijk al gebruik gemaakt van dat alles. "Je bent vandaag [lees: elke dag] al het voorwerp van wel vier of vijf analytische modellen, zoals bij een telecombedrijf, een bank, inzake het gebruik van je bankkaart, allicht op Facebook enzovoort!" Maar wees verstandig met het gebruik ervan, onder meer dankzij risicobeheer, het naleven van de relevante reglementen en wetten, evenals het opsporen en bijwerken van fouten in modellen. Wie denkt dat België op dit gebied nog een braakliggend terrein is, heeft dat wel fout. In ons land wordt er behoorlijk wat onderzoek verricht, op hoog niveau, zoals door Bart Baesens en zijn medewerkers. Met aandacht voor data mining, customer/web/process analytics, credit risk (Basel II) en networked learning, ligt zijn focus momenteel op onderwerpen als klantenverloop ('churn') en klantensegmentering (doelgroepen). Onderzoek onder zijn leiding kan daarbij al mooie voorbeelden en toepassingen voorleggen. Zo is er de strijd tegen "sociale fraude voor de RSZ, op basis van goede data en met succes." Daarbij kan ook worden gedacht aan het gebruik van data uit sociale media, als die in tegenspraak zijn met de gemelde toestand van de ziekte. Of bij telecombedrijven, waar blijkt dat "als iemand ontevreden vertrekt als klant, vaak ook personen uit zijn naaste kring naar een ander telecom- bedrijf overstappen." Eigenlijk mag België best wel trots zijn op "de kwaliteit van de data scientists in ons land", meent Baesens. Ook gaan de Belgische bedrijven goed om met analytische modellen, "vaak beter dan in het buitenland. Zo hebben we hulp geboden aan de organisatie van de volkstelling in de VS, die niet efficiënt is in vergelijking met deze in België." Zelf reist Baesens geregeld de wereld rond, om bedrijven hulp te verlenen bij het uitbouwen van in-huis expertises. Dat laatste adviseert hij, want "de hulp in de markt is niet zelden van verscheiden kwaliteit." Een knelpunt is dat goede data scientists zeldzaam zijn. Maar "ze hebben dan ook een moeilijk profiel. Ze moeten een goede statistische/ analytische vorming hebben, plus goede ict skills en ook nog sterk communicatief zijn, want hij moet constant interageren met de business. Alledrie de aspecten zijn even belangrijk, ook het laatste! Een goede computernerd is dan ook niet noodzakelijk een goede data scientist." En ja daar zou best wel wat beter kunnen worden op ingespeeld door het onderwijs, klinkt de verzuchting. Zelf heeft de KU Leuven wel al een Master of Science in Information Management in het programma. Duidelijk is evenwel dat de nood aan goede data scientists in de komende jaren nog explosief zal toenemen, met een navenante druk op bijkomende opleidingen. Guy Kindermans