Het bekende adagium 'garbage in, garbage out' (GIGO) leert ons dat slechte data leidt tot slechte predictieve modellen, wat op zijn beurt kan leiden tot de verkeerde strategische beslissingen, en in het extreme geval zelfs bedrijfsfaling! Denken we bijvoorbeeld aan wat recentelijk gebeurde op de Amerikaanse kredietmarkten. Ratingagentschappen zoals Moody's of S&P's hadden onvoldoende (slechte?) data ter beschikking voor het beoordelen van de kredietkwaliteit van kredietportfolio's ontstaan door securitisatie of effectisering met de bekende problemen tot gevolg.
...

Het bekende adagium 'garbage in, garbage out' (GIGO) leert ons dat slechte data leidt tot slechte predictieve modellen, wat op zijn beurt kan leiden tot de verkeerde strategische beslissingen, en in het extreme geval zelfs bedrijfsfaling! Denken we bijvoorbeeld aan wat recentelijk gebeurde op de Amerikaanse kredietmarkten. Ratingagentschappen zoals Moody's of S&P's hadden onvoldoende (slechte?) data ter beschikking voor het beoordelen van de kredietkwaliteit van kredietportfolio's ontstaan door securitisatie of effectisering met de bekende problemen tot gevolg. De vraag die zich natuurlijk opdringt is hoe datakwaliteit kan gemeten worden. In wat volgt bespreken wij kort de volgende kwaliteitscriteria: data-accuraatheid, datavolledigheid, datarecentheid, datavertekening, en datadefinitie. Data-accuraatheid bepaalt in welke mate de data op een consistente en natuurgetrouwe wijze meet wat het verondersteld wordt te meten. Slechte data-accuraatheid kan het gevolg zijn van entry errors, meetfouten, of de aanwezigheid van extreme waarden (outliers). Data-accuraatheid kan afgedwongen worden via een adequaat ontwerp van de data en-try processen, met geschikte validatie-constraints, integriteitsbeperkingen en kwaliteitscontroles. Datavolledigheid is gericht op het minimaliseren van ontbrekende velden of records. Veel BI-software maakt gebruik van imputatie-routines om op een statistische manier ontbrekende waarden te gaan 'imputeren'. Beter is het echter om de data entry processen op een zodanige manier te herontwerpen dat missing data geminimaliseerd wordt, zeker wanneer het gegevens betreft die door de BI-modellen als cruciaal worden beschouwd voor de voorspelling. Datarecentheid meet de recentheid van de gegevens. Het lijkt een evidente vereiste om steeds met recente gegevens te werken, maar de praktijk leert dat heel wat BI-modellen gebaseerd zijn op gegevens die compleet verouderd zijn. De aanwezigheid van recente data zal sneller toelaten om op nieuwe trends in te spelen en als dusdanig een competitief voordeel te realiseren. Het uitrusten van BI-toepassingen met faciliteiten voor incrementeel leren, gebaseerd op nieuw geobserveerde data, is hier dan ook uiterst belangrijk! Hoewel dat niet expliciet gewild is, bevatten heel wat databases intrinsiek vertekende data. Nemen we opnieuw het voorbeeld van een financiële instelling en het kredietproces. Doorgaans worden alleen gegevens opgeslagen betreffende leningen die de bank aanvaardt. Van de geweigerde leningen worden logischerwijs geen gegevens bijgehouden. Voor het uitvoeren van een BI-toepassing kan dus alleen worden gewerkt met aanvaarde leningen, wat ontegensprekelijk een vertekening inhoudt wanneer generalisaties gemaakt worden naar de totale populatie van klanten die bij een bank aanklopt. Hoewel datavertekening ('data bias') een probleem is dat heel moeilijk kan worden opgelost, is het belangrijk dat de eindgebruikers duidelijk op de hoogte zijn van de vertekening en de impact ervan. Tenslotte is er nog datadefinitie. Het voorzien van éénduidige, consistente datadefinities doorheen het hele bedrijf is vaak een belangrijk pijnpunt. Het verschijnsel van de fusies en overnames (Mergers&Acquisitions) en de corresponderende consolidatie van data, leidt vaak tot inconsistente datadefinities met slechte datakwaliteit tot gevolg. Denken wij bijvoorbeeld aan een dataelement LTV ('Loan to Value') die de waarde van een lening meet in vergelijking tot de waarde van het onderpand. Vermits verschillende methoden van waardering hier mogelijk zijn (bijvoorbeeld boekwaarde versus actuele waarde), kan het data- element dus in verschillende financiële instellingen anders gedefinieerd worden, wat onvermijdelijk problemen geeft bij een eventuele M&A. Ook hier is het met andere woorden uiterst belangrijk een duidelijke set van datadefinities vast te leggen die bedrijfsbreed op een éénduidige manier toegepast en geïnterpreteerd worden. Datakwaliteit moet worden nagestreefd voor de verschillende types van data binnen een onderneming: kwantitatieve data (bijvoorbeeld BNP van een land), kwalitatieve data (bijvoorbeeld management kwaliteit van een onderneming), externe data (bijvoorbeeld krediet rating),... Het vormt een cruciale uitdaging voor de bedrijven heden ten dage waarvan het belang niet kan worden onderschat. Immers, de beste manier om de prestatie van een BI-systeem op te drijven is niet zozeer door het gebruik van allerlei nieuwe 'veelbelovende' technieken (bijvoorbeeld nieuwe OLAP-gebaseerde visualisatiemethodes of dataminingtechnieken), maar veeleer door het verhogen van datakwaliteit! Alleen op deze manier kunnen betere predictieve modellen ontwikkeld worden, en dus betere bedrijfsbeslissingen genomen worden. Het ontwikkelen van een scorecard voor datakwaliteit die bovengenaamde criteria kritisch en adequaat evalueert is dan ook een basisvereiste voor het genereren van competitieve en strategische voordelen in de toekomst! Bart Baesens