Anonimiteit bij big data-analyse een illusie

© Thinkstock

Big data waar persoonsgegevens uit verwijderd zijn, lijken de privacy te waarborgen. Maar er is maar weinig nodig om persoonlijke gegevens weer aan de persoon te koppelen, blijkt uit onderzoek.

Een team wetenschappers van het Massachusetts Institute of Technology (MIT) in Cambridge wist een bank zo ver te krijgen dat ze aan de slag mochten met gegevens van creditcardtransacties. De niet bij name genoemde bank verstrekte de wetenschappers een log met 3 maanden transactiegegevens van 1,1 miljoen klanten in 10.000 winkels, restaurants etc. Creditcardnummer en adresgegevens van de creditcardhouder waren verwijderd, namen waren vervangen door een verder nietszeggende code.

Het privacyrisico in dit soort gegevens schuilt in het feit dat het aankooppatroon van individuen uniek is. Je hebt maar heel weinig gegevens nodig van een persoon nodig om hem te koppelen aan de geanonimiseerde gegevens in de databank. Kennis van de plaats waar een persoon zich bevond op vier tijdstippen die overeenkomen met de gegevens in het databasestuwmeer, volstaat in 90 procent van de gevallen om de creditcardhouder in die database te identificeren. Als je daarenboven ook nog weet hoeveel er bij gelegenheid is gespendeerd, kun je nagenoeg iedereen in de database identificeren met slechts drie stukjes informatie. Je kunt de analyse wel moeilijker maken door in het datastuwmeer aankopen te aggregeren per dag of per week. Maar daarmee werd het niet onmogelijk om de personen te identificeren; het vroeg alleen wat meer externe informatie.

Voorzichtigheid geboden

De wetenschappers zijn wetenschapper genoeg om niet te pleiten voor een verbod op Big-data-analyse. Maar het onderzoek laat wel zien dat je uiterst omzichtig om moet gaan met Big data, zegt onderzoeksleider Yves-Alexandre de Montjoye. Waar er persoonlijk gevoelige informatie bij betrokken is is het openlijk delen van ruwe sets gegevens niet de weg naar de toekomst. Dergelijke gegevenssets zouden alleen voor analyse vrijgegeven moeten worden als toegang tot individuele records en de correlatieanalyse met externe gegevens geblokkeerd worden, meent hij.

De Montjoye en zijn team hebben hun bevindingen gepubliceerd in Science.

Bron: Automatiseringgids

Fout opgemerkt of meer nieuws? Meld het hier

Partner Content