Cybercrime30.07.2019

Geanonimiseerde gegevens blijken toch niet zo anoniem


Onderzoekers van Universiteit Leuven en het Imperial College Londen hebben ontdekt dat het de-anonimiseren van geanonimiseerde datasets makkelijker is dan tot voor kort werd aangenomen. Ze hebben dit aangetoond door middel van een model dat schat hoe makkelijk het is om een dataset te de-anonimiseren.

Geanonimiseerde gegevens worden overal voor gebruikt: medisch onderzoek, gepersonaliseerde aanbevelingen en moderne AI-technieken. De veronderstelling is dat alle persoonlijke identificeerbare informatie verwijderd is terwijl een kern van de nuttige informatie voor onderzoekers behouden blijft.

Zo heeft een ziekenhuis de mogelijkheid om de namen, adressen en geboortedata van patiënten te verwijderen uit een set van gezondheidsdocumenten. Onderzoekers krijgen dan een set gegevens die ze kunnen gebruiken om bijvoorbeeld een koppeling te leggen tussen verschillende aandoeningen terwijl het dan niet terug te leiden is naar een specifiek persoon.

Eerdere gevallen

Het is al eens vaker voorgekomen dat geanonimiseerde datasets zijn gedeanonimiseerd. In 2008 werd een Netflix-dataset gekoppeld aan filmbeoordelingen op IMDB om zo de dataset aan specifieke gebruikers te koppelen. In 2014 werden de thuisadressen van taxichauffeurs in New York ontdekt uit een gegevensset van individuele gemaakte reizen in de stad.

En in Australië blunderde de gezondheidsafdeling van de regering door anonieme medische factuurgegevens aan te bieden waarbij het mogelijk was om aan de hand van standaard persoonsgegevens zoals; geboortejaar van oudere moeders met jonge kinderen of juist moeders met veel kinderen, personen te identificeren.

15 demografische kenmerken

De onderzoekers uit Leuven en Londen hebben het model op verschillende willekeurige datasets getest. Zo was het mogelijk om met een dataset waarin 15 demografische kenmerken zaten om 99,98% van de inwoners van Massachusetts te kunnen identificeren. Heb je een kleinere stad, dan is het zelfs nog makkelijker om aan de hand van locatiegegevens personen te identificeren.

Het is daarom bijna bizar te noemen dat bedrijven die in deze datasets handelen nóg meer kenmerken tot beschikking stellen in die sets. Zo heeft het bedrijf Experian aan softwarebedrijf Alteryx een dataset verkocht met 248 (!!) kenmerken per huishouden in van 120 miljoen Amerikanen.

Privacywetgeving

Kijkend naar huidige privacywetgeving kan dit niet in stand worden gehouden. Luc Rocher van Universiteit Leuven hierover: “Onze resultaten verwerpen ten eerste de beweringen dat heridentificatie geen praktisch risico vormt en ten tweede dat het vrijgeven van gedeeltelijke datasets een plausibele vorm van veiligheid biedt.”

Differentiële privacy is een andere benadering voor het verwerken van gegevenssets met het oog op de behoefte aan gegevensbescherming. Grote bedrijven als Apple en Uber hanteren dit. Deze vorm van anonimiseren zorgt er voor dat elk individueel gegevenspunt gemiddeld is over de hele dataset. Hierdoor wordt voorkomen dat de set te de-anonimiseren is om individueel niveau.

[Fotocredits © ptnphotof – Adobe Stock]

Verder lezen over Privacy

Dating-app Grindr aangeklaagd om delen HIV-status met anderen

Er zijn weinig gegevens gevoeliger dan informatie over je HIV-status of wanneer je voor het laatst bent getest. Grindr is daar echter niet zo voorzichtig mee omgegaan en wordt nu aangeklaagd.

Online24.04.2024

Dating-app Grindr aangeklaagd om delen HIV-status met anderen

Bescherm jij je online identiteit wel genoeg?

We kennen allemaal wel de verhalen van mensen wiens Instagram-foto’s worden gestolen om een catfish-account aan te maken, of mensen, bedrijven en merken bij wie hackers toegang hebben gekregen tot een van de social media accounts.

Cybercrime15.04.2024

Bescherm jij je online identiteit wel genoeg?

​Digitaal mijmeren: Zullen AI’s op het internet op enig moment ontwaken?

Schandalen als gevolg van ontsporende Artificial Intelligence (AI) zullen de aankomende jaren hoogstwaarschijnlijk een wereldwijd probleem gaan vormen. De uitrol en integratie van AI's binnen online toepassingen zullen n...

Online18.03.2024

​Digitaal mijmeren: Zullen AI’s op het internet op enig moment ontwaken?

Mogelijk ontwikkelen AI's een vorm van gedecentraliseerd interactiviteitsbewustzijn
Je ​AI-geliefde is onbetrouwbaar: onveilig en uit op geld

Met Valentijnsdag achter de rug kunnen we het veilig en wel bespreken: AI-chatbots die bedoeld zijn als een soort digitale geliefde zijn onbetrouwbaar. Volgens nieuw onderzoek van de Mozilla Foundation blijken AI-chatbot...

Online15.02.2024

Je ​AI-geliefde is onbetrouwbaar: onveilig en uit op geld

Doe het veilig
Consumenten bezuinigen op kosten, maar helaas ook op privacy en security

In heel Nederland, maar ook in de rest van Europa, zorgen de toenemende kosten van levensonderhoud en de inflatie voor sombere economische vooruitzichten voor het komende jaar. Met als logisch gevolg dat we wat meer gaan...

Cybercrime05.02.2024

Consumenten bezuinigen op kosten, maar helaas ook op privacy en security

​Erotische datingsites: oplichting als premium verdienmodel

Om maar direct met de deur in huis te vallen: erotische datingsites bieden zelden of nooit wat ze beloven. Het betreffen zonder uitzondering verdienmodellen gebaseerd op misleiding van het mannelijk libido. In alle geval...

Online23.01.2024

​Erotische datingsites: oplichting als premium verdienmodel

Waarom grijpt de Autoriteit Consument & Markt niet in?
Dilan Yesilgoz grootste privacyschender van 2023

Elk jaar kiest het Nederlandse publiek weer een persoon of (overheids)organisatie die volgens ons in dat jaar de grootste inbreuk gepleegd hebben op onze online communicatievrijheid en privacy. Gekozen kan worden uit een...

Nieuws15.01.2024

Dilan Yesilgoz grootste privacyschender van 2023

Demissionair minister krijgt de Big Brother Award; X en Meta ontvangen expertprijs
​3 voorspellingen voor de beste privacy-first advertenties in 2024

Na alle technologische ontwikkelingen in 2023 zijn de uitdagingen voor adverteerders dit jaar groot. De centrale vraag: hoe kun je gepersonaliseerde advertenties maken, zonder daarbij third-party cookies te gebruiken en...

Advertising10.01.2024

​3 voorspellingen voor de beste privacy-first advertenties in 2024