De Waarde Van Data

Vorig artikel Volgend artikel
De Waarde Van Data

Big data is overhyped en kan nu al bijna niet meer voldoen aan het verwachtingspatroon dat gecreëerd is door leveranciers en consultants. Maar wat is nu echt de waarde van (big) data? Hieronder een aantal voorbeelden waarin verschillende interpretaties van de waarde van data de hoofdrol spelen.

Apple – Goeie data, slecht resultaat. Afgelopen jaar kwam Apple op het idee zijn eigen Apple Maps te maken. Goed idee maar slechte uitvoering zo bleek. De kaartweergave leek op een aardbeving in San Francisco. Nadat eerst met het vingertje werd gewezen naar de data van Tom Tom, bleek dat de app gewoon niet deugde. Gevaarlijk, want de Australische politie had handen vol werk om in de woestijn verdwaalde reizigers te redden die op weg naar de stad waren.

Big Bang  – Signaal of ruis? Radio astronomen Wilson en Penzias waren maanden bezig met het kalibreren van hun radiotelescoop maar slaagden er niet in van een vreemde statische ruis af te komen en dachten aanvankelijk dat de apparatuur niet goed werkte. Uiteindelijk kwamen ze er achter dat de ruis een signaal uit het verleden was: de overblijfselen van de oerknal. Met big data krijgen we zowel meer ruis als signaal en het is niet altijd zonneklaar wat signaal en wat ruis is.

Chris Anderson – Data is alles. In tegenstelling tot 20ste eeuwse wetenschapsfilosoof Karl Popper vindt Chris Anderson, voormalig hoofdredacteur van Wired magazine, dat wetenschap overbodig is. Door de overvloed aan data zouden we meer tijd en moeite moeten besteden aan het bestuderen van data i.p.v. theorievorming. Of, zoals hij het in zijn artikel "The End of Theory" beschreef: "Correlation supersedes causation, and science can advance even without coherent models, unified theories, or really any mechanistic explanation at all." Brute kracht wint van intellect en kan de wetenschap een enorme boost geven juist omdat data geen mening heeft.

Diederik Stapel – Data is ondergeschikt aan de uitkomst. Diederik Stapel geloofde als wetenschapper heel sterk in de kracht van data om maatschappelijke verschijnselen te verklaren. Zo onderbouwde hij de stelling dat vleeseters hufteriger zijn dan vegetariërs met onderzoeksdata. Om deze bewering te bewijzen verzon en masseerde hij onderzoeksdata net zo lang tot dat hij het gewenste resultaat had. Data en feiten zijn niet hetzelfde.

Jacko – Zonder data kan je toch winnen. Gorilla Jacko wist 12 jaar lang de beursprofessionals te verslaan. Pas in 2012 ging hij onderuit. Ook het clownsduo Franky en Milco kenden soortgelijke successen met stockpicking. De vraag dringt zich op of meer data en complexere modellen betere resultaten geven. Op de beurs win je door het beter te doen dan het gemiddelde. Als iedereen meer middelen er tegen aan gooit, zullen er toch altijd beurshandelaren zijn die verliezen. Hebben we het hier over een 'race to the bottom'?

ICCP – Correlatie versus causaliteit. De mens is bijzonder goed in het herkennen van patronen. Probleem is dat men bij correlerende verschijnselen bijna automatische probeert een causaal verband te leggen. Klimatologen verbonden aan het ICCP probeerden het verband te leggen tussen de opwarming van de aarde en de groeiende impact van het menselijk handelen. Hoewel broeikasgassen als CO2 en methaan de eigenschap hebben warmte in de atmosfeer vast te houden en dus bijdragen aan de opwarming van de aarde is het vrijwel onmogelijk om een direct causaal verband te leggen met de toenemende intensiteit van menselijk gedrag in relatie tot de aarde. Juist de neiging naar een oorzakelijk verband toe te redeneren, zorgde voor zoveel commotie dat er ernstig getwijfeld werd aan de objectiviteit van de ICCP wetenschappers. Het gevolg was dat het debat over de opwarming van de aarde meteen aan relevantie en urgentie verloor.

Minority Report – Data is overbodig, de toekomst staat vast. In de film Minority Report, naar het gelijknamige verhaal van Philip K. Dick wordt er van uitgegaan dat de toekomst vastligt. De pre-cogs (waarzeggers) kunnen misdaad en dader voorspellen. Data was niet meer nodig. Uiteindelijk waren twee van de drie pre-cogs nep, zegde slechts één waarzegger waar en was het geheel een op angst gebaseerde methode om misdaad te onderdrukken. Wat ze in de film wel nodig hadden was heel veel data om uit te vinden waar de toekomstige crimineel zich bevond; dat wisten de pre-cogs schijnbaar niet.

Blue CRUSH – Data vertelt nooit het volledige verhaal. Het door de politie van Memphis Tennessee in gebruik genomen Blue CRUSH-systeem ( Crime Reduction Utilizing Statistical History) is een doorslaand succes. Althans zo werd door de politie naar de pers gecommuniceerd. Door misdaad in al zijn facetten te vast te leggen en met allerlei omgevingsinformatie te integreren en analyseren, weet men waar en wanneer en onder welke omstandigheden de kans op misdaad het grootste is. Vervolgens is het laten rijden van een extra patrouille wagen voldoende om de misdaad te voorkomen. Probleem is dat voor het plegen van een misdaad er meestal sprake is van motief, gelegenheid en middel. Alleen de gelegenheid tijdelijk wegnemen zal geen blijvende werking hebben. Het zal hooguit het tijdstip, de omstandigheden of plaats veranderen. Buiten dat werd er niet over online criminaliteit gerept. Als misdaad het geld volgt en 90% daarvan ergens online is, dan ligt groei van door geld gedreven criminaliteit via het internet voor de hand. Lastiger wordt het voor de Memphis Police Department om een patrouilleauto naar Oost Europa te sturen.

Robbert Dijkgraaf – Random data maakt toekomst onvoorspelbaar. Gedurende het college van Robbert Dijkgraaf over de kleinste bouwstenen van het universum was er een vraag uit het publiek die luidde: als we van de allerkleinste bouwstenen van ons universum weten wat de richting en snelheid is en we zouden hier krachtige algoritmen en computers op loslaten, kunnen we dan de toekomst voorspellen? Nee, zei Dijkgraaf en liet aan de hand van een geigerteller zien dat hoewel hij met zekerheid kon zeggen dat deze zou uitslaan als hij het boven de radonwijzerplaat van een oud horloge hield, hij toch niet kon voorspellen wat het patroon zou zijn. Dat blijft random. De toekomst ligt dus niet vast zo concludeerde hij.

Data is de nieuwe heilige graal. Het is niet moeilijk je voor te stellen dat het combineren van grotere, meer diverse en sneller verversende datasets een enorme potentie waarde vertegenwoordigt. Met de huidige rekenkracht en software kunnen we alles, hoe ongerijmd dan ook, analyseren en daarmee de waarde van data ontsluiten. Maar in tegenstelling tot het geloof in de mogelijkheden van data staat de data-wetenschap nog in de kinderschoenen en is het onnauwkeurig omgaan met data en het verkeerd interpreteren van data een typisch menselijke eigenschap. Daarnaast lijkt het nieuwe data-denken te verordonneren dat alles met data kan worden verklaard mits je over voldoende relevante data beschikt. Maar ja, "voldoende" en "relevant" zijn geen objectieve kwalificaties. Data mag dan de nieuwe pijler zijn van de wetenschap maar Popper kan nog niet worden afgevoerd. Integendeel, we zullen harder moeten nadenken dan ooit te voren.

Deze blogpost is geschreven door Marcel Warmerdam, principal analyst bij The METISfiles.

Meer content

Reageren is uitgeschakeld omdat er geen cookies opgeslagen worden.

Cookies toestaan Meer informatie over cookies