Online02.01.2015

‘Big Data’ bestaat niet. We are not that smart, yet


Vanaf het begin van de jaartelling tot 2000 is er 5 miljard GB aan data gecreëerd. Tien jaar later duurde de creatie van dezelfde hoeveelheid slechts 2 dagen. Inmiddels gebeurt dat elke 10 seconden. Binnenkort kunnen we verwachten dat dergelijke datacreatie elke seconde plaatsvindt. We lijken dus graag data te genereren, en zijn aan de andere kant hongerig om die te verzamelen, gebruiken en interpreteren.

Colossal Data

Heel veel data dus: kolossaal zelfs. Maar daarmee is het nog geen Big Data. Het is wel een basis om over Big Data na te denken, maar het is vooral een basis om business intelligence toe te passen, weliswaar op grotere schaal. Maar betekent meer data ook meer informatie, kennis en waardecreatie?

De afgelopen periode is er veel gezegd en geschreven over ‘slimmer’ gebruik van data van bankklanten verzameld door hun eigen bank, in het recente geval ING Bank. Ook daar wordt gesproken over Big Data, maar ook dat is niet terecht. Ook bij ING Bank ging het over niet meer dan business intelligence.

Buzzword versus feiten

Big Data is op dit moment duidelijk een buzzword en obsessie voor ondernemingen, overheden en media. Echter, echte Big Data bestaat nog niet. Alleen een enorme hoeveelheid data is daarvoor niet genoeg. De term Big Data wordt in de markt verkeerd gebruikt. Professor Mayer-Schönberger van het Oxford’s Internet Institute gebruikt graag de theoretische definitie ‘N=All’, waarbij er statistisch geen voorbeeld (N) meer nodig is want het uitgangspunt is iedereen (All).

Een paar voorbeelden:

De Godfather van Big Data, Google gebruikte Google Search zoektermen gerelateerd aan griep om zo te kunnen laten zien en voorspellen waar een griepepidemie is en hoe die zich ontwikkelt: de ‘Google Flu Trends’. Voor Big Data fans was dit hèt voorbeeld, want de trends waren tenslotte veel sneller en goedkoper dan de traditionele, reactieve cijfers over griepepidemieën. Echter, toen de officiële cijfers bekend werden bleek dat de cijfers van Google daarvan factor 2 afweken, en dus onbruikbaar en nutteloos. De voorspellende kracht bleek zelfs veel slechter dan de al bestaande, conventionele monitor systemen. Inmiddels is men gestopt met Google Flu Trends. Hetzelfde geldt voor de Google Denguetrends (knokkelkoorts).

Google heeft geprobeerd een van haar supercomputers in te zetten om 10 miljoen thumbnails van YouTube video’s te scannen om die te laten leren een kat in een video te identificeren. De accuratesse bleek 70%. Dat lijkt indrukwekkend totdat je je bedenkt dat een gemiddeld 2-jarig kind dat in 100% van de gevallen foutloos doet.

The Wereldgezondheidsorganisatie (WHO) heeft zeer geavanceerde digitale ‘big data analyse’ algoritmes waarmee zij probeert epidemieën te voorspellen en bij te houden. Daarbij mede gebruikmakend van internet en de data die daarin wordt gegeneerd, door analyse van zoekopdrachten of sociale media, is het niet gelukt om bijvoorbeeld de 2014 Ebola epidemie te voorspellen. Het blijkt eenvoudigweg te onbetrouwbaar, te weinig specifiek, en de data is pas beschikbaar in hindsight. Diverse gezondheidsorganisatie zijn dan ook gestopt met dergelijke voorspellende methodieken en technologie.

Big Data werkt zelfs bij de NSA (nog) niet; meer dan 90% van de sinds 9/11 (2001) verzamelde data is niet gebruikt, aldus Richard Clarke, voorzitter van President Obama’s Review Group on Intelligence and Communications Technology die de praktijken van NSA eind 2013 heeft gereviewed naar aanleiding van de Snowden onthullingen en waarvan de 64 aanbevelingen inmiddels grotendeels zijn overgenomen door President Obama, zoals in 2014 gemeld tijdens de NSS in Den Haag.

Kwantiteit + Causaliteit = Kwaliteit

De belangrijkste reden waarom Big Data (nog) niet werkt, is dat de beschikbare data (‘Found Data’) wordt verwerkt met traditionele statistiekmethoden op basis van correlatie: een bepaalde hoeveelheid zoektermen gekoppeld aan een geolocatie.

Wat er mist is causaliteit en connectie. De huidige ‘Big Data’ is vooral nog domme data. Welk verband is er tussen de reden of oorzaak waarom iemand de zoekterm invoerde, en die gebruiker zelf? Als je niet weet wat er achter de correlatie zit, heb je geen idee waar je naar kijkt en wat de oorzaak is van die correlatie.

Een reden bij data over griep (Google Flu Trends) kan zijn geweest dat er in die tijd diverse voorpagina artikelen waren over dodelijke griepvirussen. Hetzelfde geldt voor data over Ebola (WHO). Statistiek houdt geen rekening met het daadwerkelijke causaal verband. Het goed doorgronden van de achtergronden is al lastig gebleken sinds mensenheugenis. Er serieuze trends daadwerkelijk mee voorspellen is een brug te ver. De huidige verwachtingen zijn dat dit op korte termijn ook niet mogelijk is.

Een ander punt is dat de data van ‘All’ niet daadwerkelijk iedereen betreft. Trending topics op Twitter en andere sociale media zijn weliswaar veel besproken onderwerpen, maar de hoeveelheid actieve gebruikers is relatief klein om van ‘iedereen’ te spreken. Het is verder slechts een beperkt en niet bepaald representatief deel van de demografie, zowel lokaal als internationaal. Daarmee kan de uitkomst er van, net als in een peiling, stevig afwijken, en zelfs niet in de buurt komen van de werkelijkheid.

Kwantiteit zorgt dus ook bij Big Data niet voor kwaliteit. We zullen het voorlopig moeten doen met de al decennia bestaande mogelijkheden van business intelligence en Found Data, en de term Big Data nog even op de plank laten liggen. En daar is niets mis mee.

Jeroen de Hooge

Jeroen is al meer dan 15 jaar betrokken bij Dutchcowboys. Voornamelijk als digital content creator. En dan voor alle titels van The Blogidea Factory. Liefhebber van advertising, entertainment, tech, gadgets, en eigenlijk alles online.

Verder lezen over Big Data

Nieuwe versie van de Technologie Kieswijzer staat online

Het zal niemand ontgaan dat we met zijn allen opnieuw naar de stembus moeten gaan. De vervroegde Tweede Kamerverkiezing vindt plaats op 22 november 2023. De laatste Tweede Kamerverkiezing vond plaats op 17 maart 2021. To...

Technology25.10.2023

Nieuwe versie van de Technologie Kieswijzer staat online

KNMI moderniseert datastrategie met AWS

Het KNMI heeft een nieuwe, moderne datastrategie geïmplementeerd met behulp van Amazon Web Services (AWS). Daarmee past het meteorologische instituut de mindset en processen van een datagedreven organisatie toe. Behalve...

Technology11.05.2023

KNMI moderniseert datastrategie met AWS

Voor betere detectie en classificatie van seismische activiteit
Wikidata bereikt grens van 100 miljoen data items

Wikipedia kennen we allemaal. Wikidata is wat minder bekend. Dit 'zusje' van Wikipedia heeft afgelopen week de mijlpaal van 100 miljoen items bereikt. Tien jaar geleden begon Wikidata als centrale opslagplaats voor gest...

Online21.10.2022

Wikidata bereikt grens van 100 miljoen data items

8 tweets om de Big Data Expo van 2023 vast in je agenda te zetten

De Big Data Expo is helaas afgelopen, maar je kunt nu alvast 13 en 14 september 2023 in je agenda noteren. Dan vindt in de Jaarbeurs namelijk de Big Data Expo 2023 plaats. Nieuwsgierig wat je daar zoal kunt verwachten? D...

Marketing20.09.2022

8 tweets om de Big Data Expo van 2023 vast in je agenda te zetten

​Big Data Expo: veelzijdig evenement dat iedereen aangaat

Of je nu een account neemt bij Adobe omdat je wil kunnen Photoshoppen of dat je je fulltime bezighoudt met de veiligheid van de data van duizenden klanten: data gaat iedereen aan. Dat is ook te merken tijdens de Big Data...

Technology14.09.2022

​Big Data Expo: veelzijdig evenement dat iedereen aangaat

​Volgende week: van Big Data naar Big Mac op de Big Data Expo

Volgende week woensdag en donderdag vindt de Big Data Expo samen. Alles wat je altijd al wilde weten over data, zoals het verwerken, beheren, maar vooral inzetten om belangrijke beslissingen te nemen in je bedrijf, vind...

Events09.09.2022

​Volgende week: van Big Data naar Big Mac op de Big Data Expo

​Drie keynote-sprekers die je moet zien op de Big Data Expo

De Big Data Expo komt er bijna aan en met 100 exposanten en 120 lezingen is er enorm veel te doen. Om je op weg te helpen, staan we stil bij drie keynote-sprekers die je zeker niet mag missen tijdens dit grote big data-e...

Marketing05.09.2022

​Drie keynote-sprekers die je moet zien op de Big Data Expo

​3 redenen om een bezoek te brengen aan de Big Data Expo

Over een paar weken is het zover, dan vindt de Big Data Expo plaats in de Jaarbeurs in Utrecht. Tijdens deze gratis toegankelijke Expo ontmoeten partijen op het gebied van data elkaar. Vraag en aanbod komen op 14 en 15 s...

Marketing23.08.2022

​3 redenen om een bezoek te brengen aan de Big Data Expo