Logo

Het einde van het data sprookje (1/2)

| 12 januari 2021 | Overige

Dit jaar is het 20 jaar geleden dat de DotCom crisis op zijn einde liep en de term ‘web 2.0’ zijn intrede deed. Met web 2.0 kwam de focus op data en interactie te liggen.

Ik ben als ‘data professional’ volwassen geworden in precies die periode. Als ik terugkijk op die 20 jaar, dan kan ik het in drie punten samenvatten:

  1. Connectiviteit (internet), de enorme sprong in rekenkracht van computers bij een laag energieverbruik (smartphones) en de val van de kostprijs om data op te kunnen slaan (Cloud) heeft ons dagelijks leven in korte tijd veranderd, in zowel positieve als negatieve zin.
  2. Ondanks de introductie van nieuwe technologie zijn datamanagement principes weinig veranderd en worden ze nog steeds even slecht nageleefd. Iedere keer worden ons verhalen verteld hoe nieuwe technologie die principes omver zal werpen, maar iedere keer blijkt dat de principes data gerelateerd zijn en niet technologie gerelateerd.
  3. De belofte die werd gedaan met de brede beschikbaarheid van data is een sprookje gebleken. Desondanks blijven mensen, tegen beter weten in, er graag in geloven. Dat lijkt me een consequentie van de vorige twee punten.

De eerste jaren overheersten de verhalen over oneindige welvaartsgroei en democratisch Nirwana. De laatste paar jaren worden stemmen die hun zorgen uiten over data gebruik en de impact daarvan op maatschappij en economie, steeds luider. 

Tegelijk constateer ik dat binnen bedrijven de kennis over wat data is geen gelijke tred heeft gehouden met de explosie van dataverzameling en dataverwerking. De focus ligt of aan de voorkant op het verkrijgen van data of aan de achterkant op de toepassing van data, maar het moeilijke deel tussen verkrijgen en toepassen wordt verwaarloosd. 20 jaar lang hebben we ons in slaap laten sussen door het sprookje dat als je de data maar hebt, de toepassingen als vanzelf volgen. 

Een sprookje is een allegorie en bevat vaak een waarschuwing voor de minder fraaie kant van menselijk gedrag. In alles wat data is en wat we er mee doen zien we ons menselijk gedrag terug en dat reflecteert zowel onze positieve menselijke eigenschappen als onze negatieve eigenschappen.

In dit eerste deel neem ik je mee om te duiden wat data nu eigenlijk is en wat de impact van ons menszijn is in het denken over data. Maar eerst voer ik live een experiment met je uit.

Live experiment

Kijk naar buiten. Wat is het weer nu? Hoeveel tijd heb je nodig om dat vast te stellen. Minder dan een seconde?

Je gaat nu in een geblindeerde kamer op een heel comfortabel bed liggen. Je slaapt daar 5 uur. Ik maak je wakker.

Ik geef je nu data met een meting van iedere vijf minuten van de temperatuur, de neerslag en de zonkracht meting van de laatste 24 uur. Kan je me vertellen wat het weer buiten is? 

Ik geef je er de pollen index, hygrometer waarde, UV indexwaarde en CO2 meting bij. Kan je me nu nauwkeuriger vertellen wat het weer buiten is?

Ik geef je dezelfde cijfers, maar in real-time. Wordt het makkelijker om mij te vertellen wat het weer buiten is?

Ben jij in staat om deze vragen te beantwoorden met dezelfde snelheid als de eerste vraag? Gefeliciteerd, je bent een meteorologisch genie. Of je houdt jezelf voor de gek.

Als dit simpele experiment al duidelijk maakt dat conclusies trekken uit data op basis van een alledaags fenomeen niet zo makkelijk is, hoe doe je dat dan in je dagelijks werk?

Wat is data?

Uit het experiment wordt misschien al duidelijk wat data is. Er bestaan verschillende definities van wat data is, maar ik maak gebruik van de volgende: data is de drager van informatie. In het voorbeeld van het experiment: “Het is 23 graden Celsius, zonnig, met een zwakke wind uit het Oosten” is informatie, iets waar we als mens mee uit de voeten kunnen. De temperatuurmeting in graden Celsius, de meting van de winsnelheid en de windrichting is data.

Data duiden en het duiden van data

Ik heb in de afgelopen jaren veel geschreven over data en hoe de aard van data beperkingen oplegt aan wat je er mee kan doen of wat je van een toepassing gebaseerd op data mag verwachten. Onderstaande punten zijn een opsomming van de onderwerpen die in de loop van de tijd de revue gepasseerd hebben.

Data is een broodkruimeltjes spoor

Data is een reflectie van ons gedrag. Data is altijd subjectief, objectieve data bestaat niet. Zelfs de meting van een temperatuur is niet objectief, maar een afspraak. Er zijn drie algemeen gehanteerde afspraken in omloop: die van Fahrenheit, die van Celsius en die van Kelvin.

Data is altijd een deelverzameling 

Data is partieel en nooit het geheel. Welke broodkruimels verzamel je? Als je alleen Twitter als databron had, wat zou je interpretatie zijn van de mensheid? 

Geen twee mensen trekken dezelfde conclusie uit dezelfde data

Als ik mijn experiment herhaal met verschillende mensen op hetzelfde moment en dezelfde locatie, dan weet ik zeker dat ik verschillende antwoorden krijg. Het proces van wetenschap, waarbij conclusies gevalideerd en tegengesproken worden is zo ontworpen vanwege dit fenomeen.

Dezelfde data leiden tot andere conclusies als de context verandert

Dezelfde feiten leiden tot dezelfde uitkomst, maar niet tot dezelfde conclusie. Conclusies zijn context afhankelijk. Dit is iets wat veel mensen weten, maar de betekenis hiervan dringt vaak niet door. 

In veel gevallen is context situationeel bepaald. Wat bedoel ik daarmee? In een laboratorium kan worden vastgesteld dat een jas 98% vochtwerend is. Die meting is herhaalbaar. Is het dan ook een goede jas? Tijdens een ommetje op het strand, op een mooie lente dag, met kans op buien waarschijnlijk wel. Tijdens een hiking tocht van een week in de Schotse Hooglanden in de herfst waarschijnlijk niet. 

De omstandigheden van de toepassing van data is bijna altijd situationeel bepaald. Maar bij de creatie van data wordt de context vaak gedicteerd door onze emotie. Het is belangrijk dat we ons realiseren dat deze context meestal niet in de data aanwezig is. Een review van een product kan negatief zijn omdat iemand met het verkeerde been uit bed is gestapt, los van de ervaring met het product.

Zelfs van een meting, zoals temperatuur, moet de context waarin wordt gemeten worden vastgelegd om iets zinnigs met die meting te kunnen doen. Meteorologische instituten hebben daarom internationaal vastgestelde voorschriften hoe een temperatuur te meten, anders is de data niet vergelijkbaar.

Een algoritme dat getraind wordt zal ook getraind moeten worden op wisselende context en daar zit precies de crux. Het is niet voor niets dat auto’s nog niet autonoom kunnen rijden. Onze hersenen zijn toegerust om met wisselende context om te gaan. Computeralgoritmen zijn daar notoir slecht in. Dat heeft een keerzijde: computers komen op basis van dezelfde input data tot dezelfde output, keer op keer, terwijl onze hersenen dat allerminst doen.

Data verwerken en interpreteren is een vak apart

Iedere keer dat ik lees dat data het nieuwe goud is, of mensen vol vuur over ‘de democratisering van data’ in bedrijven hoor betogen, dan moet ik terugdenken aan mijn lessen wiskunde A op de middelbare school. Geen vak leidde tot zoveel verwarring en wanhoop als statistiek. Tijdens mijn universitaire opleiding was het niet beter.

Een beperkt deel van de mensen heeft aanleg om te doorgronden hoe je data correct modelleert, verwerkt en welke conclusies je wel of niet kan trekken. Gebrekkige vaardigheden leiden in de praktijk tot meer ongelukken dan vooruitgang.

Het data stuwmeer

Technologie maakt het mogelijk om eenvoudig data te verzamelen. Veel mensen die ik spreek zijn zich bewust dat het werken met data in de praktijk tegenvalt. Maar waarom blijven we dan maar data verzamelen en achter de hypes aanrennen? Dat is het onderwerp van het tweede deel



Je kan me bereiken via