Universiteit Leiden

nl en
Studentenwebsite Fiscaal Recht (LL.B.)

Slimmer toetsen met statistiek: hoe e-waardes wetenschappelijk onderzoek kunnen verbeteren

Wiskundige Tyron Lardy werkte tijdens zijn promotieonderzoek aan een nieuwe manier om hypotheses te toetsen. In plaats van de klassieke p-waarde gebruikt hij zogeheten e-waardes. Die blijken flexibeler; zeker als je tussentijds naar je resultaten wilt kijken.

Stel je voor: je zet steeds een bedrag naar keuze in op een eerlijke munt, die evenveel kans geeft op kop als op munt. Bij kop krijg je 2x je inzet terug, bij munt ben je je inzet kwijt. Gemiddeld verwacht je dus precies je inzet terug te krijgen - een eerlijke weddenschap. Je begint met 1 euro, en elke ronde zet je al het geld dat je dan hebt opnieuw in. Als je dan acht keer achter elkaar kop gooit heb je 256 euro binnen - en wellicht begin je dan te twijfelen: is deze munt wel écht eerlijk? Dat idee zit achter e-waardes: ze helpen je inschatten of een aanname wel klopt.

De e-waarde (e staat voor expected value) biedt een alternatief voor de p-waarde (p voor probability), waarmee onderzoekers hun hypotheses testen. De p-waarde heeft een groot nadeel: je mag in principe pas een conclusie trekken als je al je data hebt. Voeg je later alsnog extra metingen toe, dan klopt je analyse statistisch gezien niet meer. ‘Veel onderzoekers doen dat toch, als hun p-waarde nét niet klein genoeg is,’ zegt Tyron Lardy. De kans op een verkeerde conclusie gaat dan omhoog. E-waardes houden hun betrouwbaarheid, ook als je onderweg extra gegevens toevoegt of je plan aanpast.

De promotor van Tyron Lardy, Peter Grünwald, doet al jaren onderzoek naar e-waardes. Grünwald: ‘Je kunt de e-waarde zien als de hoeveelheid geld die je verdient in weddenschappen zoals die in het voorbeeld.’ Hoe hoger die waarde, hoe sterker het bewijs tegen je oorspronkelijke aanname (‘Er is evenveel kans op kop als op munt’). Dat maakt e-waardes aantrekkelijk in bijvoorbeeld medicijnonderzoek en psychologie, waar onderzoekers vaak met complexe situaties te maken hebben en flexibel moeten kunnen omgaan met data.

Algemeen recept voor e-waarde soms zeer complex

Inmiddels bestaat er een algemeen recept voor het bepalen van een optimale e-waarde. Maar in sommige gevallen is dat recept moeilijk toepasbaar. ‘Ik heb daarom gekeken naar: hoe maak je voor zulke complexe problemen een goede e-waarde? Wat is het recept dat iemand moet volgen om op het einde van zijn experiment een bruikbaar getal te hebben?’

Een concreet voorbeeld is het toetsen of een medicijn werkt, rekening houdend met bijvoorbeeld leeftijd of geslacht van de patiënt. ‘Bij klinisch studies weet je vaak precies hoe het medicijn wordt toegediend; de helft van de patiënten krijgt het medicijn, de andere helft krijgt een placebo. Die kennis kun je gebruiken om een optimale e-waarde te maken.’

Netflix gebruikt het al, nu de opleidingen nog

In veel opleidingen zullen vooralsnog p-waardes de standaard zijn. Gaan we ooit over op e-waardes? Daar zijn nog wel wat hobbels voor te nemen, zegt ook Grünwald. ‘De theorie is er, maar dat moeten we nu in de praktijk uitwerken. We hebben mooie formules, maar daar moet nog goede software voor komen.’ Ook is er sprake van een flinke achterstand: de p-waarde wordt al decennialang gebruikt. ‘Veel mensen kennen de beperkingen, maar blijven toch vasthouden aan wat ze gewend zijn.’

Toch ziet Lardy al beweging: techbedrijven zoals Netflix gebruiken e-waardes bijvoorbeeld om te testen of gebruikers langer blijven hangen bij een rood of een grijs knopje. Lardy en Grünwald hopen dat het ooit wordt opgenomen in de studieboeken, zodat de studenten in de collegebanken al leren dat ze beter e-waardes kunnen gebruiken om hun hypotheses te toetsen.

Promotie

Tyron Lardy verdedigt op 18 juni zijn proefschrift getiteld Optimal Test Statistics for Anytime-Valid Hypothesis Tests in het Academiegebouw. Zijn promotoren zijn Peter Grünwald en Wouter Koolen-Wijkstra.

Deze website maakt gebruik van cookies.  Meer informatie.