Waar of waarheidsachtig?

Tekst Paul Kirschner
Gepubliceerd op 31-08-2015
Paul Kirschner - Veel onderzoek is minder betrouwbaar dan het lijkt. Wetenschappers trekken soms conclusies waarvan ze vooral graag willen dat ze waar zijn.

Is een onderzoek betrouwbaar of lijkt het alleen zo? De Amerikaanse komiek Stephen Colbert bedacht het mooie woord'truthiness', dat in het Nederlands nauwelijks in één woord te vangen is, maar zoiets betekent als: iets dat aannemelijk klinkt en waar mensen aan vast willen houden zonder rekening te (willen) houden met feiten, logica of ander bewijs. Dit 'waarheidsachtig' is heel iets anders dan 'trustworthy' ofwel 'betrouwbaar'.
Ik constateer helaas dat de conclusies van wetenschappers – en soms het onderzoek zelf - eerder waarheidsachtig dan betrouwbaar zijn.

In zijn artikel 'Een voorstel voor het beoordelen of onderzoeksresultaten betrouwbaar zijn' stelt de Britse onderwijshoogleraar Stephen Gorard: 'Een slecht beschreven onderzoek is niet te vertrouwen.' Vaak wordt onderzoek aangegrepen als bewijs dat iets ingevoerd kan of moet worden. Maar dan moet je wel zeker weten dat het onderzoek te vertrouwen is. Om dat te doen moet je op een aantal dingen letten.

Je moet eropaan kunnen dat wat de onderzoeker deed, de uitkomst heeft veroorzaakt. Er moet dus sprake zijn van causaliteit: een directe oorzaak-gevolgrelatie tussen wat uitgeprobeerd werd en het resultaat. Aan verbanden ('correlaties') heb je weinig. Ongeveer alle moordenaars hebben melk gedronken toen zij kind waren (100% correlatie), maar je kunt niet concluderen dat als je melk drinkt, je later een moordenaar wordt. De 'gouden standaard' is onderzoek waarbij de deelnemers willekeurig in groepen geplaatst zijn en waar alles in de groepen hetzelfde is behalve de interventie. Dan weet je dat zaken als voorkeur van de leraar, geslacht, motivatie of wat dan ook misschien de echte reden is dat iets heeft gewerkt.

Ook geldt: hoe meer proefpersonen, hoe betrouwbaarder. Als een onderzoeker op basis van een studie met tien deelnemers (N=10) beweert dat de ingreep de oorzaak is van een geweldige uitkomst, moet je je echt achter de oren krabben. En let op: een studie die dertig scholen in twee groepen verdeelt, waar de scores van alle negenduizend leerlingen verzameld en vergeleken worden, is een studie met een N van dertig en niet van negenduizend. Want niet de scores van de leerlingen worden vergeleken, maar de gemiddelden van de scholen, met bijvoorbeeld als conclusie dat scholen die een lessenreeks invoerden significant hoger scoorden op de Cito-toets dan de scholen die de oude aanpak gebruikten.

Kijk ook of de onderzoeker vertelt hoeveel deelnemers er overbleven. Het aantal uitvallers – en de verdeling daarvan over groepen – kan behoorlijke gevolgen hebben voor de conclusies die je kunt of mag trekken. Als er bijvoorbeeld veel uitval is in de 'ingreepgroep', kan het betekenen dat alleen de zeer gemotiveerde leerlingen zijn overbleven en dan zegt het onderzoek niets over hoe de ingreep in andere klassen zal uitpakken.

Ook moeten de data zonder meer betrouwbaar zijn. De metingen moeten herhaalbaar zijn (validiteit) en elke meting of beoordeling moet op dezelfde wijze plaatsvinden. Als een onderzoeker zegt dat leerlingen iets geleerd hebben, mag dit niet een conclusie zijn – zoals ik heel vaak zie – op basis van wat leerlingen zeggen geleerd te hebben. Vaak zijn het de onderzoekers zelf die leerlinggedrag of schrijfopdrachten beoordelen. Probleem is dat zij meestal niet onbevooroordeeld zijn en dus mogelijk zien wat zij willen zien.

Om de lezer te helpen heeft Gorard een 'zeef' gemaakt door zes categorieën te beschrijven waarmee je de betrouwbaarheid van een onderzoek goed in kunt schatten (ontwerp, schaal, uitval, uitkomsten, nauwkeurigheid, geldigheid). Een studie die eerlijk en grootschalig is, met nauwelijks uitval en met gestandaardiseerde uitkomsten, maar waarbij de ingreep onduidelijk beschreven is of waar de behandeling ongelijk is (de testgroep studeerde bijvoorbeeld tweemaal zo lang als de controlegroep), valt door de zeef. Probeer dit ook zelf eens te doen als je een onderzoeksartikel of -verslag leest.

Gorard, S. (2014) A proposal for judging the trustworthiness of research findings. Radical Statistics, 110, 47-60.

Een ogenblik geduld...
Click here to revoke the Cookie consent