Twee derde tot ruim de helft van de resultaten van honderd sociaalwetenschappelijke studies zijn niet reproduceerbaar. Oftewel, voer zo’n onderzoek nog een keer uit en je krijgt andere resultaten. Dat ontdekte in 2015 een internationale groep onderzoekers (Open Science Collaboration). In de sociale psychologie, waaronder onderwijskunde, ligt het aantal niet-herhaalbare resultaten nog hoger: tussen een kwart en een derde.
Dit is een serieus probleem voor de toegepaste onderwijskunde. Want als de meeste onderzoeksresultaten niet reproduceerbaar zijn, dan werkt die schitterende interventie heel goed op die ene school of bij die ene leraar, maar levert ze misschien niks op in een andere school of bij een andere leraar.
Instrument mag dan
betrouwbaar zijn, maar
is gebruik dat ook?
Wat kunnen wij als praktijkonderzoekers doen om ons onderzoek beter reproduceerbaar te maken? De empirische weg zou zijn om te toetsen in hoeverre de resultaten in school/klas/leraar A zich herhalen in school/klas/leraar B. Als de resultaten substantieel verschillen tussen scholen/klassen/leraren, dan is de kans op herhaling vermoedelijk laag. In 1904 introduceerde Charles Spearman al een analyse die uitermate geschikt is voor dit type vraagstukken: betrouwbaarheid. In de jaren zeventig gaf Lee Cronbach het een meer passende naam: generaliseerbaarheid. Dit is de inschatting in hoeverre gevonden scores zich zullen herhalen, maar ook – en dit is heel belangrijk – hoe het onderzoek kan worden aangepast zodat de kans op herhaling groter wordt.
Mijn hypothese: dat onderzoeksresultaten zich zelden laten herhalen, is het gevolg van de lage generaliseerbaarheid van het sociaalwetenschappelijk onderzoek. Ik wil deze hypothese onderbouwen met voorbeelden die illustreren dat betrouwbaarheid en generaliseerbaarheid nog steeds een probleem kunnen zijn in sociaalwetenschappelijk onderzoek. Ik zal ook laten zien hoe dit consequenties heeft voor gepubliceerde onderzoeksresultaten.
Ik houd mij bezig met het lesgeven van leraren, dus de voorbeelden komen van dit terrein. Generaliseerbaarheid wordt uitgedrukt op een schaal van 0.00 tot 1.00, waarbij het eerste betekent dat resultaten zich totaal niet herhalen en het tweede dat resultaten zich compleet herhalen. In de ideale situatie streven onderzoekers naar waarden van minstens 0.70.
Observatie is een veelgebruikt middel om inzicht te krijgen in hoe leraren lesgeven. Lang werd gedacht dat bij onderzoek met observatiemethodes een enkele lesobservatie door een enkele persoon voldoende betrouwbaar zou zijn, mits deze persoon was getraind. Maar recente studies laten zien dat dit niet klopt. Bij één lesobservatie door één persoon is de generaliseerbaarheid ongeveer 0.40, ook wanneer deze persoon is getraind. Pas bij drie lesobservaties door drie verschillende observatoren stijgt de generaliseerbaarheid naar ongeveer 0.70 (Van der Lans, 2016).
Soms wordt de gemiddelde prestatie in een klas op kennistoetsen, zoals de Cito-toets, gebruikt om uit te drukken hoe goed de leraar lesgeeft. Idealiter wordt aan het begin en einde van het schooljaar zo’n toets afgenomen. Aan het einde van het schooljaar zal de klas gemiddeld beter presteren: daarin zie je de ‘toegevoegde waarde’ van de leraar. Ook hierbij is het van belang om de toetsafname te herhalen. Recent onderzoek laat zien dat een eenmalige berekening van de toegevoegde waarde een betrouwbaarheid heeft van ongeveer 0.29, bij zes keer (over zes schooljaren) is die opgelopen tot 0.52 (Goldhaber en Hanssen, 2013).
Ook bij onderzoek met leerlingvragenlijsten lijkt het te helpen om deze herhaaldelijk af te nemen. Bij eenmalige antwoorden van een individuele leerling is volgens de meeste inschattingen de generaliseerbaarheid laag (ongeveer 0.26, Van der Lans en Maulana, 2018). Al gelden hierbij twee kanttekeningen: de betrouwbaarheid van een eenmalig klasgemiddelde is veel groter (hoger dan 0.70), en in onderzoek naar leraren wordt dit vaak gebruikt. Daarnaast is er een verschil tussen ander-beoordelingen (leerling beantwoordt vragen over hoe de leraar lesgeeft) en zelf-beoordelingen (leerling beantwoordt vragen over eigen gedrag, houding en interesses, zoals motivatie). Bovenstaande 0.26 betreft de betrouwbaarheid van eenmalige antwoorden bij ander-beoordelingen.
Duurdere methodes
leiden tot betere
betrouwbaarheid
In het merendeel van gepubliceerd onderzoek vind je zinnen als: ‘op basis van de betrouwbaarheidsanalyse blijkt dat deze toets/vragenlijst/dit observatieinstrument betrouwbaar is’, ook als de onderzoekers er een eenmalige meting mee deden. Technisch is er ook niks mis met zo’n conclusie; het instrument is inderdaad betrouwbaar. Maar de lagere generaliseerbaarheid in de voorbeelden hierboven ontstaat door verschillen tussen gebruikers en situaties. Wat de ene klas vindt van de lessen van een bepaalde docent, vindt een andere klas misschien niet, en een derde klas heeft weer een andere mening. Dus wanneer je een betrouwbaar instrument eenmalig afneemt bij die ene klas, krijg je misschien toch een onbetrouwbare indruk. Ik pleit er daarom voor om de gebruikers en de situatie waarin het instrument wordt gebruikt, in het onderzoek mee te wegen.
Onlangs onderzocht ik hoe herhaald gebruik van twee instrumenten – ICALT-lesobservatie-instrument en Mijn Leraar-leerlingvragenlijst – invloed kunnen hebben op de onderzoeksuitkomsten. Ik heb de samenhang bekeken tussen de scores op deze instrumenten, die allebei de vaardigheid in lesgeven zouden moeten meten. De scores van de leerlingen zouden een hoge samenhang moeten hebben met de scores van de observatoren. Maar het aantal metingen dat ik met de instrumenten liet doen, bleek grote invloed te hebben op de uitkomst.
Wanneer één lesbezoek plaatsvond door één enkele observator en ik deze observatiescore correleerde met de klasgemiddelde score op de leerlingvragenlijst, dan bleek er een matige samenhang (correlatie van 0.26: voor de meeste docenten was er weinig overlap tussen de uitkomsten op de leerlingvragenlijst en het lesobservatieinstrument). Maar bij zeven lesbezoeken, door zeven verschillende personen, was er ineens een sterke samenhang (correlatie van 0.74: voor de meeste docenten overlapten de uitkomsten). Doordat er meer metingen waren gedaan, werden de scores op de instrumenten minder afhankelijk van de toevallige gebruiker in een toevallige lessituatie. Want wat bijvoorbeeld de ene observator niet zag, zagen de anderen wel.
We vragen om een
dubbeltje, maar moeten
een kwartje eisen
Zijn meerdere metingen binnen hetzelfde onderzoek om de betrouwbaarheid omhoog te krijgen de extra kosten wel waard? Herhaald gebruik van instrumenten zal onderwijskundig onderzoek immers duurder maken. Voor een antwoord op deze vraag moeten we misschien voorbij de onderwijskunde kijken. Recent stond er een artikel in de Volkskrant (Spanning rond verdeling extra geld voor wetenschappelijk onderzoek, 5 juni 2018) over de verdeling van een structurele 70 miljoen euro voor onderzoek. Sociale wetenschappers beklaagden zich dat hiervan slechts 10 miljoen was gereserveerd voor sociale, economische en literatuurwetenschappen, tegenover 60 miljoen voor de bèta- en techniekwetenschappen. De minister rechtvaardigde haar besluit met de reden dat het ‘exacte onderzoek veel kostbaarder is’.
Laat één ding duidelijk zijn: tenminste één reden dat de kosten voor exact onderzoek hoger zijn, is dat bèta- en techniekwetenschappers er doorgaans niet voor terugschrikken om dure apparatuur en methodes te gebruiken om de betrouwbaarheid en generaliseerbaarheid van hun resultaten te verhogen. De bestuurslogica is helder: wie om een dubbeltje vraagt, krijgt een dubbeltje. In mijn ogen doen we leraren, scholen en onszelf tekort wanneer we onze onderzoekspraktijk niet veranderen. Als mijn hypothese klopt, kunnen we de betrouwbaarheid en generaliseerbaarheid van het sociaalwetenschappelijk onderzoek aanmerkelijk verhogen door ook een kwartje te eisen.
Rikkert van der Lans is postdoctoraal onderzoeker aan de lerarenopleiding van de Rijksuniversiteit Groningen.
Dit artikel verscheen in de rubriek Onderzoek po/vo in Didactief, november 2018.
Sommigen bagatelliseren het belang van meerdere observaties en vragenlijsten of toetsen per leraar of leerling: één observatie of afname zou voldoende zijn, omdat ‘de grotere meetfouten wel wegvallen in het gemiddelde’, als de steekproef maar ‘groot genoeg’ is. Deze redenatie klopt alleen voor gemiddelden. Maar in het meeste sociaalwetenschappelijke onderzoek wordt gebruikgemaakt van correlaties, en betrouwbaarheid beïnvloedt deze wel degelijk (bij lagere betrouwbaarheid worden correlaties kleiner). En misschien nog wel belangrijker: dit effect blijft bestaan bij een grotere steekproef.
Open Science Collaboration. (2015). Estimating the reproducibility of psychological science. Science, 349(6251), aac4716.
Goldhaber, D., & Hanssen, M. (2013). Is it just a bad class? Assessing the long-term stability of estimated teacher performance. Economia, 80, 589-612.
van der Lans, R. M. (2016). Eén lesbezoek is onvoldoende. Didactief 46(10), 46-47.
van der Lans, R. M. (2018). On the “association between two things”: The case of student surveys and classroom observations of teaching quality. Educational Assessment, Evaluation and Accountability (online first publication).
van der Lans, R. M., & Maulana, R. (2018). The use of secondary school student ratings of their teacher’s skillfulness for low-stake assessment and high-stake evaluation. Studies in Educational Evaluation, 58, 112-121.
1 Één lesbezoek is onvoldoende
2 Lerarenopleiding op onderzoek uit
En blijf op de hoogte van onderwijsnieuws en de nieuwste wetenschappelijke ontwikkelingen!
Inschrijven