Het begon zo onschuldig…

Tekst Michel Pijpers
Gepubliceerd op 16-06-2017

Michel Pijpers - Examens Nederlands: al minstens drie jaar slecht, maar niemand grijpt in. Zou het niet handig zijn om te weten hoe goed een examenvraag gemaakt is?

Michel Pijpers

Je kunt dan in de voorexamenklassen díe vragen al eens gebruiken en zo de moeilijkheidsgraad opvoeren naar de examens toe.

Met deze vraag ging ik op zoek naar een betrouwbare bron en die vond ik op de Cito-site zelf. Ieder jaar (vanaf 2014) publiceert Cito (dat de examens maakt, MP) voor ieder examenvak een Toets- en itemanalyse (Tia) (Cito, sd). Prachtig. Per vraag staat aangegeven hoeveel leerlingen op deze vraag gescoord hebben, welke scores ze daarbij haalden en bij meerkeuzevragen staat van elke afleider vermeld hoeveel leerlingen ervoor kozen.

Na een vraag over deze scores op de Facebookgroep Leraar Nederlands tipte Christine Brackmann een artikel van Hans Goosen over dit onderwerp. In Gebruik de TIA’s (Goosen, 2015) waarschuwt hij ervoor om in examentrainingen kritiekloos oude examens te gebruiken: ‘In het examen Nederlands vwo 2013- 1 haalden zeven van de zeventien vragen bij de eerste tekst een Rit-waarde van minder dan 0.20. Als je zo’n examen gebruikt bij de examenvoorbereidingen, mag je wel voorzichtig zijn.’

Nou had ik nog nooit van een Rit-waarde gehoord, dus ik ging maar eens wat lezen. De Rit geeft aan hoe goed een vraag het verschil aangeeft tussen ‘goede’ en ‘slechte’ kandidaten. Eenvoudig gezegd gaat het bij de Rit-waarde om de vraag of de kandidaten met een hoge score voor de toets als geheel ook de moeilijke vragen beter gemaakt hebben dan de kandidaten met een lage score. Als vooral zwakke leerlingen een ‘moeilijke’ opgave goed doen, mag je twijfelen over de betrouwbaarheid van de vraag. (Goosen, 2015)
En gelukkig biedt ook hier de site van Cito zelf uitkomst. In Toets- en itemanalyse met TIA (Goldebeld, 1992) noteert P. Goldebeld op pagina 49 het volgende schema:

Rit-waarde	Itembeoordeling
0.40 en hoger	zeer goed
0.30 – 0.39	goed
0.20 – 0.29	twijfelgeval
0.19 en lager	slecht

Ik lees hierin dat een item met een Rit-waarde onder de 0,20 beoordeeld moet worden als slecht. 7 van de 17 vragen van tekst 1 van het vwo-examen Nederlands was dus slecht: 41%. Een incident, mag ik hopen.

Ik schrik me kapot

Nu is wel mijn argwaan gewekt. Zou de kritiek op de Cito-toetsing terecht kunnen zijn? Met name de examens Nederlands zijn de laatste jaren in de media uitgebreid gefileerd en de klachtenlijn raakt ieder jaar weer overbelast.

Ik pak de TIA van 2014 er eens bij en schrik me kapot: ik zie dat 14 van de 28 items (alleen de tekstverklaring, overige items betroffen samenvatting) een Rit-waarde van 0.19 of lager hebben. 50% van de items is in dit opzicht slecht.

In het schema hieronder zie je hoe in 2014 de kwaliteit van de examenvragen per vak was.

‘Gelukkig’ is het probleem alleen bij Nederlands echt groot. Helaas wel structureel:

56,4 % in 2015: Meer dan de helft van de vragen wordt niet goed gemaakt door de betere leerling. En realiseer je je nu nog eens dat dit alleen nog maar het percentage vragen met een score onder de 0,20 is. Dan komt er nog een bak vragen die beoordeeld moeten worden als “twijfelgeval”. De gemiddelde Rit-waarde voor het examen Nederlands is 0.24 in 2014, 0.21 in 2015 en 0.23 in 2016. Jaar in jaar uit ook de allerlaagste gemiddelde Rit-waarde van alle afgenomen havo-examens.

Als Hans Goosen zegt dat je voorzichtig moet zijn om oude examens te gebruiken in de examentraining ben je in eerste instantie geneigd om te denken: dan nemen we alleen de ‘goede’ of ‘zeer goede’. Alleen: het havo-examen Nederlands had er daar in 2014 maar 5 van, dat van 2015 had er 9 en in 2016 waren er weer maar 5 (van de 42). Dan ben je snel uitgeoefend. Maar dat is wel wat je zou moeten doen: neem je een toets voor de tweede keer af, dan verwijder je de slechte items.

En misschien is het maar beter dat je ook oefent in de slechte en de twijfelgevallen, want voorlopig zijn we er nog niet van af. Ook van de cijfers van 2016 word je niet vrolijk. Al zien we daar wel een mooie ontwikkeling: de verschillen tussen de diverse examens worden kleiner. Gedeelde smart …

(Complimenten voor de filosofie-examenmakers: drie jaar op rij geen slechte items, maar dit terzijde.)

Als ik een tweede correctie doe, controleer ik of mijn collega de boel niet belazert. Heeft hij normaal (correct dus) nagekeken, dan respecteer ik zijn mening en kan ik het soms niet eens zijn met hem, maar laat ik hem zijn eigen leerlingen beoordelen. Ik corrigeer nog wel de taalfouten die er zeker nog zijn (ook ik zie ze niet altijd allemaal) en laat het daarbij. De meeste tweede correctoren zijn echter betweters (want leraar, én leraar Nederlands: muggenzifters van de ergste soort dus) en je moet over elk twistpuntje (± 0,025 van het eindcijfer) steggelen.

Nu ik dit Rit-waardeverhaal tot me door laat dringen, vind ik onze tweedecorrectieritueledans nog triester. Telefoongesprekken en zelfs bijeenkomsten van een uur of vier bekvechten zijn vrij normaal. De uitkomst verschilt in de regel echt weinig van de eerste correctie.

Achterhoedegevechten. Hier is de echte winst te halen: een examen afnemen dat vragen heeft die door iedereen maar op een manier opgevat kunnen worden, zodat je echt test of iemand de tekst heeft begrepen, niet of iemand de vraag opvat op de manier die de examenmakers bedoelen.

Zwarte pieten (excusez le mot)

Hoe kan het dat (minstens) vanaf 2014 de havo-examens Nederlands zo veel slecht beoordeelde items heeft?
Is het examenprogramma Nederlands zo moeilijk te vertalen naar een examen?
Leest het College voor Toetsen en Examens (dat uiteindelijk verantwoordelijk is voor de examens, MP) de TIA’s niet?
Geeft het CvTE aan Cito wel een duidelijke opdracht?
Hoeft Cito geen verantwoording af te leggen?
Krijgt Cito ondanks deze matige prestatie betaald?
Én een syllabus, én referentieniveaus, is dat misschien verwarrend?
Moet SLO (Nationaal Expertisecentrum Leerplanontwikkeling, MP) in actie komen?
Waarom reageerde tot nu toe niemand op deze cijfers?
Waar blijven de vragen van de Tweede Kamer?
Van wie moeten de koppen rollen?

Of lees ik al die cijfers verkeerd? Ik ben geen toetsdeskundige en misschien is het helemaal niet erg dat een Rit-waarde aangeeft dat een item slecht is. Als je me gerust kunt stellen, graag.
Maar ik ben wel geschrokken. Wat als de Rit-waarde wel enige betekenis heeft? Gaan ouders van wie de kinderen op een puntje of 3 zakken op Nederlands nu rechtszaken aanspannen vanwege de ondeugdelijke toetsing? Het zou zomaar kunnen.

Een van mijn zwartepietvragen was Waarom reageerde tot nu toe niemand op deze cijfers. Natuurlijk ook gewoon mijn eigen stomme schuld. Waarom heb ik die TIA’s niet eerder gelezen? Waarschijnlijk omdat ik lesgaf en die lessen ook voorbereidde en verwerkte. Werkdruk lijkt me een mooi excuus.

Is er misschien een onderwijsjournalist die het de moeite waard vindt om hier eens naar te kijken? Ook naar vmbo en vwo kijken, de productielijn examen langslopen. Van die dingen.

[email protected]

Referenties

Cito. (sd). Centraal schriftelijke examens havo en vwo. Opgeroepen op juni 15, 2017, van www2.cito.nl: http://www.cito.nl/onderwijs/voortgezet%20onderwijs/centrale_examens/schriftelijke_examens_havovwo

Goldebeld, P. (1992, Maart). Toets- en Itemanalyse met TIA, Toelichting bij het lezen en interpreteren van toetsen itemanalyses voor gesloten en/of open vragen. Opgeroepen op juni 15, 2017, van www2.cito.nl: http://www2.cito.nl/vo/share/Begrippen%20uit%20de%20TIA.pdf

Goosen, H. (2015). Gebruik de TIA's. Levende Talen Magazine(2), 18-23.