Onderzoek

PISA-lek is boven

Tekst Monique Marreveld en Bea Ros
Gepubliceerd op 02-03-2023 Gewijzigd op 30-03-2023
Beeld Loek Weijts

Op 16 mei worden de resultaten van PIRLS-2021 gepubliceerd (leesvaardigheid groep 6). De onderwijsinspectie toonde in december al dalende prestaties aan in het peilingsonderzoek naar leesvaardigheid in groep 8. Hoe zal Nederland het straks doen? Nicole Swart van het Expertisecentrum Nederlands is niet optimistisch. En dat heeft alles te maken met de noodklok die de Alan Turingschool luidde over de eindtoets.

Afgelopen september publiceerde Didactief over de problemen die Amsterdamse basisschool Alan Turing heeft met de eindtoets. Hoewel het team het leesonderwijs op wetenschappelijke leest heeft geschoeid, bleven de resultaten op twee verschillende eindtoetsen achter. Tot de school, indruisend tegen de principes van goed leesonderwijs én van de filosofie achter de eindtoets, de vraagstelling ging oefenen. Toen haalde 30% meer leerlingen het vereiste niveau. De vraag rees: zijn de eindtoetsen wel geschikt voor het meten van leesvaardigheid of zijn het hoepeltjes die we onze leerlingen eind groep 8 voorhouden?

Te rooskleurig

Een nog nijpendere vraag is: als die eindtoetsen de leesvaardigheid kennelijk zo slecht in beeld brengen, hebben we dan misschien een te rooskleurig beeld van de leesvaardigheid van onze achtstegroepers? Komen de slechte PISA-scores – een kwart van de Nederlandse 15-jarigen is onvoldoende leesvaardig en mist diep tekstbegrip – niet gewoon door falen in groep 8, maar signaleren de eindtoetsen dat gewoonweg niet?

‘De eindtoets
moet minder
gewicht krijgen’

‘Ik ga er inderdaad vanuit dat die gebrekkige leesvaardigheid al in groep 8 speelt,’ zegt onderzoeker Nicole Swart van het Expertisecentrum Nederlands. Zij onderzocht samen met collega’s de algemene richtlijnen voor de internationale toetsen, eindtoetsen en examens. En wat blijkt? In PIRLS (groep 6) is het kunnen evalueren en reflecteren bij lezen (zogeheten diep tekstbegrip) een belangrijke component in de toetsen; hetzelfde geldt voor PISA (15-jarigen). Nederlandse leerlingen scoren op beide ‘low stakes’-toetsen laag op leesvaardigheid, maar bij de eindtoets scoren ze een stuk beter. Dat is volgens Swart niet zo gek, want het onderdeel Evalueren zit weliswaar in het referentiekader taal en rekenen, maar niet in de richtlijnen voor de eindtoets. In de vijf eindtoetsen die Nederland rijk is, is dit onderdeel dan ook nauwelijks aanwezig. Het is domweg geen verplicht onderdeel.

‘En omdat evalueren en reflecteren nauwelijks getoetst worden in de eindtoets, komen ze heel cru gezegd ook weinig in de huidige methoden aan bod, want methode-ontwikkelaars stemmen hun lesmateriaal veelal af op die eindtoets,’ aldus Swart. Geen wonder dus dat Nederlandse leerlingen op precies die vaardigheden uitvallen als ze 15 jaar zijn. Ze hebben het domweg te weinig geleerd. Behalve dan op de Alan Turingschool en andere scholen die niet (louter) varen op leesmethodes. Maar ja, die struikelen dan weer over de eindtoets.

Voorbereiden

De Alan Turingschool bereidt zich op dit moment voor op de eindtoets. Om een inschatting te maken hoeveel leerlingen 2F halen op gebied van leesvaardigheid vertrouwt directeur Eva Naaijkens ‘op het vakmanschap van onze leraren, meer dan op de kwaliteit van de lvs-toetsen en de eindtoets. We doen dit door de leerontwikkeling van onze leerlingen te monitoren door:

vragen te stellen die begrip controleren tijdens de les;
de leerling complexe opdrachten te laten maken;
het gemaakte werk van de leerlingen te beoordelen aan de hand van succescriteria;
de werkhouding van de leerling tijdens het werk te observeren;
in gesprek te gaan met de leerling en denkprocessen expliciet te maken.

Multiple choice

Hoe reageren de eindtoetsaanbieders op het verhaal van de Alan Turingschool? Hilde Hacquebord van Diataal kan niet geloven dat een school die evidence-informed werkt, toch slechte scores op de eindtoets haalt. ‘Werkt de school wel met een goed leerlingvolgsysteem? Scholen die ons lvs gebruiken, halen uit onze eindtoets wat ze verdienen. Als je een goed lvs hebt en dit goed benut, dan maak je mij niet wijs dat ze bij de eindtoets door het ijs zakken. Dat moet de Alan Turing toch eens uitzoeken.’ ‘Dat hebben we gedaan,’ zegt directeur Eva Naaijkens van de Alan Turing: ‘Al onze groepen scoorden goed op leesvaardigheid in het Cito-lvs. Maar het bleek onmogelijk daarmee te voorspellen hoe de leerlingen op de eindtoets zouden presteren. Het is echt een black box.’ Ook Martin Ooijevaar van SKO West-Friesland (22 scholen) zegt dat verschillende leerlingvolgsystemen en eindtoetsen op leesvaardigheid niet met elkaar spoorden (zie kader).

‘Baseer toetsen
op inzichten
leesvaardigheid’

Volgens Hacquebord meet Diataal, de leestoets van DIA, wel degelijk diep tekstbegrip: ‘Leerlingen moeten verbanden leggen, een tekstgenre begrijpen en hoofd- en bijzaken onderscheiden.’ Maar teksten kritisch vergelijken, een manier om diep tekstbegrip te toetsen, ontbreekt. Hacquebord: ‘Dat zouden we inderdaad meer kunnen doen, maar het wordt simpelweg niet gevraagd in de referentieniveaus.’

Angelique Oosterik van A-Vision is de aanbieder van Route 8, een van de toetsen waarmee de Alan Turing aanvankelijk werkte. Haar weerwoord is verrassend simpel: ‘Voor het meten van leesvaardigheid grijpen wij terug op de eisen die gesteld zijn in de referentiekaders en in de kerndoelen PO.’ Waaraan ze diplomatiek toevoegt: ‘We denken dat het goed is om de kaders mee te laten bewegen met de ontwikkelingen die er spelen. Dan zullen de toetsaanbieders automatisch volgen.’

Ook Janneke Helsloot van de IEP Eindtoets (de tweede toets die de Alan Turingschool gebruikte) wijst naar het referentiekader taal en rekenen. ‘De IEP Eindtoets sluit aan bij hoe kinderen in de klas getoetst worden op leesvaardigheid. Evalueren, interpreteren en samenvatten zitten er wel degelijk in.’ Maar dat alles wel via multiplechoicevragen. Die zijn volgens haar ‘prima geschikt om leesvaardigheid te meten en objectief bovendien’. Hacquebord beaamt dit: ‘Open vragen maken te weinig verschil. Dat hebben we onderzocht: zwakke en sterke lezers scoren allebei een voldoende. Multiple choice geeft keer op keer de beste resultaten.’

Fleur Wieggers van de AMN Eindtoets denkt er anders over. Ja, multiple choice is voor het meten van leesvaardigheid het meest objectief en qua scoring het best werkbaar, maar je verliest daarmee wel aan inhoud. Ze is het met de Alan Turingschool eens dat de eindtoets, van welke aanbieder dan ook, maar een beperkt deel van leesvaardigheid meet. ‘Dat is het nadeel van gestandaardiseerde toetsen.’ Voor rekenen hebben ze wel overwegend open vragen, maar voor leesvaardigheid ontkom je niet aan multiple choice:

‘Stel dat je leerlingen een samenvatting wil laten maken. Daar kun je geen goed geautomatiseerd scoringsmodel voor maken.’ Daarom vindt Wieggers dat de eindtoets minder gewicht moet krijgen. ‘Wat ons betreft is de groepsleerkracht de expert. Wat deze in de klas ziet, is het allerbelangrijkste. Want gestandaardiseerde toetsen kunnen wel een goede schatting geven, maar dat ze niet ideaal zijn, daar zijn we het wel over eens.’ De inspectie zou wat haar betreft daar ook rekening mee moeten houden en scholen niet klakkeloos afrekenen op eindtoetsscores. De eindtoets moet gebruikt worden waar deze voor bedoeld is: een tweede, objectief advies naast het zeer belangrijke schooladvies.

Niet de enige

De Alan Turingschool blijkt niet de enige met dit probleem. Veel scholen meldden zich naar aanleiding van onze publicatie met vergelijkbare problemen. Didactief sprak Martin Ooijevaar, directeur onderwijs bij SKO West-Friesland (22 basisscholen), die de problematiek herkent. Hij heeft, net als Naaijkens en Bootsma, de data van de leerlingvolgsystemen en de eindtoets van zijn scholen naast elkaar gelegd toen hij problemen constateerde. Ze bleken niet met elkaar te matchen.

Ooijevaar houdt van data en verdiepte zich daarom al eerder in de referentieniveaus taal en rekenen. ‘Ik dacht: Als ik weet hoe mijn scholen daar op scoren, kan ik die data misschien gebruiken om ze een beetje bij te sturen als dat nodig is. Dat bleek in de praktijk lastig, tótdat Cito vaardigheidsscores bij het leerlingvolgsysteem publiceerde die handen en voeten gaven aan die referentieniveaus. Ik heb ze vervolgens doorvertaald naar de andere leerjaren: wat moeten leerlingen eigenlijk kennen en kunnen in groep 6, 7 om uiteindelijk eind groep 8 bij 1F of 1S uit te komen?’

Eind goed, al goed, zou je zeggen. Nee dus. Niet alle scholen van SKO West Friesland gebruiken dezelfde leerlingvolgsystemen of eindtoetsen, scholen besluiten zelf welke ze kiezen. En dat bleek een complicerende factor. Want toen Ooijevaar de resultaten van de leerlingen van verschillende lvs- en eindtoets-aanbieders ging vergelijken, bleken de verschillen groot. Had een leerling bij Cito genoeg aan een niveauwaarde van 2.5 om leesvaardigheid op 2F te halen (zeg maar een B- of zelfs een C-score), bij Dia moest dat maar liefst 3.7 zijn (zeg maar een A-score). Anders gezegd, had een leerling bij CITO genoeg aan een score ruim onder het landelijk gemiddelde om 2F te halen, bij DIA moest dat een score ruim boven het landelijk gemiddelde zijn. ‘Het lijkt voor de scores die een leerling haalt dus nogal uit te maken welk lvs en welke eindtoets je gebruikt’, aldus Ooijevaar. Scholen die overstapten naar een ander lvs en eindtoets, daalden opeens onverklaarbaar in prestaties bij SKOWF. Waar 80% van de leerlingen op een school het ene jaar begrijpend lezen 2F makkelijk haalden, presteerde het jaar daarop (met een andere leerlingvolgsysteem) nog maar 50% dat niveau. Op dezelfde school, met dezelfde leerkracht, dezelfde methode, een vergelijkbare populatie; ook corona of burn out leverden geen verklaring, zegt Ooijevaar. ‘Het enige verschil was dat ze een ander lvs hadden genomen.’

Dat maakt het voor hem moeilijk om in beeld te krijgen wat er nou echt aan de hand is op zijn scholen. De suggestie van Diataal-directeur Hacquebord dat wie een goed lvs heeft, niet voor verrassingen komt te staan, klopt dus niet.

Ooijevaar maakt zich grote zorgen. ‘Het risico is dat de zelfde soort kinderen straks bij verschillende lvs’en en eindtoetsen andere adviezen gaan krijgen. En we maken op basis van die data ook verkeerde beslissingen in de klas. Het kan zijn dat leerstof niet meer aansluit of dat het schooladvies niet klopt bij de potentie van een leerling.’

Met het verweer van de toetsmakers dat het probleem deels al bij de referentieniveaus ligt, is Ooijevaar het maar deels eens. Hij vindt het problematisch dat de referentieniveaus laag zijn en dat ze opgeknipt zijn; ‘toetsmakers maken daardoor ook een soort opgeknipte toets, waardoor je alleen maar deelvaardigheidjes aan het toetsen bent, terwijl begrijpend lezen veel complexer is. Dat is waar. Maar,’ zegt hij, ‘kijk naar het PIRLS-onderzoek, dat zijn prima toetsen.’ Hij wil maar zeggen: het kan wel.

Zijn pleidooi aan de toetsmakers: ‘terug naar de tekentafel, maak betere toetsen die de referentieniveaus meten en meer: ook dieper tekstbegrip en het vergelijken van meerdere teksten. Liever geen meerkeuze, want die meten maar een beperkt stukje tekstbegrip. Niet digitaal, want als kinderen normaal gesproken alleen op papier werken, komt een digitale toets hun prestaties niet ten goede. En breng kennis terug in de toetsen, want nu worden eigenlijk alleen maar vraagstellingen getoetst.’

Het belangrijkste, zegt hij: ‘Het beeld waarmee we onze leerlingen naar het vo sturen, is mogelijk onjuist. Zo komen kinderen straks misschien op de verkeerde plek terecht. Als we dat willen voorkomen, hebben we echt betere toetsen nodig.’ En voor wie er nog aan twijfelde: maak haast want ‘de huidige eindtoetsen veroorzaken eigenlijk achteruitgang in het leesonderwijs. Leraren gaan onderwijzen wat de eindtoets vraagt, want het loont niet om het anders te doen als je het niet terugziet in de eindtoets.’ Niet dat hij het heeft opgegeven. Met zachte druk en verleiding probeert SKOWF scholen beter leesonderwijs te laten geven. ‘Als we scholen zien met Cito hulpboeken, dan vragen we wel: is dat nou jouw begrijpend leesonderwijs?!? Gelukkig gaan steeds meer scholen aan de slag met effectief en kennisrijk leesonderwijs. Nu de toetsen nog.’ / MM

Compleet beeld

Eén aanbieder is hier nog niet genoemd: de Centrale Eindtoets van de overheid die wordt gemaakt door Cito in opdracht van het College voor Toetsen en Examens (CvTE). Desgevraagd verwijst het CvTE naar de Toetswijzer PO (de richtlijnen die Swart noemt, red.) en de verantwoordelijkheid van toetsmakers voor vraag- en afnamevorm. Toetsen zouden het onderwijs en de wetenschappelijke ontwikkelingen die daar spelen moeten volgen en moeten voldoen aan inhoudelijke eisen op basis van de referentiekaders en de kerndoelen. Maar voor een compleet beeld van wat leerlingen eind groep 8 beheersen op de onderdelen van de eindtoets, beschikken scholen gelukkig over meer en andersoortige waarnemingen dan de resultaten van gestandaardiseerde toetsen. Als dat geen relativering van de (eigen) eindtoetsen is…

De inspectie lijkt het ondertussen te snappen. Naar aanleiding van het recente peilingsonderzoek zoekt zij nu contact met de brancheorganisatie van toetsaanbieders en met het CvTE dat sinds 1 januari de kwaliteit van de eindtoetsen bewaakt (die straks doorstroomtoetsen gaan heten). Haar aanbeveling: niet alleen lesmateriaal, maar ook toetsen zouden gebaseerd moeten zijn op de nieuwste inzichten over leesvaardigheid. Worden leerlingen bijvoorbeeld getoetst met vragen over tekstpassages bij korte tekstjes waarin structuurelementen ontbreken, dan zullen veel scholen dit ook gaan oefenen. Werken aan diep tekstbegrip – kritisch evalueren van en reflecteren op teksten – komt dan onvoldoende terug in het onderwijs en wordt daarmee niet genoeg ontwikkeld. Vraag is of de Toetswijzer PO gewijzigd zal worden. Want aansturen van de toetsmakers kan beter, lijkt de conclusie.

Tekst Nynke Douma, Matthijs Warrens, Erik Fleur, Monique Dijks en Hanke Korpershoek

Aantal heroverwegingen verschilt per eindtoets

Het percentage leerlingen dat hoger scoort op de eindtoets dan op het initiële advies verschilt enorm per eindtoets, blijkt uit Gronings onderzoek.

In groep 8 geven leraren alle leerlingen een initieel schooladvies voor het vo. Leerlingen maken vervolgens een eindtoets waaruit een toetsadvies volgt. Bij een hoger toetsadvies moet het initiële advies worden heroverwogen. De leraar kan dan kiezen om het advies omhoog bij te stellen. Scholen kunnen momenteel kiezen uit vijf eindtoetsen: de Centrale Eindtoets, IEP, Route 8, DIA en AMN. Er zijn al langer zorgen of de eindtoetsen hetzelfde meten en of ze een vergelijkbaar moeilijkheidsniveau hebben (Emons et al., 2016; Inspectie van het Onderwijs, 2022). Didactief publiceerde hierover onder andere in maart 2019 en mei 2019. Een nieuwe studie van de Rijksuniversiteit Groningen toont aan dat het aantal heroverwegingen enorm verschilt per eindtoets (Douma et al., 2022).

Het lijkt ons goed om terug te keren naar één eindtoets,
om zo gelijke(re) onderwijskansen voor leerlingen te creëren

Met behulp van data van DUO bestudeerden onderzoekers de percentages heroverwegingen van vier cohorten voor de beschikbare eindtoetsen van schooljaar 2016-2017 tot 2020-2021. Voor deze cohorten hadden de vijf eindtoetsen elk jaar verschillende percentages heroverwegingen. Voor de CET varieerde dit van 33% tot 40% en voor AMN fluctueerde dit tussen 30% en 40%. Welke toets het hoogste en laagste percentage heroverwegingen had, verschilde per schooljaar. Zo lagen de gemiddelde percentages in 2018-2019 tussen 34% (AMN) en 50% (IEP), en in 2020-2021 tussen 37% (IEP) en 43% (DIA). De adviesniveaus verschilden nog meer van elkaar: van de leerlingen die in 2020-2021 een initieel advies vmbo-bb kregen, kreeg 57% bij Route 8 een hoger toetsadvies en wel 99% bij de Centrale Eindtoets. Mogelijk meten de toetsen niet hetzelfde, verschillen hun moeilijkheidsniveaus en/of worden ze gebruikt door verschillende schoolpopulaties.

Met de wet Doorstroomtoetsen PO, die 1 januari 2023 is ingegaan, wordt het toetsadvies mogelijk bepalender voor het schooladvies. Omhoog bijstellen wordt de standaard bij een hoger toetsadvies, tenzij de leraar beargumenteert dat dit negatief zou zijn voor de leerling. Dit betekent dat de kans die leerlingen hebben om een hoger eindadvies te krijgen, afhangt van welke toets zij maken. Er komt meer toezicht op de toetsen, maar de vergelijkbaarheid blijft lastig. Het lijkt ons goed om terug te keren naar één eindtoets, om zo gelijke(re) onderwijskansen voor leerlingen te creëren.

Dit artikel is gebaseerd op een artikel dat eerder verscheen in Pedagogische Studiën.

Bronnen:

Emons, W.H.M., C.A.W. Glas en P.K. Berding-Oldersma (2016). Rapportage vergelijkbaarheid eindtoetsen. Utrecht: Expertgroep Toetsing PO.

Inspectie van het Onderwijs, 2022.

Douma, N., Warrens, M. J., Fleur, E., Dijks, M., & Korpershoek, H. (2022). Verschillen in percentages heroverwegingen tussen de eindtoetsen in groep 8. Pedagogische Studiën, 99(2), 80-92.

Lees ook Georganiseerd wantrouwen (3): eindtoets – wie wil 'm hebben?

Dit artikel verscheen in Didactief, maart 2023.

Verder lezen

1 Zijn we ambitieus genoeg?
2 Eindtoets ongeschikt om leesvaardigheid te toetsen
3 De referentieniveaus getoetst
4 Tekstbegrip: Inzetten op kennis en woordenschat
5 Q&A Roel van Steensel: Investeer in integraal leesonderwijs