Blog

Hoe valide is het eindexamen Duits?

Tekst Martin Ringenaldus
Gepubliceerd op 01-06-2018 Gewijzigd op 12-06-2018

Martin Ringenaldus heeft getracht de frequentie van woorden in examenteksten Duits te bepalen. Voor een valide examen zouden die overeen moeten komen met wat hij zijn leerlingen leert? Toch? Niet dus. Slechts 86 woorden blijken in alle 20 examens tussen 2008 en 2017 voor te komen.

Jaarlijks veel klachten over het eindexamen

Elk jaar in examentijd wordt er op scholen en vooral in de sociale media door leraren enorm gefoeterd op de eindexamens, vooral bij de moderne vreemde talen (MVT) Duits en Frans. Triest hoogtepunt was de affaire rondom het eindexamen Frans VWO van 2017 dat fouten bevatte en tot een rechtszaak leidde. De rechter doet echter geen uitspraak over de validiteit van de regels of van de examens. Wanneer is een examen eigenlijk valide?

Helpt het om leerlingen examenidioom te laten leren?

Voor mijn vak Duits moeten leerlingen bij het examen Duitse teksten lezen, waarvan je mag aannemen dat ze aansluiten bij wat ze hebben geleerd. Ze moeten daartoe leesstrategieën kennen (zie hieronder) en woordkennis bezitten. Maar welke woorden zijn relevant? Op een aantal scholen leren leerlingen zogeheten examenidioom. Er zijn ook boekjes examenidioom (bijvoorbeeld hier) in de handel waarvan beweerd wordt dat de aangeboden woordenschat is samengesteld aan de hand van recente examens, kranten en tijdschriften. Mijn natuurkundeleraar zei vroeger altijd: “Meten is weten, gissen is missen”, dus heb ik getracht de frequentie van woorden in examenteksten te bepalen. Voor een valide examen zouden die overeen moeten komen met wat ik mijn leerlingen leer? Toch?

Ik heb met behulp van een eenvoudig online hulpmiddel de woordfrequenties van de verschillende gebruikte woorden bepaald van alle teksten in de examens Duits VMBO-GL/TL 2008 t/m 2017 beide tijdvakken (dus van 20 complete examens). In totaal heb ik hiermee ruim 12.000 verschillende woorden geteld, waarbij opgemerkt moet worden dat woordvarianten (bijvoorbeeld ‘klein’, ‘kleinen’, ‘kleinem’, e.d.) als aparte woorden worden gezien. Daar staat tegenover dat het programma woorden met verschillende betekenis die hetzelfde worden geschreven op één hoop veegt (bijvoorbeeld het bezittelijk voornaamwoord ‘sein’ en het werkwoord ‘sein’). Je zou de lijst nog wel kunnen vereenvoudigen, maar dat is een vrij complexe aangelegenheid. Voor het uiteindelijke beeld zal het, denk ik, niet veel uitmaken. Mijn bevindingen zijn schokkend, hier staan de belangrijkste op een rijtje:

* slechts 86 woorden blijken in alle 20 examens voor te komen waaronder de lidwoorden, de meeste voorzetsels, en een aantal signaalwoorden;

* slechts 5 zelfstandige naamwoorden komen in alle 20 examens voor (Tag, Schule, Menschen, Jahr/Jahre/Jahren en Beispiel);

* bijna 70% van alle verschillende woorden komt slechts in 1 van de 20 examens voor en deze woorden kunnen dus niet worden beschouwd als hoogfrequent;

* nog geen 4% van alle verschillende woorden komt in minimaal 10 van de 20 examens voor.

Een examen telt gemiddeld zo’n 1300 verschillende woorden, maar als je in totaal over 20 examens ruim 12.000 woorden telt, dan is het de vraag hoe het gebruikte vocabulaire in het ene examen met het gebruikte vocabulaire in een ander examen overlapt. Om die reden heb ik een matrix (zie afbeelding) gemaakt waarin ik in de eerste kolom per examen laat zien hoeveel verschillende woorden erin zijn gebruikt en hoeveel woorden van dat examen in elk van de andere 19 examens voorkomen. Dan blijkt dat dat gemiddeld 340 woorden zijn. Anders gezegd: voor het ene examen zou je 900 tot 1000 andere woorden moeten kunnen begrijpen dan voor elk willekeurig ander examen.

Tussen twee willekeurige examens
vond ik slechts 26% overlap in vocabulaire

Tussen twee willekeurige examens vond ik slechts 26% overlap in vocabulaire. Dit is ook het geval als je van één jaar de examens van beide tijdvakken naast elkaar legt. Hoe kan een leraar de leerlingen hier adequaat op voorbereiden? Als bijna 70% van alle verschillende woorden in de 20 examens slechts in 1 van de 20 examens voorkomt, hoe kan een leerling dan ooit tot een woordbegrip van 95% komen dat volgens Alex Quigley (Closing the vocabulary gap) vereist is om leesvaardig te kunnen zijn? Hoe zinvol is het dan om leerlingen ‘examenidioom’ te laten leren? En als een leerling voor geen enkel examen leesvaardig zou kunnen zijn, is het huidige examen dan wel een valide instrument om de leesvaardigheid van leerlingen te meten? Wat zeggen de cijfers van de leerlingen over hetgeen zij daadwerkelijk met de taal kunnen? Hoe eerlijk is het om scholen op basis van examenresultaten te vergelijken en hieraan een waardeoordeel te koppelen? Wat zeggen de eindexamenresultaten eigenlijk over de kwaliteit van het geboden onderwijs op een bepaalde school?

Wanneer ben je eigenlijk leesvaardig?

De belangrijkste vraag die je ten aanzien van alle examens Duits VMBO-GL/TL zou moeten stellen, is hoe goed ze aansluiten bij hetgeen daadwerkelijk op school is onderwezen. Als die aansluiting onvoldoende is, is het geen valide examen.

Het examen Duits bestaat al tientallen jaren uit een reeks leesteksten waarover meerkeuzevragen en (sinds een aantal jaar) open vragen worden gesteld. Het examen zou leesvaardigheid toetsen, maar toetst het dat ook? Om deze vraag te beantwoorden, moeten we eerst weten aan welke criteria je moet voldoen om leesvaardig te zijn. In het boek Closing the Vocabulary Gap legt Alex Quigley uit dat je 95% van de woorden in een tekst moet kennen om de tekst in voldoende mate te kunnen begrijpen. Hij verwijst daarbij naar een werk van Daniel Willingham (Why Don’t Students Like School) waarin onderzoek geciteerd zou worden waaruit blijkt dat dit percentage wel eens in de buurt van de 98% zou kunnen liggen.

Leesvaardigheid is afhankelijk van je kennis

Leesvaardigheid kan daarmee nooit een generieke vaardigheid zijn. Anders gezegd: als je de ene tekst kunt lezen omdat je 95% van de woorden begrijpt, is dat geen garantie dat je elke andere tekst (waarvan je dan ook 95% zou moeten kunnen begrijpen) ook zult kunnen lezen. Je kunt dus alleen leesvaardig zijn, als je voldoende woorden van een tekst kunt begrijpen. E.D. Hirsch jr. zegt hierover in zijn boek Why knowledge matters:
‘In the real world, an ability to comprehend a piece of writing depends on one’s having the knowledge and vocabulary relevant to that passage. If the school does not teach students the knowledge and vocabulary they need to understand the passages on the test, then the test is unfair as a measure of what the school has successfully taught.’

Leraren MVT kunnen niet weten wat onderwezen moet worden

Volgens Hirsch moet dus de school de leerlingen het vocabulaire onderwijzen dat nodig is om de passages in het examen te kunnen begrijpen. Als de school dat niet doet, dan is de toets een oneerlijke maatstaf om te meten wat de school succesvol heeft onderwezen. Dan hebben we in Nederland wel een flink probleem, want hoe moeten leraren moderne vreemde talen weten welk vocabulaire dat is als dit niet is vastgelegd en als de inhoud van het examen tot aan het begin van de afname uiterst geheim is? Het meest uitgebreide Duitse woordenboek dat is uitgegeven bevat ca. 200.000 woorden, hoewel de uitgever zelf er zeker van is dat de Duitse taal tussen 300.000 en 500.000 woorden telt. Maar welke set woorden hebben onze leerlingen VMBO-GL/TL nodig om de teksten van het examen Duits in voldoende mate te kunnen begrijpen? Immers, uit mijn onderzoekje blijkt dat die set van jaar tot jaar enorm verschilt.

Wat onderwezen moet worden, is nergens vastgelegd

Hirsch zegt over de toetsen verder:
‘Such tests cannot measure whether students have mastered the knowledge and vocabulary that the school has taught. Test makers cannot know what knowledge and vocabulary schools have taught. The standards do not state them. Nor do the schools know what knowledge they are supposed to teach. The language arts standards do not specify content.’ Hirsch schrijft hier over het Amerikaanse onderwijs, maar wat hij hier stelt, is in Nederland niet veel anders. Er bestaat voor de MVT geen lijst van te onderwijzen woorden.

Wat onderwezen wordt, is erg afhankelijk van de methode die wordt gebruikt en het aanvullende materiaal dat de individuele leraar in de les inzet. De makers van het examen kunnen niet weten wat er getoetst moet worden, want elke school kan bij gebrek aan een wettelijk vastgelegd te onderwijzen vocabulaire een andere woordenschat hebben onderwezen. Hetzelfde geldt voor de grammatica. Kortom: kunnen toetsmakers wel aansluiten bij wat onderwezen is en kunnen leraren leerlingen wel voorbereiden op wat getoetst zal worden? En kun je dan überhaupt een valide eindexamen ontwikkelen? Dat zou misschien kunnen als leesvaardigheid een aanleerbare generieke vaardigheid zou zijn, maar we zagen eerder al dat leesvaardigheid domeinspecifiek is en dus afhankelijk is van kennis. Leraren weten echter niet welke kennis dat zou moeten zijn en toetsmakers weten niet welke kennis is onderwezen.

Geeft een leerling door het geven van goede antwoorden wel blijk van tekstbegrip?

Hoe kan het overgrote deel van de examenkandidaten dan toch een voldoende voor het examen halen als onderwezen en getoetste kennis niet op elkaar zijn afgestemd? Het examen bestaat voor een groot deel uit meerkeuzevragen en niet alle open vragen zijn ook echt open vragen. Als je bijvoorbeeld moet aangeven welke alinea aan een bepaald criterium voldoet, dan is dat een verkapte meerkeuzevraag.

Veel vragen zijn van de soort ‘Wat blijkt uit alinea 3 (over …)?’ en ‘Wat is de kern van alinea 2?’. Dit suggereert dat de leerling ongeacht het onderwerp, de inhoud en de gebruikte woordenschat in staat zou moeten zijn om de hoofdgedachte van een passage te kunnen bepalen. Leesvaardigheid wordt daarmee gepresenteerd als een set van leesstrategieën die de leerling zou moeten beheersen en die aangeleerd zou kunnen worden. Het examen lijkt dan de beheersing van die leesstrategieën te toetsen, waardoor het examen valide lijkt. Immers: de leraar heeft de leesstrategieën onderwezen en de leerling wordt hierop getoetst. Maar zoals Hirsch en anderen stellen, dat is niet zo. Hirsch zegt hierover:
‘Under these circumstances, a method has had to be devised that seems to make these inherently unfair tests fair. That method has been to define reading ability as a set of strategies, and then to create test items that appear to probe those strategies. The external forms of the test questions are constructed to give the impression that they are testing the various skills that were being practiced so endlessly in the test-prep classes.’ En eerder zagen we al bij Quigley dat de leerling leesvaardig is, als hij 95% van de woorden in een tekstpassage kan begrijpen en dat leesvaardigheid dus geen generieke vaardigheid kan zijn.
Is dat nou allemaal zo erg? Leerlingen vinden toch op veel vragen het juiste antwoord. Maar kun je daaruit dan concluderen dat deze leerlingen ook leesvaardig zijn? Om die vraag te kunnen beantwoorden, moeten we meer begrijpen van hoe leerlingen tot hun antwoord komen. Graham Nuthall laat in zijn boek The hidden lives of learners (pag. 44) aan de hand van een duidelijk voorbeeld zien hoe leerlingen meerkeuzevragen beantwoorden.

Als je een leerling vraagt wat de hoofdstad van Laos is en je geeft hem de volgende keuzemogelijkheden: Lao Tse, Ban Vang, Vientiane en Na Vang dan is de kans klein dat de leerling, tenzij hij een gigantische kennis van de wereldtopografie bezit, het goede antwoord weet te geven. Maar geef je de leerling deze vier keuzemogelijkheden: Londen, Vientiane, Tokio en Parijs, dan zal de leerling zeer waarschijnlijk het goede antwoord (Vientiane) kiezen, maar niet omdat hij weet dat de hoofdstad van Laos Vientiane is, maar omdat hij weet dat de andere drie hoofdsteden het niet zijn.

In mijn eigen onderwijspraktijk stel ik vast dat leerlingen bij meerkeuzevragen in examens niet zelden tot het goede antwoord komen door vast te stellen over welke antwoorden de passage sowieso niet gaat. Sterker nog: bij gebrek aan beheersing van het bijpassende vocabulaire is dit een strategie die je leerlingen bijbrengt om toch bij het goede antwoord uit te komen. Dat zij het goede antwoord weten te geven, bewijst echter niet dat zij voldoende van de tekst hebben begrepen. Die suggestie wordt door deze manier van toetsen wel gewekt. Maar zouden deze leerlingen de vraag ook correct hebben weten te beantwoorden als de vraag als open vraag gepresenteerd zou zijn? En toetsen de meerkeuzevragen dan wel echt leesvaardigheid of veel meer de intelligentie van de leerlingen?

Is het aanleren van leesstrategieën zinvol?

Hirsch verwijst op pag. 28 naar een artikel van Willingham en Lovette waarin de vraag wordt beantwoord of leesvaardigheid aan te leren is. Hun antwoord: ‘Not really’. Leesstrategieën zouden weliswaar snel kunnen worden aangeleerd, maar langer dan twee weken zou je er niet aan hoeven te besteden. Daarna zou het geen praktisch nut meer hebben. Sterker nog: ‘[…], making young students become highly self-conscious about applying strategies distracts their attention and degrades their performance’.

Waaraan moet een goed landelijk curriculum voldoen?

We zagen eerder dat het huidige examen niet kan aansluiten bij wat onderwezen is doordat niet vastgelegd is wat onderwezen zou moeten worden. We zagen ook dat deze onvolkomenheid nauwelijks zichtbaar wordt door de manier waarop met name meerkeuzevragen worden geconstrueerd die leerlingen in staat stellen op basis van hun intelligentie goede antwoorden te vinden zonder dat er sprake hoeft te zijn van goed tekstbegrip.
Volgens Hirsch moet een examen aansluiten bij wat onderwezen is. Dat betekent dat er landelijk hetzelfde onderwezen moet worden om een valide landelijk examen te kunnen creëren en afnemen. Hiertoe is een duidelijk en gedetailleerd beschreven curriculum een vereiste. De inhoud van het curriculum hangt af van de visie en doelstelling van het moderne vreemde talenonderwijs. Wat moeten leerlingen minimaal met een taal kunnen en waarom moeten zij dat kunnen? Welke kennis moet dan minimaal onderwezen worden? Dylan Wiliam maakt in zijn meest recente boek (Creating the schools our children need: Why what we are doing now won’t help much (and what we could do instead) onderscheid tussen een standaard en een curriculum:
‘[…] it is helpful to distinguish between what we want students to know at the end of certain periods of instruction (standards) and the experiences that schools organize to get them there (curriculum). The standards are the destinations, and the curriculum is the route plan.’

Aanknopingspunten voor een curriculum volgens Dylan Wiliam

In de conclusie van hoofdstuk 10 gaat Wiliam in op de inhoud van een curriculum en verwijst daarbij ook naar het werk van Hirsch. Volgens Wiliam beginnen we net te begrijpen wat de eigenschappen van een goed curriculum zouden moeten zijn, maar zijn er wel al de nodige aanknopingspunten:

1. Het curriculum moet in lijn met het doel van onderwijs zijn.

2. Het curriculum moet een zorgvuldig gestructureerde volgorde voor het opbouwen van kennis bevatten.

3. Het curriculum moet vanwege de beperkingen van het werkgeheugen een zorgvuldige reeks aan instructies bevatten om overbelasting van het werkgeheugen te voorkomen zodat capaciteit overblijft om veranderingen in het langetermijngeheugen aan te brengen (anders gezegd: om te kunnen leren).

4. We moeten dingen niet in grote blokken onderwijzen, maar het materiaal verspreid over weken, maanden en zelfs jaren aanbieden (‘spaced practice’), hetgeen leerlingen de kans biedt om het materiaal te herhalen als dit niet meer bekend is waardoor het langetermijngeheugen versterkt wordt.

5. Het curriculum moet ruimte bevatten zodat leerlingen zichzelf kunnen testen, om kennis uit het geheugen te reconstrueren (‘retrieval practice’) en om voordeel te hebben van het ‘hypercorrection effect’. Dit effect treedt op als een leerling zeer ervan overtuigd is dat een gegeven fout antwoord goed is, maar op basis van feedback de fout toch moet corrigeren.

Dit curriculum ‘Greek and Latin Root Words’ van Donna Seekamp is gebaseerd op The Core Knowledge Sequence van The Core Knowledge Foundation (opgericht door E.D. Hirsch jr.) en is een mooi voorbeeld van een curriculum dat volgens deze uitgangspunten is opgebouwd. Mogelijk kan het als inspiratiebron dienen voor een nieuw curriculum Duits. Zo’n curriculum is een eerste voorwaarde om tot valide toetsen te kunnen komen, aldus Hirsch.

De curriculumherziening in Nederland draait met curriculum.nu inmiddels op volle toeren. Het is maar de vraag of er überhaupt evidence-informed gewerkt wordt. Deze passage uit de conceptvisie Engels/Moderne Vreemde Talen doet vermoeden dat dit niet het geval is:
‘In het nieuwe curriculum komt voor de moderne vreemde talen het individuele leerproces van de leerling binnen een doorgaande leerlijn centraal te staan. Het begin- en eindniveau verschilt per leerling, ook afhankelijk van wat leerlingen nodig hebben voor hun vervolgopleiding of beroepspraktijk; de aandacht voor de verschillende vaardigheden kan daardoor variëren. Dit pleit voor maatwerk. Het leren van talen speelt in op de persoonlijke talenten van de leerling.’

Wat hierbij ontbreekt, is de (wetenschappelijke) onderbouwing van hoe dit tot beter onderwijs en betere leerprestaties gaat leiden. Hirsch laat in Why knowledge matters zien hoe landen als de Verenigde Staten en Frankrijk qua onderwijs ooit tot de wereldtop behoorden en na invoering van een geïndividualiseerd curriculum met focus op vaardigheden deze status kwijtraakten en uiteindelijk de noodklok moesten luiden (VS: ‘a nation at risk’ / Frankrijk: ‘crise de l’école’).

In Zweden bood hoogleraar Linderoth al zijn excuses aan voor twintig jaar onderwijshervorming waarin individualisering, meer leren vanuit eigen interesse en motivatie en het afschaffen van het onderscheid in individuele vakken centraal stonden. Hierover heeft Johannes Visser al eens een artikel in De Correspondent geschreven waarin hij stelt dat Nederland iets van deze landen zou kunnen leren, maar curriculum.nu laat zien dat dat leren kennelijk nog niet heeft plaatsgevonden. Nog meer reden om ons te verdiepen in de cognitieve psychologie en evidence-informed te gaan werken. In welke richtingen we goed onderwijs kunnen zoeken en in welke richtingen vooral niet, laten tienduizenden onderzoeken uit de laatste decennia ons zien. We hoeven ons er alleen maar in te verdiepen. Onze leerlingen verdienen het beste onderwijs. Laten we dan samen in die wetenschap duiken en ontdekken hoe dat beste onderwijs eruit kan zien.

Martin Ringenaldus is docent Duits op de Regionale Scholengemeenschap Goeree-Overflakkee Middelharnis.

Hoe valide is het eindexamen Duits?

Jaarlijks veel klachten over het eindexamen

Meld je aan voor onze nieuwsbrief!