Nieuws

Wie toetst de toetsmaker?

Tekst Jessie van den Broek, Monique Marreveld en Bea Ros
Gepubliceerd op 25-06-2015 Gewijzigd op 08-01-2018
In Nederland worden de meeste toetsen voor het basisonderwijs en psychologische tests beoordeeld door de COTAN. Op de werkwijze van de COTAN is onder makers van onderwijstoetsen kritiek. Bovendien is de COTAN er afgelopen jaar bij de belangrijkste toets PO - de eindtoets – door tijdsdruk nauwelijks aan te pas gekomen. Tijd voor verandering?

De leerkracht toetst en test de leerling. Maar wie controleert de toets? In Nederland wordt het gros van de tests en toetsen voor het PO beoordeeld door de COTAN, de Commissie Testaangelegenheden Nederland. Een private commissie waarvan het bureau is ondergebracht bij het Nederlands Instituut van Psychologen (NIP) in Utrecht. Een beoordeling door de COTAN is voor toetsen in het onderwijs niet wettelijk verplicht, maar het COTAN-oordeel geldt inmiddels, vooral in het basisonderwijs, als een Kema-keurmerk. De meeste schooldirecteuren houden hun geld in de zak als een toets niet als voldoende door de COTAN is beoordeeld.

Halve dag
Bijna zestig jaar geleden, in 1959, werd de Test Research Commissie van het toenmalige Nederlandsch Instituut van Praktizeerende Psychologen opgericht, een club die in kaart bracht wat voor tests er in Nederland bestonden. Tien jaar later begonnen ze die tests ook te beoordelen. In totaal telt de commissie zestien leden, twee bureaumedewerkers, een eindredacteur en een voorzitter. Anno 2015 vaardigen elf universiteiten, twee sectoren (Jeugd en A&O; vertegenwoordigers van gebruikers van tests), de Cito Groep en KLM een vertegenwoordiger af naar de COTAN.
De COTAN beoordeelt zo'n dertig instrumenten per jaar, waaronder veel psychologische tests en meetinstrumenten voor de HR-markt. Ongeveer eenderde van de beoordelingen gaat over onderwijstoetsen, en dat aantal neemt toe.
Maar het echte werk gebeurt niet op het kantoor van de COTAN in Utrecht; de commissie beschikt over een poule van externe beoordelaars: mensen met verstand van tests die op vrijwillige basis af en toe een test of toets beoordelen. Grote klus, vragen we psychometricus en COTAN-beoordelaar Paul Oosterveld? 'Het hangt er van af hoe uitgebreid de test is. Met een gemiddelde toets ben ik ongeveer een dag bezig.' Dat is ook de ervaring van testauteur Peter Tellegen, die ook wel eens een test beoordeelde voor de COTAN: 'Hoe lang je bezig bent, is afhankelijk van hoe nauwkeurig je de test beoordeelt. Als je het echt goed wilt doen, ben je wel twee dagen bezig, denk ik. Het probleem is dat de beoordelaars niet betaald krijgen en het natuurlijk druk hebben. Je kunt de toets ook wat globaler bekijken, dan ben je in een halve dag klaar.'

Schokkend, vindt Koen van Loenen van testuitgever Pearson : 'Als je bedenkt hoeveel tijd wij er in steken om een goed product af te leveren... Dat zou niet in zo korte tijd moeten worden beoordeeld. Bovendien duurt het vaak erg lang voordat je de beoordeling binnen hebt.' Alle toetsontwikkelaars die we spreken, uiten zich in dit soort bewoordingen. Maar ze formuleren omzichtig, willen niemand voor het hoofd stoten.
Het ontwikkelen van een test volgens COTAN-eisen kost ongeveer drie à vier jaar. Ontwerpen, scholen zoeken die hem willen uitproberen, een uitgebreid normeringsonderzoek uitvoeren en allerlei metingen doen om er zeker van te zijn dat je test valide en betrouwbaar is. Al met al kost dat een hoop geld. Toch gek misschien, dat beoordeling van dergelijke toetsen vrijwilligerswerk is en plaatsvindt in achterkamertjes. Wordt het niet eens tijd voor professionalisering van het proces?

Criteria
Waar beoordeelt de COTAN de voorgelegde toetsen en testen eigenlijk op? We spreken COTAN-eindredacteur Iris Egberink, betrokken sinds 2012. Een toetsontwikkelaar moet al zijn materiaal, inclusief handleiding en verantwoording, naar het COTAN-bureau sturen. Dat selecteert twee beoordelaars (meestal een commissielid en een uit de poule van externe beoordelaars). Egberink: 'Soms vragen we wie er tijd en interesse heeft, en geen belang, maar meestal zoeken we gerichter, op basis van de expertise van de beoordelaars.'
Het COTAN-beoordelingssysteem telt 7 punten, legt zij uit: 'Theoretische achtergrond, kwaliteit van het testmateriaal en van de handleiding, normeringsonderzoek, betrouwbaarheid, begripsvaliditeit en criteriumvaliditeit (zie kader onderaan dit artikel).' De twee vrijwilligers kijken onafhankelijk van elkaar of de toets er goed uitziet, of hij praktisch is, of hij is getest op een voldoende aantal scholen en leerlingen. Ze vellen geen inhoudelijk oordeel en ze blijven anoniem. Op basis van hun oordeel schrijft Egberink een conceptoordeel waarop de toetsontwikkelaar nog kan reageren. Binnen een maand, dat wel, onafhankelijk van hoe lang de toets ter beoordeling bij de COTAN gelegen heeft. Op basis van het conceptoordeel en de reactie formuleert de eindredacteur een eindoordeel. Daarna is er geen discussie meer mogelijk; herbeoordeling kan pas na een jaar worden aangevraagd.

Het gebrek aan transparantie – door wie wordt onze test eigenlijk beoordeeld? – en het academische tempo van de COTAN zetten kwaad bloed bij sommige toetsontwikkelaars.

Hermien Lubbers, directeur van A-Vision, aanbieder van een alternatieve eindtoets PO Route-8: 'Het feit dat er geen zicht is op wie de test beoordeelt, komt de transparantie niet ten goede, en de vraag is of dat anno 2015 nog een wenselijke situatie is.'
'Je weet niet wie je producten beoordeelt,' zegt ook Gert Jaap Schoppink, leidinggevende bij Pearson. 'Dat kunnen ook mensen zijn die conflicterende belangen hebben. Die vermoedens zijn zeker aan de orde geweest. Het is een klein wereldje, dus het is zeker niet ondenkbaar dat iemand die aan een concurrerende test heeft meegewerkt, onze test beoordeelt. Daar zou veel meer openheid over moeten komen.'

De COTAN zelf ziet de anonimiteit van de beoordelaars juist als een waarborg voor onafhankelijkheid en trekt de vergelijking met anonieme peer review bij wetenschappelijke tijdschriften. 'Auteurs beoordelen nooit hun eigen tests en zijn nooit werkzaam op hetzelfde of een concurrerend instituut', is op de COTAN-website te lezen. 'Maar de COTAN kent niet alle relaties en onderlinge afspraken tussen uitgeverijen, auteurs en experts', zegt Van Loenen 'Zij kunnen niet van alle beoordelaars de precieze geschiedenis en belangen kennen.' Met andere woorden: zonder transparantie is die neutraliteit niet te garanderen.

Old boys network
Het feit dat de relaties tussen COTAN en Cito hier en daar schimmig zijn, helpt niet mee. Nieuwe COTAN-leden worden voorgedragen door de decaan van de faculteit waar de opleiding Psychologie onder valt. In praktijk komt het er vaak op neer dat COTAN-leden mensen uit hun eigen netwerk uitnodigen om lid te worden. Het systeem van coöptatie heeft de COTAN in onderwijskringen de naam opgeleverd een old boys network te zijn. En inderdaad, in een markt voor onderwijstoetsen waar Cito BV marktleider is, blijken minimaal drie van de zestien COTAN-leden aan Cito verbonden te zijn, in plaats van één, zoals op de website van de COTAN vermeld staat (Bas Hemker). Herman van Boxtel heet daar afgevaardigde van de Universiteit Utrecht, maar blijkt augustus 2014 gedetacheerd bij het Cito; Marian Hickendorff is, naast docent en onderzoeker aan de Universiteit Leiden, ook itemconstructeur voor de Cito-eindtoets. Het wereldje van de psychometrie is klein, zeggen insiders: het is lastig om banden met zo'n groot instituut als Cito helemaal te vermijden.
En toch wringt er iets. Sommige beoordelingen wekken de schijn van belangenverstrengeling. In 2007 keurde de COTAN bijvoorbeeld de Drempeltest van Boom af op het gebied van normering, omdat er geen leerlingen uit het speciaal basisonderwijs bij het normeringsonderzoek waren betrokken. Oosterveld, destijds werkzaam bij testuitgever Boom: 'In de beoordeling stond dat de normering daardoor per definitie onvoldoende was. Wij moesten dus het normeringsonderzoek gaan aanvullen, en dat hebben we ook gedaan. Maar een vergelijkbare intelligentietest van Cito waarvoor hetzelfde gold, werd twee jaar later wél zonder aanvulling goedgekeurd. Dat is natuurlijk raar.'

Ook de spellingtoets van Cito, waarbij spelvaardigheid gemeten wordt met meerkeuzevragen, wordt in het onderwijsveld veel bekritiseerd. Die test meet niet wat hij moet meten, stelt bijvoorbeeld de Nijmeegse hoogleraar Anna Bosman, oftewel: de validiteit is niet in orde. Toch keurde de COTAN deze goed.

In 2009 leidde vermeende belangenverstrengeling zelfs tot een rel. Wat was het geval? De COTAN voerde in januari een strenger beoordelingssysteem in, maar presenteerde dat pas in mei. Testuitgevers kregen in de tussentijd onverwacht negatieve beoordelingen,terwijl Cito als COTAN-lid wel al op de hoogte was. Oosterveld: 'Er zijn toen harde woorden gevallen. Veel testuitgevers waren woedend: volgens de website van de COTAN zou het beoordelingssysteem altijd up-to-date en openbaar zijn, maar dat was hier dus niet het geval.' Uiteindelijk besloot de COTAN toen, vanwege alle kritiek, de invoering van het systeem met terugwerkende kracht uit te stellen tot oktober. De beoordelingen die al waren gegeven, werden teruggetrokken.

Gebakken peren
Verschillende toetsontwikkelaars werden na dit soort akkefietjes wat huiverig om hun materialen door de COTAN te laten beoordelen. Zoals Karen Heij van ICE zegt: 'Wij hebben er altijd voor gekozen om geen zaken te doen met de COTAN, vanwege de mogelijke belangenverstrengeling tussen COTAN en Cito. Je loopt het risico dat je beoordeeld wordt door de concurrent en daarbij moet je al je data aanleveren. Daar kiezen we niet voor.'
Niet alleen de schijn van belangenverstrengeling, ook de manier van werken en de communicatie van de COTAN kunnen op weinig begrip rekenen van commerciële toetsontwikkelaars. Want zelfs wie het risico neemt en zijn materiaal inlevert: bij een afkeuring zit je met de gebakken peren.
Volgens de COTAN zelf moeten we de beoordeling niet als een keurmerk beschouwen, maar in de praktijk wordt aan het oordeel van de COTAN veel waarde gehecht: niet alleen door scholen zelf, maar ook door de Inspectie en de RVC's (zie kader onderaan dit artikel). Een jaar wachten op een herbeoordeling betekent dus een jaar omzet mislopen met een commercieel product (dat misschien best op korte termijn aangepast had kunnen worden). Bovendien komt het regelmatig voor dat de COTAN langer over een beoordeling doet dan de zes maanden waar ze naar streeft, zeggen verschillende uitgevers. 'Laatst hebben we anderhalf jaar moeten wachten op de beoordeling van twee toetsen', zegt Judith Rood van Boom. Een klacht die COTAN-eindredacteur Egberink erkent, maar wijt aan gebrek aan middelen. 'De beoordelaars zijn allemaal vrijwilligers, daarom kunnen we er niet te veel druk achter zetten.'

Ook de manier waarop de communicatie met de COTAN verloopt, is voor uitgevers een bron van frustratie. Alleen met de bureaumedewerkers is contact mogelijk, over het verloop van het beoordelingsproces. Maar wie eens met de COTAN zelf van gedachten wil wisselen, staat voor een dichte deur. Schoppink: 'Er is geen overleg mogelijk; niet vooraf en niet tijdens het ontwikkeltraject. En ook niet achteraf: je krijgt één keer de mogelijkheid om schriftelijk op het conceptoordeel te reageren, en that's it.' Dat maakt de communicatie ingewikkeld, vindt ook Judith Rood. 'Soms heb je het idee dat de beoordelaars het gewoon niet goed gelezen hebben. Als je dan even telefonisch contact zou kunnen hebben of er was een bijeenkomst, dan kon je ze daar op wijzen. Maar het gaat allemaal schriftelijk, daardoor kun je niet goed met ze van gedachten wisselen.' Dat laatste is vooral een probleem omdat het beoordelingssysteem van de COTAN - door de meeste uitgevers gebruikt als leidraad bij het ontwikkelen van toetsen - op sommige punten ruimte laat voor interpretatie.
Toetsontwikkelaars die gebruik willen maken van continue normering bijvoorbeeld, moeten het doen met summiere informatie en onduidelijke richtlijnen over de grootte van normgroepen. Oosterveld: 'Het beoordelingssysteem is onevenwichtig: sommige onderwerpen zijn tot in detail uitgewerkt, terwijl andere gebaseerd zijn op één klein onderzoekje. Daarin zie je weerspiegeld welke expertise binnen de COTAN aanwezig is en welke juist ontbreekt. Over zoiets als continue normering is internationale literatuur beschikbaar; onbegrijpelijk dat een instituut als de COTAN zich daar niet in verdiept.'
En dat is nog niet alles. Andere, veel gehoorde kritiek vanuit het onderwijsveld is dat de COTAN vooral naar de psychometrische aspecten van een toets kijkt, en minder aandacht besteedt aan hoe de toets onderwijsinhoudelijk in elkaar zit. Dat is problematisch, vindt toetsontwikkelaar Teije de Vos: 'De COTAN en beoordelaars hebben vooral verstand van psychometrie, maar van bijvoorbeeld rekenen of dyslexie weten ze vaak maar weinig. Terwijl de inhoud van een toets natuurlijk van groot belang is.' Hermien Lubbers van A-Vision formuleert het algemener: 'De COTAN houdt zich van oudsher bezig met psychologische tests, dat zijn gewoon andere meetinstrumenten dan de toetsen voor het onderwijs. Ik ga ervan uit dat er speciale criteria worden opgesteld door de COTAN ten behoeve van de eindtoets PO. '

Eindtoets
De kritiek op de COTAN lijkt ook de politiek niet helemaal te zijn ontgaan. In 2012 stelde de D66-fractie al vragen over vermeende partijdigheid van de COTAN (toen door minister Van Bijsterveldt weggewuifd). En met de invoering van de verplichte Eindtoets PO en lovs'en lijkt er iets te verschuiven. Het ministerie wijst in het Toetsbesluit PO niet alleen de COTAN, maar ook de nieuw ingestelde Expertgroep Toetsen PO aan als beoordelaars van de eindtoetsen. Die Expertgroep moet ook voor toetsing van de onderwijsinhoudelijke kwaliteit zorgen, zo heet het. En als in de zomer van 2014 blijkt dat de COTAN de toetsontwikkelaars van de nieuwe eindtoetsen eigenlijk een beetje in de weg staat, schroomt Sander Dekker niet om de COTAN te omzeilen.

Hoe zit het ook alweer? De overheid biedt scholen met ingang van schooljaar 2014/2015 een verplichte eindtoets aan, de Centrale Eindtoets (gemaakt door Cito en al in 2011 goedgekeurd door de COTAN voor 15 jaar). Maar scholen kunnen ook kiezen voor een alternatieve eindtoets. In de zomer van 2014 leveren twee uitgevers een alternatieve eindtoets in bij het departement, directie PO van OCW. Zij gaan er vanuit dat hun materiaal zal worden doorgestuurd naar de COTAN en de Expertgroep Toetsen PO. Volgens eindredacteur Iris Egberink zijn de toetsen echter helemaal niet aan de COTAN voorgelegd.
Beide uitgevers kregen te horen van OCW dat hun materiaal onvolledig was. Onduidelijk is wat er precies is gebeurd met het aangeleverde materiaal. De Expertgroep weigert tot nu toe aan een interview mee te werken.
Wat is er gebeurd? Er zijn drie scenario's mogelijk. Óf het Bureau van de COTAN besloot na een korte inventarisatie een njet uit te spreken. en de eigen eindredacteur is daarvan niet op de hoogte. Óf de Expertgroep heeft het materiaal bekeken en geconcludeerd dat het niet beoordeeld kon worden. Derde mogelijkheid is dat OCW zelf op de stoel van de COTAN en de Expertgroep is gaan zitten, en daarmee zijn eigen procedures in het Toetsbesluit PO heeft genegeerd. Immers niet OCW, maar de COTAN en de externe experts beslissen toch over kwaliteit?
Hoe dan ook, de toetsuitgevers gingen in gesprek met het ministerie en zijn allebei lovend over de manier waarop zij zijn geholpen om hun eindtoetsen toch nog op tijd goedgekeurd te krijgen voor gebruik in april 2015. Eén ding is duidelijk: de COTAN is daarbij gepasseerd.

De criteria van de COTAN zijn openbaar. En daaruit blijkt dat het voor nieuwe aanbieders van eindtoetsen vrijwel onmogelijk is om aan de huidige psychometrische eisen van de COTAN te voldoen: volgens de criteria van COTAN kan een toets pas valide zijn als er longitudinale onderzoekgegevens beschikbaar zijn, waarmee de toets kan aantonen dat groep 8 kinderen na vier jaar nog steeds zoveel mogelijk in het schooltype succesvol zijn zoals voorspeld door de eindtoets. De eindtoets van A-Vision en de ICE IEP Eindtoets zouden dus eerst nog enkele jaren moeten worden afgenomen om vast te stellen of het schooladvies juist is.

Maar zoveel tijd had OCW niet - beter gezegd: zoveel tijd wilde het ministerie niet nemen. Sander Dekker had immers een afspraak met de Tweede Kamer om de zaken snel en goed geregeld te krijgen voor de nieuwe toetsuitgevers. De Eindtoets PO was politiek afgevinkt en nu moest er eindelijk maar eens schot in de zaak komen. Uiterlijk 1 november 2014 zou de staatssecretaris bekend maken welke eindtoetsen hij zou toelaten. Scholen moesten per 1 januari 2015 kunnen inschrijven voor de eerste generatie alternatieve eindtoetsen die in april 2015 moesten worden afgenomen.
Op enig moment lijkt het ministerie daarom besloten te hebben de ingediende toetsen niet aan de COTAN bloot te stellen, in het besef dat goedkeuring dan een (te) lange weg zou worden. De procedure zou een obstakel worden voor de aan de Tweede Kamer beloofde variëteit in eindtoetsen.

OCW gaf de Expertgroep Toetsen PO de opdracht de psychometrische aspecten van de eindtoetsen te beoordelen. De COTAN werd definitief gepasseerd. Welke criteria de Expertgroep in de zomer van 2014 hanteerde, bleef lang onduidelijk; ze zijn pas na herhaaldelijk aandringen van de redactie van Didactief op 30 mei 2015 op een website geplaatst.

Komende zomer moeten de verschillende eindtoetsen opnieuw beoordeeld worden. En de COTAN-criteria staan opnieuw in de weg. Het ministerie heeft daarom besloten dat het COTAN-kader moet worden aangepast. Een opdracht waarmee het Rob Meijer heeft belast, hoogleraar psychometrie in Groningen. Onder politieke druk wordt kennelijk alles vloeibaar, ook het COTAN-kader. Hoe kijkt de COTAN aan tegen deze manoeuvre? Is het nodig, of is het vooral een actie, bedoeld om een politiek probleem weg te masseren? De COTAN weigert desgevraagd commentaar. Ook Rob Meijer wil na herhaaldelijk contact zoeken liever nog niet reageren op de vraag of aanpassing van het COTAN-kader noodzakelijk is en hoe hij die aanpassing voor zich ziet. Ook hier 'geen commentaar'.

Meer openheid
Hoe moet het nu met de COTAN in de toekomst? En vooral: hoe kunnen we toetsbeoordeling beter organiseren? 'Het wordt tijd dat we nadenken over een beoordelingskader dat past bij het soort toetsen dat het basisonderwijs nodig heeft als we op eindtermen gaan beoordelen', zegt Karen Heij van Bureau ICE. ´En over een instituut dat hier onafhankelijk mee kan beoordelen.' Lubbers van A-Vision is minder kritisch over de belangenverstrengeling. Poëtisch zegt ze: 'Door een kaarsje bij een ander uit te blazen, gaat het bij jezelf niet harder branden.' Maar inhoudelijk is ze het eens met Heij: 'De COTAN-criteria passen niet bij de eindtoets PO. Dit wordt een beetje technisch, maar met een toets die jaarlijks vernieuwd wordt kun je niet bewijzen dat je aan de door hen gehanteerde criteria voor criterium- en begripsvaliditeit voldoet. Zelfs het Cito kan dat niet. Dus of de procedure moet veranderen of de criteria moeten worden aangepast.'
Lubbers: 'We zijn erg tevreden over de manier waarop de Expertgroep Toetsen PO afgelopen jaar het proces heeft georganiseerd. Er was een duidelijke handleiding, goede feedback, de mogelijkheid je materiaal toe te lichten en aan te passen voordat het definitief beoordeeld wordt. Een dergelijke werkwijze zou misschien voor de COTAN ook goed zijn om in overweging te nemen. Het zou goed zijn als de COTAN ook op die manier geprofessionaliseerd wordt. Het huidige proces is historisch gegroeid, maar elke organisatie moet zich ontwikkelen in de loop van de tijd, de COTAN is geen uitzondering. Dat aan de beoordelingen door de COTAN kosten verbonden zullen worden, lijkt dan ook logisch gevolg.'

Tellegen legt vooral de nadruk op professionalisering: 'Zorg dat je de mensen in de COTAN betaalt, dan kun je echt deskundige beoordelaars aantrekken die er genoeg tijd in steken, zich in de materie verdiepen en alle achtergrondinformatie checken. Nu gebeurt dat vaak niet. Je zou inderdaad ook kosten kunnen verbinden aan het beoordelen van een toets: dat je als uitgever bijvoorbeeld duizend euro moet betalen voor de beoordeling.'
Daarnaast zou volgens Tellegen het hele proces transparanter moeten: 'Zet alles online: het concept-oordeel, de reactie van de uitgever, het eindoordeel, en bied ruimte voor discussie. Daar zouden heel veel mensen wat van kunnen opsteken. Waarom moet dat allemaal worden afgeschermd?'
Ook Oosterveld pleit voor meer openheid. 'Meer ruimte voor discussie lijkt me essentieel. De COTAN matigt zich een oordeel aan over meetinstrumenten die door anderen zijn ontwikkeld, maar laten ze eens naar hun eigen meetinstrument kijken: hoe betrouwbaar en valide is dat systeem eigenlijk? Waarom stellen ze dat niet open voor peer review?' De COTAN gedraagt zich ook niet naar het aanzien dat ze heeft, vindt Oosterveld. 'Ze zeggen wel: wij geven alleen een advies, de gebruiker bepaalt. Maar met de autoriteit die ze tegenwoordig hebben, komen ze met die houding niet meer weg. Het is tijd voor meer transparantie en verdere professionalisering.' Van Loenen sluit zich daarbij aan: 'Je kunt niet zeggen: we zijn groter dan we zelf willen zijn, maar dat is ons probleem niet. Nee, je bent nou eenmaal groot en hebt een bepaalde status, dus daar moet je je ook naar gaan gedragen.'

Voorafgaand aan publicatie heeft de redactie van Didactief de COTAN gevraagd te reageren op de kritiekpunten die in dit artikel worden genoemd. De COTAN heeft ervoor gekozen niet op afzonderlijke punten in te gaan, maar komt met de volgende reactie: 'De COTAN kent de kritiek- en discussiepunten zoals die in het artikel aan de orde komen. De COTAN is een onafhankelijk orgaan en waakt ervoor deze onafhankelijkheid te behouden. Zij realiseert zich dat waar commerciële belangen botsen met een onafhankelijke wetenschappelijke beoordeling dit voor onvrede zorgt. Hierover is en blijft de COTAN in gesprek met de testuitgevers die hun producten vrijwillig ter beoordeling aanbieden. Betreffende punten zijn al eerder besproken met de betrokken personen en/of instanties, de COTAN vindt het daarom niet wenselijk deze via een artikel te bespreken. De afgelopen periode heeft de COTAN stevig ingezet op het wegnemen van belemmeringen in het proces van beoordelen, dit vooral door tijdelijk extra capaciteit in te zetten, procedures te digitaliseren en de informatievoorziening te verbeteren.'

 

Draagvlak
'Wij keuren niks goed of af, we beoordelen tests alleen op een aantal criteria', zegt COTAN-eindredacteur Iris Egberink. 'Uiteindelijk maakt de gebruiker zelf de afweging.' Maar de praktijk is ingewikkelder. Een test met een negatieve COTAN-beoordeling verkoopt beduidend minder goed, weet iedere uitgever. 'De markt vraagt er gewoon naar, het is een kwaliteitsstempel', zegt Koen van Loenen van testuitgever Pearson.
Niet alleen de consument hecht grote waarde aan het oordeel van de COTAN. Ook van de Onderwijsinspectie en RVC's (de regionale verwijzingscommissies die bepalen of een leerling in aanmerking komt voor leerwegondersteunend of praktijkonderwijs) moeten toetsen voldoen aan de criteria van de COTAN. De inspectie verwijst desgevraagd naar het Toetsbesluit PO waarin de COTAN wordt genoemd voor de psychometrische beoordeling van de toetsen. Als een school voor taal en rekenen geen toetsen gebruikt die voldoen aan de criteria van COTAN krijgt ze een negatief oordeel van de inspectie op de indicator 'de school gebruikt een samenhangend systeem van genormeerde instrumenten en procedure voor het volgen van de prestaties en de ontwikkeling van leerlingen.'
Niet zo gek dus, dat scholen een COTAN beoordeling als iets absoluuts zien. Toetsontwikkelaar Teije de Vos: 'Het eerste wat scholen me vragen over een test, is: is hij COTAN-proof? Mag hij van de inspectie? Scholen spelen op safe en kiezen eerder voor een product dat door de COTAN positief is beoordeeld dan een test waarvan ze zelf moeten nagaan hoe betrouwbaar hij in elkaar zit. Anders lopen ze het risico negatief beoordeeld te worden door de inspectie.'

 

De COTAN-criteria
De COTAN beoordeelt tests aan de hand van zeven verschillende criteria. Een test krijgt dus op elk van die punten een afzonderlijke beoordeling: onvoldoende, voldoende of goed.

1. Uitgangspunten van de testconstructie
Waar is de test voor bedoeld en wat meet hij precies? Het materiaal of de handleiding moet daar duidelijke informatie over bevatten, zodat een toekomstige gebruiker kan beoordelen of de test past bij het doel dat hij voor ogen heeft.
2. Kwaliteit van het testmateriaal
Bij dit criterium kijkt de beoordelaar onder andere naar hoe het testmateriaal eruit ziet. Is het gebruiksvriendelijk vormgegeven? Is het zo ontworpen dat fouten bij het invullen kunnen worden vermeden? En op welke manier worden de scores op afzonderlijke vragen vertaald naar een schaal?
3. Kwaliteit van de handleiding
Ook de handleiding van een test is belangrijk. Deze moet duidelijke instructies bevatten over het gebruik van de test, bijvoorbeeld over wie de test mag afnemen en hoe de resultaten moeten worden geïnterpreteerd.
4. Normen
Bij dit criterium wordt gekeken naar hoe de gegevens zijn verzameld waarop de normering van de test is gebaseerd. Zo moeten de normgroepen groot genoeg zijn en moeten ze representatief zijn voor de doelgroep van de test.
5. Betrouwbaarheid
Stel dat je oneindig vaak dezelfde meting zou herhalen, blijft de uitkomst dan stabiel? Dat geeft aan hoe betrouwbaar de test is, en in welke mate meetfouten invloed kunnen hebben op de score.
6. Begripsvaliditeit
Beantwoordt het meetinstrument aan zijn doel? Oftewel: meet de test wat hij zou moeten meten? Als dat het geval is, is de begripsvaliditeit van de test in orde.
7. Criteriumvaliditeit
In hoeverre heeft een test voorspellende waarde? Dit criterium is bij de ene test belangrijker dan bij de andere. Bij een eindtoets bijvoorbeeld is de voorspellende waarde van groot belang, omdat er een schooladvies op wordt gebaseerd. Maar bij een toets uit een leerlingvolgsysteem ligt dat anders: die is vooral bedoeld om voortgang te meten.

Bij het ontwikkelen van de test doet de uitgever of testauteur zelf onderzoek naar de normering, betrouwbaarheid en validiteit van de test. Vervolgens neemt de uitgever in de verantwoording van de test informatie op over de opzet en uitvoering van deze onderzoeken. Dat is de in formatie waar de COTAN op afgaat bij het beoordelen van criteria 4 t/m 7. De COTAN voert dit soort onderzoek dus niet zelf uit, maar kijkt alleen of de uitgever dat op de juiste manier heeft gedaan. Zou een uitgever daarmee in theorie de beoordelaars voor de gek kunnen houden, door een paar cijfertjes te veranderen? 'Misschien wel', zegt COTAN-eindredacteur Iris Egberink, 'maar de uitgever heeft er zelf ook belang bij een deugdelijke test te maken. We gaan dus uit van de verantwoordelijkheid van de uitgever.'

Verder lezen

1 Eindtoets: meten met twee maten?
2 Cito: de lange tentakels van een toetsfabriek
3 Eindtoets PO: de belofte van een 'gelijk speelveld' voor toetsaanbieders
4 De Centrale Eindtoets en het schooladvies

Click here to revoke the Cookie consent