AI als beoordelaar van begrip
Kunstmatige intelligentie is uitgegroeid tot een alledaags onderdeel van de onderwijspraktijk. De aandacht verschuift daarbij steeds vaker naar toepassingen die voorheen tot het exclusieve domein van de docent behoorden. Zo wordt AI ingezet voor het nakijken van antwoorden op tentamenvragen, het beoordelen van scripties en het geven van gepersonaliseerde feedback, soms zelfs in de rol van ‘personal tutor’.
Het nakijken van antwoorden en het beoordelen van scripties komen voort uit dezelfde belofte, namelijk dat AI de werkdruk van docenten kan verlagen en tegelijk kan zorgen voor meer objectiviteit, consistentie en transparantie in de beoordeling. De AI-tutor geldt daarbij als een volgende stap: een systeem dat niet alleen beoordeelt, maar het leerproces actief ondersteunt en afstemt op het niveau en de behoeften van de individuele leerling of student (vanaf nu student).
Wat deze toepassingen met elkaar verbindt, is een minder zichtbare, maar des te fundamentelere aanname. In alle gevallen wordt AI ingezet op taken die impliciet vereisen dat het systeem een inschatting maakt van het begrip van de student. Of het nu gaat om het beoordelen van een antwoord, het waarderen van een complexe tekst of het geven van gerichte feedback: steeds opnieuw staat de vraag centraal of de student ‘het begrijpt’.
De verborgen aanname: begrip is afleesbaar
Om die vraag te kunnen beantwoorden, moet begrip zich op de een of andere manier laten aflezen uit wat de student laat zien: uit een antwoord, een redenering, een tekst of een interactie. Het idee is dat er in die uitingen voldoende signalen besloten liggen om vast te stellen wat een student wel en niet begrijpt, en om daar vervolgens een oordeel, feedback of een interventie aan te koppelen.
Die veronderstelling is diep verankerd in veel onderwijspraktijken. We construeren antwoordmodellen, formuleren beoordelingscriteria en ontwikkelen rubrics die specificeren welke elementen een goed antwoord of een sterke tekst bevat. Op basis daarvan proberen we het begrip van studenten inzichtelijk en beoordeelbaar te maken. AI-systemen bouwen hier in feite op voort: zij analyseren dezelfde talige uitingen, maar doen dat sneller en consistenter.
De veronderstelling dat begrip zich laat aflezen uit observeerbare kenmerken is echter minder vanzelfsprekend dan zij lijkt. Wat zichtbaar wordt in taal en gedrag is namelijk in de eerste plaats het product van onderliggende denkprocessen waarin het begrip tot stand komt, maar niet noodzakelijkerwijs een directe en betrouwbare afspiegeling van die processen zélf.
In wat volgt zal ik betogen dat dit geen praktisch probleem is dat met betere modellen of meer data kan worden opgelost, maar een principiële beperking. Begrip is geen eigenschap die zich laat reduceren tot een verzameling herkenbare kenmerken, en ook geen toestand die zich eenduidig laat aflezen en beoordelen uit wat iemand schrijft of zegt. Daarmee komt ook de ambitie onder druk te staan om AI in te zetten voor taken die van die veronderstelling afhankelijk zijn.
Begrip is geen optelsom
Een eerste probleem met de veronderstelling dat begrip zich laat aflezen uit observeerbare kenmerken, is dat begrip zich niet laat reduceren tot de optelsom van die kenmerken. Bij eenvoudige kennisvragen – waarbij het antwoord bestaat uit een afgebakende set feiten – is zo’n reductie nog goed verdedigbaar. Een antwoord is dan correct of niet, afhankelijk van de aanwezigheid van de juiste elementen.
Zodra een taak echter een beroep doet op inzicht of begrip, verandert de situatie. In dat geval laat de kwaliteit van een antwoord of tekst zich niet langer vangen in een vaste lijst van vooraf gedefinieerde kenniselementen. Wat dan telt, is niet alleen wélke elementen worden genoemd, maar vooral hoe ze zich tot elkaar verhouden.
Dat leidt tot een tweezijdig probleem. Enerzijds kan een student alle relevante elementen correct benoemen, zonder dat er werkelijk sprake is van begrip. De elementen zijn dan weliswaar aanwezig, maar blijven los van elkaar staan en vormen geen samenhangend geheel (wat soms al door een enkel woord of kleine formulering wordt verraden). Het antwoord voldoet dan aan de formele criteria, maar mist de onderliggende structuur die kenmerkend is voor inzicht.
Anderzijds kan een student blijk geven van diep begrip zonder alle verwachte elementen expliciet te benoemen. Het inzicht manifesteert zich dan impliciet, in de manier waarop verbanden worden gelegd, aannames worden gehanteerd, of conclusies worden getrokken, ook wanneer niet alle elementen worden verwoord die volgens de vooraf vastgestelde criteria in een antwoord of tekst aanwezig zouden moeten zijn.
In beide gevallen schiet een benadering tekort die begrip probeert vast te stellen op basis van de aanwezigheid of afwezigheid van afzonderlijke kenmerken, ongeacht of die benadering wordt toegepast door een docent met een rubric of door een AI-systeem dat werkt met een expliciet aangereikte rubric, of – impliciet – een vergelijkbare set van kenmerken hanteert om kwaliteit te beoordelen[1].
Begrip laat zich niet vangen in voorgedefinieerde elementen
Maar het probleem reikt verder. Bij complexe, creatief-intellectuele prestaties – zoals het beantwoorden van inzichtvragen of het schrijven van een scriptie – is het vaak zelfs niet goed mogelijk om vooraf vast te leggen welke elementen bepalend zullen zijn voor de kwaliteit van het geheel. De reden daarvoor heb ik eerder laten zien in Een scriptiebeoordeling past niet in een schema: originaliteit, scherpte en diepgang manifesteren zich vaak op manieren die zich onttrekken aan vooraf gedefinieerde categorieën (Van der Schoot, 2020). Wat een antwoord of tekst goed maakt, laat zich dan niet volledig specificeren in een eindige lijst van observeerbare en scoorbare kenmerken. Sterker nog: de meest overtuigende prestaties zijn vaak juist de prestaties die buiten de vooraf getrokken kaders vallen. Of, zoals de Nederlandse historicus en publicist Chris van der Heijden het treffend formuleerde: ‘systemen kennen geen kantlijn, maar de beste studenten kleuren buiten de vakjes’ (Groene Amsterdammer, 1 november 2018). In zulke gevallen schiet niet alleen het optellen van kenmerken tekort, maar ook het idee dat die kenmerken zélf vooraf volledig te definiëren zijn. Toch is dat precies wat er gebeurt in zowel rubric-gebaseerde als AI-gestuurde vormen van beoordeling.
Het product zegt niet alles over het proces
Zelfs als we aannemen dat de kwaliteit van een antwoord of tekst zich wél laat vangen in de optelsom van vooraf gedefinieerde kenmerken, blijft er een derde probleem bestaan. Wat zichtbaar wordt in het eindproduct, zegt namelijk lang niet altijd iets betrouwbaars over het denkproces dat eraan voorafging.
Twee studenten kunnen tot hetzelfde antwoord komen via verschillende routes (zie bijvoorbeeld Simon, 1978). De ene student heeft het probleem werkelijk doorgrond, heeft alternatieven overwogen en begrijpt waarom een bepaalde oplossing juist is. De andere student kan tot hetzelfde antwoord komen via oppervlakkige strategieën, reproductie of zelfs toeval. In het eindproduct zijn die verschillen vaak niet of slechts deels zichtbaar.
Het omgekeerde komt eveneens voor. Een student kan beschikken over een goed ontwikkeld begrip, maar moeite hebben om dat begrip helder onder woorden te brengen. Het antwoord blijft dan achter bij het onderliggende denkproces, niet omdat het begrip ontbreekt, maar omdat de student dat begrip niet volledig weet te vertalen naar de talige vorm die in het antwoord wordt gevraagd.
Het eindproduct is daarmee dus geen transparant venster op het denken, maar een reductie ervan. Het laat zien wat iemand produceert, maar niet noodzakelijkerwijs hoe dat tot stand is gekomen. Beoordeling op basis van het product is daarmee onvermijdelijk een indirecte en onvolledige benadering van begrip.
Dialoog als toegang tot denken
Deze beperking geldt niet alleen voor AI-systemen, maar evenzeer voor menselijke beoordelaars. In beide gevallen vormt het zichtbare product het vertrekpunt. Tegelijk beschikken zowel mensen als AI over een manier om dat vertrekpunt te overstijgen, namelijk door middel van dialoog en doorvragen. Door vragen te stellen, toelichting te vragen en redeneringen te expliciteren, kan het onderliggende denkproces alsnog (deels) zichtbaar worden gemaakt.
Toch is er een belangrijk verschil in hoe die dialoog functioneert. Wanneer mensen met elkaar in gesprek gaan, vindt dat gesprek plaats binnen een gedeelde wereld van ervaringen, referenties en praktijken. In die context worden woorden niet alleen gebruikt, maar ook gezamenlijk geïnterpreteerd, afgebakend en zo nodig bijgesteld. Betekenis ligt daarbij niet vast in de woorden zelf, maar ontstaat in de manier waarop we, in interactie met elkaar en met de werkelijkheid, tot afstemming komen over wat we bedoelen (Stokhof, 2012; Quine, 2013).
In Taal zonder wereld heb ik laten zien dat AI-systemen niet deelnemen aan die gezamenlijke interpretatiepraktijk (Van der Schoot, 2025). Zij blijven binnen het domein van taal als gesloten symboolsysteem, ook al kunnen zij vormen van dialoog en doorvragen overtuigend simuleren. Hun antwoorden zijn gebaseerd op statistische patronen in tekst, niet op een gedeelde ervaringswereld waarin betekenissen worden getoetst, gecorrigeerd en verdiept. Dialoog met AI kan daardoor de vorm aannemen van een gesprek, maar ontbeert de praktijkverankering en wederkerigheid die nodig zijn om samen betekenis tot stand te brengen.
Wat betekent dit voor de beoordeling van begrip in het onderwijs?
In een onderwijscontext krijgt de ‘gedeelde ervaringswereld’ vorm in de concrete praktijk van een vak. Onderwijs is geen neutrale overdracht van vooraf vastgelegde betekenissen, maar een levende praktijk waarin docenten hun eigen accenten leggen, studenten de leerinhouden vanuit hun eigen perspectieven bevragen, en waarin interpretaties zich ontwikkelen in interactie met elkaar en met de stof. Wat als relevant of overtuigend geldt, ontstaat daarbij niet los van die praktijk, maar binnen de specifieke betekenisdynamiek die eigen is aan het vak en aan de docent en studenten die daaraan deelnemen. Daarom is het problematisch dat AI-systemen niet deelnemen aan deze gezamenlijke interpretatiepraktijk: zonder die context is minder goed zichtbaar hoe een student tot een antwoord komt en wordt het moeilijker om het begrip verder te verdiepen.
Een AI-gestuurde beoordeling heeft geen directe toegang tot de precieze inhoudelijke keuzes en accenten die het onderwijs van een docent richting geven, noch tot de weg die een student heeft afgelegd, met alle eigen uitdagingen, hobbels en valkuilen die daarmee gepaard gaan. In plaats daarvan baseert AI zich op abstracte representaties in de vorm van taalpatronen: abstracties die losstaan van de ervaringscontext waarin het denkproces van de student zich daadwerkelijk heeft ontwikkeld.
De dialoog tussen docent en student vindt wel plaats binnen die gedeelde praktijk van ervaringen, interpretaties en inhoudelijke accenten. In die context kan ervaringsgebonden worden doorgevraagd, bijgestuurd en verdiept, waardoor niet alleen het product, maar ook het onderliggende proces beter te volgen wordt. Daarom biedt een dialoog tussen student en docent uiteindelijk een directere en rijkere toegang tot het denken van de student dan interactie met een AI-systeem.
Daar komt nog iets bij. Het beoordelen van werk is voor docenten niet alleen een middel om prestaties te waarderen, maar ook een manier om zicht te krijgen op het denken van hun studenten. In het lezen van antwoorden, het herkennen van denkfouten en het signaleren waar begrip zich wel of niet ontwikkelt, ontstaat kennis die essentieel is voor goed onderwijs én de voortdurende ontwikkeling daarvan. Wanneer die praktijk (deels) wordt uitbesteed aan AI, verdwijnt ook het directe zicht op hoe studenten denken. En daarmee verliezen we niet alleen een bron van didactische waarde, maar ook iets minstens zo belangrijks: aandacht. Studenten hebben er simpelweg recht op om in hun denken gezien te worden.
Begrip als emergent fenomeen
De voorgaande analyses maken duidelijk dat begrip zich niet laat reduceren tot afzonderlijke elementen, niet eenduidig kan worden afgelezen uit observeerbare kenmerken, en niet rechtstreeks zichtbaar wordt in het eindproduct van denken. Daarmee dringt zich de vraag op wat begrip dan wél is.
Begrip ontstaat in de interactie tussen kennis, ervaring en redenering, maar is niet terug te voeren op die elementen afzonderlijk. Het is geen optelsom van wat iemand weet of kan reproduceren, maar een samenhang die zich vormt in het moment waarop die elementen op betekenisvolle wijze met elkaar in verband worden gebracht. Begrip is in die zin een emergent fenomeen: het verschijnt wanneer verschillende componenten samenkomen, maar ligt niet besloten in die componenten zelf (zie bijvoorbeeld Chi, 2005).
Dat verklaart ook waarom begrip zich moeilijk laat vastleggen in vooraf gedefinieerde kenmerken of beoordelingscriteria. Wat iemand laat zien in een antwoord of tekst is hooguit een momentopname van een onderliggend proces waarin betekenissen zich ontwikkelen, maar waarin het moment waarop alles ‘op zijn plaats valt’ zich doorgaans niet direct laat aflezen. Het is het moment waarop losse elementen samenkomen tot een coherent geheel, een moment van emergentie dat zich aan directe observatie onttrekt en zich niet laat afdwingen.
Dit heeft een belangrijke implicatie voor het onderwijs: begrip kan worden ‘voorbereid’, maar niet geproduceerd. Onderwijs kan de voorwaarden creëren waaronder begrip kan ontstaan – door kennis aan te reiken, verbanden te verkennen en ruimte te bieden voor reflectie en dialoog – maar het moment waarop het inzicht daadwerkelijk ontstaat, laat zich niet volledig plannen of controleren.
Daarom vraagt het beoordelen van begrip om terughoudendheid ten aanzien van AI-systemen die suggereren dat begrip direct zichtbaar en meetbaar is. Begrip voltrekt zich niet in de elementen zelf, maar in de dynamiek ertussen: een dynamiek die zich onttrekt aan iedere poging tot volledige formalisering. Daarin ligt ook de grens van AI, want waar begrip ontstaat in een dynamiek die zich niet laat formaliseren, kan een systeem dat op zulke formalisering berust die dynamiek nooit volledig vatten.
AI als feedbackgever
Tot nu toe hebben we vooral gekeken naar het beoordelen van begrip. Maar de meest ambitieuze toepassing van AI in het onderwijs ligt niet in het beoordelen, maar in het geven van gepersonaliseerde feedback. Voor deze toepassing geldt echter in de kern hetzelfde als voor het beoordelen van begrip: AI moet het niet-reduceerbare reduceren tot iets wat wél observeerbaar, optelbaar en scoorbaar is. Met andere woorden: om feedback te kunnen geven, moet AI doen alsof het begrip waarop die feedback berust zich eenduidig laat vaststellen op basis van signalen in taal en gedrag.
In die stap ligt een impliciete norm besloten. Om te kunnen bepalen wat een student ‘begrijpt’, moet het systeem beschikken over een criterium: een idee van wat als adequaat begrip geldt. Dat criterium kan expliciet zijn vastgelegd, bijvoorbeeld in de vorm van een rubric, maar kan ook impliciet aanwezig zijn in de manier waarop het systeem patronen herkent en beoordeelt. In beide gevallen geldt dat AI noodzakelijkerwijs werkt met een (expliciete of impliciete) set van kenmerken waaraan begrip wordt afgemeten. Daarmee verschuift de rol van AI van het herkennen van begrip naar het toepassen van een model van begrip, waarbij feedback niet langer gebaseerd is op directe toegang tot het onderliggende denkproces, maar op de mate waarin het zichtbare product overeenkomt met dat model. Dit heeft verstrekkende gevolgen voor de aard van de feedback die AI kan geven.
Waar begrip zich normaal gesproken ontwikkelt (in emergente zin) in de open, dynamische en contextgebonden praktijk van betekenisgeving, dwingt AI die praktijk terug in een vorm die hanteerbaar is voor het systeem. De feedback die daaruit voortkomt, richt zich daardoor primair op wat zichtbaar en modelmatig herkenbaar is. Zij wordt onvermijdelijk gestandaardiseerd, geschematiseerd en afgestemd op wat binnen het model past, en niet op de unieke weg die een student in zijn denken heeft afgelegd.
Zo wordt wederom duidelijk waar de grens ligt van AI, ditmaal in de rol van feedbackgever. Een systeem dat afhankelijk is van formalisering kan geen recht doen aan een vorm van begrip die zich aan die formalisering onttrekt. Wat AI kan bieden is geen toegang tot begrip zelf, maar hooguit tot een gereduceerde representatie daarvan. En dat resulteert in een fundamenteel beperktere vorm van feedback.
Van product terug naar proces
Als AI vooral succesvol is in onderwijscontexten waarin begrip wordt afgeleid uit gestandaardiseerde eindproducten, dan legt dat niet alleen een grens van AI bloot, maar ook een zwakte in ons onderwijs. We zijn in toenemende mate gaan vertrouwen op onderwijs- en beoordelingsvormen waarin het product centraal staat en het proces naar de achtergrond verdwijnt. De opkomst van AI maakt zichtbaar hoezeer we schrijven, redeneren en begrijpen al langere tijd behandelen als iets wat zich laat vangen in formats, rubrics en eindproducten. Het is al vaker gezegd, maar het verdient herhaling: AI is in dit opzicht niet zozeer de oorzaak van het probleem, als wel de spiegel ervan.
De didactische consequentie daarvan is helder. Als begrip zich niet betrouwbaar laat afleiden uit één talig eindproduct, dan moeten we het minder zoeken in het eindpunt en meer zichtbaar maken in hoe het tot stand komt. Dat vraagt om een verschuiving van output naar het denkproces zelf: minder fixatie op afvinkbare producten en meer aandacht voor de weg waarlangs betekenis, samenhang en inzicht ontstaan.
Die verschuiving vraagt echter om een belangrijke kanttekening. Zodra we het proces van denken proberen vast te leggen in afzonderlijke stappen, formats of beoordelingscriteria, dreigt het zelf opnieuw tot een product te worden. Wat bedoeld is om het denken beter zichtbaar te maken, kan zo gemakkelijk terugvallen in dezelfde productlogica die we juist proberen te doorbreken. Aandacht voor het proces betekent daarom niet dat we het moeten vastleggen en afvinken, maar dat we het in interactie volgen, bevragen, begeleiden en ruimte geven om zich te ontvouwen.
Verbonden taalhandelingen als basis voor denken
De beweging van output naar het denkproces vraagt er allereerst om lezen, schrijven en spreken veel sterker met elkaar te verbinden. Denken en taalbeheersing moeten dan niet langer als losse grootheden worden behandeld, maar in samenhang worden ontwikkeld in een keten van verbonden taalhandelingen, waarin de volgorde kan variëren en de verschillende vormen elkaar voortdurend oproepen en verdiepen. In die keten wordt denken niet alleen zichtbaarder, maar ook gevormd (vgl. Vygotsky, 1978). Of zoals Renske Bouwer, hoofddocent Taal en Educatie aan de Universiteit Utrecht, het kernachtig verwoordt: ‘Lees teksten goed, schrijf er daarna over en praat vervolgens over je eigen teksten. Vraag je af of dit was wat je wilde zeggen. Snappen meelezers wat je bedoelt? Dat is waar het leerproces plaatsvindt en waar je kritisch denken ontwikkelt.’ (Trouw, 15 februari 2026).
Uit het inzicht dat betekenis zich vormt en verdiept in de wisselwerking tussen lezen, schrijven en spreken, volgt dat het gesprek een centralere plek moet krijgen in het curriculum. Begrip krijgt vaak pas vorm in het proberen uit te leggen: aan jezelf, op papier, maar ook aan een ander. In de poging iets onder woorden te brengen, worden de gaten in het eigen begrip zichtbaar. Wie niet kan uitleggen wat hij bedoelt, ontdekt vaak al sprekend waar het denken nog hapert. Het gesprek is daarmee niet alleen een middel om begrip tot uitdrukking te brengen, maar ook een praktijk waarin begrip zich verder ontwikkelt, in voortdurende samenhang met lezen en schrijven.
Betekenisvorming in dialoog
Wie het gesprek centraler stelt in het curriculum, komt vrijwel vanzelf uit bij een sterkere nadruk op dialogisch leren. Dat vraagt om didactische werkvormen waarin studenten minder geïsoleerd aan individuele teksten werken en meer gezamenlijk betekenis verkennen, structureren en verdiepen in en via taal. Het gaat dan niet alleen om meer praten in de klas, maar om onderwijs waarin samen betekenis systematisch wordt opgebouwd in de wisselwerking tussen lezen, schrijven, spreken, luisteren, bevragen en herformuleren. In die gezamenlijke betekenispraktijk wordt zichtbaarder hoe iemand tot een antwoord komt, waar misverstanden ontstaan, welke begrippen nog onduidelijk zijn en welke inzichten beginnen te veranderen.
Daarmee keren we terug naar het kernpunt dat ik eerder in Taal zonder wereld heb uitgewerkt: betekenis ontstaat vaak in dialoog. Niet omdat woorden op zichzelf betekenis dragen, maar omdat wij hun betekenis samen afbakenen, toetsen en bijstellen in een gedeelde wereld van ervaringen en praktijken.
In het licht van het voorafgaande betoog, en met name van de centrale rol van dialoog daarin, is het moment gekomen om de vraag te stellen wat onderwijs, in tijden van AI, in de kern heeft hoog te houden.
Wat op het spel staat in het onderwijs
Ik heb in dit essay geprobeerd te laten zien dat begrip zich niet laat reduceren tot wat zichtbaar is in taal en gedrag, en dat pogingen om dat toch te doen – of ze nu plaatsvinden via rubrics of via AI – noodzakelijkerwijs tekortschieten. In het onderwijs doen we vaak alsof begrip eenduidig kan worden afgelezen uit het eindproduct van denken: uit teksten, antwoorden en opdrachten. Daarmee verwarren we het resultaat met het proces waaruit het voortkomt. Begrip is geen optelsom van vooraf gedefinieerde, observeerbare kenmerken, maar een samenhang die zich vormt en verdiept in het proces zelf: in het lezen, schrijven, spreken en bevragen van ideeën, en in de dialoog waarin dat denken wordt aangescherpt.
Dat heeft directe implicaties voor het onderwijs. Niet nóg meer standaardisering en ‘vertechnisering’, maar het beter volgen, begeleiden en zo toegankelijk mogelijk maken van dat proces moet centraal komen te staan. Als AI ons dwingt opnieuw na te denken over waar onderwijs werkelijk om draait, dan ligt het antwoord niet in nog meer formalisering, maar in het versterken van die praktijken waarin begrip zich al lezend, schrijvend en sprekend ontwikkelt. Daar ligt de kern van onderwijs.
Referenties
Chi, M. T. H. (2005). Commonsense conceptions of emergent processes. The Journal of the Learning Sciences, 14(2), 161–199.
Simon, H. A. (1978). Information-processing theory of human problem solving. In W. K. Estes (Ed.), Handbook of learning and cognitive processes (Vol. 5, pp. 271–295). Erlbaum.
Stokhof, M. (2012). Taal en betekenis: Een inleiding in de taalfilosofie (4e dr.). Boom.
Quine, W. V. (2013). Word and object. MIT Press. (Oorspronkelijk werk gepubliceerd in 1960)
van der Schoot, M. (2020). Een scriptiebeoordeling past niet in een schema. ScienceGuide.nl. Gepubliceerd op 11 februari 2020.
van der Schoot, M. (2025). Taal zonder wereld: over AI en het verlies van betekenis. Gepubliceerd op LinkedIn op 14-10-2025.
Vygotsky, L. S. (1978). Mind in society: The development of higher psychological processes. Harvard University Press.
[1] Zelfs wanneer we aannemen dat AI zich niet richt op afzonderlijke elementen, maar op de impliciete relaties daartussen, blijft het probleem bestaan dat die samenhang slechts als patroon in taal wordt vastgesteld, en niet als uitdrukking van het onderliggende begrip zelf. Op dit punt kom ik later terug.
Dit is een ingezonden artikel, waarvoor de redactie niet verantwoordelijk is. Lees hier meer over ons beleid aangaande ingezonden stukken.