De kernitemmethode: een goed idee met twee fundamentele zwaktes

April 18, 2026•8 min read

De kernitemmethode: een goed idee met twee fundamentele zwaktes

Het principe is verdedigbaar. De uitvoering is dat minder. Over cesuurbepaling, beoordelaarsbias en wat je morgen al anders kunt doen.

In 1968 schreef R.F. van Naerssen een memorandum voor het Psychologisch Laboratorium van de Universiteit van Amsterdam. Het onderwerp: hoe bepaal je een cesuur die niet meeschuift met hoe goed of slecht een groep toevallig presteert? De methode van De Groot — de kernitemmethode — beloofde een oplossing. Maar Van Naerssen toonde aan dat ze psychometrisch niet klopte. En hij stelde een betere variant voor. Het is werk van meer dan vijftig jaar geleden. En toch is het vraagstuk vandaag even actueel als toen.

1. Wat is de kernitemmethode?

Het idee is eenvoudig. Je kiest uit je toets een aantal kernitems: vragen die precies op het niveau van de grensleerling liggen. Niet te makkelijk, niet te moeilijk. Vragen waarvan jij als docent verwacht dat een leerling op de grens tussen voldoende en onvoldoende — de grenspersoon — ze net wel of net niet kan maken.

Vervolgens kijk je hoeveel procent van de kernitems correct wordt beantwoord door leerlingen die ongeveer op de aftestgrens zitten. Dat percentage wordt je cesuur.

Kerngedachte: de cesuur is niet een vast percentage van de totale score, maar is afgeleid van hoe de grensleerling presteert op items die specifiek voor hem of haar zijn geselecteerd.

De methode heeft één aantrekkelijk kenmerk: ze koppelt de cesuur aan inhoud. Niet aan een willekeurig getal, maar aan wat een docent inhoudelijk verwacht van een leerling die net voldoende beheerst. Dat is het goede nieuws.

2. Eerste kanttekening: de standaardmeetfout

Van Naerssen zag het probleem meteen. De kernitemmethode gebruikt slechts een klein deel van de toets om de cesuur te bepalen. Dat heeft directe gevolgen voor de betrouwbaarheid — en daarmee voor de standaardmeetfout.

In de klassieke testtheorie geldt: de standaardmeetfout van een toetsscore is gelijk aan de standaarddeviatie van de scores vermenigvuldigd met de wortel van één min de betrouwbaarheid. Hoe lager de betrouwbaarheid, hoe groter de standaardmeetfout — en hoe onzekerder de score die je meet.

De kernitems vormen een subschaal van de totale toets. Die subschaal is korter, en een kortere subschaal is minder betrouwbaar. Dat is geen veronderstelling — dat volgt rechtstreeks uit de Spearman-Brown formule, die beschrijft hoe de betrouwbaarheid daalt naarmate je minder items gebruikt. Als je toets als geheel een redelijke betrouwbaarheid heeft, dan heeft een subschaal van vijf of zes kernitems een aanzienlijk lagere betrouwbaarheid. En een lagere betrouwbaarheid betekent een grotere standaardmeetfout.

Concreet voorbeeld

Je toets heeft 40 items en een betrouwbaarheid van 0.80 — redelijk voor een schooltoets. Je gebruikt 6 kernitems als basis voor de cesuur. Via Spearman-Brown daalt de betrouwbaarheid van die subschaal naar ongeveer 0.38. De standaardmeetfout op die subschaal is daarmee aanzienlijk groter dan op de totale toets. Je cesuur kan bij een volgende afname gemakkelijk verschuiven — niet omdat de leerlingen anders zijn, niet omdat de stof veranderd is, maar omdat je meting te smal is om stabiel te zijn.

Van Naerssen stelde voor om de methode te combineren met historische gegevens van eerdere toetsafnames — de herhaalitemmethode. Zo gebruik je meer informatie, en wordt de schatting stabieler. Het basisprobleem blijft: hoeveel onzekerheid accepteer je in je cesuur? Dat is geen technische vraag. Dat is een keuze die je bewust moet maken — of anders voor je wordt gemaakt.

3. Tweede kanttekening: de docent als meetinstrument

De kernitemmethode vraagt iets bijzonders van de docent. Hij of zij moet zelf aanwijzen welke leerlingen op de grens zitten. Welke vragen precies op het niveau van die grensleerling liggen. Dat klinkt uitvoerbaar. Maar het is een oordeel — en oordelen zijn niet neutraal.

Onderzoek laat keer op keer zien dat leraarsverwachtingen systematisch worden beïnvloed door kenmerken van leerlingen die er niet toe zouden mogen doen. Geslacht. Sociaaleconomische achtergrond. Eerdere indrukken. In grootschalig Nederlands onderzoek onder meer dan 11.000 leerlingen bleek dat biased verwachtingen een effect hebben op schoolprestaties dat oploopt tot het equivalent van een volledig schooljaar — en dat dit effect ook na vijf jaar nog zichtbaar is (De Boer, Bosker & Van der Werf, 2010).

Het gaat daarbij niet om bewuste vooroordelen. Het menselijk brein is nu eenmaal geneigd nieuwe informatie te laten aansluiten bij wat het al denkt te weten (Amels & Uiterwijk, 2015). Een docent die een leerling al tijden kent, ziet die leerling — niet alleen de antwoorden.

Wat dit concreet betekent: bij bijna een derde van de leraren wijken de verwachtingen significant af van wat de feitelijke prestaties zouden rechtvaardigen (Timmermans, Kuyper & Van der Werf, 2015). En die afwijking is niet willekeurig. Ze volgt patronen.

Bij de kernitemmethode zit deze bias precies op de plek die het meest telt. De selectie van de grensleerling en de kernitems bepaalt immers de cesuur. Een docent die onbewust hogere verwachtingen heeft van bepaalde leerlingen, wijst andere kernitems aan dan een collega met een andere blik. De cesuur verschuift — niet op basis van wat leerlingen kunnen, maar op basis van wie de docent denkt dat ze zijn. Dat is geen klein detail. Dat is een structureel probleem in de methode zelf.

4. Een praktische oplossing: Angoff op de kernitems

De kernitemmethode en de Angoff-methode lijken op het eerste gezicht verschillende benaderingen. Maar ze delen hetzelfde vertrekpunt: de grensleerling. Het verschil zit in hoe je dat oordeel operationaliseert.

De kernitemmethode vraagt: welke leerling past bij dit item? De Angoff-methode vraagt: hoe groot is de kans dat een grensleerling dit item correct beantwoordt? Dat klinkt subtiel, maar het maakt een groot verschil. Door een kans te schatten in plaats van een leerling aan te wijzen, ontkoppel je je oordeel van specifieke leerlingen uit je klas. De bias-kwetsbaarheid verdwijnt grotendeels. De standaardmeetfout blijft — maar is beheersbaarder als je bewust met je kernitems omgaat.

Je hebt geen panel van tien collega's nodig om het beter te doen. Wat je wel nodig hebt, is structuur. Dit is wat je kunt doen.

Selecteer je kernitems bewust. Kies items die de spreiding van je toets weerspiegelen — niet alleen items op middenniveau, maar ook een makkelijker en een moeilijker item. Dat is straks belangrijk voor de vertaling naar de totale toets.
Schrijf per kernitem op waarom het op grensniveau ligt. Welke kennis of vaardigheid vraagt het? Waarom is dat precies genoeg voor een voldoende? Dit dwingt je intuïtie te expliciteren — en maakt je oordeel controleerbaar.
Schat per kernitem een kans. Niet een leerling, maar een getal tussen 0 en 1. Een item precies op grensniveau krijgt 0.5. Een item dat ook een zwakkere grensleerling vaak goed maakt krijgt hoger. Een item dat zelfs een sterke grensleerling soms laat struikelen krijgt lager. Denk aan de denkbeeldige grensleerling — niet aan iemand uit je klas.
Tel de kansen op en druk ze uit als percentage. De som van je kansen gedeeld door het aantal kernitems geeft het verwachte slagingspercentage van de grensleerling op de kernitems.
Pas dat percentage toe op de hele toets. Dit is de aanname: de kernitems zijn representatief voor de moeilijkheidsopbouw van de totale toets. Precies daarom is stap 1 — spreiding — zo belangrijk.

REKENVOORBEELD

Je toets heeft 40 items, waarvan je 8 als kernitem selecteert.
Je schat per kernitem de kans dat een grensleerling het correct beantwoordt.
De som van die kansen is 4.2.
4.2 / 8 = 52.5% van de kernitems.
Cesuur op de totale toets: 52.5% × 40 = 21 punten.

De aanname die hierachter zit is dat de kernitems representatief zijn voor de moeilijkheidsopbouw van de hele toets. Kies je alleen items uit het midden, dan onderschat je mogelijk hoe de grensleerling presteert op de makkelijke en moeilijke items aan de uiteinden. Precies daarom is bewuste spreiding bij de selectie zo belangrijk.

Een extra waarborg: doe de schatting tweemaal — met een week ertussen, zonder je eerste schattingen te bekijken. Grote verschillen op specifieke items zijn een signaal dat je oordeel over die items onzeker is. Die onzekerheid is informatie.

5. Wat dit oplevert

De standaardmeetfout blijft een aandachtspunt — hoe minder kernitems, hoe groter de onzekerheid. Maar je hebt een cesuur die je item voor item kunt uitleggen, die niet afhangt van wie er toevallig in je klas zit, en die intern consistent is over de hele toets.

Is dit perfect? Nee. Eén beoordelaar blijft één perspectief. En de aanname van representativiteit is een aanname. Maar het is aantoonbaar beter dan de klassieke kernitemmethode, omdat je oordeel niet meer afhankelijk is van een specifieke leerling als referentiepunt — en omdat je jezelf dwingt om consistent te zijn over de hele toets.

Dat kost je ongeveer twintig minuten extra per toets.

De vraag is niet of je tijd hebt. De vraag is of je een cesuur hebt die je kunt uitleggen — aan leerlingen, aan ouders, en aan jezelf.

Referenties

Amels, J. & Uiterwijk, L. (2015). Voorkom ruis bij interpreteren data. SchoolManagement Totaal.

Brandon, P.R. (2004). Conclusions about frequently studied modified Angoff standard-setting topics. Applied Measurement in Education, 17(1), 59–88.

De Boer, H., Bosker, R.J. & Van der Werf, M.P.C. (2010). Sustainability of teacher expectation bias effects on long-term student performance. Journal of Educational Psychology, 102(1), 168–179.

Timmermans, A.C., Kuyper, H. & Van der Werf, G. (2015). Accurate, inaccurate, or biased teacher expectations. British Journal of Educational Psychology, 85, 459–478.

Van Naerssen, R.F. (1968). Memorandum AET-245: Het bepalen van de caesuur voldoende/onvoldoende. Psychologisch Laboratorium, Universiteit van Amsterdam.

Van Naerssen, R.F. (1968). Memorandum AET-253: Waarom de kernitemmethode faalt en hoe deze verbeterd kan worden. Psychologisch Laboratorium, Universiteit van Amsterdam.

——————————————————————————————

Monika Vaheoja, PhD — Mometrie | Toetsconstructie & cesuurbepaling | www.mometrie.nl

Monika Vaheoja

Ik help organisaties begrijpen wat hun vragenlijsten, metingen en data werkelijk betekenen door statistische analyse en interactieve visualisaties. | Freelance Data Analyst & R Trainer | Shiny • R • SQL • Psychometrie

Back to Blog