
Cesuur zonder schijnzekerheid- Hofstee methode.
BLOG — MOMETRIE.NL
Cesuur zonder schijnzekerheid
Waarom Hofstee een eerlijker alternatief is voor vaste percentages
Een toets afnemen is makkelijk. Bepalen wie geslaagd is, niet. Toch leunen veel organisaties op één van twee versimpelingen: óf '55% goed = voldoende', óf 'de onderste 10% zakt altijd'. Beide voelen objectief, maar verbergen hetzelfde probleem: ze negeren de moeilijkheidsgraad van de toets zelf. De Hofstee-methode biedt een tussenweg die psychometrisch verdedigbaar én praktisch werkbaar is.
Het probleem met een vaste cesuur
Stel je twee toetsen voor. Toets A is taai: de mediane kandidaat haalt 52%. Toets B is comfortabel: de mediaan zit op 78%. Pas op beide een vaste zakgrens van 55% toe en je krijgt twee onverenigbare uitkomsten. Bij toets A zakt de helft, bij toets B vrijwel niemand. De cesuur is identiek, maar de betekenis is dat allerminst. Dat is geen objectiviteit; dat is meten met een liniaal die telkens van schaal verandert.
De spiegelvariant, een vast zakpercentage (bijvoorbeeld de onderste 10% laten zakken), heeft hetzelfde probleem in omgekeerde vorm. Je dwingt een uitkomst af, ongeacht wat de toets meet. Een ijzersterk cohort wordt gestraft, een zwak cohort kunstmatig opgevangen. Beide methodes ruilen meetfout in voor pseudo-objectiviteit.

Vanuit psychometrisch oogpunt is de kernvraag: wat zegt een score over de onderliggende vaardigheid? En zodra de moeilijkheidsgraad van de items meebeweegt (wat in de praktijk altijd zo is), kan een vaste grens dat eenvoudigweg niet vastpinnen.
Hofstee: het compromis tussen norm en criterium
Wim Hofstee (1983) stelde een methode voor die expliciet een compromis sluit tussen criterium-gerelateerd toetsen (een vaste inhoudelijke standaard) en norm-gerelateerd toetsen (een vaste verdeling). De redenering: laat een panel vier grenzen vaststellen, namelijk een minimaal en maximaal acceptabel zakpercentage, plus een minimaal en maximaal acceptabele cesuur. Trek vervolgens een diagonaal door dat acceptatiegebied, leg die over de cumulatieve scoreverdeling van het cohort, en lees op het snijpunt de uiteindelijke cesuur af.

De elegantie zit in dat snijpunt. Was de toets makkelijk? Dan ligt de prestatiecurve hoog en schuift de cesuur mee omhoog binnen de toegestane range. Was de toets pittig? Dan zakt de cesuur, maar nooit lager dan wat het panel inhoudelijk verdedigbaar acht. Geen vaste grens en geen vast quotum, maar een grens die meebeweegt met de gegevens, binnen vooraf afgesproken kaders.
Kerngedachte: Hofstee dwingt je om vooraf na te denken over wat je acceptabel vindt, qua score én qua slagingspercentage. Pas daarna mag de data spreken.
De moderne variant: Modified Hofstee
De klassieke Hofstee-methode heeft één zwakke plek: het panel. Vier subjectieve oordelen (minimum en maximum cesuur, plus minimum en maximum zakpercentage) bepalen de uitkomst. Burr en collega's (2016) lieten in BMC Medical Education zien dat je dit panel grotendeels kunt vervangen door één robuuste statistiek: de mediaan van het cohort.
Hun aanpak, de Modified Hofstee (MH), stelt de bovengrens van de cesuur voor voldoende prestatie automatisch vast op een vast aantal procentpunten onder de mediaan. Voor undergraduate-toetsen met een 40%-zakgrens kozen zij 20 procentpunten onder de mediaan, met een absolute bovengrens van 60%. De ondergrens werd op 0% gezet, een principiële keuze: als alle vragen extreem moeilijk waren, kunnen ook lage scores op kennis duiden.
Daarmee elimineer je het inter-beoordelaarsprobleem dat panels notoir maakt; de bekende variabiliteit in Angoff- en Ebel-procedures verdwijnt. De aanname is dat het cohort representatief is en dat de onderwijskwaliteit stabiel is. Burr et al. testten die aanname op data van zes cohorten over zeven jaar: de variatiecoëfficiënt op itemniveau bedroeg slechts 3,8%. De mediaan blijkt dus een verrassend stabiele proxy voor toetsmoeilijkheid.
Voorbeeld: Een module met 29 studenten, mediaan 78%. Bovengrens cesuur = 78 - 20 = 58%, ondergrens = 0%. Bovengrens excellence = 78 + 10 = 88%, met plafond op 85%. De diagonaal door dit gebied snijdt de cohortcurve op 52,8% (afgerond 52%) voor minimaal en 88,0% voor excellence. Tijdsbesteding voor de hele standard-setting: één tot twee minuten op een server, in plaats van uren panelwerk.
En de bovenkant van de schaal?
Een onderschat aspect: dezelfde logica werkt voor de grens tussen voldoende en uitmuntend. Burr et al. plaatsen de ondergrens voor 'excellence' op 10 procentpunten boven de mediaan, met een plafond op 85%. Dat heeft een belangrijk gevolg: bij een te makkelijke toets schuift de excellence-grens automatisch mee omhoog, in plaats van dat ineens 60% van het cohort als uitmuntend wordt gemarkeerd. Concreet vergeleken zij MH met formula scoring (correctie voor gokken): de mediaan van 'excellent' kandidaten daalde van 55% naar 25%. Dat is bescherming tegen "grade inflation", in één formule.
Wanneer past Hofstee, en wanneer niet?
Hofstee, en zeker de gemodificeerde versie, is sterk wanneer de toets bestaat uit objectief gescoorde items waarbij de moeilijkheidsgraad per editie kan variëren, het cohort voldoende groot is (Burr et al. werkten met cohorten vanaf ongeveer 25 kandidaten), en de inhoud niet één-op-één is gekoppeld aan een harde competentie-eis. De methode levert ook iets unieks: ze kalibreert ook de bovenkant van de schaal, niet alleen de zakgrens.
Voorzichtig zijn bij hertentamens met kleine, niet-representatieve cohorten. Daar is de mediaan onbruikbaar als referentie. Burr et al. raden aan om dan terug te vallen op cumulatieve historische data of een vaste grens uit een eerdere afname. Ook bij high-stakes competentietoetsen waar inhoudelijke standaarden bindend zijn (denk aan licentie-examens) blijven Ebel of Angoff de eerste keuze; MH kan daar wel als post-hoc kwaliteitscheck fungeren.
Wat dit betekent voor je toetsorganisatie
Vanuit een data-engineering bril is de Modified Hofstee aantrekkelijk omdat ze automatiseerbaar is. Burr et al. melden dat hun implementatie in het Rogo-systeem de hele standard-setting in één tot twee minuten doet, versus uren panelwerk voor Ebel of Angoff. Je hebt feitelijk twee inputs nodig: de scoreverdeling en twee parameters (afstand-tot-mediaan voor BSP en BEP, plus harde plafonds). Daarmee is het beleid expliciet, herhaalbaar en auditeerbaar.
Dat is precies wat psychometrische verantwoording vraagt: niet 'we doen al jaren 55%', maar een procedure waarvan je kunt uitleggen waarom de grens daar ligt voor déze toets. De vaste cesuur was nooit objectief; hij was alleen onveranderlijk. De Modified Hofstee is veranderlijk, en juist daarom eerlijker.
Drie take-aways
Een vaste cesuur is alleen verdedigbaar als de moeilijkheidsgraad van je toets ook vast is. Dat is hij vrijwel nooit.
Hofstee biedt een verdedigbare middenweg: vooraf afspraken over acceptabele grenzen, achteraf een datagestuurd snijpunt.
De Modified Hofstee vervangt het panel door de cohort-mediaan, en kan ook de excellence-grens kalibreren. Bescherming tegen grade inflation included.
Literatuur
Burr, S.A., Whittle, J., Fairclough, L.C., Coombes, L. & Todd, I. (2016). Modifying Hofstee standard setting for assessments that vary in difficulty, and to determine boundaries for different levels of achievement. BMC Medical Education, 16, 34.https://doi.org/10.1186/s12909-016-0555-y
Hofstee, W.K.B. (1983). The case for compromise in educational selection and grading. In S.B. Anderson & J.S. Helmick (red.), On Educational Testing (pp. 109–127). Jossey-Bass.
Tavakol, M. & Dennick, R. (2014). Modelling the Hofstee method reveals problems. Medical Teacher, 36(2), 181–182.
van der Vleuten, C.P. (2010). Setting and maintaining standards in multiple choice examinations: Guide supplement 37.1 (Viewpoint). Medical Teacher, 32, 174–176.
——————————————————————————————
Monika Vaheoja, PhD — Mometrie | Toetsconstructie & cesuurbepaling | www.mometrie.nl
