Het Hofstee-mechanisme. Het paarse rechthoekje is het acceptatiegebied: cesuur tussen 40% en 60%, zakpercentage tussen 0% en 25%. De diagonaal verbindt de hoeken. Waar die diagonaal de prestatiecurve van een cohort kruist, ligt de cesuur. Drie verschillende toetsen leveren drie verschillende cesuren op, allemaal binnen wat vooraf is afgesproken.

Cesuur zonder schijnzekerheid- Hofstee methode.

May 09, 20266 min read

BLOG — MOMETRIE.NL

Cesuur zonder schijnzekerheid

Waarom Hofstee een eerlijker alternatief is voor vaste percentages

Een toets afnemen is makkelijk. Bepalen wie geslaagd is, niet. Toch leunen veel organisaties op één van twee versimpelingen: óf '55% goed = voldoende', óf 'de onderste 10% zakt altijd'. Beide voelen objectief, maar verbergen hetzelfde probleem: ze negeren de moeilijkheidsgraad van de toets zelf. De Hofstee-methode biedt een tussenweg die psychometrisch verdedigbaar én praktisch werkbaar is.

Het probleem met een vaste cesuur

Stel je twee toetsen voor. Toets A is taai: de mediane kandidaat haalt 52%. Toets B is comfortabel: de mediaan zit op 78%. Pas op beide een vaste zakgrens van 55% toe en je krijgt twee onverenigbare uitkomsten. Bij toets A zakt de helft, bij toets B vrijwel niemand. De cesuur is identiek, maar de betekenis is dat allerminst. Dat is geen objectiviteit; dat is meten met een liniaal die telkens van schaal verandert.

De spiegelvariant, een vast zakpercentage (bijvoorbeeld de onderste 10% laten zakken), heeft hetzelfde probleem in omgekeerde vorm. Je dwingt een uitkomst af, ongeacht wat de toets meet. Een ijzersterk cohort wordt gestraft, een zwak cohort kunstmatig opgevangen. Beide methodes ruilen meetfout in voor pseudo-objectiviteit.

hofstee methode
Figuur 1. Drie strategieen toegepast op dezelfde drie toetsen. Bij een vaste cesuur zwiept het zakpercentage van 1% naar 65%. Bij een vast zakpercentage springt de cesuur van 41% naar 67%. Hofstee laat beide bewegen, binnen vooraf afgesproken kaders.

Vanuit psychometrisch oogpunt is de kernvraag: wat zegt een score over de onderliggende vaardigheid? En zodra de moeilijkheidsgraad van de items meebeweegt (wat in de praktijk altijd zo is), kan een vaste grens dat eenvoudigweg niet vastpinnen.

Hofstee: het compromis tussen norm en criterium

Wim Hofstee (1983) stelde een methode voor die expliciet een compromis sluit tussen criterium-gerelateerd toetsen (een vaste inhoudelijke standaard) en norm-gerelateerd toetsen (een vaste verdeling). De redenering: laat een panel vier grenzen vaststellen, namelijk een minimaal en maximaal acceptabel zakpercentage, plus een minimaal en maximaal acceptabele cesuur. Trek vervolgens een diagonaal door dat acceptatiegebied, leg die over de cumulatieve scoreverdeling van het cohort, en lees op het snijpunt de uiteindelijke cesuur af.

Figuur 2. Het Hofstee-mechanisme. Het paarse rechthoekje is het acceptatiegebied: cesuur tussen 40% en 60%, zakpercentage tussen 0% en 25%. De diagonaal verbindt de hoeken. Waar die diagonaal de prestatiecurve van een cohort kruist, ligt de cesuur. Drie verschillende toetsen leveren drie verschillende cesuren op, allemaal binnen wat vooraf is afgesproken.

De elegantie zit in dat snijpunt. Was de toets makkelijk? Dan ligt de prestatiecurve hoog en schuift de cesuur mee omhoog binnen de toegestane range. Was de toets pittig? Dan zakt de cesuur, maar nooit lager dan wat het panel inhoudelijk verdedigbaar acht. Geen vaste grens en geen vast quotum, maar een grens die meebeweegt met de gegevens, binnen vooraf afgesproken kaders.

Kerngedachte: Hofstee dwingt je om vooraf na te denken over wat je acceptabel vindt, qua score én qua slagingspercentage. Pas daarna mag de data spreken.

De moderne variant: Modified Hofstee

De klassieke Hofstee-methode heeft één zwakke plek: het panel. Vier subjectieve oordelen (minimum en maximum cesuur, plus minimum en maximum zakpercentage) bepalen de uitkomst. Burr en collega's (2016) lieten in BMC Medical Education zien dat je dit panel grotendeels kunt vervangen door één robuuste statistiek: de mediaan van het cohort.

Hun aanpak, de Modified Hofstee (MH), stelt de bovengrens van de cesuur voor voldoende prestatie automatisch vast op een vast aantal procentpunten onder de mediaan. Voor undergraduate-toetsen met een 40%-zakgrens kozen zij 20 procentpunten onder de mediaan, met een absolute bovengrens van 60%. De ondergrens werd op 0% gezet, een principiële keuze: als alle vragen extreem moeilijk waren, kunnen ook lage scores op kennis duiden.

Daarmee elimineer je het inter-beoordelaarsprobleem dat panels notoir maakt; de bekende variabiliteit in Angoff- en Ebel-procedures verdwijnt. De aanname is dat het cohort representatief is en dat de onderwijskwaliteit stabiel is. Burr et al. testten die aanname op data van zes cohorten over zeven jaar: de variatiecoëfficiënt op itemniveau bedroeg slechts 3,8%. De mediaan blijkt dus een verrassend stabiele proxy voor toetsmoeilijkheid.

Voorbeeld: Een module met 29 studenten, mediaan 78%. Bovengrens cesuur = 78 - 20 = 58%, ondergrens = 0%. Bovengrens excellence = 78 + 10 = 88%, met plafond op 85%. De diagonaal door dit gebied snijdt de cohortcurve op 52,8% (afgerond 52%) voor minimaal en 88,0% voor excellence. Tijdsbesteding voor de hele standard-setting: één tot twee minuten op een server, in plaats van uren panelwerk.

En de bovenkant van de schaal?

Een onderschat aspect: dezelfde logica werkt voor de grens tussen voldoende en uitmuntend. Burr et al. plaatsen de ondergrens voor 'excellence' op 10 procentpunten boven de mediaan, met een plafond op 85%. Dat heeft een belangrijk gevolg: bij een te makkelijke toets schuift de excellence-grens automatisch mee omhoog, in plaats van dat ineens 60% van het cohort als uitmuntend wordt gemarkeerd. Concreet vergeleken zij MH met formula scoring (correctie voor gokken): de mediaan van 'excellent' kandidaten daalde van 55% naar 25%. Dat is bescherming tegen "grade inflation", in één formule.

Wanneer past Hofstee, en wanneer niet?

Hofstee, en zeker de gemodificeerde versie, is sterk wanneer de toets bestaat uit objectief gescoorde items waarbij de moeilijkheidsgraad per editie kan variëren, het cohort voldoende groot is (Burr et al. werkten met cohorten vanaf ongeveer 25 kandidaten), en de inhoud niet één-op-één is gekoppeld aan een harde competentie-eis. De methode levert ook iets unieks: ze kalibreert ook de bovenkant van de schaal, niet alleen de zakgrens.

Voorzichtig zijn bij hertentamens met kleine, niet-representatieve cohorten. Daar is de mediaan onbruikbaar als referentie. Burr et al. raden aan om dan terug te vallen op cumulatieve historische data of een vaste grens uit een eerdere afname. Ook bij high-stakes competentietoetsen waar inhoudelijke standaarden bindend zijn (denk aan licentie-examens) blijven Ebel of Angoff de eerste keuze; MH kan daar wel als post-hoc kwaliteitscheck fungeren.

Wat dit betekent voor je toetsorganisatie

Vanuit een data-engineering bril is de Modified Hofstee aantrekkelijk omdat ze automatiseerbaar is. Burr et al. melden dat hun implementatie in het Rogo-systeem de hele standard-setting in één tot twee minuten doet, versus uren panelwerk voor Ebel of Angoff. Je hebt feitelijk twee inputs nodig: de scoreverdeling en twee parameters (afstand-tot-mediaan voor BSP en BEP, plus harde plafonds). Daarmee is het beleid expliciet, herhaalbaar en auditeerbaar.

Dat is precies wat psychometrische verantwoording vraagt: niet 'we doen al jaren 55%', maar een procedure waarvan je kunt uitleggen waarom de grens daar ligt voor déze toets. De vaste cesuur was nooit objectief; hij was alleen onveranderlijk. De Modified Hofstee is veranderlijk, en juist daarom eerlijker.

Drie take-aways

  • Een vaste cesuur is alleen verdedigbaar als de moeilijkheidsgraad van je toets ook vast is. Dat is hij vrijwel nooit.

  • Hofstee biedt een verdedigbare middenweg: vooraf afspraken over acceptabele grenzen, achteraf een datagestuurd snijpunt.

  • De Modified Hofstee vervangt het panel door de cohort-mediaan, en kan ook de excellence-grens kalibreren. Bescherming tegen grade inflation included.

Literatuur

Burr, S.A., Whittle, J., Fairclough, L.C., Coombes, L. & Todd, I. (2016). Modifying Hofstee standard setting for assessments that vary in difficulty, and to determine boundaries for different levels of achievement. BMC Medical Education, 16, 34.https://doi.org/10.1186/s12909-016-0555-y

Hofstee, W.K.B. (1983). The case for compromise in educational selection and grading. In S.B. Anderson & J.S. Helmick (red.), On Educational Testing (pp. 109–127). Jossey-Bass.

Tavakol, M. & Dennick, R. (2014). Modelling the Hofstee method reveals problems. Medical Teacher, 36(2), 181–182.

van der Vleuten, C.P. (2010). Setting and maintaining standards in multiple choice examinations: Guide supplement 37.1 (Viewpoint). Medical Teacher, 32, 174–176.

——————————————————————————————

Monika Vaheoja, PhD — Mometrie | Toetsconstructie & cesuurbepaling | www.mometrie.nl

Ik help organisaties begrijpen wat hun vragenlijsten, metingen en data werkelijk betekenen door statistische analyse en interactieve visualisaties. | Freelance Data Analyst & R Trainer | Shiny • R • SQL • Psychometrie

Monika Vaheoja

Ik help organisaties begrijpen wat hun vragenlijsten, metingen en data werkelijk betekenen door statistische analyse en interactieve visualisaties. | Freelance Data Analyst & R Trainer | Shiny • R • SQL • Psychometrie

LinkedIn logo icon
Back to Blog