een grensleerling

Angoff methode: Hoe bepaal je een eerlijke cesuur?

April 03, 202610 min read

BLOG — MOMETRIE.NL

Hoe bepaal je een eerlijke cesuur?

Over de Angoff-methode, de grensleerling, en wat de wetenschap ons leert over oordelen onder onzekerheid

1. „We doen altijd 55%. Dat werkt toch?“

Een toetscoördinator vraagt tijdens een studiedag: „We gebruiken al jaren een cesuur van 55%. Wat is er mis mee?“

Het antwoord is niet dat 55% fout is. Het antwoord is dat niemand kan zeggen waarom het 55% is. Niet 54%, niet 57%. Gewoon 55%, omdat het altijd zo gedaan werd, omdat het ergens vandaan leek te komen, omdat het ‘redelijk’ voelt.

Dat is precies het probleem. Een cesuur die je niet kunt onderbouwen is geen norm. Het is een gewoonte.

En gewoontes zijn geen antwoord op de vraag die werkelijk speelt: wat moet een leerling minimaal kunnen om te slagen? Dat is een inhoudelijke vraag. Geen statistische.

2. Wat een cesuur eigenlijk is

Een cesuur is de grens tussen onvoldoende en voldoende. Maar die grens zegt alleen iets als je ook weet wát er onder die grens ligt en wát erboven.

Een cesuur van 55% zegt: wie meer dan de helft van de punten haalt, slaagt. Het zegt niets over welke kennis en vaardigheden daarvoor nodig zijn. Het zegt niets over of die grens hoog genoeg is voor succesvolle doorstroom. En het zegt niets over of de grens eerlijk is voor alle leerlingen.

Ferrara, Davis-Becker, Kannan en Reynolds (in Cook & Pitoniak, 2025, hoofdstuk 12) beschrijven hoe een cesuur een inhoudelijke norm vertegenwoordigt, verankerd in de leerdoelen van het vak en de eisen van het curriculum. Het is een instrument dat de beleidsintentie vertaalt naar een locatie op een scoreschaal (Reckase, 2006). Geen statistisch gemiddelde, geen historische gewoonte.

Een inhoudelijk verankerde cesuur geeft antwoord op een andere vraag: wat kan de leerling die nét voldoende scoort? En is dat genoeg?

Een cesuur van 55% is geen norm. Het is een gewoonte zonder geheugen.

3. De grensleerling

De Angoff-methode begint met één vraag: hoe ziet de leerling eruit die nét voldoende is?

Niet de gemiddelde leerling. Niet de zwakste. De grensleerling, de leerling die precies op de grens zit. Die de stof net voldoende beheerst om door te kunnen. Niet meer, niet minder.

Die leerling omschrijven is moeilijker dan het klinkt. Wat weet hij? Wat kan hij toepassen? Waar faalt hij? Het antwoord op die vragen bepaalt de cesuur, niet andersom.

Ferrara et al. (Cook & Pitoniak, 2025, hoofdstuk 12) noemen de grensleerling de ‘threshold performance level descriptor’: een beschrijving van de kennis, vaardigheden en het redeneergedrag van een leerling die zich precies op de grens tussen twee prestatieniveaus bevindt. Hoe concreter en gedeeld die beschrijving, hoe beter het panel zijn oordelen kan verankeren.

Zodra die grensleerling helder is, kun je per toetsvraag de volgende vraag stellen: hoe groot is de kans dat deze leerling dit item correct beantwoordt? Dat getal, opgeteld over alle items, geeft de cesuur.

Dat is de Angoff-methode in essentie (Angoff, 1971). Geen formule. Een redenering.

4. Hoe de methode werkt

De Angoff-methode wordt uitgevoerd door een panel van vakexperts, docenten of toetsontwikkelaars die de stof en de doelgroep kennen. Het proces verloopt in drie stappen.

  • Stap 1: Beschrijf de grensleerling. Het panel formuleert samen een concreet beeld van de leerling die net voldoende is. Niet „iemand die de stof redelijk begrijpt“, maar: welke leerdoelen beheerst deze leerling wel en welke niet? Hoe concreter de beschrijving, hoe beter. Giraud, Impara en Plake (2000, geciteerd in Brandon, 2004) toonden aan dat een definitievere beschrijving van de grensleerling de variatie in oordelen tussen panelleden aanzienlijk verkleint. Vage grensleerlings leiden tot vage cesuren.

  • Stap 2: Schat per vraag de kans. Voor elk item schat elk panellid onafhankelijk in hoe groot de kans is, van 0 tot 1, dat de grensleerling dit item goed heeft. Een makkelijk item krijgt een hoge schatting, een moeilijk item een lage. Die onafhankelijkheid is belangrijk: groepsdruk mag de eerste ronde niet beïnvloeden.

  • Stap 3: Bespreek, geef feedback, herhaal. De optelsom van de kansschattingen levert per panellid een cesuurvoorstel op. Na de eerste ronde krijgt het panel feedback: hoe liggen de individuele schattingen ten opzichte van elkaar, en hoe verhouden ze zich tot de empirische p-waarden van de items? Dan volgt bespreking, en daarna een tweede ronde.

Dat iteratieve karakter, schatten, bespreken en herzien, is geen bijzaak. Het is de kern van de methode.

5. Wat de wetenschap zegt over bespreking

Brandon (2004) bestudeerde 38 empirische studies over de modified Angoff-methode. Zijn bevindingen over de effecten van bespreking en p-waarde-feedback zijn consistent.

  1. Betrouwbaarheid neemt significant toe. Stephenson, Elmore en Evans (2000, geciteerd in Brandon, 2004) lieten zien dat de betrouwbaarheid van itemschattingen steeg van .57 voor bespreking naar .84 erna. Dat is geen kleine verbetering.

  2. Variatie daalt gemiddeld 31%. Over 17 toetsen in zes studies daalde de standaarddeviatie van itemschattingen na bespreking gemiddeld met 31% (Brandon, 2004). Panelleden worden het na bespreking aanzienlijk meer eens over wat de grensleerling kan.

  3. Cesuren veranderen in twee derde van de gevallen. Vier van de zes studies lieten significante veranderingen zien in de cesuur na bespreking. De eerste ronde is een startpunt, geen eindpunt.

  4. Correlaties met empirische moeilijkheid verbeteren. Vier studies lieten zien dat de correlatie tussen itemschattingen en empirische p-waarden gemiddeld met .20 verbeterde na de bespreking (Brandon, 2004). Panelleden krijgen na terugkoppeling een realistischer beeld van hoe moeilijk items werkelijk zijn.

Brandon (2004, p. 82) concludeert: „We can be somewhat confident that judges’ reviews and discussions of empirical information improve item estimates.“ Het bewijs is niet overweldigend, maar consistent genoeg om bespreking als essentieel onderdeel van het proces te zien.

Kortom: een Angoff-panelsessie zonder meerdere rondes en zonder bespreking levert minder betrouwbare cesuren op. Eenmalig schatten en het gemiddelde nemen is niet genoeg.

6. Waar het mis kan gaan

Tot zover klinkt de methode robuust. Maar er is een serieuze valkuil, die zowel Brandon (2004) als Ferrara et al. (Cook & Pitoniak, 2025) uitvoerig beschrijven.

Panelleden maken systematisch fouten bij extreem makkelijke en extreem moeilijke items. Ze onderschatten hoe makkelijk makkelijke items zijn, en onderschatten hoe moeilijk moeilijke items zijn. Hun schattingen worden gecomprimeerd rond het midden van de schaal.

Mattar (2000, geciteerd in Brandon, 2004) berekende de gemiddelde afwijking tussen itemschattingen en empirische p-waarden per moeilijkheidsgroep. Voor moeilijke items (p ≤ .50) was de gemiddelde afwijking .20, voor items van middel-moeilijkheid (p .50–.79) slechts .065, en voor makkelijke items (p ≥ .80) weer .16. Items aan de uitersten van de schaal worden het minst nauwkeurig geschat.

Ferrara et al. (Cook & Pitoniak, 2025, hoofdstuk 12) verklaren dit vanuit cognitieve psychologie. Panelleden werken onder behoorlijke cognitieve belasting: ze moeten tegelijkertijd de grensleerling in gedachten houden, de iteminhoud beoordelen en hun eigen consistentie bewaken. Dat leidt tot heuristisch denken, waarbij ze moeilijkheden middelen en extremen afvlakken.

Concreet: panelleden vervangen de complexe vraag „kan de grensleerling dit specifieke item oplossen?“ door een eenvoudigere, namelijk „zit dit soort vragen in het programma?“ Dat leidt tot minder nauwkeurige schattingen, juist bij de items aan de uitersten.

Wat volgt hieruit voor de praktijk?

  1. Train expliciet op extreme items. Oefen panelleden in het toekennen van hoge kansen, meer dan .90, aan makkelijke items en lage kansen, minder dan .20, aan moeilijke items. Taube (1997, geciteerd in Brandon, 2004) adviseert: train panelleden actief om extreme schattingen te durven geven als ze die gerechtvaardigd vinden.

  2. Gebruik p-waarden als controlemiddel, niet als leidraad. Empirische p-waarden helpen panelleden inconsistenties te herkennen. Maar als ze hun schattingen simpelweg aanpassen aan die p-waarden, wordt het panel een doorgeefluis. Hambleton (2001, geciteerd in Brandon, 2004) waarschuwt: een te hoge correlatie tussen schattingen en p-waarden is een signaal dat empirische data de inhoudelijke norm overschrijven.

  3. Plan meerdere rondes in. Na bespreking dalen de fouten aantoonbaar. Twee rondes zijn het minimum. Drie rondes geven meer zekerheid, zeker als de variatie na de tweede ronde nog groot is.

7. Eerlijk zijn over de beperkingen

Voor mijn proefschrift (Vaheoja, 2022) vergeleek ik de Angoff-methode met de Cohen-methode op twaalf toetsvormen voor de landelijke kennistoetsen van lerarenopleidingen. Een van de opvallendste bevindingen: de Angoff-methode vertoonde méér variatie in cesuurpunten over verschillende toetsvormen dan de Cohen-methode, zelfs wanneer er overlap was in panelleden tussen opeenvolgende panels.

Dat is een eerlijk inzicht over een methode die ik zelf gebruik en waardeer. Het menselijk oordeel dat de Angoff-methode krachtig maakt, is ook wat haar kwetsbaar maakt. Experts brengen inhoudelijke kennis mee, maar ook inconsistentie en variatie in hoe ze de grensleerling intern construeren.

Dit betekent niet dat Angoff inferieur is. Het betekent dat de methode zo goed is als het proces dat haar omringt. Met een helder beschreven grensleerling, goed voorbereide panelleden, meerdere rondes en gedegen documentatie, levert de methode een cesuur op die je kunt verdedigen. Zonder die condities levert ze meer ruis op dan een statistisch gemiddelde.

8. Vier voorwaarden voor een verdedigbare cesuur

Op basis van Brandon (2004), Ferrara et al. (Cook & Pitoniak, 2025) en mijn eigen onderzoek zijn dit de vier dingen die er echt toe doen.

  1. Beschrijf de grensleerling concreet en gezamenlijk. Niet ‘iemand die de stof redelijk kent’, maar: welke leerdoelen beheerst hij, welke niet, hoe redeneert hij bij moeilijke vragen? Een vage beschrijving leidt tot vage cesuren.

  2. Train op moeilijkheid. Oefen panelleden expliciet in het toekennen van extreme kansen aan makkelijke en moeilijke items. Zonder die training schuiven schattingen systematisch naar het midden.

  3. Voer minimaal twee rondes uit. De eerste ronde is een startpunt. De bespreking en herziening erna zijn waar de betrouwbaarheid wordt opgebouwd.

  4. Documenteer de procedure. Wie waren de panelleden? Hoe was de grensleerling beschreven? Welke items werden besproken? De AERA/APA/NCME Standards (1999, geciteerd in Brandon, 2004) stellen hieraan expliciete eisen. Zonder documentatie is de cesuur niet repliceerbaar en dus niet verdedigbaar.

Dit zijn geen abstracte kwaliteitseisen. Ze zijn direct toepasbaar in de dagelijkse toetspraktijk van een school.

9. Conclusie

Een vaste drempel van 55% is geen cesuurbeleid. Het is het uitstellen van een inhoudelijke keuze.

De Angoff-methode dwingt tot die keuze. Ze vraagt: wie is de leerling die net voldoende is? En wat verwacht je dat die leerling kan op elk van de vragen in deze toets? Het antwoord levert een cesuur op die je kunt uitleggen, vergelijken en verdedigen.

Maar de methode werkt niet vanzelf. Panelleden denken heuristisch, maken fouten bij extreme items en brengen onbewuste bias'es mee. Ferrara et al. (Cook & Pitoniak, 2025) laten zien dat cesuurbepaling een menselijk proces is, met alle beperkingen van dien. Bespreking, training en meerdere rondes zijn geen luxe, het zijn de correctiemechanismen die de methode robuust maken.

Cesuurbepaling is complexer dan de meeste scholen denken. Dat is geen verwijt, het is een oproep tot meer aandacht, meer expertise en meer structuur in het toetsbeleid.

Een cesuur die je niet kunt uitleggen, is geen norm. Het is een gok.

Reflectievraag: als je de cesuur van je laatste summatieve toets moest verdedigen tegenover een leerling, een ouder en de inspectie — wat zou je zeggen?

Mometrie begeleidt scholen bij inhoudelijk verankerde cesuurbepaling, van Angoff-panels tot documentatie en validatie. Neem contact op via www.mometrie.nl

——————————————————————————————

Referenties

American Educational Research Association, American Psychological Association, & National Council on Measurement in Education. (1999). Standards for educational and psychological testing. AERA.

Angoff, W. H. (1971). Scales, norms, and equivalent scores. In R. L. Thorndike (Ed.), Educational measurement (2nd ed., pp. 508–600). American Council on Education.

Brandon, P. R. (2004). Conclusions about frequently studied modified Angoff standard-setting topics. Applied Measurement in Education, 17(1), 59–88.

Cook, L. L., & Pitoniak, M. J. (Eds.). (2025). Educational measurement (5th ed.). Oxford University Press.

Ferrara, S., Davis-Becker, S., Kannan, P., & Reynolds, K. (2025). Standard setting: A cognitive and social model. In L. L. Cook & M. J. Pitoniak (Eds.), Educational measurement (5th ed., hoofdstuk 12). Oxford University Press.

Huff, K., Nichols, P., & Schneider, M. C. (2025). Designing and developing educational assessments. In L. L. Cook & M. J. Pitoniak (Eds.), Educational measurement (5th ed., hoofdstuk 7). Oxford University Press.

Vaheoja, M. (2022). Setting standards in small samples [Proefschrift]. Universiteit Twente.

——————————————————————————————

Monika Vaheoja, PhD — Mometrie | Toetsconstructie & cesuurbepaling | www.mometrie.nl

Ik help organisaties begrijpen wat hun vragenlijsten, metingen en data werkelijk betekenen door statistische analyse en interactieve visualisaties. | Freelance Data Analyst & R Trainer | Shiny • R • SQL • Psychometrie

Monika Vaheoja

Ik help organisaties begrijpen wat hun vragenlijsten, metingen en data werkelijk betekenen door statistische analyse en interactieve visualisaties. | Freelance Data Analyst & R Trainer | Shiny • R • SQL • Psychometrie

LinkedIn logo icon
Back to Blog