Artikel
Wenn Interraterreliabiltät gebraucht wird, aber nicht berechnet werden kann – der Nutzen von Multigroup Differential Item Functioning zur Prüferstandardisierung bei der OSCE-Auswertung
Suche in Medline nach
Autoren
Veröffentlicht: | 24. November 2017 |
---|
Gliederung
Text
Fragestellung/Zielsetzung: Bei Objective Structured Clinical Examinations (OSCE) prüfen zahlreiche BewerterInnen an verschiedenen Stationen, die sich über multiple Sitzungen erstrecken. Die Testgüte ist unmittelbar durch die Interraterreliabilität bedingt. In der Praxis kann aus ökonomischen Gründen nicht jeder Studierende von zwei Prüfern bewertet werden. Die Berechnung von Multigroup Differential Item Functioning (MDIF) [1] ermöglicht systematische Unterschiede zwischen mehreren PrüferInnen ohne Doppel-/Mehrfachbewertungen zu identifizieren. Ziel war es, MDIF als Mittel zur Qualitätssicherung von OSCE zu verwenden.
Material/Methoden: Im WS 2016/2017 wurden an der Medizinischen Fakultät Würzburg insgesamt 155 Studierende im Rahmen der OSCE ärztlicher Basisfertigkeiten geprüft. Diese bestand aus 8 Stationen, an denen von jeweils 3-6 PrüferInnen an zwei aufeinanderfolgenden Tagen eingesetzt waren. Die PrüferInnen hatten zuvor eine Schulung durchlaufen, in der die Prüferrolle und inhaltliche Aspekte der Bewertung der Checklisten-Items standardisiert worden waren.
Ergebnis: Unter Verwendung der logistischen Regression konnten Items identifiziert werden, die signifikant (p<05) unterschiedlich bewertet wurden. Für einzelne Checklisten-Items wurden Varianzanteile von bis zu 45.6% identifiziert, die auf die Prüfer zurückgeführt werden konnten [2], [3]. Die Lösungswahrscheinlichkeit war somit nicht unmittelbar von der Fähigkeit der Studierenden abhängig, sondern signifikant durch das Prüferverhalten beeinflusst. Betroffene Items konnten eliminiert oder Korrekturberechnungen vorgenommen werden.
Ausblick: Die punktuell hohe Prüfervarianz muss bei der OSCE-Auswertung in Betracht gezogen werden. Die Auswertungsergebnisse werden sowohl Eingang in Prüferschulungen als auch zur Verbesserung der Itemkonzeption finden. MDIF eignet sich hervorragend zur Qualitätssicherung und Evaluation der PrüferInnenstandardisierung.
Literatur
- 1.
- Magis D, Beland S, Raiche G. difR: Collection of methods to detect dichotomous differential item functioning (DIF). R package version, 4. 2015.
- 2.
- Zumbo BD, Thomas DR. A measure of effect size for a model-based approach for studying DIF. Prince George, Canada: University of Northern British Columbia, Edgeworth Laboratory for Quantitative Behavioral Science; 1997.
- 3.
- Jodoin MG, Gierl MJ. Evaluating type I error and power rates using an effect size measure with the logistic regression procedure for DIF detection. Appl Measure Educ. 2001;14(4):329-349. DOI: 10.1207/S15324818AME1404_2