gms | German Medical Science

Jahrestagung der Gesellschaft für Medizinische Ausbildung (GMA)

26.09. - 28.09.2013, Graz, Österreich

Im Nebel der Präzision: die Bestimmung von GrenzfallkandidatInnen oder wie viel Reliabilität ist genug?

Vortrag

Search Medline for

  • corresponding author Michael Schmidts - Universität Bern, Institut für medizinische Lehre, Bern, Schweiz
  • Daniel Stricker - Universität Bern, Institut für medizinische Lehre, Bern, Schweiz

Jahrestagung der Gesellschaft für Medizinische Ausbildung (GMA). Graz, 26.-28.09.2013. Düsseldorf: German Medical Science GMS Publishing House; 2013. DocV17_02

doi: 10.3205/13gma248, urn:nbn:de:0183-13gma2486

Published: August 20, 2013

© 2013 Schmidts et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution License (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.en). You are free: to Share – to copy, distribute and transmit the work, provided the original author and source are credited.


Outline

Text

Hintergrund: Bei der Durchführung von summativen Prüfungen wird üblicherweise eine Mindestreliabilität von 0,8 gefordert. Bei praktischen Prüfungen wie OSCEs werden manchmal 0,7 akzeptiert [2]. Doch was kann man sich eigentlich unter der Präzision einer Messung mit einer Reliabilität von 0,7 oder 0,8 vorstellen?

Methode: Mittels verschiedener statistischer Methoden wie dem Standardmessfehler oder der Generalisierbarkeitstheorie lässt sich die Reliabilität in ein Konfidenzintervall um eine festgestellte Kandidatenleistung übersetzen [1], [3], [4]. Hat ein Kandidat beispielsweise bei einer Prüfung 57 Punkte erreicht, schwankt seine wahre Leistung aufgrund der Messungenauigkeit der Prüfung um diesen Wert (z.B. zwischen 50 und 64 Punkte). Im Bereich der Bestehensgrenze ist die Messgenauigkeit aber besonders wichtig. Läge die Bestehensgrenze in unserem Beispiel bei 60 Punkten, wäre der Kandidat mit 57 Punkten zwar pro forma durchgefallen, allerdings könnte er aufgrund der Schwankungsbreite um seine gemessene Leistung in Wahrheit auch knapp bestanden haben. Überträgt man diese Erkenntnisse auf alle KandidatInnen einer Prüfung, kann man die Anzahl der Grenzfallkandidaten bestimmen, also all jene Kandidatinnen, die mit Ihrem Prüfungsergebnis so nahe an der Bestehensgrenze liegen, dass ihr jeweiliges Prüfungsresultate falsch positiv oder falsch negativ sein kann.

Ergebnisse: Die Anzahl der GrenzfallkandidatInnen in einer Prüfung ist nicht nur von der Reliabilität abhängig, sondern auch von der Leistung der KandidatInnen, der Varianz, dem Abstand der Bestehensgrenze zum Mittelwert und der Schiefe der Verteilung.

Es wird anhand von Modelldaten und konkreten Prüfungsdaten der Zusammenhang zwischen der Reliabilität und der Anzahl der Grenzfallkandidaten auch für den Nichtstatistiker verständlich dargestellt. Es wird gezeigt, warum selbst eine Reliabilität von 0.8 in besonderen Situationen keine befriedigende Präzision der Messung bieten wird, während in manchen OSCEs die Reliabilität fast ignoriert werden kann.

Schlussfolgerungen: Die Berechnung oder Schätzung der Grenzfallkandidaten anstatt der Reliabilität verbessert auf anschauliche Weise das Verständnis für die Präzision einer Prüfung. Wenn es darum geht, wie viele Stationen ein summativer OSCE benötigt oder wie lange eine MC-Prüfung dauern soll, sind Grenzfallkandidaten ein valideres Entscheidungskriterium als die Reliabilität.


Literatur

1.
Brennan RL. Generalizability Theory. New York: Springer; 2003.
2.
Downing SM. Reliability: on the reproducibility of assessment data. Med Educ. 2004;38(9):1006–1012. DOI: 10.1111/j.1365-2929.2004.01932.x External link
3.
Harvill LM. Standard Error of Measurement. Educ Meas. 1991;Summer:33-41. Zugänglich unter/available from: http://ncme.org/linkservid/6606715E-1320-5CAE-6E9DDC581EE47F88/showMeta/0/ External link
4.
McManus IC. The misinterpretation of the standard error of measurement in medical education: A primer on the problems, pitfalls and peculiarities of the three different standard errors of measurement. Med Teach. 2012;34(7):569-576. DOI: 10.3109/0142159X.2012.670318 External link