gms | German Medical Science

Symposium Methodik der Medizinischen Ausbildungsforschung

25. - 26.05.2013, Berlin

Die Güte von Multiple-Choice-Prüfungen – Eine Studie zur Reliabilität und Bestehen

Vortrag

Search Medline for

  • corresponding author Katrin Schüttpelz-Brauns - Medizinische Fakultät Mannheim der Universität Heidelberg, AG Lehrforschung, GB Studium und Lehrentwicklung, Mannheim, Deutschland

Jahressymposium des GMA Ausschuss für Methodik der Ausbildungsforschung. Berlin, 25.-26.05.2013. Düsseldorf: German Medical Science GMS Publishing House; 2013. DocID16

doi: 10.3205/13maf16, urn:nbn:de:0183-13maf162

Published: April 23, 2013

© 2013 Schüttpelz-Brauns.
This is an Open Access article distributed under the terms of the Creative Commons Attribution License (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.en). You are free: to Share – to copy, distribute and transmit the work, provided the original author and source are credited.


Projektvorstellung

Einführung: Prüfungen müssen reliabel sein. Das Ausmaß der Reliabilität zeigt an, wie viel der wahren Fähigkeit durch die Prüfung aufgeklärt wird. So ist die aufgeklärte Varianz der Fähigkeit 64% bei einer Reliabilität von 0,8. Der Rest sind zufällige Einflüsse z.B. durch Fragen, die nicht nach Leitlinien formuliert sind. Je nachdem, wie groß der Anteil der geschätzten wahren Fähigkeit am gesamten Prüfungsergebnis ist, können mehr oder weniger Teilnehmer fälschlicherweise eine Prüfung bestehen. Downing [1] empfiehlt für Prüfungen mit geringen Konsequenzen eine Reliabilität von Cronbach‘s Alpha von 0,7-0,79, bei mittleren Konsequenzen ein Alpha von >= 0,8 und bei Prüfungen, wie Staatsexamina, ein Alpha von >=90. Es ist möglich, dass zufällig Reliabilitäten erreicht werden, welche den Anteil der aufgeklärten Varianz wahrer Fähigkeiten überschätzen. Aber welche „Fähigkeitsvarianz“ kann unter reinem Zufall aufgeklärt werden? Und wie viel Prozent der Prüflinge könnten unter diesen Umständen bei einer 60%-Bestehensgrenze fälschlicherweise bestehen?

Methode: Es wurden 3000 Stichproben mit rein zufälligen Antworten simuliert. Folgende Faktoren wurden abgestuft: dichotome Items mit Ausprägungen 0 für falsche und 1 für korrekte Antworten (N=10, 20, 30, 30, 50), Personen (N=20, 40, 60, 80) und die Wahrscheinlichkeit einer korrekten Antwort (0,2=MCQ mit fünf Antwortalternativen; 0,25=MCQ mit vier Antwortalternativen; 0,5=Richtig-Falsch-Fragen). Pro Kombination wurden 150 Stichproben gezogen. Für jede Stichprobe wurde Cronbachs Alpha und der Anteil von Personen bestimmt, welche den Test aufgrund der 60%-Bestehensgrenze bestehen würden.

Ergebnis: Von den 3000 Stichproben hatten 23% ein Alpha von >=0,6 (N=696); 13% ein Alpha von >=0,70 (N=395); 4% ein Alpha von >=0,8 (N=108) und 0% ein Alpha von >=0,9 (N=0). Ab einer Reliabilität von 0,6 haben M=39% (SD=23%) fälschlicherweise bestanden, ab einer Reliabilität von 0,7: M=42% (SD=22%), ab einer Reliabilität von 0,8: M=47% (SD=20%). In dem Vortrag werden die Ergebnisse auch aufgeschlüsselt nach den Faktorabstufungen.

Diskussion: Obwohl die simulierten Stichproben ausschließlich zufällige Antworten beinhalten, konnten Reliabilitäten gemessen werden, welche z.T. den Standardanforderungen einer Prüfung entsprechen. Das deutet darauf hin, dass die Standards zu niedrig sind. Der hohe Anteil von bestandenen Prüfungen in diesen Simulationen muss weitere Analysen nach sich ziehen.


Interessenkonflikt

Die Autorin erklärt, dass sie keinen Interessenkonflikt im Zusammenhang mit diesem Artikel hat.


Literatur

1.
Downing SM. Reliability: on the reproducibility of assessment data. Med Educ. 2004;38(9):1006–1012. DOI: 10.1111/j.1365-2929.2004.01932.x External link