gms | German Medical Science

Jahrestagung der Gesellschaft für Medizinische Ausbildung (GMA)

26.09. - 28.09.2013, Graz, Österreich

Zuverlässigkeit der Entscheidung „bestanden“/„durchgefallen“ bei Leistungsnachweisen mit mehreren Einzelprüfungen

Vortrag

Suche in Medline nach

  • corresponding author Andreas Möltner - Ruprecht-Karls-Universität Heidelberg, Heidelberg, Deutschland
  • Jobst-Hendrik Schultz - Ruprecht-Karls-Universität Heidelberg, Heidelberg, Deutschland
  • Jana Jünger - Ruprecht-Karls-Universität Heidelberg, Heidelberg, Deutschland

Jahrestagung der Gesellschaft für Medizinische Ausbildung (GMA). Graz, 26.-28.09.2013. Düsseldorf: German Medical Science GMS Publishing House; 2013. DocV16_03

doi: 10.3205/13gma243, urn:nbn:de:0183-13gma2430

Veröffentlicht: 20. August 2013

© 2013 Möltner et al.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielfältigt, verbreitet und öffentlich zugänglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Gliederung

Text

Hintergrund: In der Praxis bestehen Leistungsnachweise medizinischer Fächer oftmals aus mehreren Teilprüfungen (z.B. einer Klausur, in der das theoretische Wissen abgefragt wird und einem OSCE zur Prüfung praktischer Fertigkeiten), die jede für sich bestanden werden muss.

Die Gesamtnote wird üblicherweise durch (gewichtete) Mittelung der Ergebnisse der Teilprüfungen bestimmt, schlechte Leistungen in einer Prüfung können durch gute Leistungen in der anderen kompensiert werden. Die Reliabilität des Gesamtergebnisses kann aus denen der Einzelprüfungen ermittelt werden und ist bei den i.A. positiv korrelierten Einzelleistungen höher die jeder Einzelprüfung.

Die Entscheidung „bestanden“/„durchgefallen“ ist hingegen nicht kompensatorisch sondern konjunktiv, fällt man in einer Teilprüfung durch, wird der Leistungsnachweis nicht vergeben. Die Messzuverlässigkeit dieser Entscheidung („pass-fail-reliability“) ist aber wesentlich von der niedrigsten Reliabilität aller Teilprüfungen determiniert [1].

Da gerade diese Entscheidung für den einzelnen Studierenden von erheblicher Tragweite ist, da sie den Fortgang des Studiums bis hin zu einem eventuellen Studienabbruch bestimmt, ist es erforderlich, deren Reliabilität abzuschätzen und gegebenenfalls Maßnahmen zu ergreifen, die eine hinreichende Messzuverlässigkeit gewährleisten [2].

Methode: Anhand theoretischer Analysen und der empirischer Ergebnisse des Leistungsnachweises Innere Medizin/Allgemeinmedizin/Klinische Chemie an der medizinischen Fakultät Heidelberg, zu dessen Erwerb zwei Klausuren sowie ein OSCE unabhängig voneinander bestanden werden müssen, wird die Zuverlässigkeit der Entscheidung „bestanden“/„durchgefallen“ mit dem von Downing und Mislevy vorgeschlagenen Verfahren analysiert [3]. Weiterhin werden die Konsequenzen aus der alternativen Verwendung einer kompensatorischen Kombination der Einzelergebnisse dargestellt.

Ergebnisse: Auch wenn die Zielsetzung für den Erwerb des Leistungsnachweises explizit darin besteht, Mindestkenntnisse in verschiedenen Teilgebieten nachzuweisen, kann – auf Grund der höheren Messungenauigkeit der der Zielsetzung prima facie eher entsprechenden konjunktiven Entscheidungsregel – eine kompensatorische Kombination der Einzelergebnisse einer konjunktiven hinsichtlich Validität und Reliabilität überlegen sein. Für eine konjunktive Kombination sprechen i.A. weniger die Testgütekriterien als der lernsteuernde Effekt, der den Studierenden verbietet, Teilgebiete „schleifen“ zu lassen um die Defizite mit anderen Leistungen ausgleichen zu können.

Schlussfolgerung: Die konjunktive Kombination von Ergebnissen verschiedener Teilprüfungen zum Bestehen, d.h. zum Bestehen ist das Bestehen jeder einzelnen Teilprüfung erforderlich, erfordert eine genaue Analyse der Reliabilität der Gesamtentscheidung „bestanden/nicht bestanden“, um den Qualitätsansprüchen an eine aussagekräftigen und für den Studierenden relevanten Prüfung zu genügen.


Literatur

1.
Haladyna TM, Hess RK. Conjunctive and compensatory standard setting models in high-stakes testing. Educ Assess. 1998;6(2):129–153. DOI: 10.1207/S15326977EA0602_03 Externer Link
2.
Schuwirth L, Colliver J, Gruppen L, Kreiter C, Mennin S, Onishi H, Pangoro L, Ringsted C, Swanson D, van der Vleuten, Wagner-Menghin M. Research in assessment: Consensus statement and recommendations from the Ottawa 2010 Conference. Med Teach. 2011;33(3):224–233. DOI: 10.3109/0142159X.2011.551558 Externer Link
3.
Douglas KM, Mislevy RJ. Estimating classification accuracy for complex decision rules based on multiple scores. J Educ Behav Statis. 2010;35(3):280–306. DOI: 10.3102/1076998609346969 Externer Link