gms | German Medical Science

Jahrestagung der Gesellschaft für Medizinische Ausbildung (GMA)

02.10. - 05.10.2008, Greifswald

Die Zuverlässigkeit der Entscheidung „bestanden/nicht bestanden“ („pass/fail-reliability“) und der Vergabe von Noten

Vortrag/lecture

  • corresponding author Andreas Möltner - Ruprecht-Karls-Universität Heidelberg, Kompetenzzentrum für Prüfungen in der Medizin Baden-Württemberg, Heidelberg, Deutschland
  • author Dieter Schellberg - Universitätsklinikum Heidelberg, Psychosomatische und Allgemeine Klinische Medizin, Heidelberg, Deutschland
  • author Jobst-Hendrik Schultz - Ruprecht-Karls-Universität Heidelberg, Kompetenzzentrum für Prüfungen in der Medizin Baden-Württemberg. Heidelberg, Deutschland
  • author Jana Jünger - Ruprecht-Karls-Universität Heidelberg, Kompetenzzentrum für Prüfungen in der Medizin Baden-Württemberg, Heidelberg, Deutschland

Jahrestagung der Gesellschaft für Medizinische Ausbildung - GMA. Greifswald, 02.-05.10.2008. Düsseldorf: German Medical Science GMS Publishing House; 2008. Doc08gma17

Die elektronische Version dieses Artikels ist vollständig und ist verfügbar unter: http://www.egms.de/de/meetings/gma2008/08gma017.shtml

Eingereicht: 16. Mai 2008
Überarbeitet: 6. August 2008
Angenommen: 6. August 2008
Veröffentlicht: 19. August 2008

© 2008 Möltner et al.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielfältigt, verbreitet und öffentlich zugänglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Gliederung

Text

„The standard error of measurement, both overall and conditional (if relevant) should be reported both in raw or original scale units and in units of each derived score recommended for use in test interpretation“ (Standards for educational and psychological testing, Standard 2.2).

Unter der Reliabilität einer Klausur oder einem OSCE wird üblicherweise die Messzuverlässigkeit der erreichten Punktzahlen verstanden. Dies ist ein globaler Kennwert, der jedoch wenig über die Zuverlässigkeit an bestimmten Grenzpunkten aussagt, etwa an den Notengrenzen und dabei insbesondere an der Bestehensgrenze: Würde ein Studierender, der in einer Prüfung bestanden hat oder durchgefallen ist, in einer anderen, äquivalenten Prüfung ebenfalls bestehen bzw. durchfallen? Wie zuverlässig ist die Entscheidung „bestanden/nicht bestanden“? Neben der erheblichen persönlichen Relevanz, die diese Entscheidung für den Studierenden besitzt, hat sie auch – sowohl für den Kandidaten wie auch für die Universität – eine hohe ökonomische Bedeutung.

Empirische Ergebnisse belegen, dass die Messgenauigkeit einer Prüfung an der Skalenmitte geringer ist als an den Rändern, mithin in der Nähe der Bestehensgrenze von z. B. 60% meist deutlich ungenauer „gemessen“ wird. Eine hohe Gesamtreliabilität garantiert somit nicht, dass eine Entscheidung über „bestanden/nicht bestanden“ hinreichend zuverlässig gefällt wird. Ähnliches gilt für die Leistungsbewertung durch die Noten, die als Bestandteil des Abschlusszeugnisses die Leistung des Studierenden dokumentieren sollen. Auch für diese wird eine Abschätzung ihrer Zuverlässigkeit benötigt, sind sie doch mit entscheidend für die weitere berufliche Laufbahn eines Arztes.

Am Beispiel verschiedener Prüfungen an der medizinischen Fakultät Heidelberg werden unterschiedliche Verfahren zur Schätzung der Messgenauigkeit/Reliabilität an der Bestehensgrenze vorgestellt, die Konsequenzen auf die Zuverlässigkeit der Entscheidung über „bestanden/nicht bestanden“ erläutert sowie die Verallgemeinerung zur Bestimmung der Reliabilität der Notenvergabe dargestellt.