Artikel
Die Zuverlässigkeit der Entscheidung „bestanden/nicht bestanden“ („pass/fail-reliability“) und der Vergabe von Noten
Suche in Medline nach
Autoren
Eingereicht: | 16. Mai 2008 |
---|---|
Überarbeitet: | 6. August 2008 |
Angenommen: | 6. August 2008 |
Veröffentlicht: | 19. August 2008 |
Gliederung
Text
„The standard error of measurement, both overall and conditional (if relevant) should be reported both in raw or original scale units and in units of each derived score recommended for use in test interpretation“ (Standards for educational and psychological testing, Standard 2.2).
Unter der Reliabilität einer Klausur oder einem OSCE wird üblicherweise die Messzuverlässigkeit der erreichten Punktzahlen verstanden. Dies ist ein globaler Kennwert, der jedoch wenig über die Zuverlässigkeit an bestimmten Grenzpunkten aussagt, etwa an den Notengrenzen und dabei insbesondere an der Bestehensgrenze: Würde ein Studierender, der in einer Prüfung bestanden hat oder durchgefallen ist, in einer anderen, äquivalenten Prüfung ebenfalls bestehen bzw. durchfallen? Wie zuverlässig ist die Entscheidung „bestanden/nicht bestanden“? Neben der erheblichen persönlichen Relevanz, die diese Entscheidung für den Studierenden besitzt, hat sie auch – sowohl für den Kandidaten wie auch für die Universität – eine hohe ökonomische Bedeutung.
Empirische Ergebnisse belegen, dass die Messgenauigkeit einer Prüfung an der Skalenmitte geringer ist als an den Rändern, mithin in der Nähe der Bestehensgrenze von z. B. 60% meist deutlich ungenauer „gemessen“ wird. Eine hohe Gesamtreliabilität garantiert somit nicht, dass eine Entscheidung über „bestanden/nicht bestanden“ hinreichend zuverlässig gefällt wird. Ähnliches gilt für die Leistungsbewertung durch die Noten, die als Bestandteil des Abschlusszeugnisses die Leistung des Studierenden dokumentieren sollen. Auch für diese wird eine Abschätzung ihrer Zuverlässigkeit benötigt, sind sie doch mit entscheidend für die weitere berufliche Laufbahn eines Arztes.
Am Beispiel verschiedener Prüfungen an der medizinischen Fakultät Heidelberg werden unterschiedliche Verfahren zur Schätzung der Messgenauigkeit/Reliabilität an der Bestehensgrenze vorgestellt, die Konsequenzen auf die Zuverlässigkeit der Entscheidung über „bestanden/nicht bestanden“ erläutert sowie die Verallgemeinerung zur Bestimmung der Reliabilität der Notenvergabe dargestellt.