gms | German Medical Science

GMS Journal for Medical Education

Gesellschaft für Medizinische Ausbildung (GMA)

ISSN 2366-5017

Umgang mit fehlerhaften Aufgaben bei Prüfungen: Die Übertragung des Nachteilsausgleichs bei den deutschen Staatsexamina auf Aufgaben mit Teilpunkten

Artikel Prüfungen

Suche in Medline nach

  • corresponding author Andreas Möltner - Medizinische Fakultät Heidelberg, Kompetenzzentrum für Prüfungen in der Medizin, Heidelberg, Deutschland

GMS J Med Educ 2018;35(4):Doc49

doi: 10.3205/zma001195, urn:nbn:de:0183-zma0011959

Dieses ist die deutsche Version des Artikels.
Die englische Version finden Sie unter: http://www.egms.de/en/journals/zma/2018-35/zma001195.shtml

Eingereicht: 10. März 2018
Überarbeitet: 24. Juli 2018
Angenommen: 25. September 2018
Veröffentlicht: 15. November 2018

© 2018 Möltner.
Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung). Lizenz-Angaben siehe http://creativecommons.org/licenses/by/4.0/.


Zusammenfassung

Sind in den schriftlichen Teilen der deutschen Staatsexamina Aufgaben enthalten, die inhaltlich oder formal fehlerhaft sind, werden diese nicht generell ausgeschlossen, sondern bei der Benotung eines einzelnen Prüfungsteilnehmers dennoch berücksichtigt, wenn dies für diesen Teilnehmer vorteilhaft ist. Dieses Verfahren von Elimination und Nachteilsausgleich bei fehlerhaften Fragen, wie es vom Institut für medizinische und pharmazeutische Prüfungsfragen (IMPP) angewandt wird, kann dazu führen, dass bei einer Prüfung individuell unterschiedliche Aufgaben in der Bewertung berücksichtigt werden sowie individuell unterschiedliche Bestehens- und Notengrenzen gelten.

Dieses Vorgehen wird auf Prüfungen übertragen, die Aufgaben enthalten, bei denen Teilpunkte vergeben werden. Es lässt sich ein einfaches numerisches Kriterium angeben, mit dem entschieden werden kann, ob eine fehlerhafte Aufgabe zum Erreichen der Bestehens- oder einer Notengrenze bei einer Prüfungsteilnehmerin oder einem Prüfungsteilnehmer für die Bewertung zu berücksichtigen ist oder nicht. In dieses Kriterium geht – wie bei den Staatsexamina – die individuell erreichte Punktzahl bei der fehlerhaften Aufgabe und bei Anwendung der relativen Bestehensgrenze („Gleitklausel“) die mittlere erreichte Punktzahl aller Teilnehmer bei der Aufgabe ein. Darüber hinaus beinhaltet es aber auch noch die Notengrenzen.

Schlüsselwörter: Prüfung, IMPP


1. Hintergrund

1.1. Fehlerhafte Aufgaben in Prüfungen

Es ist nahezu unvermeidlich, dass trotz sorgfältiger Begutachtung von Prüfungsaufgaben vor der Prüfung, sich nach der Prüfung herausstellt, dass einzelne Aufgaben inhaltlich oder formal fehlerhaft sind, wie z. B., dass in einer Multiple-Choice-Aufgabe vom Typ A („Eins aus Fünf“) tatsächlich zwei Antwortoptionen als zutreffend anerkannt werden müssen. Eine solche Aufgabe gilt als „fehlerhaft“, da sie entgegen der Konvention nicht nur eine einzige korrekte Antwort zulässt.

Prüfungsverantwortliche der Fakultäten stehen damit vor dem Problem, ein juristisch haltbares Vorgehen zum Umgang mit fehlerhaften Aufgaben entwickeln zu müssen. Studien- oder Prüfungsordnungen enthalten hierfür häufig keine ausreichenden Vorgaben, weshalb die als rechtssicher anzusehenden Umgangsweise des Instituts für medizinische und pharmazeutische Prüfungsfragen (IMPP) bei den deutschen Staatsexamina mancherorts von den Fakultäten für ihre eigenen Prüfungen übernommen wird oder werden soll.

Dies ist möglich, sofern die Prüfung nur aus Aufgaben besteht, bei denen keine Teilpunkte vergeben werden, d. h. bei denen eine Aufgabe bei der Bewertung nur als entweder vom Prüfungsteilnehmer zutreffend beantwortet oder nicht zutreffend beantwortet klassifiziert werden kann.

1.2. Das Verfahren von Elimination und Nachteilsaugleich bei fehlerhaften Aufgaben der schriftlichen Teile der medizinischen Staatsexamina

Im diesem Abschnitt soll eine kurze Beschreibung des Bewertungsmodus bei den schriftlichen Prüfungen im deutschen Staatsexamen erfolgen, die im Wesentlichen eine Kürzung und Paraphrasierung der Erläuterungen des IMPP [https://www.impp.de/internet/de/impp-aktuell.html], [1] darstellt.

Für die Entscheidung, ob eine Prüfung bestanden ist und, falls ja, wie diese Prüfungsleistung zu benoten ist, gibt die Ärztliche Approbationsordnung (ÄAppO, § 14 Schriftliche Prüfung) Folgendes vor [https://www.gesetze-im-internet.de/_appro_2002/]:

(6) Die schriftliche Prüfung ist bestanden, wenn der Prüfling mindestens 60 Prozent der gestellten Prüfungsfragen zutreffend beantwortet hat oder wenn die Zahl der vom Prüfling zutreffend beantworteten Fragen um nicht mehr als 22 Prozent die durchschnittlichen Prüfungsleistungen der Prüflinge unterschreitet, die nach der Mindeststudienzeit von zwei Jahren beim Ersten Abschnitt der Ärztlichen Prüfung und fünf Jahren beim Zweiten Abschnitt der Ärztlichen Prüfung erstmals an der Prüfung teilgenommen haben.
(7) Die Leistungen in der schriftlichen Prüfung sind wie folgt zu bewerten:
Hat der Prüfling die für das Bestehen der Prüfung nach Absatz 6 erforderliche Mindestzahl zutreffend beantworteter Prüfungsfragen erreicht, so lautet die Note
– „sehr gut“, wenn er mindestens 75 Prozent,
– „gut“, wenn er mindestens 50, aber weniger als 75 Prozent,
– „befriedigend“, wenn er mindestens 25, aber weniger als 50 Prozent,
– „ausreichend“, wenn er keine oder weniger als 25 Prozent
der darüber hinaus gestellten Prüfungsfragen zutreffend beantwortet hat.

Die durch das 60%-Kriterium definierte Grenze sei als „60%-Grenze“ bezeichnet. Das zweite Kriterium („… 22 Prozent …“) dient dazu, bei besonders schlecht ausgefallenen Prüfungen die Bestehensgrenze abzusenken. Für diese Grenze wird meist die Bezeichnung „Gleitklauselgrenze“ benutzt. Sie ist eine normorientierte Grenze und hängt von der mittleren erreichten Punktzahl einer Untergruppe aller Prüfungsteilnehmer, der „Referenzgruppe“ ab. Als Referenzgruppe werden dabei die Studierenden bezeichnet, die nach (genau) zwei Jahren oder (genau) fünf Jahren Studienzeit zum ersten Mal an der Prüfung zum Ersten bzw. Zweiten Abschnitt der Ärztlichen Prüfung teilnehmen. Zur Anwendung kommt demzufolge die niedrigere der 60%- und der Gleitklauselgrenze.

Nach der Prüfung werden alle Aufgaben noch einmal hinsichtlich ihrer Korrektheit und Zulässigkeit auf Grund eventueller Einsprüche oder statistischen Auffälligkeiten bei der Beantwortung überprüft. Dabei kann sich herausstellen, dass ein Aufgabe mit den vorgegeben Antwortmöglichkeiten (i) nicht zutreffend zu beantworten ist, sie kann auch (ii) missverständlich formuliert sein und/oder mehr als eine zutreffende Antwortoption enthalten. Diese Aufgaben werden als „fehlerhaft“ bezeichnet. Die Aufgaben der Gruppe (ii) können demnach – obwohl inhaltlich oder formal fehlerhaft – auch „zutreffend“ beantwortet werden.

Die fehlerhaften Aufgaben werden „aus der Wertung genommen“ („eliminiert“); sie gelten nur für die Teilnehmer als gestellt, die diese vertretbar zutreffend beantwortet haben (s. hierzu das Urteil des Bundeverwaltungsgerichts vom 17.05.1995 [https://www.jurion.de/urteile/bverwg/1995-05-17/bverwg-6-c-8_94/] und die eingehende Darstellung zu Elimination und Nachteilsausgleich [https://www.impp.de/internet/de/impp-aktuell.html, [1]).

Mit anderen Worten: Während völlig unbeantwortbare Fragen tatsächlich vollständig aus der Bewertung ausgeschlossen werden (Fragengruppe i), werden fehlerhafte Aufgaben, die zutreffend beantwortbar sind (Fragengruppe ii) nur bei den Prüfungsteilnehmern berücksichtigt, die sie auch zutreffend beantwortet haben.

Beispiel 1: Wurde z. B. von den 320 Aufgaben im Staatsexamen bei zwei Fragen festgestellt, dass zwei Antworten vertretbar sind, so werden diese beiden Fragen eliminiert, d. h. die Bestehensgrenze ergibt sich aus 60% von 318 Aufgaben. Rechnerisch ergibt sich ein Wert von 190,8. Zum Bestehen sind demnach 191 Aufgaben („mindestens 60%“) korrekt zu beantworten.

Hat ein Prüfungsteilnehmer 190 der 318 fehlerfreien Aufgaben zutreffend beantwortet und bei keiner der beiden eliminierten Aufgaben eine zutreffende Antwort gegeben, so hat er die Prüfung nicht bestanden.

Hat er bei einer der beiden eliminierten Aufgaben eine vertretbare Antwort gewählt, so wird ihm diese Aufgabe angerechnet. Er hat zwar dann 191 Aufgaben korrekt beantwortet, gleichzeitig erhöht sich die Bestehensgrenze aber auf 60% von 319 Aufgaben und somit einen Wert von 191,4, so dass 192 korrekte Antworten zum Bestehen nötig gewesen wären.

Erst wenn beide eliminierten Aufgaben zutreffend beantwortet werden, hätte der Beispielskandidat bestanden: 192 Aufgaben sind korrekt beantwortet, die Bestehensgrenze ist jetzt bei 60% von 320 Aufgaben bei 192.

Dies führt dazu, dass je nach Beantwortung der eliminierten Aufgaben individuell unterschiedliche Aufgaben in die Bewertung eingehen sowie individuell unterschiedliche Bestehensgrenzen gelten können. Damit wird bei korrekter Beantwortung von fehlerhaften („eliminierten“) Aufgaben eine „Aufweichung“ der in der Approbationsordnung vorgegebenen Mindeststandards (z. B. wenigstens 60% zutreffend zu beantwortende Fragen) vermieden: Waren z. B. bei 10 der 320 Aufgaben mindestens 2 Antwortoptionen zutreffend und hat ein Teilnehmer auch bei all diesen Aufgaben eine korrekte Antwort gegeben, so liegt die 60%-Grenze aus den 310 korrekten Aufgaben bei 186. Da aber für diesen Teilnehmer alle 320 Aufgaben berücksichtigt werden, sind dies lediglich 186 von 320=58,125%, also weniger als 60%. Die Bestehensgrenze wird deshalb für diesen Teilnehmer aus den 320 Aufgaben bestimmt: 60% von 320=192.

1.3. Teilpunktvergabe

An vielen medizinischen Fakultäten werden bei den Prüfungen jedoch auch Aufgaben eingesetzt, die nicht dem klassischen „Eins aus Fünf“'- Format („Typ A“) entsprechen, wie z. B. Mehrfach-Richtig-Falsch-Aufgaben (häufig auch als „Typ X“ oder „Kprim“ bezeichnet) oder „Wähle n Antworten“ aus einer Liste von Optionen aus („PickN“), für die dann bei teilweise richtige Beantwortung Teilpunkte vergeben werden.

In diesem Fall ist eine Übertragung des bei den Staatsexamina verwendeten Verfahrens nicht trivial, so stellt sich etwa bei einer Aufgabe, die als „formal fehlerhaft“ eingestuft wird, bei der aber ein Teilnehmer oder eine Teilnehmerin 0,75 Punkte erhalten würde, die Frage, ob diese Aufgabe bei der Notenberechnung berücksichtigt werden soll oder nicht.

Die Frage ist nicht nur deshalb von Bedeutung, als dass an einer Reihe von Fakultäten Multiple-Choice-Aufgaben, bei denen Teilpunkte vergeben werden, bereits Verwendung finden, sondern auch deshalb, weil Weiterentwicklungen bei kompetenzorientierten Wissenstests (schriftliche oder computerbasierte Prüfungen) auch die Verwendung von weiteren Aufgabentypen erforderlich machen können, bei denen auch Teilwissen adäquat in der Bewertung berücksichtigt werden soll. Zur Weiterentwicklung von Prüfungen sind die Fakultäten im Masterplan 2020 [2] ja auch explizit aufgefordert. Andererseits benötigen die Fakultäten dabei auch eine gewisse Rechtssicherheit, weshalb von ihnen bei ihren Prüfungen oft ein Vorgehen präferiert würde, welches analog zu dem der Staatsexamina aufgebaut ist.

Bei den Staatsexamina selbst ist die Verwendung von Aufgaben mit Teilpunkten bislang anscheinend nicht vorgesehen, so findet sich in einem Kommentar eines Entwurfs zur Verordnung zur Neuregelung der zahnärztlichen Ausbildung ([3], S. 165f) einerseits, dass diese „neben dem Antwort-Wahl-Verfahren künftig auch innovative und rechnergestützte Frage- und Antwortformate zu[ließe]“, andererseits sei „nicht vorgesehen [...], dass eine Frage halbrichtig beantwortet werden kann“.

1.4. Ziel und Übersicht

Ziel dieser Arbeit ist, das in den Staatsexamina angewandte Vorgehen von Elimination und Nachteilsausgleich auf Prüfungen zu übertragen, die Aufgaben enthalten, bei denen Teillösungen mit Teilpunkten honoriert werden.

Dabei seien Prüfungen betrachtet, die aus Aufgaben bestehen, bei denen nur nicht-negative Punktwerte erreicht werden können und das Prüfungsergebnis sich additiv aus der Summe der bei den einzelnen Aufgaben erreichten Punktwerte zusammensetzt. Es wird nicht vorausgesetzt, dass alle Aufgaben gleich gewichtet sind; die maximal erreichbaren Punktzahlen bei den Aufgaben können also unterschiedlich sein.

Im Abschnitt 2 wird zunächst die Bestimmung von Bestehens- und Notengrenzen bei den Staatsexamina formalisiert und hieraus eine Regelung formuliert, die auf Prüfungen übertragen werden kann, die Aufgaben mit Teilpunkten enthalten. Ein ergänzender Unterabschnitt thematisiert die Anwendung von Rundungen bei der Festlegung von Bestehens- und Notengrenzen.

In Abschnitt 3 erfolgt eine Darstellung, welche – in der Terminologie des IMPP – „eliminierten“ Aufgaben bei Anwendung der hier vorgeschlagenen Verfahren für die individuellen Prüfungsteilnehmer zu berücksichtigen sind. Die folgenden Abschnitte enthalten eine Reihe von „Formeln“, die für eine exakte Darstellung erforderlich sind. Die mit mathematischen Notationen weniger vertrauten Leser mögen sich dadurch nicht abschrecken lassen, es wurde mit einer Reihe von gerechneten Beispielen versucht, diese nachvollziehbar zu machen.


2. Bestehens- und Notengrenzen

2.1. Staatsexamen

Zur Formalisierung der Vorgaben der ÄAppO (in § 14 Schriftliche Prüfung) [https://www.gesetze-im-internet.de/_appro_2002/] seien die Bezeichnungen BS für die rechnerische Bestehensgrenze nach der 60%-Regel und BG für die rechnerische Bestehensgrenze nach der Gleitklausel (Mittel der durchschnittlichen Prüfungsleistungen der Referenzgruppe – 22%) verwendet. M steht für die Anzahl der Aufgaben und XR für das Mittel der von der Referenzgruppe dabei erreichten Prüfungsleistungen (siehe Tabelle am Ende des Artikels). Mit diesen Bezeichnungen gilt (siehe auch die detaillierte Beschreibung in [https://www.impp.de/internet/de/impp-aktuell.html], [1])

BS=0,60 x M
BG=0,78 x XR

Man beachte dabei, dass die so definierten rechnerischen Bestehensgrenzen nicht notwendigerweise ganzzahlig sind (in der Approbationsordnung wird der Terminus „Bestehensgrenze“ nicht verwendet). Wie in [https://www.impp.de/internet/de/impp-aktuell.html] ausgeführt, ist die faktische Bestehensgrenze die kleinste ganze Zahl, die größer oder gleich der rechnerischen Grenze ist. Bezeichnet ceil(z) die Aufrundungsfunktion, so ist die faktische Bestehensgrenze ceil(B) (für B=BS oder BG). Die rechnerischen Notengrenzen ergeben sich dann zu

(1) Ng=ceil(B)+g x (M–ceil(B))

wobei die Grenze zwischen „nicht bestanden“ und „ausreichend“ für g=0 gegeben ist (Bestehensgrenze), die weiteren Grenzen für „befriedigend“, „gut“ und „sehr gut“ erhält man für g=0,25, 0.50 bzw. 0.75. Zu beachten ist, dass diese Grenzen jeweils erreicht oder überschritten werden müssen, eine auch nur minimale Unterschreitung führt zur jeweils schlechteren Note. Die Notengrenzen werden sowohl für BS wie auch BG bestimmt, maßgeblich für den Studierenden ist die jeweils Niedrigere der beiden Grenzen.

2.2. Bestehens- und Notengrenzen bei Aufgaben mit Teilpunkten

Bei Verwendung von Teilpunkten ist eine Definition von Bestehens- und Notengrenzen, die allein auf der Zahl der „zutreffend beantworteten Prüfungsfragen“ fußt, nicht anwendbar. Es sollte deshalb besser von erreichten „Punkten“ ausgegangen werden, diese Formulierung erlaubt zum einen die Verwendung von Teilpunkten wie auch eine u. U. ungleiche Gewichtung von Aufgaben.

Absolute und relative Bestehensgrenzen („Gleitklausel“) sind in den meisten Studien- oder Prüfungsordnungen vorgegeben. Bezeichnet M die maximal zu erreichende Punktzahl (man beachte, dass bei Prüfungen, wie etwa den Staatsexamina, in denen je Aufgabe genau ein Punkt erreichbar ist, M mit der Zahl der Aufgaben übereinstimmt), XR das Mittel der bei der Prüfung erreichten Punktzahl (bei Definition einer Referenzgruppe ist deren Mittel zu verwenden), so sind die absolute Bestehensgrenze BS und die relative Bestehensgrenze BG entsprechend der Gleitklausel mittels zweier Konstanten cS bzw. cG festgelegt:

BS=cS x M
BG=cG x XR

Der Wert von cS ist bei medizinischen Prüfungen meist 0.6 („bestanden hat, wer 60% der maximal erreichbaren Punktzahl erreicht hat“), cG ist oft wie bei den Staatsexamina 0.78 („… wer nicht mehr als 22% … unterschreitet“), für cG werden mitunter auch andere Werte verwendet, wie z. B. an der Medizinischen Fakultät Heidelberg der Wert 0.80 [4].

Das nachfolgende Beispiel zeigt, dass die direkte Übertragung von Gleichung (1) zu dem – unseres Erachtens unerwünschten – Effekt führt, dass die zusätzliche Berücksichtigung von Aufgaben mit identischen Eigenschaften erst zu einer Verbesserung und danach wieder zu einer Verschlechterung der Note führen kann:

Beispiel 2: Eine Prüfung bestehe aus 26 Aufgaben, bei denen jeweils ganzzahlige Punktwerte von 0 bis 4 Punkten erreicht werden können. Zwei Aufgaben seien aus der Wertung genommen.

Ein Prüfungsteilnehmer habe bei den 24 korrekten Aufgaben 67 Punkte erreicht, bei den beiden aus der Wertung genommenen Aufgaben jeweils 3 Punkte.

Werden nur die 24 gewerteten Aufgaben berücksichtigt und die bei den Staatsexamina verwendete Gleichung (1) direkt verwendet, ergibt sich für die Grenze zwischen „ausreichend“ und „befriedigend“ (maximal können 4x24=96 Punkte erreicht werden):

ceil(B)+g x (M–ceil(B))=ceil(0,60 x 96)+0,25 x (96–ceil(0,60 x 96))=ceil(57,60)+0,25 x (96–ceil(57,60))=58+0,25 x (96–58)=67,50

Mit 67 Punkten läge man unter dieser Grenze, die Note wäre „ausreichend“.

Berücksichtigt man eine der beiden aus der Wertung genommenen Aufgaben, gilt

ceil(B)+g x (M–ceil(B))=ceil(0,60 x 100)+0,25 x (100–ceil(0,60x100))=ceil(60,00)+0,25 x (100–ceil(60,00))=60+0,25 x (100–60)=70,00

Mit 67+3=70 Punkten von möglichen 4x25=100 Punkten, hätte der Prüfling die Note „befriedigend“.

Werden beide Aufgaben berücksichtigt, die aus der Wertung genommen wurden und bei denen jeweils 3 von 4 Punkten erreicht wurden, so ist

ceil(B)+g x (M–ceil(B))=ceil(0,60 x 104)+0,25 x (104–ceil(0,60 x 104))=ceil(62,40)+0,25 x (104–ceil(62,40))=63+0,25 x (104–63)=73,25

Mit 67+3+3=73 Punkten von möglichen 4x26=104 ergibt sich wieder lediglich die Note „ausreichend“.

Das Beispiel 2 zeigt, dass bei Erreichen von 70% der maximalen Punktzahl, die normalerweise mit der Grenze von „ausreichend“ zu „befriedigend“ assoziiert ist, die Hinzunahme einer Aufgabe, bei der 75% der Punktzahl (3 von 4 Punkten) erzielt wurden, mit einer Verschlechterung der Note einhergehen kann. Dies erscheint dem Autor als widersinnig.

Formale Definition der Bestehens- und Notengrenzen bei Aufgaben mit Teilpunkten

Eine formal einfachere Bedingung als Gleichung (1) für die den verschiedenen Bestehensgrenzen BS und BG zugehörigen Notengrenzen kann mit

(2) Ng=B+g x (MB)

erreicht werden, durch die die Spannweite zwischen rechnerischer Bestehensgrenze und maximal erreichbarer Punktzahl in vier numerisch gleich große Intervalle unterteilt wird. Der Unterschied zu Gleichung (1) besteht darin, dass in die Bestimmung der Notengrenzen die rechnerische Bestehensgrenze B und nicht die aufgerundete faktische Bestehensgrenze ceil(B) einfließt.

Durch diese Definition umgeht man das offensichtliche Problem, dass bei einer Prüfung mit maximal 22 erreichbaren Punkten ein Teilnehmer mit 13,5 Punkten durchgefallen wäre, da zwar die rechnerische 60%-Grenze von 0,6x22=13,2 überschritten, die auf eine ganze Zahl aufgerundete Grenze von 14 aber nicht erreicht wäre. Weiter kann damit kein dem Beispiel 2 analoger Fall konstruiert werden (die rechnerischen Notengrenzen zwischen „ausreichend“ und „befriedigend“ errechnen sich nach Gleichung 2 zu 67,2, 70,0 und 72,8 für maximal erreichbare Punktzahlen von 96, 100 bzw. 104 Punkten).

Die rechnerischen Notengrenzen nach Gleichung (2) können niedriger als die nach Gleichung (1) sein, niemals aber höher. Dadurch kann an einer Stelle eine Diskrepanz zum Vorgehen des Staatsexamens auftreten. Dies ist durch die Formulierung „der darüber hinaus gestellten Prüfungsfragen“ in der ÄAppO bedingt, durch die in der Gleichung (1) ceil(B) statt wie in Gleichung (2) B stehen muss:

Beispiel 3: Eine Prüfung bestehe aus 317 Aufgaben. Die rechnerische Bestehensgrenze errechnet sich zu 190.2. Beim hier vorgeschlagenen Vorgehen ergibt sich für die rechnerische Notengrenze zwischen 3 und 4 der Wert (siehe Gleichung 2: M=317, BS=0,6x317=190,2 und mit g=0,25)

190,2+0.25 x (317–190,2)=221,9

Mit 222 zutreffend beantworteten Aufgaben erhält man die Note 3. Im Staatsexamen wäre die entsprechende Notengrenze (Gleichung 1)

ceil(190,2)+0.25 x (317–ceil(190,2)=191+0.25 x (317–191)=222,5,

mithin müssten dann 223 Aufgaben zutreffend beantwortet werden, um „befriedigend“ (Note 3) zu erhalten.

2.3. Rundungen

Es gibt jedoch nachvollziehbare Gründe, Rundungen bei der Bestimmung von Bestehens- und Notengrenzen in Betracht zu ziehen:

Beispiel 4: Eine Prüfung hat 17 Aufgaben, bei denen jeweils ein ganzer Punkt erreicht werden kann. Zum Bestehen sind nach Gleichung (1) oder (2) mit der 60%-Grenze (0,6x17=10,2) mindestens 11 Aufgaben korrekt zu beantworten, um zu bestehen. Das sind 64,7%, also deutlich mehr als 60%. Würden lediglich 10 Aufgaben zum Bestehen erforderlich sein, wären dies mit 58,8% zwar weniger als 60%, die Abweichung zu 60% wäre aber deutlich geringer (1,2% statt 4,7%).

Auch bei den Staatsexamina tritt dies auf, wenn auch wegen der großen Zahl von Aufgaben mit deutlich geringeren prozentualen Abweichungen. Um die durch die Ganzzahligkeit des erreichten Prüfungsergebnisses bedingte „Verschärfung“ der Bedingungen zu vermindern (vgl. hierzu auch den letzten Absatz in 1.2), wurde deshalb in einem Entwurf zur Änderung der Approbationsordnung für Zahnärzte [3] in § 34 und § 35 vorgeschlagen, die rechnerische Bestehensgrenze bei einer ersten Nachkommastelle von 0 bis 4 ab-, und von 5 bis 9 aufzurunden. Gleiches gilt für die Notengrenzen – bei Verwendung der bereits gerundeten Bestehensgrenze! –, so dass diese durch die Gleichungen

(3) B*=floor(B+½)
Ng=floor(B*+g x (MB*)+½)

formalisiert sind (B* bezeichne die gerundete rechnerische Bestehensgrenze, floor(z) ist die Abrundungsfunktion, somit rundet die Funktion floor(z+½) bei erster Nachkommastelle zwischen 0 und 4 ab und zwischen 5 und 9 auf).

Durch die Rundung in Gleichung (3) soll in dem Entwurf zur Änderung der Approbationsordnung für Zahnärzte praktisch eine Absenkung der Notengrenzen um einen halben Punkt gegenüber der gegenwärtig gültigen Approbationsordnung für Ärzte nach Gleichung (1) erzielt werden. Eine Ausnahme ist der Grenzpunkt mit dem exakten Nachkommateil 0,5, der aufgerundet wird.

Auch mit Gleichung (3) kann der in Beispiel 2 beschriebene Effekt auftreten.

Beispiel 5: Die Prüfung bestehe aus 24 Aufgaben mit jeweils maximal 4 Punkten, von denen zwei aus der Wertung genommen sind. Der Prüfungsteilnehmer hat bei diesen je 3 Punkte erreicht, bei den anderen 22 Aufgaben 61 Punkte.

Ohne Berücksichtigung der eliminierten Aufgaben ergibt sich für die gerundete Bestehensgrenze bei 4x22=88 maximal erreichbaren Punkten

B*=floor(B+½)=floor(0,6 x 88+0,5)=floor(52,8+0,5)=53

Die Grenze zwischen „ausreichend“ und „befriedigend“ liegt bei

floor(B*+g x (MB*)+½)=floor(53+0,25 x (88–53)+0,5)=floor(53+8,75+0,5)=62

Bei Berücksichtigung von einer der beiden eliminierten Aufgaben erhält man analog für die Grenze zwischen „ausreichend“ und „befriedigend“ 64 Punkte und bei Berücksichtigung beider Aufgaben 68 Punkte.

Wie im Beispiel 2 führt die sequentielle Berücksichtigung der beiden eliminierten Aufgaben mit identischen Eigenschaften dazu, dass ausgehend davon, dass zunächst die Grenze zwischen „ausreichend“ und „befriedigend“ unterschritten ist (61 erreichte Punkte<62), dann erreicht (64 Punkte=Bestehensgrenze 64) und schließlich wieder unterschritten wird (67 Punkte<68).

Formale Definition gerundeter Bestehens- und Notengrenzen bei Aufgaben mit Teilpunkten

Bei Aufgaben mit Teilpunkten kann einer Rundung der Notengrenzen ähnlicher Effekt durch Modifikation von Gleichung (2) mit

(4) Ng=B+g x (MB)–0,5

erreicht werden. Ein Analogon zu Gleichung (3) erhält man durch die weitere Festlegung, dass zum Bestehen nicht nur das Erreichen sondern ein Überschreiten der Bestehensgrenze erforderlich ist (gleiches gilt für die Notengrenzen). Wie in Beispiel 3 besteht damit aber keine völlige Übereinstimmung von (3) und (4).

Der Übergang von Gleichung (3) zu (4) begründet sich analog zu dem von Gleichung (1) zu (2). Die angestrebte Absenkung um einen halben Punkt wird hier einfach durch die Subtraktion des konstanten Werts 0,5 erreicht, die Notwendigkeit, dass die Grenzen nicht nur erreicht sondern überschritten werden müssen, ergibt sich aus der Behandlung des Falles mit exaktem Nachkommateil 0,5 (siehe den letzten Unterabschnitt).


3. Nachteilsausgleich bei fehlerhaften Aufgaben

3.1. Staatsexamen

Die Approbationsordnung für Ärzte [https://www.gesetze-im-internet.de/_appro_2002/] schreibt in §14 vor:

(4) Die Prüfungsaufgaben sind […]darauf zu überprüfen, ob sie, gemessen an den Anforderungen des Absatzes 2 Satz 1, fehlerhaft sind. Ergibt diese Überprüfung, dass einzelne Prüfungsaufgaben fehlerhaft sind, sind diese bei der Feststellung des Prüfungsergebnisses nicht zu berücksichtigen. Die vorgeschriebene Zahl der Aufgaben für die einzelnen Prüfungen […] mindert sich entsprechend. Bei der Bewertung der schriftlichen Prüfung […] ist von der verminderten Zahl der Prüfungsaufgaben auszugehen. Die Verminderung der Zahl der Prüfungsaufgaben darf sich nicht zum Nachteil eines Prüflings auswirken.

Der letzte Satz wird juristisch so interpretiert, dass fehlerhafte Aufgaben individuell doch zu berücksichtigen sind und nur insoweit unberücksichtig bleiben, sofern dies nicht nachteilig für den Teilnehmer ist. Das bedeutet, dass für jeden Prüfungsteilnehmer fehlerhafte Aufgaben so zu berücksichtigen sind, dass ein für den Teilnehmer optimales Ergebnis erzielt wird, m. a. W. es wird eine Teilmenge von fehlerhaften Aufgaben gesucht, bei der das für den Teilnehmer bestmögliche Resultat erzielt wird. Diese Teilmenge ist i. A. nicht eindeutig.

Bei den Staatsexamina, bei denen jede Aufgabe nur als zutreffend oder nicht zutreffend beantwortet gewertet werden kann, lässt sich zeigen, dass sowohl für Bestehen als auch das Erreichen von Noten die Einbeziehung all derjenigen eliminierten Aufgaben für einen Studierenden zu einem für diesen optimalen Ergebnis führt, bei denen er eine zutreffende Antwort gegeben hat, während die anderen eliminierten Aufgaben unberücksichtigt bleiben.

3.2. Aufgaben mit Teilpunkten

Bei Verwendung der Bestehens- und Notengrenzen, wie sie in den Abschnitten 2.2 und 2.3 durch Gleichung (2) oder (4) definiert sind, können die zu berücksichtigenden Aufgaben einfach festgestellt werden.

Zu bestimmen ist, ob eine eliminierten Aufgabe, bei der maximal m Punkte erreichbar sind, im Mittel xR Punkte erzielt (evtl. Mittel der Referenzgruppe bei der Aufgabe) und von einem Teilnehmer p Punkte erreicht wurden, für diesen Teilnehmer berücksichtigt werden soll.

Für die aus BS abgeleiteten Notengrenzen prüft man hierzu, ob

(5) g x m+(1–g) x cS x m<p

(analog mit cA statt cS für aus BA abgeleitete Notengrenzen) und für die Notengrenzen der Gleitklausel (mit BG als Bestehensgrenze)

(6) g x m+(1–g) x cG x xRp

Falls ja, ist die Aufgabe bezüglich der entsprechenden Bestehens- und den daraus abgeleiteten Notengrenzen zu berücksichtigen, ansonsten nicht.

Man beachte, dass die Aufgaben, die zur Bestimmung der Leistung des Studierenden herangezogen werden, damit abhängig von der Notengrenze sind.

Beispiel 6: Seien in einer Prüfung 102 Aufgaben mit jeweils maximal erreichbarer Punktzahl 1 gegeben, von denen eine aus formalen Gründen eliminiert ist. Ein Studierender habe bei dieser Aufgabe 0,75 Punkte erreicht. Abhängig davon, ob der Studierende bei den gewerteten Aufgaben an der Bestehensgrenze oder der Grenze zur Note 1 liegt, kann die Berücksichtigung der eliminierten Aufgabe für den Studierenden nützlich oder schädlich sein.

Hat er etwa mit 60,50 erreichten Punkten die rechnerische Bestehensgrenze 60,60 knapp verfehlt, führt die Berücksichtigung der eliminierten Aufgaben dazu, dass er mit 61,25 Punkten oberhalb der Bestehensgrenze von 61,20 Punkten für 102 Aufgaben liegt (siehe Tabelle 1 [Tab. 1], Spalte „Bestehensgrenze“ und „Erreichte Punktzahl 1“).

In der Ungleichung (5) wäre g=0,00, m=1, cS=0,60 und p=0,75 einzusetzen, es ist

g x m+(1–g) x cS x m=0,00x1+(1–0,00) x 0,6x1=0,60≤0,75=p

Damit ist das Kriterium (5) zur Aufnahme in die Bewertung der Aufgabe für diesen Prüfungsteilnehmer erfüllt.

Hat er bei den gewerteten Aufgaben 91,00 Punkte erreicht und damit die Note 1 (Grenze ist bei 101 Aufgaben bei 90,90 Punkten) führt die Berücksichtigung der Aufgabe zu einer Punktsumme von 91,75 Punkten, die nicht genügt, die Grenze von 91,80 Punkten zur Note 1 bei 102 Aufgaben zu erreichen (siehe Tabelle 1 [Tab. 1], Spalte „Notengrenze zu Note 1“ und „Erreichte Punktzahl 2“).

Die Bedingung der Ungleichung (5) ist in der Tat hier nicht erfüllt:

g x m+(1–g) x cS x m=0,75 x 1+(1–0,75) x 0,6 x 1= 0,90>0,75=p

d. h. die Aufgabe ist nicht zur Bewertung heranzuziehen.


4. Diskussion

Die Übertragung der Vorgehensweise zu Elimination und Nachteilsausgleich, wie sie bei den Staatsexamina verwendet wird, lässt sich durch eine analoge Definition der Bestehens- und Notengrenzen auf Prüfungen mit ungleich gewichteten Aufgaben und Aufgaben mit Teilbepunktung unschwer vornehmen. Kleinere Abweichungen von der Definition der Bestehens- und Notengrenzen, die durch die Rundungsfunktionen in der Formalisierung der Regeln der Approbationsordnung bedingt sind (siehe Gleichung 1 vs. 3) sind – wie in Beispiel 3 dargestellt – zur Wahrung der Konsistenz des Notengebungsschemas erforderlich.

Für die Bestimmung derjenigen eliminierten Aufgaben, die individuell für einen Prüfungsteilnehmer herangezogen werden müssen, um Bestehens- oder Notengrenzen zu erreichen oder zu überschreiten, existieren einfache Bedingungen, die allein von der bei der Aufgabe erzielten Punktzahl, der Notengrenze und – bei der evtl. notwendigen Anwendung der Gleitklausel – im Mittel erzielten Punktzahl der Aufgabe abhängig ist.

Das dargestellte Vorgehen lässt sich auch auf andere Benotungssysteme als die hier im Fokus stehende Aufteilung in vier Notenstufen bei Bestehen übertragen. Bei entsprechend feinerer Aufteilung der Werte für g in den Gleichungen (2) oder (4) lassen sich z. B. Dezimalnoten vergeben.

Generell sollten aber auch die nachteiligen Konsequenzen individuell unterschiedlicher Bestehens- und Notengrenzen bedacht werden. Das beschriebene Vorgehen ist zwar formal eindeutig, für die Studierenden aber nicht immer leicht nachvollziehbar. Aus diesem Grund wurde z. B. in der Studienordnung der medizinischen Fakultät Heidelberg [4] festgelegt, dass die bei „fehlerhaften“ Aufgaben erzielten Punkte dem Studierenden als Bonuspunkte angerechnet werden, jedoch auch bei diesen allein die aus den fehlerfreien Aufgaben bestimmten Bestehens- und Notengrenzen zur Anwendung kommen. Das bei den Staatsexamina erfolgende „Nachjustieren“ der Bestehensgrenze unterbleibt, für alle Teilnehmer gelten die gleichen Bestehens- und Notengrenzen.

In Anbetracht der im Masterplan 2020 geforderten Einführung innovativer Prüfungsformate wäre es zu begrüßen, wenn die Regeln einer zukünftigen Approbationsordnung von vorneherein so gefasst würden, dass sie direkt auf Prüfungen, die unterschiedlich gewichtete Aufgaben und/oder Aufgaben mit Teilpunktvergabe enthalten, anwendbar wären (z. B. werden in der Staatsprüfung der Schweiz für Humanmedizin bei Mehrfach-Richtig-Falsch-Aufgaben halbe Punkte vergeben [5]). Dies gilt auch für den Fall, dass vorerst bei den schriftlichen Staatsexamina nur solche Aufgaben eingesetzt werden sollen, für die keine Teilpunkte vergeben werden (vgl. [3]), eine allgemein anwendbare Regel würde bei einer eventuell späteren Einführung solcher Aufgaben keine neuerliche Anpassung erfordern. Ebenfalls gesichert wäre damit ein einheitliches Vorgehen für praktische Prüfungen (etwa OSCEs) und eine einfache Übertragung des Schemas der Notengebung auf Prüfungen, in denen die Bestehensgrenzen durch Standard-Setting-Verfahren ermittelt und die weiteren Notengrenzen rechnerisch daraus abgeleitet werden.


Anmerkung

Verzeichnis der verwendeten Symbole (siehe Tabelle 2 [Tab. 2])


Förderung

Die Arbeit entstand im Rahmen des vom Bundesministerium für Bildung und Forschung geförderten Projekts MERLIN II (01PL17011C).


Danksagung

Besonderen Dank für intensive und konstruktive Diskussionen möchte ich Herrn Dr. H. Shahla vom Institut für medizinische und pharmazeutische Prüfungsfragen aussprechen.


Interessenkonflikt

Der Autor erklärt, dass er keine Interessenkonflikte im Zusammenhang mit diesem Artikel hat.


Literatur

1.
Shahla H, Schillings V, Lorenz I. Eliminierung fehlerhafter Prüfungsaufgaben und Nachteilsausgleich als Gebot der Bewertungsfairness. Zur Praxis der Ermittlung individueller Bestehens- und Notengrenzen bei Staatsexamina. 2018. Erhältlich über: hshahla@impp.de
2.
Bundesministerium für Bildung und Forschung. Beschlusstext Masterplan Medizinstudium 2020. Berlin: Bundesministerium für Bildung und Forschung; 2017. Zugänglich unter/available from: https://www.bmbf.de/de/masterplan-medizinstudium-2020-4024.html Externer Link
3.
Bundesministerium für Gesundheit. Verordnung zur Neuregelung der zahnärztlichen Ausbildung. Berlin: Bundesminister für Gesundheit; 2017. Zugänglich unter/available from https://www.bundesgesundheitsministerium.de/service/gesetze-und-verordnungen/guv-18-lp.html#c7548 Externer Link
4.
Universität Heidelberg. Studienordnung für das Medizinstudium an der Medizinischen Fakultät Heidelberg der Universität Heidelberg für das 1. und 2. Studienjahr vom 22. Juli 2010. Heidelberg: Universität Heidelberg; 2010. Zugänglich unter/available from: http://www.uni-heidelberg.de/md/studium/download/03-01-7a-05.pdf Externer Link
5.
Bundesamt für Gesundheit. Eidgenössische Prüfung in Humanmedizin. Bern: Bundesamt für Gesundheit (BAG). Zugänglich unter/available from: https://www.bag.admin.ch/bag/de/home/berufe-im-gesundheitswesen/medizinalberufe/eidgenoessische-pruefungen-universitaerer-medizinalberufe/eidgenoessische-pruefung-in-humanmedizin.html Externer Link