gms | German Medical Science

GMS Journal for Medical Education

Gesellschaft für Medizinische Ausbildung (GMA)

ISSN 2366-5017

Die Zuverlässigkeit der Entscheidung „bestanden/durchgefallen“ bei zusammengesetzten Prüfungen

Artikel Prüfungen

Suche in Medline nach

  • corresponding author Andreas Möltner - Ruprecht-Karls-Universität Heidelberg, Kompetenzzentrum Prüfungen in der Medizin Baden-Württemberg, Heidelberg, Deutschland
  • Sevgi Tımbıl - Ruprecht-Karls-Universität Heidelberg, Kompetenzzentrum Prüfungen in der Medizin Baden-Württemberg, Heidelberg, Deutschland
  • author Jana Jünger - Ruprecht-Karls-Universität Heidelberg, Kompetenzzentrum Prüfungen in der Medizin Baden-Württemberg, Heidelberg, Deutschland

GMS Z Med Ausbild 2015;32(4):Doc42

doi: 10.3205/zma000984, urn:nbn:de:0183-zma0009843

Dieses ist die deutsche Version des Artikels.
Die englische Version finden Sie unter: http://www.egms.de/en/journals/zma/2015-32/zma000984.shtml

Eingereicht: 20. Dezember 2013
Überarbeitet: 12. März 2014
Angenommen: 26. Mai 2014
Veröffentlicht: 15. Oktober 2015

© 2015 Möltner et al.
Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung). Lizenz-Angaben siehe http://creativecommons.org/licenses/by/4.0/.


Zusammenfassung

Zielsetzung: Die gravierendsten Konsequenzen für einen Studierenden bei einer Prüfung besitzt die Entscheidung über „bestanden“ oder „durchgefallen“. Wie die Messzuverlässigkeit der Punktwerte muss bei qualitativ hochwertigen Prüfungen deshalb auch die Zuverlässigkeit der Entscheidung „bestanden“ oder „durchgefallen“ bestimmt werden.

Oft setzen sich Prüfungen eines Fachs (Leistungsnachweise) aus mehreren Teilprüfungen zusammen, die z. B. unabhängig voneinander bestanden werden müssen. In diesem Fall einer „konjunktiven“ Verknüpfung der Einzelentscheidungen „bestanden/durchgefallen“ wie auch bei anderen komplexen Bestehensregelungen sind zur Abschätzung der Genauigkeit und Konsistenz der Entscheidung „bestanden/durchgefallen“ adäquate Auswertungsverfahren erforderlich. Bislang liegen zu dieser Problemstellung nur wenige Arbeiten vor, ein allgemein verwendbares Verfahren wurde 2010 von Douglas und Mislevy publiziert.

In der Studie soll am exemplarischen Beispiel einer zusammengesetzten Prüfung, bei der mehrere Teilprüfungen unabhängig voneinander bestanden werden müssen, eine Analyse der Zuverlässigkeit der Entscheidung „bestanden/durchgefallen“ durchgeführt und Konsequenzen für eine verbesserte Methodik zur Identifikation von Studierenden, die die gestellten Mindestanforderungen nicht erfüllen, diskutiert werden.

Methodik: Untersucht wird die Entscheidungsgenauigkeit und -konsistenz von „bestanden/durchgefallen“ des Leistungsnachweises Innere Medizin/Allgemeinmedizin/Klinische Chemie der medizinischen Fakultät Heidelberg. Für diesen müssen drei Teilprüfungen (zwei Klausuren und ein OSCE) unabhängig voneinander bestanden werden, wobei jede Teilprüfung für sich zweimal wiederholt werden kann. Die Analyse erfolgt mit dem Verfahren von Douglas und Mislevy.

Ergebnisse: Auch bei hohen Reliabilitäten von Teilprüfungen lässt sich bei komplexen logischen Verknüpfungen der Einzelentscheidungen „bestanden/durchgefallen“ im Fall niedriger Nichtbestehensquoten häufig nur eine geringe Zuverlässigkeit der Gesamtentscheidung erreichen. So ist im hier untersuchten Beispiel trotz der bei allen drei Teilprüfungen guten Reliabilitäten von über 0,75 die Entscheidungsgenauigkeit und -konsistenz bei konjunktiver Verknüpfung der drei Prüfungsteile mit κ=0,49 bzw. κ=0,47 relativ niedrig. Die Möglichkeit, die Teilprüfungen jeweils zweimal zu wiederholen, führt dazu, dass von den Studierenden, die den Mindestanforderungen nicht genügen, nur etwa die Hälfte endgültig die Gesamtprüfung nicht bestehen würde, die andere Hälfte jedoch trotz mangelhafter Kenntnisse/Fertigkeiten ihr Studium fortsetzen kann.

Schlussfolgerung: Das Verfahren von Douglas und Mislevy erlaubt, Entscheidungsgenauigkeit und -konsistenz komplexer Verknüpfungen von Teilprüfungen zu analysieren. Auch bei hochreliablen Teilprüfungen wird – etwa im Fall niedriger Nichtbestehensquoten – nicht notwendigerweise eine zuverlässige Entscheidung über „bestanden“ oder „durchgefallen“ erreicht. Hierzu müssten Prüfungen mit dem expliziten Ziel der Identifizierung von Studierenden, die den Mindestanforderungen nicht genügen, durchgeführt werden.

Schlüsselwörter: Prüfungen, Entscheidungsgenauigkeit, Entscheidungskonsistenz, pass-fail-reliability


1. Einleitung

Prüfungen sind Messinstrumente für die Leistungsfähigkeit und besitzen wie alle Messinstrumente nur eine begrenzte Genauigkeit. Diese muss ausreichend hoch sein, damit Prüfungsergebnisse auch eine inhaltliche Aussagekraft aufweisen können. Für die Abschätzung der Messzuverlässigkeit der vergebenen Punktwerte in Prüfungen stehen etablierte Verfahren zur Verfügung (z. B. Cronbachs α), die Zuverlässigkeit der Entscheidung „bestanden/durchgefallen“ findet jedoch bei der Analyse und Bewertung von Prüfungen kaum Beachtung.

Dies ist insofern bemerkenswert, als gerade diese für den Studierenden eine deutlich höhere Bedeutung für den Studienverlauf aufweist als die Messzuverlässigkeit eines Punktwerts, ein „nicht bestanden“ führt zu Nacharbeitungsaufwand, Zeitverlust und u. U. zur Frage nach Fortsetzung oder Beendigung des Studiums. Auch auf Seiten der prüfenden Institution ist die Entscheidung von Bedeutung: Besitzt der Studierende die für die Fortsetzung des Studiums erforderlichen Kenntnisse und Fertigkeiten, führt ein ungerechtfertigtes „durchgefallen“ ebenfalls zu einem höheren Arbeitsaufwand. Lässt man andererseits einen Studierenden trotz fehlender Qualifikation bestehen, so sind nicht nur erhebliche Probleme bei der Fortführung des Studiums zu erwarten, sondern im medizinischen Bereich schlimmstenfalls Gefährdungen von Patienten nicht auszuschließen (vgl. [5]).

Das Thema hat in Deutschland im Bereich der medizinischen Ausbildung vermutlich auch deshalb bislang wenig Beachtung gefunden, als in den Studien- oder Prüfungsordnungen der meisten Fakultäten für das nach wie vor dominierende Prüfungsformat der Multiple-Choice-Prüfungen die Regularien der Ärztlichen Approbationsordnung im Wesentlichen übernommen wurden. Mit der dort rein formal festgelegten Bestehensgrenze von 60% der gestellten Aufgaben ist eine inhaltlich begründete, kriteriumsorientierte Festlegung der Mindestanforderungen nicht möglich. Unseres Wissens lässt es in Deutschland lediglich die Studienordnung der medizinischen Fakultät Heidelberg zu, bei Multiple-Choice-Klausuren ein Standard-Setting durchzuführen, d. h. von der formalen Regel einer 60%-Grenze abzuweichen und – ähnlich zum etablierten Standard-Setting bei einem OSCE – mit einem Standardvorgehen eine an inhaltlichen Kriterien orientierte Bestehensgrenze zu definieren [2], [5].

Die Etablierung neuer Prüfungsformate, mit denen neben reinem Fachwissen auch praktische Fertigkeiten, Qualifikationen und für die Ausübung des Arztberufs erforderliche Kompetenzen geprüft werden sollen, erfordert jedoch die Definition und bei Prüfungen die praktische Festlegung von Mindestanforderungen. Damit wird es auch erforderlich, bei der Beurteilung von Prüfungen oder Prüfungsformen der Entscheidungsgenauigkeit („decision accuracy“) und der Entscheidungskonsistenz („decision consistency“,„pass-fail-reliability“) eine hohe Aufmerksamkeit zu widmen [19]. Dabei bezeichnet die Entscheidungsgenauigkeit das Ausmaß, in dem Studierende, die den Mindestanforderungen genügen, in einer konkreten Prüfung bestehen und Studierende ohne hinreichende Kenntnisse durchfallen. Die Entscheidungskonsistenz ist die Übereinstimmung von „bestanden/durchgefallen“ in zwei äquivalenten Prüfungen, d. h. in zwei Prüfungen, die das selbe Wissen/die selben Fertigkeiten gleich gut messen. Man beachte hier, dass das „Selbe“ hier nicht impliziert, das die Prüfungen im testtheoretischen Sinn nur ein Konstrukt abfragen. Ein OSCE kann Stationen zu praktischen Fertigkeiten („Skills“) und zu kommunikativen Kompetenzen enthalten, die teststatistisch wie Unterskalen aufzufassen sind. Eine hierzu äquivalente Prüfung müsste dann auch in gleichem Umfang und Schwierigkeit praktische und Kommunikationsstationen enthalten.

Für den Fall einzelner Prüfungen sind – insbesondere seit den 1980er Jahren – eine Reihe von Verfahren zur Bestimmung von Genauigkeit und Konsistenz entwickelt worden, wenngleich noch keine dieser Methoden als „Standardprozedur“ angesehen werden kann (vgl. [6], [13], [14], [16], [18], [23], [25]). Zur Erlangung von Leistungsnachweisen in vielen medizinischen Fächern sind jedoch mehrere einzelne Prüfungen abzulegen, etwa eine schriftliche Prüfung für das theoretische Wissen und ein OSCE zur Prüfung der praktischen Fertigkeiten. Werden diese Prüfungsleistungen durch gewichtete Mittelungen oder Summierungen zu einem Gesamtscore verrechnet, kann die gesamte Prüfung wie eine „einzige“ behandelt werden.

Oft findet sich aber eine andere, inhaltlich durchaus begründete, Praxis: Statt die Prüfungsleistungen kompensatorisch zu verrechnen, müssen sämtliche Einzelprüfungen bestanden werden. Diese konjunktive Kombination (logische „und“-Verknüpfung) der Entscheidungen „bestanden“/durchgefallen“ hat erhebliche Auswirkungen auf die Genauigkeit/Konsistenz der Gesamtentscheidung, da eine einzige unzuverlässige Entscheidung bei einer Teilprüfung die Zuverlässigkeit der Gesamtentscheidung zunichte machen kann:

...Because longer collections of test questions tend to be more reliable than shorter collections of test questions, compensatory scoring tends to be more reliable than conjunctive scoring. In conjunctive scoring, if a student has to pass all of the content areas separately, the least reliable score controls whether a student will pass. [26]

Praktische Anwendungsfälle sind hier z. B. Fächer, die die zu prüfenden Lehrinhalte auf mehrere Teilprüfungen aufteilen, um den Umfang einer einzelnen Prüfung zu begrenzen oder Fächer, in denen sowohl theoretisches Wissen wie auch praktische Fertigkeiten vermittelt werden und die deshalb eine schriftliche Prüfung für die Theorie und eine praktische für die Fertigkeiten durchführen. In diesen Fällen ist es häufig gerechtfertigt, das Erreichen von Mindeststandards in jeder Einzelprüfung zu fordern, statt eine Kompensation zu ermöglichen. Schließlich wird auch für das gesamte Studium eine konjunktive Kombination angewandt: Nur wer in allen Fächern bestanden hat, hat das Studium erfolgreich beendet.

Prüfungsleistungen können auch noch auf andere Weisen kombiniert werden. So sind neben den bereits erwähnten konjunktiven Verknüpfungen auch disjunktive (logische „oder“-Verknüpfungen) möglich, bei denen von mehreren Prüfungsteilen nur eine einzige bestanden werden muss. Ein Beispiel hierfür wären Wiederholungsprüfungen. Kann eine Prüfung einmal wiederholt werden, hat man insgesamt bestanden, wenn man die erste Prüfung besteht oder die zweite (dass ein Studierender zur zweiten Prüfung nicht antreten muss, wenn er bereits die erste bestanden hat, ist für die Logik ohne Belang). In der schulischen und universitären Praxis sind auch noch komplexere Regularien anzutreffen, wie z. B., dass drei von fünf möglichen Leistungsscheinen erworben werden müssen.

Zur Entscheidungszuverlässigkeit bei komplexen Kombinationen von Prüfungsleistungen liegen nur wenige Arbeiten vor [24], ein allgemein einsetzbares Analyseverfahren wurde von Douglas und Mislevy vorgeschlagen [7], [8]. Mit diesem soll in der vorliegenden Studie exemplarisch der fächerübergreifende Leistungsnachweis Allgemeinmedizin/Innere Medizin/Klinische Chemie der medizinischen Fakultät Heidelberg des Wintersemesters 2012/13 untersucht werden, für dessen Erwerb zwei Klausuren und ein OSCE unabhängig voneinander bestanden werden müssen. Dabei steht jedem Studierenden für jede Einzelprüfung die Möglichkeit zweier Prüfungswiederholungen offen.

Der „fächerübergreifende Leistungsnachweis“ (FÜL) ist eine Besonderheit der deutschen Approbationsordnung, nach der im Medizinstudium jede Fakultät mehrere Fächer zu einem gemeinsamen Leistungsnachweis bündeln muss. Diese juristische Vorgabe ist für die folgenden statistischen Betrachtungen jedoch ohne Bedeutung, das Verfahren von Douglas und Mislevy zielt auf die Genauigkeit und Zuverlässigkeit einer komplexen Entscheidung über „bestanden“/„nicht bestanden“ ab, die durch eine Kombination von Einzelentscheidungen gewonnen wird. Ungeachtet der formaljuristischen Begrifflichkeit bei einem FÜL sollen auch hier die Bezeichnungen „Gesamtprüfung“ (für den gesamten Leistungsnachweis) und „Einzel-“ oder „Teilprüfungen“ (für die einzelnen Fachprüfungen) Verwendung finden.

Intention der Arbeit ist, ein für die Analyse der Entscheidungszuverlässigkeit von „bestanden/durchgefallen“ geeignetes Verfahren am Beispiel einer zusammengesetzten Prüfung darzustellen und damit als wesentlichen Bestandteil der Qualitätssicherung von Prüfungen zu etablieren.


2. Grundlagen

Entscheidungsgenauigkeit und Entscheidungskonsistenz

Ausgangspunkt ist die Annahme, dass die zu prüfenden Studierenden bezüglich ihrer Kenntnisse/Fertigkeiten unterteilt werden können in solche, welche die Mindestanforderungen erfüllen („Master“, „competent examinee“) und solche, die ihnen nicht genügen („Non-Master“, „incompetent examinee“). Bei einer Prüfung in einem Fach könnte eine solche Definition z. B. darin bestehen, dass ein Lernzielkatalog existiert und als „Master“, definiert wird, welcher z. B. 70% dieser Lernziele beherrscht.

In einer konkreten Prüfung wird dann eine Auswahl von Lernzielen getroffen, die geprüft werden und eine Bestehensgrenze festgelegt. Diese Bestehensgrenze könnte dann z. B. ebenfalls mit 70% angesetzt werden. So würde z. B. ein Studierender, der 90% aller Lernziele beherrscht, mit großer Wahrscheinlichkeit diese Grenze überschreiten, hingegen jemand, der 72% beherrscht und demzufolge ebenfalls die Mindestanforderungen erfüllt („Master“), wird aber möglicherweise Pech haben und durchfallen. Analoges gilt für Studierende knapp unterhalb der Grenze zum Master, die mit etwas Glück bestehen. Eine eingehendere Diskussion des Unterschieds zwischen der Definition eines Master („performance standard“) und der Bestehensgrenze („passing score“) findet sich etwa in [12] (s. auch [2], [5]).

Abhängig vom Ziel der Prüfung kann die Bestehensgrenze variiert werden, prüft man strenger (höhere Bestehensgrenze) vermindert man die Wahrscheinlichkeit, einen Non-Master bestehen zu lassen, erhöht aber gleichzeitig das Risiko, einen Master fehlzuklassifizieren, indem er durchfällt. Dies ist völlig analog zu diagnostischen Test, die einem „Goldstandard“ (das entspräche dem Wissen, ob jemand Master oder Non-Master ist) ein tatsächliches Testergebnis gegenüberstellen. Fasst man die Prüfung als Test zur „Diagnose“ der Non-Master auf, so besitzt dieser eine gewisse Sensitivität (die Wahrscheinlichkeit, Non-Master durchfallen zu lassen) und eine Spezifität (Wahrscheinlichkeit, dass ein Master besteht). Änderungen des „Cut-Off“-Punkts des Testwerts führen zu einer Erhöhung oder Verringerung der Sensitivität bei gleichzeitiger Verringerung bzw. Erhöhung der Spezifität.

Das Ausmaß, mit dem man durch die Prüfung Master und Non-Master erkennen kann, wird als „Entscheidungsgenauigkeit“ bezeichnet. Der vollständigen Darstellung dient die linke Vierfeldertafel in Tabelle 1 [Tab. 1], die die Relativanteile für Master/Prüfung bestanden, Master/Prüfung nicht bestanden, Non-Master/bestanden und Non-Master/nicht bestanden aufführt.

Werden zwei äquivalente Prüfungen durchgeführt, so ist der Grad der Übereinstimmung der beiden Prüfungsergebnisse die Entscheidungskonsistenz („decision consistency“, „pass-fail reliability“). Die analoge Vierfeldertafel zeigt Tabelle 1 [Tab. 1] rechts. Bei Äquivalenz der Prüfungen muss der Anteil von Studierenden, der in der ersten Prüfung besteht und in der zweiten nicht, genau so groß sein, wie der, die in der ersten durchfallen und in der zweiten bestehen.

Die beiden in der Literatur am häufigsten verwendeten Kennmaße für die Entscheidungsgenauigkeit und die -konsistenz sind die relative Zahl der Korrektentscheidungen Pa (entspricht der „Korrektklassifikationsrate“ in diagnostischen Tests) bzw.Übereinstimmungen Pc [11] und Cohens κ [4] (für seine Verwendung im Zusammenhang mit Sensitivität und Spezifität diagnostischer Tests s. [3]). Cohens κ korrigiert die Zahl der Korrektentscheidungen Pa und der Übereinstimmungen Pc um den Effekt, der unter Zufall aus den Randsummen der Vierfeldertafel zu erwarten wäre. Die entsprechenden Werte seine durch κa bzw. κc bezeichnet.

κ nimmt bei vollständiger Übereinstimmung maximal den Wert 1 an. Die Verwendung von κ als Maß der Übereinstimmung wird mancherorts kritisiert (z. B. [10]) und andere Alternativen propagiert. Unseres Erachtens besitzen in diesem Zusammenhang alle Koeffizienten jedoch den Nachteil, dass bei Reduktion auf einen einzigen Index wesentliche Informationen verlorengehen. Es sollte deshalb zur Beurteilung einer Prüfung immer die gesamte Vierfeldertafel herangezogen werden.

Verfahren zur Abschätzung der Entscheidungsgenauigkeit und –konsistenz bei einzelnen Prüfungen

In der Literatur wird eine Vielzahl von Verfahren zur Bestimmung der Entscheidungskonsistenz von einzelnen Prüfungen dargestellt, bekannt sind etwa das Verfahren von Livingston-Lewis [16] oder das von Peng-Subkoviak [18]. Übersichten und Vergleiche finden sich etwa bei [6], [13], [14], [23], [25]. Unseres Erachtens kann zum gegenwärtigen Zeitpunkt keine eindeutige Präferierung unter den verschiedenen Methoden vorgenommen werden.

Das Verfahren von Douglas und Mislevy

Das Verfahren von Douglas und Mislevy [7][8] dient zur Bestimmung der Entscheidungsgenauigkeit und konsistenz bei komplexen Entscheidungsregeln aus den Einzelprüfungen. Voraussetzung ist, dass die Daten der Einzelprüfungen durch eine multivariate Normalverteilung beschrieben werden können und die Reliabilitäten der Prüfungen bekannt sind. In der Praxis sind die Verteilungen von Prüfungsergebnissen jedoch nicht normalverteilt, weshalb eine adäquate Transformation der Daten vorgenommen werden muss. Für die genaue Beschreibung des Vorgehens muss hier auf die Originalliteratur [7], [8] verwiesen werden.

Zum Verständnis sei ein einfaches fiktives Beispiel für die Bestimmung der Entscheidungsgenauigkeit mit zwei Einzelprüfungen graphisch dargestellt (siehe Abbildung 1 [Abb. 1]). Insgesamt hat bestanden, wer beide Einzelprüfungen bestanden hat (konjunktive Verknüpfung).

Abbildung 1a [Abb. 1] stellt die Verteilung der Prüfungsergebnisse dar. Die Teilnehmer, deren Ergebnisse im gelben Teil der Verteilung liegen, haben beide Einzelprüfungen und somit auch insgesamt bestanden (in der Tabelle 1 [Tab. 1] ist das der Anteil a1+2). Orange unterlegt ist der Teil der Verteilung, bei dem eine Einzelprüfung bestanden und eine nicht bestanden wurde. Insgesamt haben diese Personen damit nicht bestanden, ebenso natürlich wie diejenigen, die keine der beiden Einzelprüfungen bestanden haben (braun unterlegt). Der Anteil des im Grundriss "L-förmige" Bereichs (orange und braun) derjenigen, die insgesamt nicht bestehen ist in Tabelle 1 [Tab. 1] mit a3+4 bezeichnet.

Im Verfahren von Douglas und Mislevy wird nach dem Modell der klassischen Testtheorie und der Normalverteilungsannahme die Verteilung der „wahren Werte“ bestimmt, also die Verteilung der Werte, wenn diese messfehlerfrei gemessen worden wären. Hierzu müssen die Reliabiltäten der Einzelprüfungen bekannt sein. Die resultierende Verteilung besitzt eine deutlich geringere Varianz. Auf der Ebene der wahren Werte sind „Master“ und „Non-Master“ definiert. Abbildung 1b [Abb. 1] zeigt diese Verteilung, die Master sind diejenigen, die in beiden abgeprüften Inhalten die Mindestanforderungen erfüllen (grüner Bereich, in Tabelle 1 [Tab. 1] a1+3), Non-Master die, die mindestens bei einem Gebiet der beiden Einzelprüfungen die Mindestanforderung nicht erfüllen (im Grundriss "L förmiger" roter Bereich, a2+4 in Tabelle 1 [Tab. 1]).

Zur Bestimmung der Entscheidungsgenauigkeit wird nun im Modell betrachtet, wie die Ergebnisse der Master verteilt sind (siehe Abbildung 1c [Abb. 1]). Aufgrund der Messfehler der Prüfungen fällt ein Teil der Master durch (dunkelgrüner Bereich). Der hellgrüne Bereich stellt also den Anteil der Master dar, die insgesamt bestehen (in der Tabelle 1 [Tab. 1] das a1), der dunkelgrüne den der Master, die insgesamt durchfallen (siehe Tabelle 1 [Tab. 1] a3).

Die entsprechende Abbildung für die Non-Master ist Abbildung 1d [Abb. 1]. Diese ist zur besseren Sichtbarkeit der Grenzlinien aus einer anderen Perspektive dargestellt. Hellrot ist der Anteil der Non-Master, die insgesamt nicht bestehen, dunkelrot derer, die insgesamt bestehen (in Tabelle 1 [Tab. 1] a4 bzw. a2).

Fasst man die beiden Verteilungen der Master und Non-Master in Abbildung 1c [Abb. 1] und 1d [Abb. 1] zusammen, so ergibt sich wieder die Gesamtverteilung der Prüfungsergebnisse der Abbildung 1a [Abb. 1].


3. Methodik

3.1 Daten

Ziel der Studie ist eine Analyse der Ergebnisse der Prüfungen für den fächerübergreifenden Leistungsnachweis Innere Medizin/Allgemeinmedizin/Klinische Chemie an der medizinischen Fakultät Heidelberg des Wintersemesters 2012/2013. Der Leistungsnachweis besteht aus der schriftlichen Klausur Innere Medizin/Allgemeinmedizin, einer praktisch-mündlichen Prüfung (OSCE) und der Klausur Klinische Chemie. Zusätzlich sind zur Erlangung des Leistungsnachweises noch ein Patientenbericht zu erstellen, ein MiniCEX abzulegen und zur Prüfung professionellen Verhaltens Encounter Cards einzuholen. Da bei diesen die Bestehensrate jeweils 100% beträgt, besitzen sie hier keine Relevanz. Für die Auswertung wurden nur die Studierenden berücksichtigt, die an allen drei Prüfungen teilgenommen haben (N=147). Die Basisdaten der Prüfungen sind in Tabelle 2 [Tab. 2] aufgeführt. Insgesamt sind 7 der 147 Teilnehmer an allen drei Prüfungen bei wenigstens einer Teilprüfung durchgefallen.

Für die Klausuren in den Fächern Klinische Chemie und Innere Medizin wurde als Master definiert, wer 60% der Aufgaben im zugrundeliegenden Aufgabenpool der jeweiligen Fächer zutreffend löst. Für den OSCE ist als Master definiert, wessen durchschnittlich erreichte Punktzahl in OSCE-Stationen des Faches die durch das Standard-Setting festgelegte Punktzahl erreicht („performance standard“, [5]).

Als Bestehensgrenzen für die Klausuren wurden jeweils 60% der erreichbaren Punktzahlen bei den tatsächlich gestellten Aufgaben gewählt, beim OSCE war Bestehensgrenze das Mittel der im Standard-Setting festgelegten Punktzahlen der verwendeten Stationen („passing score“).

3.2 Statistische Analyse

Die Analyse der Entscheidungsgenauigkeit und der -konsistenz von „bestanden“/„durchgefallen“ erfolgt im Wesentlichen mit dem von Douglas und Mislevy vorgeschlagenen Verfahren [7], [8].

Das Verfahren von Douglas und Mislevy macht keine Annahmen über die interne testtheoretische Struktur der Einzelprüfungen noch über die zwischen den einzelnen Prüfungen. Insbesondere müssen die Einzelprüfungen nicht homogen oder eindimensional sein, noch muss durch das Gesamt der Prüfungen eine „einheitliche“ Leistungsdimension abgebildet werden. Voraussetzung ist jedoch, dass die Daten hinreichend gut durch eine Normalverteilung beschrieben werden und die Messzuverlässigkeiten (Reliabilitäten) der Einzelprüfungen adäquat abgeschätzt werden.

Da die Punktwerte der Prüfungen jeweils hochsignifikant von Normalverteilungen abweichen (Shapiro-WilksTests: alle p<0,0008), wurden die Daten einer multivariaten Box-Cox-Transformation unterworfen [1]. Für die so transformierten Daten ergab ein Test auf Abweichung von einer trivariaten Normalverteilung mittels des verallgemeinerten Shapiro-Wilks-Tests von Villasenor-Alva und Gonzalez-Estrada [22] ein p=0,8467 (MVW=0,9929), so dass von einer hinreichend guten Anpassung der Daten ausgegangen werden kann. Im Unterschied zu der in der Arbeit von Douglas und Mislevy verwendeten normalisierenden Rangtransformation, wird mit dieser Transformation eine Anpassung an eine multivariate Normalverteilung angestrebt. Zur Abschätzung der Reliabilität der Einzelprüfungen wurde der Koeffizient λ2 von Guttman gewählt, der eine leicht bessere Schätzung für die Mindestreliabilität als Cronbachs α (=Guttmans λ3) erlaubt [9].

Die Vierfeldertafeln von Entscheidungsgenauigkeit und -konsistenz für die Einzelprüfungen und ihrer konjunktiven Verknüpfung wurden durch numerische Integration der multivariaten Normalverteilungen mit dem Algorithmus von Miwa, Hayter und Kuriki [17] bestimmt.

Die Analyse unter Berücksichtigung zweier Wiederholungsmöglichkeiten für jede Einzelprüfung ist insofern eher theoretischer Natur, als anzunehmen ist, dass Studierende, die eine Prüfung nicht bestanden haben, auf die Wiederholungsprüfung konzentriert lernen. In der hier vorgenommenen Analyse wird angenommen, dass die Studierenden diese Prüfungen mit demselben Wissenstand ablegen wie die erste. Für die zur Bestimmung der Kennwerte erforderliche Integration einer höherdimensionalen Normalverteilung ist der Algorithmus von Miwa et al. [17] ungeeignet, so dass diese Analyse wie in [8] durch Monte-Carlo-Integration erfolgte. Insgesamt wurden hierzu 100.000 simulierte Datensätze erzeugt um eine ausreichende Genauigkeit der Ergebnisse zu gewährleisten.


4. Ergebnisse

4.1 Einzelprüfungen

Für die einzelnen Prüfungen ergeben sich die Vierfeldertafeln in Tabelle 3 [Tab. 3], Tabelle 4 [Tab. 4] und Tabelle 5 [Tab. 5]. Die aus dem Normalverteilungsmodell resultierende geschätzten Anzahl von Prüfungsteilnehmern, die die Prüfung nicht bestehen, sind: Durchfallquote des Modells ×N=0,0331×147=4,9 für die Klausur Innere Medizin, 3,0 für Klinische Chemie und 1,9 für den OSCE. Damit weichen diese Raten nur wenig von der Zahl der tatsächlich durchgefallenen Studierenden 4, 5 bzw. 1 ab (siehe Tabelle 2 [Tab. 2]). Bei allen drei Prüfungen sind Cohen’s κ-Koeffizienten κa (Entscheidungsgenauigkeiten) und κc (Entscheidungskonsistenzen) niedrig.

4.2 Zusammengesetzte Prüfungen
4.2.1 Konjunktive Verknüpfung der Einzelprüfungen

Für die konjunktive Kombination der drei Prüfungen sind Entscheidungsgenauigkeit und -konsistenz in Tabelle 6 [Tab. 6] aufgeführt. Gemäß dem Modell von Douglas und Mislevy wäre zu erwarten, dass 7,8 Teilnehmer (= Durchfallquote des Modells ×N=0,0531×147=7,8) nicht bestehen, tatsächlich sind 7 Teilnehmer durchgefallen (mehrere der Studierende haben mehr als eine Prüfung nicht bestanden), so dass auch hier eine zufriedenstellende Übereinstimmung des Modells und der tatsächlichen Daten vorliegt. Die Prüfungslogik führt zu einer klaren Aussortierung der Studierenden, die den Anforderungen nicht genügen, der Anteil von Non-Mastern, die bei allen drei Prüfungen bestehen, beträgt insgesamt nur 0,004 (wobei jedoch berücksichtigt werden muss, dass deren Gesamtanteil lediglich bei 0,0232 liegt). Die „Sensitivität“ zur Entdeckung von Non-Mastern beträgt 82%, die „Spezifität“ liegt bei 97%, der positive Vorhersagewert ist mit 36% jedoch gering.

Die Entscheidungskonsistenz (Wiederholung mit drei jeweils äquivalenten Prüfungen) erreicht mit κc=0,474 keinen befriedigenden Wert. 94,7% der Prüfungsteilnehmer würden gleich klassifiziert werden (Pc) d. h. bei 5,3% der Teilnehmer erhielte man unterschiedliche Aussagen zum Bestehen des gesamten Leistungsnachweises.

4.2.2 Komplexe konjunktive und disjunktive Verknüpfung bei Prüfungswiederholungen

Insgesamt kann jede der drei Prüfungen Innere Medizin, Klinische Chemie und der OSCE zweimal wiederholt werden, bevor der Studierende endgültig nicht bestanden hat. Logisch bedeutet das, dass ein Studierender eine von drei Klausuren Innere Medizin, eine von drei Prüfungen in Klinischer Chemie und einen von drei OSCEs bestanden haben muss. Innerhalb eines Prüfungsformats wird die Entscheidung bestanden/nicht bestanden also disjunktiv verknüpft, diese drei Teilentscheidungen sodann konjunktiv (siehe Abbildung 2 [Abb. 2]). Die Tatsache, dass ein Studierender, der eine erste Prüfung bestanden hat, gar nicht zu einer weiteren antritt, ist für die Entscheidungslogik ohne Belang.

In Tabelle 7 [Tab. 7] sind die Vierfeldertafeln für die Entscheidungsgenauigkeit und -konsistenz unter der Annahme dargestellt, dass ein Studierender in allen Prüfungen mit dem selben Wissensstand antritt.

Bedeutend ist hier vor allem, dass von den 2,32% der Studierenden (a2+4=0,0232), die die Anforderungen nicht erfüllen (Non-Master), mehr als die Hälfte (a2=0,0124) den Leistungsnachweis schlussendlich doch erhalten würde, d. h. durch die Möglichkeit der Wiederholungen wird nur noch ein Teil der Studierenden, die den Anforderungen nicht genügen, vom Weiterstudium ausgeschlossen (man beachte den substantiellen Unterschied zu den Ergebnissen des vorigen Abschnitts, bei dem der entsprechende Wert mit a2=0,0040 in Tabelle 6 [Tab. 6] gegenüber 0,0124 in Tabelle 7 [Tab. 7] deutlich niedriger ist).


5. Diskussion

Einzelprüfungen

Entscheidungsgenauigkeit: Alle drei Einzelprüfungen weisen eine insgesamt zufriedenstellende Reliabilität auf (siehe Tabelle 2 [Tab. 2]). Von den „Non-Mastern“, die insgesamt nur einen Anteil von 0,5 – 1,8% (siehe Tabellen 3 [Tab. 3][Tab. 4] bis 5 [Tab. 5], a2+4) der Prüfungsteilnehmer ausmachen, besteht aber jeweils ein knappes Drittel die Prüfungen (a2). Der relative Anteil der Master, die die Prüfung nicht bestehen ist in allen Fällen gering (a3), in absoluten Zahlen sind dies aber jeweils deutlich mehr als Non-Master an der Prüfung teilnehmen, so dass bei allen drei Prüfungen mehr als doppelt so viel Kandidaten durchfallen als Non-Master in der Gruppe anzunehmen sind.

Entscheidungskonsistenz: Die Zuverlässigkeit der Entscheidung „durchgefallen“ muss als unzufriedenstellend eingestuft werden. Von denjenigen, die durchfallen, würden etwa 60–65% bei einer äquivalenten Wiederholungsprüfung bestehen. Die geringe Entscheidungskonsistenz zeigt sich auch in den niedrigen κc-Werten von 0,33–0,41

Konjunktive und komplexe Verknüpfungen der Prüfungsergebnisse

Entscheidungsgenauigkeit: Die Vierfeldertafel der Entscheidungsgenauigkeit für die konjunktive Verknüpfung der drei Prüfungen (siehe Tabelle 6 [Tab. 6]) zeigt, dass von den 2,3% Non-Mastern (also Studierende, die in mindestens einem der drei Fächer den Mindestansprüchen nicht genügen), lediglich 17% bestehen (a2/a2+4=0,040/0,232=0,0172). Es erhöht sich jedoch der relative Anteil an Mastern, die durchfallen auf 3,5% (a3/a1+3=0,0348), bei den Einzelprüfungen lag dieser Anteil bei höchstens 2%. Auch hier fallen deutlich mehr Prüflinge durch (5,3%, a3+4) als Non-Master teilnehmen. Cohens κa ist mit 0,49 fast genauso hoch wie das des besten κa bei den Einzelprüfungen (Klausur Innere Medizin), geringer ist der Anteil an Korrektklassifikationen mir Pa=0,96. Die Aussage, dass bei konjunktiven Verknüpfungen die Prüfung mit der schlechtesten Entscheidungsgenauigkeit dominiert ist demzufolge etwas differenzierter zu beurteilen.

Berücksichtigt man die Tatsache, dass jedem Studierenden zwei Wiederholungsmöglichkeiten zur Verfügung stehen (siehe Tabelle 7 [Tab. 7]), so müssen unter der Annahme, dass die Studierenden mit dem selben Wissen oder Können in äquivalente Wiederholungsprüfungen gehen, nur 47% der Non-Master den Leistungsnachweis endgültig nicht erhalten (a4/a2+4=0,0108/0,0232=0,4655). Bei den Mastern ist der Anteil mit 2.3‰ verschwindend gering (a3/a1+3=0,0022/0,9768=0,0023). Damit ist die Prüfungsstruktur mit den beiden Wiederholungsmöglichkeiten für jede Einzelprüfung offensichtlich nur wenig geeignet, die Non-Master zuverlässig zu erkennen.

Entscheidungskonsistenz: Bei der konjunktiven Verknüpfung der drei Prüfungen ist die Stabilität der Entscheidung „durchgefallen“ ebenfalls nicht zufriedenstellend, aber etwas besser als in den Einzelprüfungen. Bei einem äquivalenten Prüfungskomplex, bestehend aus den Prüfungen in den drei Fächern, würde etwas mehr als die Hälfte die Prüfung bestehen. Wird als Index für die Konsistenz κc verwendet, so ist dieser mit 0,47 höher als bei jeder Einzelprüfung.

Bei Berücksichtigung der Wiederholungsmöglichkeiten zeigt sich ein ähnliches Bild, nur etwas mehr als die Hälfte der Studierenden, die letztendlich durchfallen, würden bei einem „Neustart von Anfang an“ erneut ihr Studium abbrechen müssen.

Resümee

Zusammenfassend muss festgestellt werden, dass die Entscheidung „bestanden“/„durchgefallen“ sowohl hinsichtlich ihrer Genauigkeit als auch ihrer Konsistenz mit den durchgeführten Prüfungen einer Verbesserung bedarf. Durch die Wiederholungsmöglichkeiten ist auch ein „Aussieben“ der Non-Master nicht zuverlässig möglich, andererseits besteht kaum Gefahr, dass jemand, der den Anforderungen genügt, auf Grund ein- oder mehrfachen Pechs bei Prüfungen sein Studium beenden muss.

Als Grund hierfür könnte zunächst das Normalverteilungsmodell für das Ergebnis verantwortlich gemacht werden. Um bei niedrigen Nichtbestehensquoten eine akzeptable Entscheidungsgenauigkeit und -konsistenz zu erreichen, benötigt man eine äußerst hohe Reliabilität (für den κc-Koeffizienten ist eine entsprechende Tabelle in [21] angegeben). Diese Eigenschaft ist jedoch nicht spezifisch für die Normalverteilung, hier nicht dargestellte Analysen für andere Verteilungsannahmen führen zu ähnlichen Resultaten. Bei den üblichen Annahmen für die Verteilungsform der Punktzahlen in Prüfungen liegen bei niedrigen Nichtbestehensquoten und nicht exzessiv hohen Reliabilitäten die meisten Non-Master in der Nähe der Bestehensgrenze. Dies ist unabhängig davon, ob es sich um eine (z. B. gesetzlich vorgegebene) formale, norm- oder kriteriumsorientierte Grenze handelt. Deshalb besteht eine relativ hohe Wahrscheinlichkeit, dass die Non-Master „mit etwas Glück“ bestehen, so dass bei diesen weder eine hohe Genauigkeit noch Konsistenz zu erwarten ist.

Einschränkungen des Verfahrens von Douglas und Mislevy

Die wesentliche Beschränkung des Verfahrens von Douglas und Mislevy ist die Annahme einer multivariaten Normalverteilung. Bei den hier analysierten Prüfungen war durch eine multivariate Box-Cox-Transformation eine akzeptable Normalisierung der Daten möglich, was für die Daten anderer Prüfungen nicht in jedem Fall gelingen wird. Weiter impliziert die Annahme einer multivariaten Normalverteilung für die wahren Werte und Messfehler einen konstanten Messfehler. An der Bestehensgrenze kann der Messfehler jedoch deutlich höher sein und zu einer Überschätzung der Entscheidungsgenauigkeit führen. Andererseits sind die Verteilungen der beobachteten Punktwerte deutlich linksschief, durch die normalisierende Transformation werden die Werte sehr schlechter Studierender „näher’ an die Bestehensgrenze gerückt, womit sie in der Analyse eher zur Gruppe derjenigen zählen, für die aufgrund der Messungenauigkeit fehlerhafte oder inkonsistente Entscheidungen zu erwarten sind, obwohl sie in der Originalskala zuverlässig als Non-Master erkannt werden.

Niedrige Entscheidungsgenauigkeit und -konsistenz: Konsequenzen für Prüfungen

Bei niedrigen Nichtbestehensraten, wie sie in der analysierten Prüfung auftreten, wäre zum Erreichen einer ausreichenden Zuverlässigkeit der Entscheidung „bestanden“/„durchgefallen“ eine hochreliable Prüfung erforderlich. Dies ist insofern nicht überraschend, als bei einer Prüfung mit den üblicherweise angestrebten Messzuverlässigkeiten ein Großteil der Aufgaben gute Trenneigenschaften für den Großteil der Probanden aufweist, für die Separation der dünn besetzten Extremgruppen aber wenig Informationen liefert. Ein – in der üblichen Prüfungspraxis der Universitäten zwar schwer etablierbares – Vorgehen wäre die Durchführung von zwei Prüfungen: Die erste dient der üblichen Bewertung der studentischen Leistungen, die zweite wird speziell zur Identifikation von Mastern und Non-Mastern mit spezifisch für diesen Zweck selegierten Aufgaben durchgeführt (auf letzteres hat bereits Kane [12], p. 430) hingewiesen. In der ersten Prüfung wird eine relativ hohe Bestehensgrenze eingesetzt, mit der die Wahrscheinlichkeit, dass ein Non-Master besteht, sehr gering bleibt. Die verbleibende Gruppe besteht dann aus (schlechten) Mastern und Non-Mastern, die im zweiten Test möglichst gut zu separieren ist. Methoden der optimalen Aufgabenwahl finden sich in der Literatur zu „(computerized) classification tests“ (CCT) (z. B. [20], [15]).


6. Zusammenfassung und Ausblick

Das Verfahren von Douglas und Mislevy ist dazu geeignet, Prüfungen, die sich aus mehreren Teilprüfungen zusammensetzen und bei denen die Gesamtentscheidung über „bestanden/durchgefallen“ das Resultat einer komplexen Verknüpfung der Einzelergebnisse ist, hinsichtlich der Entscheidungsgenauigkeit und -konsistenz dieser Gesamtentscheidung zu analysieren. Praktisch bedeutsam sind vor allem konjunktive Verknüpfungen (jede einzelne Prüfung muss bestanden werden) oder disjunktive Verknüpfungen (von mehreren Prüfungen muss nur eine bestanden werden, dies gilt etwa für Wiederholungsprüfungen).

Als Beispiel wurde der für die gegenwärtige deutsche Medizinerausbildung bedeutsame Fall eines „fächerübergreifenden Leistungsnachweises“ gewählt. In diesem Beispiel werden theoretische und praktische Prüfungen verschiedener Fächer kombiniert, zum Bestehen ist das Bestehen jeder einzelnen Prüfung erforderlich. Für jede Einzelprüfung stehen dem Studierenden zwei Wiederholungsmöglichkeiten zur Verfügung.

Mit dem Verfahren von Douglas und Mislevy konnten Entscheidungsgenauigkeit und konsistenz des Leistungsnachweises erfolgreich analysiert werden, es zeigte sich eine hohe Übereinstimmung des Modells mit den Daten.

Die Analyse zeigte auch eine wesentliche Problematik von Prüfungen bei niedrigen Durchfallquoten auf: Mit Prüfungen, die den gewöhnlichen Ansprüchen an eine hinreichende Reliabilität entsprechen, sind diese nur schwer zuverlässig zu identifizieren. Erforderlich wären zielgerichtete Klassifikationstests mit entsprechender Aufgabenwahl zur Identifikation der „Master“ und „Non-Master“.

Eine Analyse von Entscheidungsgenauigkeit und -konsistenz sollte bei relevanten Prüfungen allgemein durchgeführt werden. Die Beschränkung auf das Normalverteilungsmodell muss noch als erheblicher limitierender Faktor betrachtet werden, es ist zu hoffen, dass geeignete Verfahren mit schwächeren Verteilungsannahmen (z. B. multivariate Betabinomialverteilungen) oder verteilungsfreie Methoden entwickelt werden.


Interessenkonflikt

Die Autoren erklären, dass sie keine Interessenkonflikte im Zusammenhang mit diesem Artikel haben.


Literatur

1.
Andrews DF, Gnanadesikan R, Warner JL. Transformations of multivariatedata. Biometrics. 1971;27:825–840. DOI: 10.2307/2528821 Externer Link
2.
Bandaranayake RC. Setting and maintaining standards in multiple choice examinations: AMEE Guide No. 37. Med Teach. 2008;30(9-10):836–845. DOI: 10.1080/01421590802402247 Externer Link
3.
Brenner H, Gefeller O. Chance-corrected measures of the valdity of a binary diagnostic test. J Clin Epidemiol. 1993;47(6):627–633. DOI: 10.1016/0895-4356(94)90210-0 Externer Link
4.
Cohen J. A coefficient of agreement for nominal scales. Educ Psychol Measure. 1960;20:37–46. DOI: 10.1177/001316446002000104 Externer Link
5.
Cusimano MD. Standard setting in medical education. Acad Med. 1996;71:112–120. DOI: 10.1097/00001888-199610000-00062 Externer Link
6.
Deng N. Evaluating IRT-and CTT-based Methods of Estimating Classification Consistency and Accuracy Indices from Single Administrations. Massachusetts: University of Massachusetts; 2011. Open Access Dissertations. Paper 452. Zugänglich unter/available from: http://scholarworks.umass.edu/cgi/viewcontent.cgi?article=1451&context=open_access_dissertations Externer Link
7.
Douglas KM. A general method for estimating the classification reliability of complex decisions based on configural combinations of multiple assessment scores.Unpublished dissertation. Maryland: University of Maryland; 2007.
8.
Douglas KM, Mislevy RJ. Estimating classification accuracy for complex decision rules based on multiple scores. J Educ Behav Stat. 2010;35:280–306. DOI: 10.3102/1076998609346969 Externer Link
9.
Guttman LA. A basis for analyzing test-retest reliability. Psychomet. 1945;10:255–282. DOI: 10.1007/BF02288892 Externer Link
10.
Gwet KL. Handbook of inter-rater reliability (2nd ed.). Gaithersburg: Advanced Analytics, LLC; 2010.
11.
Hambleton RK, Novick MR. Toward an integration of theory and method for criterion-referenced tests. J Educ Meas. 1973;10:159–96. DOI: 10.1111/j.1745-3984.1973.tb00793.x Externer Link
12.
Kane M. Validating the performance standards associated with passing scores. Rev Educ Res. 1994;64:425–461. DOI: 10.3102/00346543064003425 Externer Link
13.
Kim DI, Choi SW, Um KR. A comparison of methods for estimating classification consistency. Paper presented at the 2006 Annual Meeting of the National Council on Education in Measurement. San Francisco, CA: National Council of Edudation in Measurement; 2006.
14.
Lee WC. Classifcation consistency and accuracy for complex assessments using item response theory. CASMA Research Report No. 27. Iowa City, IA: University of Iowa; 2007.
15.
Lin CJ. Item selection criteria with practical constraints for computerized classification testing. Educ Psychol Meas. 2011;71:20-36. DOI: 10.1177/0013164410387336 Externer Link
16.
Livingston SA, Lewis C. Estimating the consistency and accuracy of classifications based on test scores. J Educ Meas. 1995;32:179–197. DOI: 10.1111/j.1745-3984.1995.tb00462.x Externer Link
17.
Miwa A, Hayter J, Kuriki S. The evaluation of general non-centred orthant probabilities. J Royal Stat Soc. 2003;65:223-U234. DOI: 10.1111/1467-9868.00382 Externer Link
18.
Peng CJ, Subkoviak MJ. A note on Huynh's normal approximation procedure for estimating criterion-referenced reliability. J Educ Meas. 1980;17:359–368. DOI: 10.1111/j.1745-3984.1980.tb00837.x Externer Link
19.
Schuwirth L, Colliver J, Gruppen L, Kreiter C, Mennin S, Onishi H, Pangaro L, Ringsted C, Swanson D, van der Vleuten C, Wagner-Menghin M. Research in assessment: Consensus statement and recommendations from the Ottawa 2010 Conference. Med Teach. 2011;33(3):224–233. DOI: 10.3109/0142159X.2011.551558 Externer Link
20.
Spray JA, Reckase MD. Comparison of SPRT and sequential Bayes procedures for classifying examinees into two categories using a computerized test. J Educ Behav Stat. 1996;21:405–414. DOI: 10.3102/10769986021004405 Externer Link
21.
Subkoviak MJ. A practitioner's guide to computation and interpretation of reliability indices for mastery tests. J Edc Meas. 1988;25:47–55. DOI: 10.1111/j.1745-3984.1988.tb00290.x Externer Link
22.
Villasenor-Alva JA, Gonzalez-Estrada E. A generalization of Shapiro-Wilk's test for multivariate normality. Communication Stat Theo Method. 2009;38:1870–1883. DOI: 10.1080/03610920802474465 Externer Link
23.
Wan L,Brennan RL, Lee W. Estimating classification consistency for complex assessments. CASMA Research Report No. 22. Iowa City, IA: University of Iowa; 2007.
24.
Wheadon C, Stockford I. Estimation of composite score classification accuracy using compound probability distributions. Psychol Test Assess Mod. 2013;55:162–180.
25.
Zhang B. Assessing the accuracy and consistency of language proficiency classification under competing measurement models. Lang Test. 2010;27:119–140. DOI: 10.1177/0265532209347363 Externer Link
26.
Zieky M, Perie M. A Primer on Setting Cut Scores on Tests of Educational Achievement. Washington/DC: Educational Testing Service; 2006. Zugänglich unter/available from: http://www.ets.org/Media/Research/pdf/Cut_Scores_Primer.pdf Externer Link