gms | German Medical Science

GMS Journal for Medical Education

Gesellschaft für Medizinische Ausbildung (GMA)

ISSN 2366-5017

Vorhersagevalidität eines Instruments zur Beseitigung von Grenznoten bei OSCE-Prüfungen

Artikel OSCE

Suche in Medline nach

  • author Rowan Klein Nulend - University of New South Wales, Office of Medical Education, Sydney, Australien
  • author Peter Harris - University of New South Wales, Office of Medical Education, Sydney, Australien
  • corresponding author Boaz Shulruf - University of New South Wales, Office of Medical Education, Sydney, Australien

GMS J Med Educ 2020;37(3):Doc31

doi: 10.3205/zma001324, urn:nbn:de:0183-zma0013243

Dieses ist die deutsche Version des Artikels.
Die englische Version finden Sie unter: http://www.egms.de/en/journals/zma/2020-37/zma001324.shtml

Eingereicht: 18. März 2019
Überarbeitet: 19. November 2019
Angenommen: 7. Januar 2020
Veröffentlicht: 15. April 2020

© 2020 Klein Nulend et al.
Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung). Lizenz-Angaben siehe http://creativecommons.org/licenses/by/4.0/.


Zusammenfassung

Es liegen keine eindeutigen Belege dafür vor, welches Standard-Setting-Verfahren die höchste Validität für Entscheidungen über das Bestehen bzw. Nichtbestehen von Prüfungen ergibt. Die Objective Borderline Method 2 (OBM2) ist ein Instrument zur Entscheidungsunterstützung für die Neueinstufung von Grenznoten als eindeutige Bestehens- oder Nichtbestehensnoten. So können Unsicherheiten der Prüfer bei folgenreichen Entscheidungen über das Bestehen bzw. Nichtbestehen beseitigt werden.

In dieser Studie wurde die Vorhersagevalidität von OBM2-basierten Entscheidungen über das Bestehen bzw. Nichtbestehen unter Verwendung der Ergebnisse der Objective Structured Clinical Examination (OSCE) in aufeinanderfolgenden Jahren innerhalb einer Kohorte von Medizinstudenten (N 71) an der University of New South Wales, Australien, geprüft. OBM2-basierte Entscheidungen in einer OSCE-Prüfung (N=687) wurden mit den in einer darauffolgenden OSCE-Prüfung erhaltenen Noten anhand von t-Tests für unabhängige Stichproben und einer Varianzanalyse (ANOVA) verglichen. Der Umfang des Zusammenhangs zwischen diesen beiden Variablen bestimmt die Vorhersagevalidität von OBM2-basierten Entscheidungen, vorausgesetzt, die vorherigen Noten der Studenten lassen Vorhersagen zur zukünftigen Leistung zu.

Es wurde gezeigt, dass durch OBM2-basierte Entscheidungen bei einer ersten OSCE-Prüfung statistisch signifikante Vorhersagen für die nachfolgenden OSCE-Noten (p=0,005) getroffen werden können. In den Fällen, in denen die Noten aus der ersten Prüfung als Bestehensnote neueingestuft wurden, waren die nachfolgenden OSCE-Noten signifikant besser als in den Fällen, in denen die Noten aus der ersten Prüfung als Nichtbestehensnote neueingestuft wurden. Ein stärkerer Zusammenhang wurde für verwandte Bewertungsdomänen/-kriterien im Vergleich zu nicht verwandten Domänen/Kriterien gefunden (Cohens d=0,469 versus Cohens d=0,388).

Der gezeigte prädiktive Zusammenhang der OBM2-basierten Entscheidungen über Prüfungen hinweg stützt die Vorhersagevalidität der OBM2. Sie wird daher als eine vielversprechende Methode zur Beseitigung von Unsicherheiten der Prüfer bei Entscheidungen über das Bestehen bzw. Nichtbestehen von OSCE-Prüfungen betrachtet.

Schlüsselwörter: OCSE, Grenznoten, Bewertung, Medizinstudenten


1. Einleitung

Auf Bewertungsstrategien basierende Entscheidungen im Rahmen eines Medizinstudiengangs müssen belastbar sein [1], [2], [3]. Subjektivität mindert die Belastbarkeit von Prüfungen; um die Objektivität bei OSCE-Prüfungen zu erhöhen, wird daher meist ein Standard-Setting-Verfahren angewendet [4]. Standard-Setting-Verfahren dienen zur Bestimmung von Cut-Scores, die dem Mindestmaß an erforderlicher Kompetenz/Leistung bei einer Bewertungsaufgabe entsprechen [4], [5].

Es stehen viele Standard-Setting-Verfahren zur Verfügung; alle in der aktuellen Literatur untersuchten Verfahren weisen jedoch subjektive Aspekte und Ungenauigkeiten sowie uneindeutige Daten zu deren Effizienz auf [6], [7]. In den meisten Verfahren ist eine Beurteilung durch Experten/Prüfer vorgesehen. Obwohl diese Beurteilungen von Experten auf dem jeweiligen Gebiet erfolgen, ist eine vollständige Objektivität in diesen Fällen niemals möglich [6], [8], [9]. Da es für das Standard-Setting keinen Goldstandard gibt, ist hierbei die Validierung eines Standard-Setting-Verfahrens die größte Herausforderung [8]. In früheren Studien wurde gezeigt, dass bei der Anwendung zweier oder mehrerer Standard-Setting-Verfahren auf denselben Datensatz jedes Verfahren einen anderen Cut-Score ergibt [10], [11], [12].

Weitere Probleme sind die Definition des Grenzwerts, meist auch bezeichnet als „minimal kompetenter“ Student, und die Variabilität der Expertenmeinung in dieser Domäne [13]. Ein Grenzergebnis liegt vor, wenn der Prüfer die abgelieferte Leistung nicht eindeutig als „bestanden“ oder „nicht bestanden“ einordnen kann. Dieser Fall tritt ein, wenn die Leistung des Studenten nah am erwarteten Cut-Score liegt, der zwischen Bestehens- und Nichtbestehensnoten unterscheidet [4].

Zur Lösung dieses Problems wurde die Objective Borderline Method (OBM) eingeführt [10]. Die OBM ist ein Standard-Setting-Verfahren, bei dem Grenznoten nachträglich entweder als Bestehens- oder Nichtbestehensnoten eingestuft werden. Die Grundlage dafür bildet das Verhältnis der Prüfungsteilnehmer, die bestanden, nicht bestanden oder Grenznoten erhalten haben [14]. Dieses Modell basiert auf Wahrscheinlichkeit unter Verwendung des Verhältnisses von Bestehens-/Nichtbestehens-/Grenznoten. Bei den meisten Standard-Setting-Verfahren wird ein Cut-Score anhand von Expertenmeinung oder statistischen Verfahren zugewiesen, wie beispielsweise bei der Angoff-Methode bzw. der Borderline-Regression-Methode [10].

Nach der Einführung der OBM wurde die Objective Borderline Method 2 (OBM2) entwickelt. Die OBM2 ist kein Standard-Setting-Verfahren, da hierbei kein Cut-Score ermittelt wird. Sie ist vielmehr ein Instrument zur Entscheidungsunterstützung für die Neueinstufung von Grenznoten. Hierbei werden nur zwei Größen verwendet, um die Neueinstufung der Grenznoten als Bestehens- oder Nichtbestehensnoten auf Einzelfallbasis vorzunehmen: die Fähigkeiten des Prüfungsteilnehmers und die Aufgabenschwierigkeit, die anhand aller Noten einer Prüfung ermittelt wird. Es wurde festgestellt, dass die OBM2 für standardisierte Prüfungen der klinischen Kompetenz anwendbar ist, um Entscheidungen über das Bestehen bzw. Nichtbestehen bei Grenznoten zu treffen [15].

Die OBM2 ist eine wahrscheinlichkeitsbasierte Methode, um die Grenznote eines Prüfungsteilnehmers durch eine Bestehens- oder Nichtbestehensnote für jede Aufgabe zu ersetzen [16], [17]. Somit kann ein Prüfungsteilnehmer beliebig viele Grenznoten zwischen Null und der Gesamtzahl der Aufgaben der Prüfung erhalten (in der aktuellen Studie liegt die Anzahl zwischen 0 und 54 pro Student). Eine Grenznote wird vom Prüfer dann vergeben, wenn er die Ausführung des Prüfungsteilnehmers nicht eindeutig als „bestanden“ oder „nicht bestanden“ einordnen kann [16], [17]. Die Neueinstufung von Grenznoten entweder als Bestehens- oder Nichtbestehensnoten erfolgt anhand des Verhältnisses der Bestehens- (p), Grenz- (b) und Nichtbestehensnoten (f) der Studenten unter Verwendung der folgenden Formel: „OBM-Index=(p/[b+p])×(b/[f+b])“ [16]. Der OBM-Index wird zweimal berechnet: für die vom Studenten erhaltenen Noten für alle Aufgaben zur Bestimmung der „Fähigkeit des Studenten“ und für die von allen Studenten erhaltenen Noten für jede Aufgabe zur Bestimmung der „Aufgabenschwierigkeit“. Somit ergeben sich für jede Grenznote zwei OBM-Indizes. Anschließend werden pro Grenznote die beiden OBM-Indizes verglichen. Wenn „Fähigkeit des Studenten“≥„Aufgabenschwierigkeit“, wird die Grenznote als Bestehensnote neueingestuft. Wenn „Fähigkeit des Studenten“<„Aufgabenschwierigkeit“, wird die Grenznote als Nichtbestehensnote neueingestuft. Die technischen Einzelheiten der OBM2 wurden in früheren Untersuchungen gezeigt [16].

In der Lehre ist die Vorhersagevalidität ein wichtiger Bestandteil der Kriteriumsvalidität, da die Vorhersage der zukünftigen Leistung ein wesentliches Ziel bei Prüfungen ist [18]. Der aktuellen Literatur zufolge können anhand der vorherigen Noten des Studenten Vorhersagen zur zukünftigen Leistung getroffen werden [19]. Wenn die OBM2 diese Erwartung innerhalb einer Gruppe von Studenten mit derselben Note (Grenznote) und anschließender Neueinstufung als Bestehens- oder Nichtbestehensnote widerspiegeln könnte, würde dies die Validität der OBM2 als Instrument zur Neueinstufung von Grenznoten als „eindeutig bestanden“ oder „eindeutig nicht bestanden“ erhöhen. Dies trifft dann zu, wenn ein Student mit einer Grenznote anhand der OBM2-basierten Entscheidung in eine Gruppe einordnet wird, die der tatsächlichen zukünftigen Leistung entspricht, die anhand der vorherigen Noten des Studenten erwartet wurde.

In früheren Studien wurden die OBM2 erklärt und die Belastbarkeit, die Praktikabilität, der Einfluss auf die OSCE-Ergebnisse und die Validität dieses Instruments beurteilt [14], [16], [17]. Für diese Studien wurden jedoch Augenblicksdaten verwendet, die keine Hinweise zur Vorhersagevalidität von OBM2-basierten Entscheidungen über das Bestehen/Nichtbestehen lieferten [10], [14], [16].


2. Ziel

Die Studie zielte darauf ab, zu bestimmen, inwieweit anhand von OBM2-basierten Entscheidungen die zukünftigen Leistungen vorhergesagt werden können. Dadurch kann die Vorhersagevalidität von OBM2-basierten Entscheidungen über das Bestehen/Nichtbestehen bestimmt werden. Zum Erreichen des Ziels wurde die folgende Forschungsfrage formuliert: Wie stark ist der Zusammenhang zwischen OBM2-basierten Entscheidungen in einer OSCE-Prüfung und den in der OSCE-Prüfung des darauffolgenden Jahres erhaltenen Noten?


3. Studienaufbau

In dieser Studie wurden Daten aus an der University of New South Wales (UNSW) in Sydney, Australien, durchgeführten OSCE-Prüfungen verwendet. Das Medizinstudium an der UNSW dauert sechs Jahre bis zum ersten Abschluss. Jeweils im zweiten, im dritten und im sechsten Jahr ist eine OSCE-Prüfung vorgesehen [20]. In dieser Studie wurden Daten aus den OSCE-Prüfungen im zweiten Jahr (als „erste“ OSCE-Prüfung bezeichnet) und im dritten Jahr (als „nachfolgende“ OSCE-Prüfung bezeichnet) derselben Kohorte in zwei aufeinanderfolgenden Jahren (2016/2017) verwendet. In den ersten beiden Jahren des Medizinstudiums an der UNSW wird vorranging Theorie vermittelt. Dabei sind die wöchentlich wechselnden zweistündigen Veranstaltungen zum Erlernen klinischer Fähigkeiten auf dem Campus und im Krankenhaus der einzige klinische Praxisunterricht für die Studenten. Im gesamten dritten Jahr sind die Studenten täglich in einem zugewiesenen Krankenhaus tätig, wobei sie wesentlich mehr klinische Erfahrung sammeln [17], [18].

In der ersten Prüfung werden die Studenten (N=271) in drei Domänen geprüft: allgemeine Kommunikation, klinische Kommunikation und körperliche Untersuchung. Diese Domänen sind in jeweils neun spezifische Bewertungskriterien innerhalb der Benotungsrubrik unterteilt. So kann ein Student bis zu neun Grenzergebnisse pro OSCE-Station erzielen. Die Kohorte war auf vier Standorte verteilt [21]. In der nachfolgenden Prüfung (257 Studenten) werden leicht unterschiedliche Bewertungskriterien verwendet (siehe Tabelle 1 [Tab. 1]) [21]. Diese Prüfung findet an neun Standorten statt.

Die erste und die nachfolgende OSCE-Prüfung bestehen aus sechs verschiedenen Stationen mit unterschiedlichen Fällen und Prüfern [21]. Jede Station wird von einem Prüfer bewertet. Die Prüfer sind sowohl externe Personen als auch Universitätsangehörige. In der ersten OSCE-Prüfung sind 15 Minuten pro Station vorgesehen. Hier stehen die Bewertung der klinischen Fähigkeiten wie die allgemeine Kommunikation, die klinische Kommunikation und die körperliche Untersuchung im Vordergrund [21]. In der nachfolgenden OSCE-Prüfung sind 10 Minuten pro Station vorgesehen. Hier wird neben diesen klinischen Fähigkeiten auch die Fallspezifität bewertet. Somit ist ein umfangreiches klinisches Wissen für eine gute Leistung in dieser Prüfung notwendig [21]. Die Kriterien der nachfolgenden OSCE-Prüfung haben Äquivalente in den drei Domänen der ersten OSCE-Prüfung, wodurch Vergleiche möglich sind. Sowohl für die erste als auch die nachfolgende OSCE-Prüfung ist bei Nichtbestehen ein Zweitversuch möglich. Die Prüfer der nachfolgenden OSCE-Prüfung kannten die Noten der Studenten in der ersten OSCE-Prüfung nicht. Die Studie umfasste Daten von 271 Studenten, die im Jahr 2016 an der OSCE-Prüfung des zweiten Jahres teilnahmen. Diese OSCE-Prüfung umfasst sechs Stationen. An jeder dieser Stationen wird der Student anhand von neun Bewertungskriterien bewertet. Daraus ergeben sich so 54 Noten pro Student für die OSCE-Prüfung des zweiten Jahres. Bei jedem Bewertungskriterium liegt das Augenmerk auf einer der drei Domänen „allgemeine Kommunikation“, „klinische Kommunikation“ oder „körperliche Untersuchung“. Insgesamt wurden in der OSCE-Prüfung des zweiten Jahres 14.634 Noten vergeben (f=83 [0,6%]; b=687 [4,7%]; p=13864 [94,7%], die p-Note umfasst die Noten für „bestanden“ und „Prädikatsnote“). Nach Anwendung der OBM2, wodurch die Grenznoten durch Bestehens- oder Nichtbestehensnoten ersetzt wurden, wurden die Noten je Domäne summiert (gemittelt) und als solche erfasst. In dieser Studie wurden jedoch nur die 687 Grenznoten untersucht, denn nur diese wurden in Bestehens- oder Nichtbestehensnoten geändert.


4. Methoden

Im Folgenden werden „OMB2-basierte Entscheidungen zur Neueinstufung von Grenznoten als eindeutige Bestehens- oder Nichtbestehensnoten“ als „Entscheidungen“ bezeichnet.

Ein Datensatz umfasste alle Grenznoten der ersten Prüfung, für die Entscheidungen getroffen wurden (N=687); der zweite Datensatz umfasste alle Noten der nachfolgenden Prüfung, die mit jeder Entscheidung in der ersten Prüfung korrelierten. Im Falle von 58 der 687 Entscheidungen über Grenznoten in der ersten Prüfung (14 Studenten) traten die betreffenden Studenten die nachfolgende OSCE-Prüfung im darauffolgenden Jahr nicht an. Die Einträge für die nachfolgende Prüfung waren somit nicht vollständig und blieben daher in der Analyse unberücksichtigt. Folglich wurden 629 Entscheidungsgruppen (257 Studenten) analysiert. In der ersten Prüfung können die Studenten maximal neun Grenznoten pro OSCE-Station erhalten, da sie jeweils anhand von neun Kriterien pro Station bewertet werden.

Die Daten für die nachfolgende Prüfung umfassten die ursprünglichen Noten für zehn Bewertungskriterien vor der Anwendung der OBM2 (jeweils fünf für die Stationen für die körperliche Untersuchung und die Stationen für die Krankengeschichte). Die Bewertungskriterien für die Stationen für die körperliche Untersuchung und die Stationen für die Krankengeschichte wurden paarweise zusammengefasst, um fünf neue einheitliche Bewertungskriterien für die nachfolgende Prüfung zu erstellen (siehe Tabelle 1 [Tab. 1]). Diese Zusammenfassung nahmen drei Experten für Prüfungen auf dem Gebiet der klinischen Fähigkeiten von der UNSW vor. Sie entschieden gemeinsam, anhand welcher Kriterien ähnliche Fähigkeiten bewertet werden. Diese Kriterien wurden dann paarweise zusammengefasst.

In einer Datenanalyse wurde die für die erste Prüfung getroffene Entscheidung mit der in der nachfolgenden Prüfung erreichten Note verglichen. Die für die erste Prüfung getroffene Entscheidung wurde als unabhängige Variable so verwendet, dass die Ergebnisse die Vorhersagevalidität der Entscheidung herausstellt. Die Verwendung der ursprünglichen Noten (vor der Anwendung der OBM2) für die nachfolgende OSCE-Prüfung war wichtig, um einen unerwarteten zusammenhanglosen Einfluss der OBM2 auf die Analyse auszuschließen. Daher bestand die Analyse lediglich aus dem Vergleich der Zusammenhänge der Entscheidungen in den ersten OSCE-Prüfungen mit den in den nachfolgenden OSCE-Prüfungen erhaltenen (unveränderten) Noten.

Die Analyse wurde mithilfe von SPSS [22] durchgeführt. Es wurde mit t-Tests für unabhängige Stichproben begonnen. Statistische Signifikanz wurde bei p<0,05 angenommen. Zunächst wurden die Entscheidungen in der ersten Prüfung innerhalb jeder Bewertungsdomäne dieser ersten Prüfung mit den in der nachfolgenden Prüfung erhaltenen Noten für jedes Bewertungskriterium verglichen.

In weiteren Analysen wurde der Zusammenhang zwischen den Entscheidungen in der ersten Prüfung pro Bewertungsdomäne und den in der nachfolgenden Prüfung erhaltenen Noten pro Bewertungskriterium untersucht. Dementsprechend konnte der Zusammenhang der Entscheidungen in der ersten Prüfung und den in der nachfolgenden Prüfung erhaltenen Noten innerhalb verwandter Domänen sowie über verschiedene Domänen hinweg bestimmt werden. Für jeden einzelnen Faktor wurde die Effektstärke Cohens d berechnet [23].

Mithilfe der Varianzanalyse (ANOVA) wurden Tests der Zwischensubjekteffekte durchgeführt, um zu bestimmen, ob die Station den Zusammenhang zwischen den Entscheidungen in der ersten Prüfung und den in der nachfolgenden Prüfung erhaltenen Noten verzerrt.


5. Ergebnisse

Die t-Tests für unabhängige Stichproben (siehe Tabelle 2 [Tab. 2] und Abbildung 1 [Abb. 1]) und die ANOVA (siehe Abbildung 2) zeigen einen statistisch signifikanten Zusammenhang zwischen der Entscheidung in der ersten Prüfung und der Leistung in der nachfolgenden OSCE-Prüfung (Prüfungsnote) ein Jahr später.

Der t-Test zeigte, dass bei 14 der insgesamt 15 Vergleiche die in der nachfolgenden OSCE-Prüfung erhaltenen Noten, die den Entscheidungen für Bestehensnoten zugehörig sind, signifikant besser waren als die in der nachfolgenden OSCE-Prüfung erhaltenen Noten, die den Entscheidungen für Nichtbestehensnoten zugehörig sind (p<0,05) (siehe Tabelle 2 [Tab. 2] und Abbildung 2 [Abb. 2]). Es ist anzumerken, dass eine geringe bis mittlere Effektstärke (Cohens d=0,223–0,675) bei allen 14 signifikanten t-Tests gefunden wurde (siehe Tabelle 2 [Tab. 2]).

Analysen zum Vergleich der in der nachfolgenden OSCE-Prüfung erhaltenen Noten mit den Entscheidungen in der ersten Prüfung innerhalb jeder der spezifischen Bewertungsdomänen dieser ersten Prüfung zeigten noch spezifischere Verbindungen zwischen den Entscheidungen in der ersten Prüfung und den in der nachfolgenden Prüfung erhaltenen Noten (siehe Tabelle 2 [Tab. 2] und Abbildung 1 [Abb. 1]). Die Entscheidungen in der ersten Prüfung weisen mit einer Ausnahme für jede Bewertungsdomäne einen prädiktiven Zusammenhang mit jedem in der nachfolgenden Prüfung angewendeten Bewertungskriterium auf. Die Ausnahme ist der Zusammenhang zwischen den für „körperliche Untersuchung“ in der ersten Prüfung getroffenen Entscheidungen und den Noten für „Vorgeschichte“ in der nachfolgenden Prüfung (p=0,752, Cohens d=0,41) (siehe Abbildung 1 [Abb. 1], Feld b).

Die Effektstärken (Cohens d) sind höher, wenn die in der ersten Prüfung getroffenen Entscheidungen pro Domäne mit ihren in der nachfolgenden Prüfung angewendeten verwandten Bewertungskriterien verglichen werden, als wenn die Vergleiche über weniger verwandte Domänen erfolgen (siehe Tabelle 2 [Tab. 2]). Sowohl die „allgemeine Kommunikation“ als auch die „klinische Kommunikation“ in der ersten Prüfung haben große Effekte auf die Noten im Bereich „Kommunikation“ in der nachfolgenden Prüfung (Cohens d=0,725 bzw. 0,691); darüber hinaus haben diese zwei Domänen aus der ersten Prüfung große Effekte auf die „Fallzusammenfassung“ (Cohens d=0,708 bzw. 0,790) (siehe Tabelle 2 [Tab. 2]). Gleichermaßen zeigten die in der ersten Prüfung getroffenen Entscheidungen in der Domäne „körperliche Untersuchung“ einen mittleren Effekt auf die in der nachfolgenden Prüfung erhaltenen Noten für „körperliche Untersuchung“(Cohens d=0,506). Dies trifft auch auf die Entscheidungen in den ersten Prüfung in der Domäne „körperliche Untersuchung“ und die in der nachfolgenden Prüfung erhaltenen Noten für „Fallzusammenfassung“ zu (Cohens d=0,558) (siehe Tabelle 2 [Tab. 2]).

In der ANOVA zeigt sich ein ähnlicher statistisch signifikanter Zusammenhang (siehe Abbildung 2 [Abb. 2]) für jeden Vergleich zwischen verwandten Bewertungsdomänen der ersten Prüfung und Bewertungskriterien der nachfolgenden Prüfung in t-Tests für unabhängige Stichproben.

Entscheidungen in der ersten Prüfung in der Domäne „allgemeine Kommunikation“ wurden mit den Noten für jedes Bewertungskriterium der nachfolgenden Prüfung verglichen. Gleichermaßen wurden die Entscheidungen in der ersten Prüfung in den Domänen „allgemeine Kommunikation“ und „körperliche Untersuchung“ mit den Noten für jedes Bewertungskriterium der nachfolgenden Prüfung verglichen. Dieser Zusammenhang zeigt erneut, dass Entscheidungen für Bestehensnoten in der ersten Prüfung mit signifikant besseren (p<0,05) Noten in der nachfolgenden OSCE-Prüfung in Zusammenhang stehen als Entscheidungen für Nichtbestehensnoten in der ersten Prüfung; dies trifft vor allem bei verwandten Domänen/Kriterien zu. Wieder besteht kein statistischer Zusammenhang zwischen Noten in der Domäne „Vorgeschichte“ in der nachfolgenden Prüfung und Entscheidungen in der ersten Prüfung in der Domäne „körperliche Untersuchung“ (siehe Abbildung 2 [Abb. 2], Feld 2c).

Abbildung 2 [Abb. 2] zeigt, dass ein signifikanter Zusammenhang zwischen den Entscheidungen in der ersten Prüfung und der OSCE-Punktzahl der nachfolgenden Prüfung besteht. Es sind einige Ausreißer enthalten (siehe Abbildung 2 [Abb. 2], Felder 2b, 2c, 3c, 4c); es besteht jedoch ein allgemeiner prädiktiver Zusammenhang. Entscheidungen für Bestehensnoten in der ersten Prüfung führten zu durchgängig besseren Noten als Entscheidungen für Nichtbestehensnoten.

Die ANOVA zeigt, dass dieses prädiktive Verhältnis mit den Entscheidungen in der ersten Prüfung speziell unabhängig von der Bewertungsstation in Zusammenhang steht. Die Ergebnisse deuten darauf hin, dass die Entscheidungen in der ersten Prüfung gerechtfertigt waren, da anhand vorheriger Noten die zukünftige Leistung vorhergesagt werden können sollte; dies ist basierend auf den Entscheidungen in der ersten Prüfung gelungen.


6. Diskussion

Entscheidungen in der ersten Prüfung weisen einen prädiktiven Zusammenhang auf, wenn sie für nachfolgende Prüfungen innerhalb einer Kohorte angewendet werden. Diese Vorhersagevalidität ist höher, wenn die Bewertungsdomänen der ersten Prüfung mit den Bewertungskriterien der nachfolgenden Prüfung verwandt sind, als wenn die Domänen/Kriterien weniger verwandt sind (siehe Tabelle 2 [Tab. 2]; siehe Abbildung 1 [Abb. 1] und Abbildung 2 [Abb. 2]).

Ein signifikanter Zusammenhang zwischen Entscheidungen in der ersten Prüfung und Noten in der nachfolgenden Prüfung besteht für die Entscheidungen in der ersten Prüfung in den Domänen „allgemeine Kommunikation“ und „klinische Kommunikation“ und die Noten in der nachfolgenden Prüfung in der Domäne „Vorgeschichte“ (siehe Tabelle 2 [Tab. 2]; siehe Abbildung 1 [Abb. 1], Feld b; siehe Abbildung 2 [Abb. 2], Felder 2a–2b). Demgegenüber besteht für Entscheidungen in der ersten Prüfung in der Domäne „körperliche Untersuchung“ kein signifikanter Zusammenhang mit den Noten in der nachfolgenden Prüfung in der Domäne „Vorgeschichte“ (siehe Tabelle 2 [Tab. 2]; siehe Abbildung 1 [Abb. 1], Feld b; siehe Abbildung 2 [Abb. 2], Feld 2c). Dies ergibt Sinn, da in diesen Domänen unterschiedliche, in den Domänen „Kommunikation“ und „Vorgeschichte“ jedoch ähnliche Fähigkeiten bewertet werden.

Auch wenn alle drei Bewertungsdomänen der ersten Prüfung in signifikantem Zusammenhang zu den in der nachfolgenden Prüfung in der Domäne „Kommunikation“ erhaltenen Noten steht, sind die Entscheidungen in der ersten Prüfung in den Domänen „allgemeine Kommunikation“ und „klinische Kommunikation“ wesentlich stärkere Prädiktoren als Entscheidungen in der ersten Prüfung in der Domäne „körperliche Untersuchung“ (Cohens d=0,725, 0,691 bzw. 0,388; siehe Tabelle 2 [Tab. 2]; siehe Abbildung 1 [Abb. 1], Feld c; siehe Abbildung 2 [Abb. 2], Felder 3a–3c). Dies zeigt, dass, auch wenn der prädiktive Zusammenhang bei den meisten Domänen besteht, er jedoch bei verwandten Domänen am stärksten ist.

Aufgrund der in den OSCE-Prüfungen der zweiten Phase erforderlichen Fallspezifität ist für die Fallinterpretation sowohl eine kompetente Leistung innerhalb einer Station, um die relevanten Informationen zu eruieren, als auch grundlegendes klinisches Wissen, um Fallergebnisse zu erhalten und sie intelligent zu interpretieren, notwendig. Dies zeigt die hohe Effektstärke in Zusammenhang mit den Noten in der nachfolgenden OSCE-Prüfung in den Domänen „Fallinterpretation“ und „Fallzusammenfassung“ (siehe Tabelle 2 [Tab. 2]). Die medizinische Fakultät der UNSW hat festgelegt, dass eine gute Fallzusammenfassung auf mehreren in der OSCE-Prüfung der zweiten Phase bewerteten Faktoren beruht, einschließlich klarer/präziser allgemeiner Kommunikation, angemessener klinischer Fachsprache, Identifikation signifikanter Fallergebnisse und Aufzeigen von Differenzialdiagnosen [21].

Unveränderte Noten (Grenznoten) sind alle identisch und werden anhand der OBM2-basierten Entscheidung neu eingestuft. Ein prädiktiver Zusammenhang ist nur zu erwarten, wenn diese Entscheidungen valide sind. Wiederkehrende signifikante Zusammenhänge bei verschiedenen Bewertungsdomänen/-kriterien (siehe Abbildung 2 [Abb. 2]) deuten darauf hin, dass diese Voraussagbarkeit kein zufälliges Ereignis ist. Zwischen den neueingestuften Noten und den zukünftigen Noten besteht ein prädiktiver Zusammenhang; derartige prädiktive Zusammenhänge sind auch in der Literatur zu finden [19]. Da die Entscheidungen diese Erwartungen widerspiegeln, vor allem bei verwandten Bewertungsdomänen/-kriterien und weniger bei weniger verwandten Bewertungsdomänen/-kriterien, erhöht sich die Validität der Entscheidungen.

Störgrößen wie der Prüfer, der Prüfungsstandort und die Stationen, an denen der Student geprüft wird, können Einfluss nehmen. Jede dieser Störgrößen wird im Folgenden besprochen.

An der medizinischen Fakultät der UNSW werden verschiedene Organisationsstrategien angewendet, um Urteilsverzerrungen zu minimieren und Urteilsfehler zu vermeiden. Für die an der UNSW durchgeführten OSCE-Prüfungen werden die Prüfer zufällig ausgewählt und den Prüfungsstandorten zugeteilt. Die Gutachter rotieren zwischen den verschiedenen Standorten, und es kommen externe Gutachter zum Einsatz [24]. Dadurch ist es höchst unwahrscheinlich, dass ein Student in beiden aufeinanderfolgenden Jahren vom selben Prüfer bewertet wird.

Daten der UNSW zeigen, dass es keinen signifikanten Unterschied bei der Leistung in den OSCE-Prüfungen zwischen den verschiedenen Prüfungsstandorten gibt [24]. Weiterhin werden die Studenten bei jeder OSCE-Prüfung den Prüfungsstandorten zufällig zugeteilt. Daher werden sie in den aufeinanderfolgenden Jahren nicht zwangsläufig am selben Standort geprüft.

Die OSCE-Prüfungen der ersten und zweiten Phase sind so konzipiert, dass sie verschiedenen Studienplänen gerecht werden und verschiedene Fähigkeiten bewertet werden [21]. An den OSCE-Stationen, an denen die Studenten bewertet werden, wird nicht dieselbe Fähigkeit oder dasselbe Wissen geprüft. Daher wird durch die Stationen, an denen die Studenten in der ersten OSCE-Prüfung bewertet werden, der Zusammenhang zwischen den Entscheidungen in der ersten Prüfung und den Noten in der nachfolgenden OSCE-Prüfung nicht verändert. Zusätzlich zeigen die Ergebnisse der ANOVA, dass bei keinen Bewertungsdomänen/-kriterien ein signifikanter Zusammenhang zwischen der Station in der ersten Phase und den Prüfungsnoten in der zweiten Phase besteht.

Nach Ausschluss dieser Variablen (Prüfer, Prüfungsstandort und Prüfungsstationen) ist es evident, dass der Großteil der prädiktiven Natur mit den Entscheidungen in Zusammenhang steht.

Dies stützt die Entscheidungen zur Neueinstufung von Grenznoten als eindeutige Bestehens- oder Nichtbestehensnoten. Die Validität der Entscheidungen wurde durch eine Reihe robuster statistischer Tests festgestellt. Dieser Bericht stützt zusammen mit früheren Studien die Validität dieser Entscheidungen [7], [14], [17]. Somit beseitigen diese Entscheidungen Unsicherheiten der Prüfer bei Grenzpunktzahlen. Dadurch kann die Objektivität bei der Neueinstufung von Grenznoten als eindeutige Bestehens- oder Nichtbestehensnoten erhöht werden.

Eine Einschränkung der Studie besteht darin, dass Daten nur einer Kohorte von Entscheidungen an einer Universität verwendet wurden. Die Bedeutung und die Reliabilität der Studie könnten verbessert werden, indem dieselben Tests für OSCE-Daten aufeinanderfolgender Jahre von verschiedenen Kohorten und an verschiedenen Universitäten durchgeführt würden, eine Wiederholung für diese Kohorte nach der dritten OSCE-Prüfung des Programms durchgeführt würde oder die OBM2 mit anderen Standard-Setting-Verfahren verglichen würde. All dies kann in zukünftigen Studien untersucht werden.


7. Schlussfolgerung

Es konnte bereits gezeigt werden, dass die Entscheidungen effizient, reliabel, belastbar und praktikabel sind. Weiterhin konnte in früheren Studien gezeigt werden, dass die Entscheidungen eine akzeptable Validität aufweisen. Die vorliegende Studie ist die erste Studie, die die Vorhersagevalidität der Entscheidungen zeigt und so die Validität der Entscheidungen zusätzlich stützt. Diese Ergebnisse können das Vertrauen der Prüfer bei folgenreichen Entscheidungen zur Neueinstufung von Grenznoten stärken.

In weiteren Untersuchungen können die bisher unbekannten Grenzen der OBM2 herausgestellt werden. Eine ähnliche Validierungsstudie kann durchgeführt werden, wenn die Daten der OSCE-Prüfung der dritten Phase für diese Kohorte verfügbar sind (im Jahr 2020), um zu untersuchen, ob die Vorhersagevalidität auch bei einer dritten nachfolgenden Prüfung ähnlich ist. Weiterhin kann die OBM2 innerhalb verschiedener Kontexte und für verschiedene Prüfungsformen getestet werden.


Interessenkonflikt

Die Autor*innen erklären, dass sie keinen Interessenkonflikt im Zusammenhang mit diesem Artikel haben.


Literatur

1.
Rendel S, Foreman P, Freeman A. Licensing exams and judicial review: the closing of one door and opening of others? Br J Gen Pract. 2015;65(630):8-9. DOI: 10.3399/bjgp15X683029 Externer Link
2.
Richard H, Sen GT, Jan V. The practical value of the standard error of measurement in borderline pass/fail decisions. Med Educ. 2008;42(8):810-815. DOI: 10.1111/j.1365-2923.2008.03103.x Externer Link
3.
Yudkowsky R, Tumuluru S, Casey P, Herlich N, Ledonne C. A Patient Safety Approach to Setting Pass/Fail Standards for Basic Procedural Skills Checklists. Simul Healthc. 2014;9(5):277-282. DOI: 10.1097/SIH.0000000000000044 Externer Link
4.
Cizek GJ, Bunch MB. Standard setting: A guide to establishing and evaluating performance standards on tests. Thousand Oaks (CA): SAGE Publications Ltd; 2006.
5.
Ben-David MF. AMEE Guide No. 18: Standard setting in student assessment. Med Teach. 2000;22(2):120-130. DOI: 10.1080/01421590078526 Externer Link
6.
Phillips G. Technical Issues in Large-Scale Performance Assessment. Washington: U.S. Department of Education; 1996.
7.
Shulruf B, Coombes L, Damodaran A, Freeman A, Jones P, Lieberman S, Poole P, Rhee J, Wilkinson T, Harris P. Cut-scores revisited: feasibility of a new method for group standard setting. BMC Med Educ. 2018;18(1):126. DOI: 10.1186/s12909-018-1238-7 Externer Link
8.
Shulruf B, Wilkinson T, Weller J, Jones P, Poole P. Insights into the Angoff method: results from a simulation study. BMC Med Educ. 2016;16:134. DOI: 10.1186/s12909-016-0656-7 Externer Link
9.
Hurtz GM, Hertz NR. How Many Raters Should be Used for Establishing Cutoff Scores with the Angoff Method? A Generalizability Theory Study. Educ Psychol Measurement. 1999;59(6):885-897. DOI: 10.1177/00131649921970233 Externer Link
10.
Shulruf B, Turner R, Poole P, Wilkinson T. The Objective Borderline method (OBM): a probability-based model for setting up an objective pass/fail cut-off score for borderline grades in medical education programmes. Adv Health Sci Educ Theory Pract. 2013;18(2):231-144. DOI: 10.1007/s10459-012-9367-y Externer Link
11.
Wood T, Humphrey-Murto S, Norman G. Standard Setting in a Small Scale OSCE: A Comparison of the Modified Borderline-Group Method and the Borderline Regression Method. Adv Health Sci Educ Theory Pract. 2006;11(2):115-122. DOI: 10.1007/s10459-005-7853-1 Externer Link
12.
Behuniak P, Archambault F, Gable R. Angoff and Nedelsky Standard Setting Procedures: Implications for the Validity of Proficiency Test Score Interpretation. Educ Psychol Measurement. 1982;42(1):247-255. DOI: 10.1177/0013164482421031 Externer Link
13.
Poggio JP. An Empirical Investigation of the Angoff, Ebel and Nedelsky Standard Setting Methods. In: 65th Annual Meeting of the American Educational Research Association; 1981 Apr 13-17; Los Angeles, CA, United States. Zugänglich unter/available from: https://eric.ed.gov/?id=ED205552 Externer Link
14.
Shulruf B, Poole P, Jones P, Wilkinson T. The Objective Borderline Method: a probabilistic method for standard setting. Ass Eval High Educ. 2015;40(3):420-438. DOI: 10.1080/02602938.2014.918088 Externer Link
15.
Shulruf B, Adelstein BA, Damodaran A, Harris P, Kennedy S, O'Sullivan A, Taylor S. Borderline grades in high stakes clinical examinations: resolving examiner uncertainty. BMC Med Educ. 2018;18(1):272. DOI: 10.1186/s12909-018-1382-0 Externer Link
16.
Shulruf B, Damodaran A, Jones P, Kennedy S, Mangos G, O'Sullivan A, Rhee J, Tayler S, Velan G, Harris P. Enhancing the defensibility of examiners' marks in high stake OSCEs. BMC Med Educ. 2018;18(1):10. DOI: 10.1186/s12909-017-1112-z Externer Link
17.
Shulruf B, Booth R, Baker H, Bagg W, Barrow M. Using the Objective Borderline Method (OBM) to support Board of Examiners' decisions in a medical programme. J Furth High Educ. 2017;41(3):425-434. DOI: 10.1080/0309877X.2015.1117603 Externer Link
18.
Garson D. Validity and Reliabiity. North Carolina: Statistical Publishing Associates; 2016.
19.
Poole P, Shulruf B, Rudland J, Wilkinson T. Comparison of UMAT scores and GPA in prediction of performance in medical school: a national study. Med Educ. 2012;46(2):163-171. DOI: 10.1111/j.1365-2923.2011.04078.x Externer Link
20.
University of New South Wales, Faculty of Medicine. Phase 1 / Graduate Entry Clinical Skills Student Guide 2018. Kensington: The University of New South Wales; 2018.
21.
University of New South Wales, Faculty of Medicine. Phase 2 Clinical SKills Guide 2018. Kensington: The University of New South Wales; 2018.
22.
IBM Corporation. IBM SPSS Statistics for Windows. 24 ed. Armonk, NY: IBM Corporation; 2016.
23.
Wilson D. Practical Meta-Analysis Effect Size Calculator. Fairfax: George Mason University; 2018.
24.
Medical School Accreditation Committee. Accreditation of University of New South Wales Faculty of Medicine. Kingston: Australia Medical Council Limited; 2018.