gms | German Medical Science

GMS Journal for Medical Education

Gesellschaft für Medizinische Ausbildung (GMA)

ISSN 2366-5017

Standardisierte Prüflinge – Entwicklung eines neuen Instruments zur Beurteilung von Einflussfaktoren auf OSCE-Ergebnisse und zum Einsatz in der Prüferschulung

Artikel OSCE

Suche in Medline nach

  • corresponding author Petra Zimmermann - Ludwig-Maximilians-Universität München, Klinikum der Universität, Klinik für Allgemein-, Viszeral- und Transplantationschirurgie, München, Deutschland
  • author Martina Kadmon - Universität Augsburg, Medizinische Fakultät, Gründungsdekanat, Augsburg, Deutschland

GMS J Med Educ 2020;37(4):Doc40

doi: 10.3205/zma001333, urn:nbn:de:0183-zma0013336

Dieses ist die deutsche Version des Artikels.
Die englische Version finden Sie unter: http://www.egms.de/en/journals/zma/2020-37/zma001333.shtml

Eingereicht: 15. Oktober 2019
Überarbeitet: 23. Februar 2020
Angenommen: 27. April 2020
Veröffentlicht: 15. Juni 2020

© 2020 Zimmermann et al.
Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung). Lizenz-Angaben siehe http://creativecommons.org/licenses/by/4.0/.


Zusammenfassung

Einleitung: Objective Structured Clinical Examinations (OSCE) sind als Format für klinisch-praktische Prüfungen an den meisten medizinischen Fakultäten etabliert und sollen in Zukunft auch in die humanmedizinischen Staatsprüfungen integriert werden. Einflüsse auf die Prüfungsergebnisse durch Prüferverhalten sind beschrieben. Fehlbeurteilungen der studentischen Leistungen resultieren beispielsweise durch systematische Nachsicht, durch Inkonsistenz in der Beurteilung, durch Halo-Effekte oder auch durch fehlende Differenzierung von Leistungen über die gesamte Bewertungsskala. Ziel der vorliegenden Arbeit war es ein Qualitätssicherungsinstrument zu entwickeln, das zukünftig die Überprüfung von Einflussfaktoren auf Bewertungen in einem realen OSCE ebenso wie eine gezielte Prüfer-Schulung ermöglicht.

Material, Methoden und Studierende: Zwölf Studierende der Medizinischen Fakultät Heidelberg wurden trainiert, eine definierte Leistung für jeweils eine chirurgische OSCE-Station zu erbringen. Es wurde ein Niveau für eine exzellente und eine Borderline-Leistung festgelegt und operationalisiert. Im ersten Teil der Studie wurde in einem Überprüfungs-OSCE die standardisierte Leistung dreimal hintereinander mit unterschiedlichen Prüfern/innen überprüft, bewertet und auf Video aufgenommen. Eine zusätzliche quantitative und qualitative Bewertung erfolgte durch die Studienleiterin anhand der Videoanalyse.

Im zweiten Teil der Studie wurden die Videoaufnahmen genutzt um die Akzeptanz für Standardisierte Prüflinge bei Prüfern/innen zu erheben und potentielle Einflüsse auf die Leistungsbewertung durch die Prüfererfahrung zu analysieren.

Ergebnisse: Im ersten Teil der Studie zeigten die Bewertungen im OSCE und die nachfolgende Videoanalyse, dass eine Standardisierung für definierte Leistungsniveaus an verschiedenen OSCE-Stationen grundsätzlich möglich ist. Einzelne Abweichungen von den erwarteten Antworten wurden beobachtet und traten vor allem mit zunehmender inhaltlicher Komplexität der OSCE-Station auf.

Im zweiten Studienteil bewerteten unerfahrene Prüfer/innen eine Borderline-Leistung signifikant schlechter als ihre erfahrenen Kolleg/innen (13,50 vs. 15,15, p=0,035). In der Bewertung der „Exzellenten Prüflinge“ zeigte sich kein Unterschied. Beide Prüfergruppen bewerteten das Item „Soziale Kompetenz“ – trotz identischer Standardisierung - bei Prüflingen mit einer Borderline-Leistung signifikant schlechter im Vergleich zu den „Exzellenten Prüflingen“ (4,13 vs. 4,80, p<0,001)

Schlussfolgerung: Die Standardisierung von Prüflingen für zuvor definierte Leistungsniveaus ist möglich, wodurch zukünftig ein neues Instrument sowohl zur Qualitätssicherung in OSCE-Prüfungen als auch zur Prüferschulung zur Verfügung steht. Eine detaillierte Vorbereitung der OSCE-Checklisten ebenso wie ein intensives Training mit den Prüflingen sind dabei unerlässlich.

Dieses neue Instrument gewinnt besondere Bedeutung, wenn standardisierte OSCE-Prüfungen in die medizinischen Staatsexamina integriert und somit als high-stakes Examen eingesetzt werden.

Schlüsselwörter: OSCE, OSPE, Prüferschulung, Qualitätssicherung, Standardisierte Prüflinge


Einleitung

Objective Structured Clinical Examinations (OSCEs) sind an den meisten medizinischen Fakultäten als Prüfungsform etabliert und eignen sich besonders zur Beurteilung klinisch-praktischer Fertigkeiten [1], [2], [3], [4], [5], [6], [7], [8], [9], [10], [11], [12], [13], [14], [15]. In einem Leitlinienpapier der AMEE wurden verbindlich Standards und Messgrößen für die Qualitätssicherung von OSCEs definiert [9]. Für alle erforderlichen Prüfungen wird empfohlen, einen Blueprint sowohl für die Prüfungsinhalte als auch für eingesetzte Prüfungsformate zu erstellen. Grundlage für jeden OSCE sollte ebenfalls ein Blueprint sein, der die Prüfungsinhalte und zugeordnete Prüfungsstationen respektive Fachbereiche beinhaltet. Basierend auf dem Blueprint werden entsprechende Checklisten erstellt, diese in einem Review überprüft und die Leistungserwartungen anhand eines Standardsettings festgelegt. Durch eine ausreichende Anzahl an OSCE-Stationen, regelmäßige Standardsettings und Adaptationen der verwendeten Checklisten sowie regelmäßige Prüfereinweisungen wird eine gute Reliabilität und Interrater-Reliabilität erreicht. Teststatistische Auswertungen der Ergebnisse sollten herangezogen werden, um Probleme seitens der Checklisten oder der Prüfer/innen zu detektieren und durch regelmäßige Wiederholung des oben beschriebenen Prozesses zu minimieren [9], [15], [16], [17], [18].

Zahlreiche Untersuchungen analysieren potentielle Einflussfaktoren auf die Ergebnisse in einem OSCE. Diesen Einflussfaktoren kommt eine besondere Bedeutung zu, wenn das Prüfungsformat in High Stakes Prüfungen eingesetzt wird, wie es gerade in Deutschland für die medizinischen Staatsprüfungen in Diskussion ist [19]. Harasym und Kollegen konnten zeigen, dass Strenge oder Nachsichtigkeit seitens der Prüfer/innen zu einer systematischen zu schlechten oder zu guten Bewertung führen können [13]. Auch das Leistungsniveau eines Studierenden scheint die Reliabilität der Leistungsbewertung durch Prüfer/innen zu beeinflussen. Byrne et al. beschrieben, dass eine gute Studierenden-Leistung exakter bewertet wurde als eine Borderline-Leistung [4]. Yeates und Kollegen stellten in mehreren Untersuchungen fest, dass eine gute Leistung beispielsweise besser bewertet wird, wenn die zuvor bewertete Leistung schlecht war [7], [20]. Gleichzeitig wurde eine Borderline-Leistung schlechter bewertet, wenn der/die Prüfer/Prüferin zuvor eine gute Leistung beurteilt hatte. Darüber hinaus wurden Auswirkungen auf die Bewertung durch Halo-Effekte und fehlende Leistungsdifferenzierung über die gesamte Bewertungsskala beschrieben [21]. Schleicher und Kollegen konnten in einer Fakultäten-übergreifenden Untersuchung zeigen, dass studentische Leistungen unterschiedlich von lokalen und Referenz-Prüfern/innen bewertet wurden. Gleichzeitig zeigte sich ein Trend zu unterschiedlichen Bewertungen abhängig vom Geschlecht der Prüfer und der Prüflinge [22].

Alle bisherigen Untersuchungen zu potentiellen Einflussfaktoren und zur Qualitätssicherung des Prüfungsformats basieren auf Analysen der Ergebnisse aus live Beobachtungen oder Video-Analysen von OSCEs. Zwar basieren diese Analysen auf OSCEs, denen im Allgemeinen eine standardisierte Prüfereinweisung vorausging, potentielle Einflussgrößen seitens der Prüflinge unterliegen, aber keiner Standardisierung, sodass letztlich Prüfer-Eigenschaften nicht völlig isoliert beurteilt werden können.

Ein geeignetes Instrument, das es ermöglicht potentielle Einflussgrößen auf Seite des Prüflings zu simulieren, um so eine direkte Analyse der entstehenden Auswirkungen auf das Prüfer-Verhalten und die Ergebnisse zu ermöglichen, existiert bisher nicht. Gleichzeitig steht bislang kein geeignetes Instrument zur Verfügung, um Prüfer/innen im Hinblick auf potentielle Einschränkungen in der Reliabilität der Bewertung von Leistungen in einem OSCE gezielt zu schulen.

Simulationspatienten stellen mittlerweile einen integralen Bestandteil der medizinischen Ausbildung und auch medizinischer Prüfungen dar. Sie bieten die Möglichkeit Gesprächs- und Untersuchungssituationen in einem geschützten Rahmen zu üben und können eine Rolle immer wieder in standardisierter Weise spielen. Gleichzeitig besteht hierdurch die Möglichkeit einzelne Parameter, z.B. die Reaktion des Simulationspatienten oder das Ausmaß der Erkrankung, zu variieren um so unterschiedliche Situationen für den Studierenden zu simulieren [23], [24], [25].

Basierend auf dem Konzept der Simulationspatienten war es unser Ziel, dieses Konzept der Standardisierung auf die studentische Leistung in einem OSCE zu übertragen. Im ersten Studienteil der vorliegenden Arbeit wird überprüft, ob es möglich ist, Studierende zu trainieren eine definierte Leistung wiederholt in einem OSCE zu erbringen. Im zweiten Studienteil wird anhand der generierten Videosequenzen aus dem ersten Studienteil der Einfluss der Prüfererfahrung auf die Leistungsbewertung analysiert und die prinzipielle Akzeptanz für Standardisierte Prüflinge unter Prüfern/innen evaluiert.

Hierdurch konnte ein neues Instrument zur Qualitätssicherung in einem OSCE etabliert werden, das gleichzeitig ermöglicht, einzelne Einflussfaktoren auf die Bewertung zu identifizieren und Prüfer/innen zukünftig gezielt zu schulen.


Material, Methoden & Studierende

Zwölf Studierende wurden für eine standardisierte Leistung an drei verschiedenen Stationen der chirurgischen OSCE-Prüfung an der Medizinischen Fakultät Heidelberg trainiert. Pro Station wurden jeweils 2 Studierende für eine hervorragende (Exzellente Leistung) und zwei Studierende für eine grenzwertige Leistung (Borderline-Leistung) standardisiert, jeweils eine weibliche Studierende und ein männlicher Studierender pro Leistungsniveau. Ein Studierender, der für eine exzellente Leistung für die OSCE-Station „Abdominelle Untersuchung“ vorbereitet war, konnte krankheitsbedingt kurzfristig nicht an der Studie teilnehmen.

Als exzellente Leistung wurde das Erreichen der Höchstpunktzahl mit einem maximalen Abzug von 2 Punkten definiert, als Borderline-Leistung das Erreichen der minimal erwarteten Punktzahl für das Bestehen der jeweiligen Checkliste (Minimalkompetenz) ± 1 Punkt.

Die Summe aller Minimalkompetenzen innerhalb des Heidelberger chirurgischen OSCE, stellt die Bestehensgrenze für den Gesamt-OSCE dar.

Abbildung 1 [Abb. 1] stellt schematisch das Studiendesign dar, Abbildung 1A [Abb. 1] beschreibt den ersten und Abbildung 1B [Abb. 1] den zweiten Studienteil.

OSCE Checklisten

Es wurden drei bereits im chirurgischen OSCE gut etablierte und mehrfach in internen Reviews überprüfte Checklisten ausgewählt. Die Checklisten bezogen sich auf folgende OSCE-Stationen:

  • Management eines Patienten mit Sigmadivertikulitis
  • Management eines Patienten mit V.a. Rektumkarzinom
  • Abdominelle Untersuchung

Alle Checklisten sind auf eine Minimalpunktzahl von 0 und auf eine Maximalpunktzahl von 25 Punkten ausgelegt. Jede Checkliste besteht aus 5 Teilaufgaben (Items), die jeweils mit maximal 5 Punkten bewertet werden können. Jedes Item umfasst unterschiedlich viele geforderte Antworten.

Die Minimalkompetenz bezeichnet die Punktzahl, die zum Bestehen der einzelnen Checkliste erreicht werden muss. Sie ist als minimale Erwartung an der jeweiligen Station auf der Basis der vorliegenden Checkliste definiert. Sie wird regelmäßig überprüft und im internen Standardsetting festgelegt. Die Minimalkompetenzen für die hier verwendeten Checklisten liegen bei 17 Punkten.

Die maximale Prüfungsdauer pro Checkliste beträgt 9 Minuten, die Wechselzeit zur nächsten Station eine Minute. Auf den Checklisten sind die übergeordneten Bewertungskategorien (z.B. Anamneseerhebung, klinische Untersuchung, etc.) und zugeordnete Einzelitems zur Punktevergabe ausgewiesen:

  • 5 Punkte: sämtliche Leistungen ohne Hilfe erbracht
  • 3 Punkte: sämtliche Leistungen mit Hilfe des Prüfers vollständig erbracht
  • 1 Punkt: Leistungen mit Hilfe des Prüfers unvollständig erbracht

Für jede Bewertungskategorie ist angegeben, ob eine Punktevergabe global für den Gesamteindruck oder auf der Basis von Antworten auf die Einzelitems erfolgen soll.

Jede Checkliste enthält eine kurze Fallvignette sowie pro Einzelitem eine Aufgabenstellung und die erwarteten Antworten. Mögliche Zwischenfragen durch die Prüfer/innen sind nicht vordefiniert.

Die Checklisten zur Sigmadivertikulitis und zum Rektumkarzinom beinhalten ein Anamnesegespräch mit einem Standardpatienten (Item 1), die Ableitung von Differentialdiagnosen aus den anamnestischen Details (Item 2), die Entscheidung, welche geeigneten diagnostischen Maßnahmen in der konkreten Situation eingeleitet werden sollen (Item 3) sowie bei der Sigmadivertikulitis die Beschreibung eines CT-Ausschnitts zu dem Patientenfall. Item 4 umfasst bei beiden Checklisten wieder die Interaktion mit dem Standardpatienten zum weiteren diagnostischen/therapeutischen Vorgehen. Item 5 beurteilt die soziale Kompetenz. Dabei wird unter anderem beurteilt in wie weit der Studierende sich dem Patienten adäquat vorgestellt hat, sich gegenüber dem Patienten verhält, z.B. ob Blickkontakt gehalten werden kann.

Die Checkliste Abdominelle Untersuchung umfasst sequentiell eine abdominelle Untersuchung bei einem Patienten mit rechtsseitigen Unterbauchschmerzen (Item 1), Überprüfung der Peritonitiszeichen (Item 2), die Erläuterung zur Durchführung und Befundung einer digital-rektalen Untersuchung (Item 3), die Untersuchung der Leber (Item 4) und die Untersuchung der Milz (Item 5).

Modifikation der OSCE Checklisten

Zur Durchführung der Standardisierung der Leistung der Standardisierten Prüflunge sowie zur Überprüfung, ob diese Leistung mehrfach wiederholt werden kann, wurden aus den für den chirurgischen OSCE vorliegenden Checklisten jeweils 2 neue Versionen generiert.

Checklisten zur Standardisierung der Prüflinge

Zur Standardisierung der Prüflinge wurden alle Checklisten detailliert operationalisiert. Bezogen auf die beiden festgelegten Leistungsniveaus wurde für jede mögliche Antwort eines Items der Checkliste definiert, ob die Prüflinge diese nennen sollten oder nicht. Gleichzeitig wurde in einem weiteren Feld für jedes Item ausgeführt, wie der Prüfling sich bei der jeweiligen Frage verhalten sollte, z.B. nur zögerliche Antwort, oder nur auf Nachfrage (siehe Abbildung 2 [Abb. 2]).

Checklisten zur Leistungsüberprüfung

Zur Beurteilung der erbrachten Leistung durch die Prüfer/innen wurde der Bewertungsteil die OSCE Checklisten so modifiziert, dass die Prüfer/innen für jede mögliche Antwort in jedem Aufgabenbereich vermerken konnten, ob die Antwort gegeben wurde oder nicht (siehe Abbildung 3 [Abb. 3]). Es wurde bewusst darauf verzichtet, die Standardisierung über die Beurteilung des Leistungsniveaus mit einem globalen Punktwert für jedes Item, analog zu einem echten OSCE, durchzuführen, um potentielle systematische Einschätzungsunterschiede Seitens der Prüfer/innen zu eliminieren. Am Ende der Checkliste wurde ein Abschnitt eingefügt, in dem die Prüfer/innen das erbrachte Leistungsniveau anhand einer globalen Bewertungsskala (schlecht, mittelmäßig, sehr gut) ebenso wie die Authentizität beurteilen sollten. Bei letzterem sollten die Prüfer/innen beurteilen, in wieweit sie Zweifel daran hatten, einen echten Prüfungskandidaten vor sich zu haben.

Die Prüfer/innen erhielten die standardisierte Prüfereinweisung für den Chirurgischen OSCE. Sie wurden jedoch angewiesen keine Punkte für die einzelnen Items zu vergeben, sondern für jede mögliche Antwort anzukreuzen, ob diese gegeben wurde oder nicht. Den Prüfern/innen wurde erst nach dem OSCE mitgeteilt, dass eine Standardisierung der Studierenden-Leistung vorgenommen worden war.

Standardisierte Studierende

Alle 12 Studierenden hatten den Chirurgischen Block und damit den chirurgischen OSCE bereits absolviert. Der Chirurgische Block erstreckt sich über ein Semester und beinhaltete die Fächer Viszeralchirurgie, Gefäß-, Thorax- und Herzchirurgie, Urologie, Orthopädie & Unfallchirurgie, Hand- & Plastische Chirurgie sowie Anästhesie & Notfallmedizin. Vorlesungen und Seminare in Pathologie und Radiologie sind in den einzelnen Fachdisziplinen integriert.

Den Studierenden wurden die jeweiligen Checklisten zum Training ausgehändigt. Mit jedem Studierenden wurden die Rolle und die erwarteten Antworten anhand der modifizierten Checkliste detailliert durchgesprochen. Nach 2 Wochen Zeit zum Lernen der Checkliste und Rolle wurde die Prüfungssituation zwischen den Studierenden und der Studienleiterin simuliert und Korrekturen umgesetzt. Dabei wurden zunächst allgemeine Schwierigkeiten und Aspekte besprochen, nachfolgend die Prüfungssituation in Echtzeit simuliert und abschließend nochmals ein Feedback zu erforderlichen Anpassungen gegeben.

1. Studienteil
Durchführung der Standardisierung

Im ersten Studienteil (siehe Abbildung 1 [Abb. 1], links A) erfolgte die Durchführung der Standardisierung in einem simulierten OSCE, der entsprechend realer Prüfungsbedingungen (Zeit, Wechselzeiten, etc.) durchgeführt wurde. Die Standardisierten Prüflinge spielten ihre Rolle dreimal mit drei unterschiedlichen Prüfern/Prüferinnen (ein Prüfer und zwei Prüferinnen) und wurden dabei auf Video aufgenommen. Zusätzlich wurden in einem zweiten Schritt alle Videoaufnahmen durch die Studienleiterin mit Hilfe der modifizierten Prüferchecklisten sowohl quantitativ als auch qualitativ ausgewertet, sodass für jeden Studierenden 6 Auswertungen vorlagen.

Bei der quantitativen Auswertung wurden basierend auf den zuvor festgelegten Antworten, die gegeben werden sollten, die Abweichungen gezählt. Dabei wurden sowohl zu viel als auch zu wenig gegebene Antworten bezogen auf die korrekt erwartete Anzahl Antworten berücksichtigt. Nachfolgend wurden die durchschnittlichen prozentualen Abweichungen für alle OSCE-Durchläufe (3 Prüfungssituationen) sowie für die quantitative Auswertung aus der nachfolgenden Video-Auswertung berechnet.

Bei der qualitativen Auswertung wurde zunächst der Globaleindruck bewertet: Der Prüfling wirkt authentisch ja/nein und agiert im Rahmen seiner Rolle. Zusätzliche wurden folgende Aspekte beurteilt:

  • Verhalten des Prüflings beim Geben der Antworten (wirkt sicher, unsicher, neigt dazu Listen widerzugeben)
  • Reaktion des Prüflings auf Verhalten/Fragen des/der Prüfers/Prüferin (bleibt in der Rolle, weicht von erwarteten Antworten ab, lässt sich zu Antworten drängen)
  • Reaktion des Prüflings auf Verhalten/Fragen des/der Standardpatienten/in (bleibt in der Rolle, weicht von erwarteten Antworten ab, lässt sich zu Antworten drängen)
  • Verhalten der Prüfer/innen
  • Verhalten der Standardpatienten/innen

Die Studienleiterin selbst war für die Organisation des Chirurgischen Blocks mit verantwortlich und hat mehr als 20 Mal in einem OSCE des Chirurgischen Blocks geprüft. Zusätzlich hat sie Erfahrung in der Erstellung von OSCE-Checklisten und Prüfungsfragen. Diese Studie erfolgte im Rahmen ihrer Masterthese für den Master of Medical Education, Deutschland (MME-D).

2. Studienteil
Analyse des Einflusses der Prüfererfahrung auf die Leistungsbewertung

Im zweiten Studienteil (siehe Abbildung 1 [Abb. 1], rechts B) wurde mit Hilfe der Videoaufnahmen der Einfluss der Prüfererfahrung auf die Leistungsbewertung sowie die Akzeptanz für Standardisierte Prüflinge auf Prüferseite untersucht. Je 10 erfahrenen und unerfahrenen Prüfern und Prüferinnen wurden die Videoaufnahmen der OSCE-Station Sigmadivertikulitis gezeigt. Erfahrene Prüfer bzw. Prüferinnen hatten mindestens 3 Mal oder mehr als Prüfer in einem OSCE teilgenommen und/oder mehr als 5 Jahre klinische Erfahrung. Unerfahrene Prüfer und Prüferinnen waren diejenigen, die maximal 2 Einsätze als OSCE-Prüfer und/oder weniger als 5 Jahre klinische Erfahrung hatten.

Zur Leistungsbeurteilung wurde die Originalchecklisten aus dem chirurgischen OSCE der Medizinischen Fakultät Heidelberg, die eine Punktevergabe (1-5) pro Item erfordern, verwendet.

Es erfolgte eine Einweisung mit allgemeinen Informationen zum Ablauf der Prüfung. Im Einzelnen wurde darauf hingewiesen, dass

  • die Studierenden eine bestimmte Leistung erbringen, die beurteilt werden soll. Es wurden keine Detailinformationen zu den Leistungsniveaus genannt.
  • die Beurteilung basierend auf dem Inhalt der Checkliste erfolgen muss.
  • 5 Punkte für eine Aufgabe nur vergeben werden dürfen, wenn sämtliche Leistungen ohne Hilfe erbracht wurden.
  • 3 Punkte für eine Aufgabe nur dann vergeben werden dürfen, wenn sämtliche Leistungen mit Hilfe des Prüfers vollständig erbracht wurden.
  • 1 Punkt für eine Aufgabe vergeben werden kann, wenn die Leistung mit Hilfe des Prüfers unvollständig erbracht wurde.
  • das Anhalten und erneute Abspielen des Videos nicht erlaubt sind.
  • alle 4 Prüfungssituationen hintereinander angeschaut werden müssen ohne Unterbrechung.

Den Prüfern und Prüferinnen wurden erst nach Beurteilung aller Videos mitgeteilt, dass die Studierenden standardisiert waren eine definierte Leistung zu erbringen.

Akzeptanz für Standardisierte Prüflinge

Nach Beurteilung aller Prüfungssituationen erhielten alle Prüfer/innen einen Fragebogen zur Evaluation der Akzeptanz für Standardisierte Prüflinge und ihrer Einsatzmöglichkeiten. Konkret wurden folgenden Punkten abgefragt:

  • Die Einschätzung der Leistung ist mir leicht gefallen.
  • In einer realen Prüfungssituation fände ich die Einschätzung der Leistung leichter.
  • Die Einschätzung der Leistung ist mir schwer gefallen.
  • Bei guten Prüflingen ist mir die Einschätzung der Leistung leicht gefallen.
  • Bei schlechten Prüflingen ist mir die Einschätzung der Leistung leicht gefallen.
  • Ich halte den Einsatz von Standardisierten Prüflingen als Vorbereitung für unerfahrene Prüfer für sinnvoll.
  • Ein Training mit Video-Aufnahmen (im Gegensatz zum Training in einem simulierten OSCE) ist ausreichend zur Prüfer-Vorbereitung.
  • Unerfahrene Prüfer sollten vor dem Einsatz in realen Prüfungen an Standardisierten Prüflingen trainiert werden.
  • Erfahrene Prüfer sollten an Standardisierten Prüflingen Prüfungssituationen simulieren.
  • Ein gezieltes Prüfer-Training an Standardisierten Prüflingen kann den OSCE objektivieren.
  • Die Leistung der Standardisierten Prüflinge war authentisch.

Die Bewertung erfolgte mit einer 5-Punkte Likert-Skala von 1=trifft gar nicht zu bis 5=trifft voll zu.

Statistische Auswertung

Aufgrund der kleinen Kohorte sowie des individuellen Ansatzes erfolgte im ersten Studienteil eine rein deskriptive und qualitative Auswertung. Auf weitere statistische Tests wurde verzichtet. Die Antwortbögen des OSCEs wurden im Hinblick auf zu viel bzw. zu wenig gegebene Antworten ausgewertet. Nachträglich wurde per Videoanalyse durch die Studienleiterin beurteilt, welche Schwierigkeiten bei der Beantwortung der Fragen auftraten. Alle quantitativen Auswertungen basierend auf den OSCE-Checklisten sowie der sekundären Videoauswertung wurden zusammengefasst und die prozentuale Abweichung von den erwarteten Antworten für alle Beurteilungen berechnet (siehe Tabelle 1 [Tab. 1]).

Im zweiten Studienteil wurden die Ergebnisse des Vergleichs zwischen erfahrenen und unerfahrenen Prüfern/innen in Mittelwerten mit Standardabweichung dargestellt, falls nicht anders angegeben. Die quantitativen Parameter wurden mit Hilfe des zweiseitigen t-Test analysiert. Kategorische Variablen werden als Absolutwerte angegeben. P<0,05 wurde als statistisch signifikant angenommen. Zur statistischen Berechnung wurde die IBM SPSS Statistics 25 Software verwendet.


Ergebnisse

Erster Studienteil – Entwicklung der Standardisierten Prüflinge
Überprüfung der Standardisierung – deskriptive Auswertung

Für jeden Prüfling erfolgte eine Einzelauswertung auf Itemniveau. Analysiert wurde die prozentuale Abweichung der gegebenen Antworten von der erwarteten Anzahl der Antworten auf der Basis der Standardisierung. Dabei wurden alle Auswertungen, Checklisten aus dem OSCE sowie die sekundäre quantitative Auswertung der Videoanalyse durch die Studienleiterin, zusammengefasst. Die detaillierten Ergebnisse sind in Tabelle 1 [Tab. 1] dargestellt. Für die Checkliste Abdominelle Untersuchung wurden nur drei Prüflinge ausgewertet werden, da ein Studierender krankheitsbedingt nicht am OSCE teilnehmen konnte.

Es kristallisierte sich heraus, dass insbesondere die Studierenden mit einer Borderline-Leistung Schwierigkeiten hatten, die Antworten korrekt zu geben. Die Abweichungen waren deutlicher als bei den exzellenten Studierenden.

Bei den Checklisten Sigmadivertikulitis und Rektumkarzinom waren die Schwierigkeiten für die exzellenten Studierenden gering, sie nannten in einem geringen Prozentsatz zu wenig Antworten. Bei den Borderline Studierenden fielen größere Abweichungen auf. Die größte Abweichung trat bei den Items 3 und 4 auf. Diese Items umfassen die Festlegung des weiteren diagnostischen bzw. therapeutischen Vorgehens.

Die größte Abweichung zeigte sich bei der Station Abdominelle Untersuchung bezüglich Item 4 für die Studierenden mit einer Borderline-Leistung im Sinne eines hohen Anteils an fehlenden Antworten bzw. nicht korrekt durchgeführten Untersuchungsabläufen. Bei diesem Item wird die Untersuchung der Leber geprüft. Borderline Studierenden zeigten ansonsten bei dieser Checkliste insgesamt heterogene Leistungen mit zu vielen und zu wenig Antworten. Standardisierte Prüflinge mit einer exzellenten Leistung hatten wiederum die Tendenz zu wenig Antworten zu nennen bzw. bei den Untersuchungsabläufen einzelne Punkte nicht durchzuführen.

Leistungseinschätzung durch die Prüfer/innen

Alle Prüfer und Prüferinnen hatten, mit einer Ausnahme, den Eindruck, dass es sich um reale Prüfungskandidaten handelte und gaben an, die standardisierten Studierenden als authentisch wahrgenommen zu haben.

Die exzellente Leistung wurde in allen Fällen als solche erkannt. Die Borderline-Leistung wurde 6 Mal als solche eingeschätzt, in allen anderen Durchläufen aber als schlechte Leistung wahrgenommen.

Qualitative Auswertung durch Video-Analyse

Die qualitative Auswertung der Prüfungsvideos ergab eine Reihe von Aspekten, die sich einschränkend auf die Standardisierung auswirkten. Die Prüflinge zeigten eine gewisse Tendenz, erwartete Antworten als auswendig gelernte Liste wiederzugeben. Diese betraf die exzellenten mehr als die Borderline-Prüflinge. Borderline-Prüflinge hatten besonders bei komplexen Items, die die Ableitung eines diagnostischen oder therapeutischen Algorithmus forderten, Schwierigkeiten in der Rolle zu bleiben und sich nicht durch den Prüfer bzw. durch die Prüferin zu mehr als den standardisierten Antworten drängen zu lassen. Insgesamt gelang dies den Standardisierten Prüflingen allerdings gut. Gleichzeitig fiel auf, dass gelegentlich die Rolle „überinterpretiert“ wurde und ein angedachtes zögerliches Verhalten zum Beispiel sehr ausgeprägt gespielt wurde. Dadurch wurde in einzelnen Prüfungssituationen die Zeit knapp.

Auch das Verhalten der Prüfer/innen beeinflusste die Wiedergabe der Studierenden-Rolle bzw. die Ergebnisse der Standardisierung. Wie in realen Prüfungen zeigten Prüfer/innen die Tendenz, z.B. nochmals nachzufragen oder kleinere Hinweise bei Einzelaufgaben zu geben. Dadurch erhöhte sich unter anderem die Schwierigkeit für die Studierenden, Antworten bewusst nicht zu geben. Anhand der Videoanalyse wurde außerdem deutlich, dass seitens eines Prüfers gegebene Antworten bzw. durchgeführte Untersuchungsschritte nicht gewertet wurden, obwohl sie erfolgt waren. In einer anderen Situation wertete ein Prüfer die Antwort eines Simulationspatienten als gegebene Antwort für den Prüfling.

Ebenso zeigte sich ein Einfluss durch die Simulationspatienten, die durch Zwischenfragen aktiv in die Prüfung eingriffen und dadurch ein Antworten des Studierenden verhinderten.

Zweiter Studienteil – Einfluss der Prüfererfahrung auf die Leistungsbewertung und Akzeptanz für Standardisierte Prüflinge
Einfluss der Prüfererfahrung auf die Leistungsbewertung

Zehn erfahrene und 10 unerfahrene Prüfer und Prüferinnen wurden in die Studie eingeschlossen, davon 1 weiblicher und 9 männliche Prüfer in der Gruppe der erfahrenen und 3 weibliche sowie 7 männliche Prüfer in der Gruppe der unerfahrenen Prüfer. Alle Prüfer/innen beurteilten alle Standardisierten Prüflinge in einer Prüfungssituation aus dem OSCE des 1. Studienteils. Details zum Erfahrungsgrad der Prüfer/innen sind in Tabelle 2 [Tab. 2] angegeben.

In der Beurteilung der Prüflinge mit exzellenter Leistung zeigte sich kein wesentlicher Unterschied zwischen erfahrenen und unerfahrenen Prüfern/innen (siehe Tabelle 3 [Tab. 3], siehe Abbildung 4 [Abb. 4]). Im Gegensatz dazu bestand ein signifikanter Unterschied in der Beurteilung der Borderline-Prüflinge zwischen den Prüfergruppen (siehe Tabelle 3 [Tab. 3], siehe Abbildung 5 [Abb. 5]). Unerfahrene Prüfer und Prüferinnen neigten dazu, die erbrachte Leistung schlechter einzuschätzen als erfahrene Prüfer/innen.

Beide Prüfergruppen bewerteten die Soziale Kompetenz (Item 5), trotz identischer Standardisierung, bei den Borderline-Prüflingen schlechter als bei den exzellenten Prüflingen (siehe Tabelle 3 [Tab. 3]). Der Unterschied war statistisch signifikant (4,80 vs. 4,13, p<0,001).

Akzeptanz für Standardisierten Prüflinge

Beide Prüfergruppen nahmen die Standardisierten Prüflinge als authentische Prüfungskandidaten wahr und sahen dieses neue Instrument als Möglichkeit einen OSCE weiter zu objektivieren. Beide Prüfergruppen empfanden die Einschätzung der Leistung bei guten Studierenden tendenziell leichter als bei den Borderline Studierenden, nahmen aber insgesamt keine Schwierigkeiten in der Leistungseinschätzung wahr.

Der regelmäßige Einsatz von Standardisierten Prüflingen zur Schulung von erfahrenen Prüfern/innen wurde von der Gruppe der unerfahrenen Prüfern mehr befürwortet als von den erfahrenen (2,9 vs. 2,0). Die detaillierten Ergebnisse sind in Abbildung 6 [Abb. 6] dargestellt.


Diskussion

Detaillierte Handlungsanweisungen für den Aufbau, die Umsetzung und Qualitätssicherungsmaßnahmen für einen OSCE und daraus resultierende gute teststatistische Ergebnisse, rechtfertigen den Einsatz dieses Prüfungsformats zur Überprüfung und Bewertung klinisch-praktischer Fertigkeiten an medizinischen Fakultäten [9], [15], [16], [17], [18]. Während OSCEs und OSPEs bislang vorwiegend in fakultätsinternen Prüfungen eingesetzt wurden, macht die aktuelle Diskussion zu ihrem Einsatz im Staatsexamen die Notwendigkeit einer Fakultätsübergreifenden Standardisierung deutlich [19]. Trotz etablierter Qualitätssicherungsmaßnahmen konnten potenzielle Einflüsse auf OSCE-Ergebnisse in verschiedenen Untersuchungen nachgewiesen werden. Dabei setzen solche Studien häufig ein hohes Maß an Personalaufwand, z.B. unabhängige Zweit-Bewerter, Video-Bewertungen, etc. voraus. Gleichzeitig lassen sich individuelle Einflussfaktoren von Prüflings- und Prüfer-Seite nicht eliminieren und nicht zufriedenstellend standardisieren. Unser Ziel war es durch die Anwendung des Konzepts der Standardisierung auf die studentische Leistung ein neues Instrument zur Qualitätssicherung in einem OSCE zu entwickelnd, das ermöglicht einzelne Einflussfaktoren auf die Bewertung der studentischen Leistung zu identifizieren. Gleichzeitig soll dieses neue Instrument zukünftig auch als Schulungs-Tool für OSCE-Prüfer eingesetzt werden können.

Im Rahmen der Überprüfung der Standardisierten Prüflinge konnte gezeigt werden, dass eine Standardisierung von Studierenden für ein zuvor definiertes Leistungsniveau gelingt.

Die Überprüfung der Standardisierung zeigte, dass bei beiden Prüflingsgruppen Abweichungen auftraten. Exzellente Prüflinge neigten eher dazu, zu wenige Antworten zu nennen und hatten Schwierigkeiten nicht einfach auswendig gelernte Listen wiederzugeben, wohingegen die Borderline-Prüflinge sowohl zu viele als auch zu wenig Antworten nannten. Die Abweichungen waren bei den Borderline-Prüflingen insgesamt deutlicher, was darauf hinweist, dass die Standardisierung für dieses Leistungsniveau schwieriger ist.

Borderline-Prüflinge wichen insbesondere bei Items von den Antworten ab, in denen die Darstellung eines diagnostischen oder therapeutischen Algorithmus gefordert war, siehe Tabelle 1 [Tab. 1]. Dieser Umstand deutet darauf hin, dass möglicherweise eine zunehmende Komplexität der Aufgabe die Standardisierung erschwert. Analog verhielt es sich für die komplexeren Untersuchungsschritte aus der Checkliste Abdominelle Untersuchung. Hier wichen die Borderline-Prüflinge ebenfalls von den erwarteten Untersuchungsschritten ab (siehe Tabelle 1 [Tab. 1]). Neben den rein inhaltlichen Abweichungen, neigten einzelne Studierende zur Überinterpretation der Rolle.

Sowohl die inhaltlichen Abweichungen als auch die unterschiedlichen Auslegungen der gespielten Rolle seitens der Standardisierten Prüflinge, weisen darauf hin, dass der Standardisierungs-Vorgang selbst und das Training der Rolle essentiell sind. In der hier gewählten Herangehensweise wurden die Studierenden anhand von modifizierten Checklisten, auf denen abhängig vom Leistungsniveau für jede mögliche Antwort definiert wurde, ob diese gegeben werden soll oder nicht, trainiert. Aus den Ergebnissen lässt sich ableiten, dass die Standardisierung noch genauer trainiert werden sollte. Zusätzlich erscheint es sinnvoll, analog zum Training von Simulationspatienten [26], zusätzlich eine vollständige Rolle zu definieren, in die dann das Leistungsniveau bzw. die zu überprüfende Eigenschaft eingebettet werden kann. Da die Prüfer/innen dazu neigten gerade bei den Borderline-Prüflingen Nachfragen zu stellen, müssen die Studierenden für solche Situationen ganz besonders geschult werden. Insbesondere muss dabei das Augenmerk auf komplexe Aufgebanstellungen und Untersuchungsgänge gelegt werden. Basierend auf den hier dargestellten Erfahrungen erscheint es sinnvoll, die Studierenden wiederholt ihr Rolle zur Überprüfung spielen zu lassen und dabei verschiedenen Optionen der Prüfer-Intervention zu simulieren um das Rollen-konforme Verhalten der Standardisierten Prüflinge zu üben. Eine Überprüfung der Standardisierung in einem Realitäts-nahen OSCE ist dabei eine weitere Option zur Überprüfung. Videoaufnahmen mit anschließender Analyse durch die Trainer und Standardisierten Prüflinge stellen eine weitere Trainings-Möglichkeit dar.

Ein offensichtlicher Nachteil der hier vorgelegten Studie ist die geringe Fallzahl. Es handelt sich um ein Pilotprojekt, das einer Machbarkeitsstudie entspricht. Zukünftig sollte die Standardisierung von Prüflingen mit mehr Studierenden erfolgen und in einer größeren Anzahl von Prüfungssituationen als der hier gewählten Zahl überprüft werden.

Im zweiten Studienabschnitt wurden die Videoaufnahmen der OSCE-Station Management eines Patienten mit Sigmadivertikulitis auf beiden Standardisierungsniveaus verwendet. Untersucht wurde, in wie weit sich die Prüfererfahrung auf die Bewertung der erbrachten Leistung auswirkt. Es wurde diese Station verwendet, da hier die Standardisierung am besten war.

Die Ergebnisse dieses Studienteils zeigen, dass die Leistung der Borderline-Prüflinge unterschiedlich durch die beiden Prüfergruppen eingeschätzt wurde. Unerfahrene Prüfer/innen bewerteten die Leistung signifikant schlechter und nutzten dabei auch eine größere Punkterange aus. Prinzipiell sind hierfür mehrere Erklärungen denkbar. Erfahrene Prüfer und Prüferinnen erkennen die erbrachte Leistung als solche und ordnen sie richtig ein. Auf der anderen Seite könnte dieses Ergebnis auch darauf hinweisen, dass erfahrenen Prüfer/innen für erkennbare Leistungsniveaus nicht die volle Bewertungsbreite nutzen und nur, wie von Iramaneerat beschrieben, einen eingeschränkten Punktebereich verwenden [19]. Gleichzeitig könnte dieses Ergebnis auch darauf hindeuten, dass unerfahrene Prüfer/innen, unter Umständen unsicherer in der Einordnung schlechterer Leistungen sind und diese möglichicherweise übertrieben schlecht bewerten. Yeates und Kollegen zeigten in einer Arbeit wiederum, dass verschiedene Prüfer den Fokus in der Bewertung einer Leistung unterschiedlich setzen [27]. Die hier dargestellten Ergebnisse können daher auch ein Hinweis dafür sein, dass mit zunehmender klinischer oder Prüfungserfahrung, Schwerpunkte für die Punktevergabe unterbewusst anders gewählt werden. Nicht völlig ausschließen lässt sich, dass alle Prüfer und Prüferinnen hier einem leniency error unterliegen, der durch eine generelle Tendenz gekennzeichnet ist, Leistungen schlechter oder im anderen Extrem besser zu bewerten als sie eigentlich sind [13]. Gleichzeitig könnte auch, der von Yeates und Kollegen beschriebenen Effekt, eingetreten sein, dass eine Borderline-Leistung besonders schlecht bewertet wird, wenn sie direkt nach einer sehr guten Leistung beurteilt werden muss [7]. Wobei in dem hier gewählten Design die erste und die letzte Leistung in der Video-Sequenz jeweils einer Borderline-Leistung entsprach und damit nur einmal die von Yeates und Kollegen beschriebene Konstellation bestanden hätte.

Durch die schlechtere Bewertung der Sozialen Kompetenz bei Borderline-Prüflingen (4,80 vs. 4,13, p<0,001) trotz identischer Standardisierung und gleicher Performance in der Überprüfung der Standardisierung, lässt sich ein Halo-Effekt für beide Prüfergruppen vermuten. Die Ergebnisse dieser Studie suggerieren, dass im Sinne eines Halo-Effekts, wie von Iramaneerat und Kollegen beschrieben, die schlechtere inhaltliche Leistung zu einer Fehlwahrnehmung des Kommunikationsverhaltens führt [21]. Davon waren erfahrene und unerfahrene Prüfer/innen in gleichem Maße betroffen, was darauf hindeutet, dass auch eine umfangreiche Erfahrung als OSCE-Prüfer/in diesen Effekt nicht negieren kann.

Die detektierten Unterschiede in der Bewertung von Borderline-Prüflingen in Abhängigkeit von der Prüfererfahrung suggerieren, dass diese Effekte potentiell für das Bestehen oder Nicht-Bestehen einer OSCE-Station ausschlaggebend sein können. Letzteres verdeutlicht, dass eine gezielte Prüfer-Vorbereitung essentiell ist, gerade wenn OSCEs zukünftig im medizinischen Staatsexamen eingesetzt werden.

Ein weiterer Aspekt der generell bedacht und in Folgestudien weiter untersucht werden sollte, ist die Frage, ob es einen Unterschied im Bewertungsverhalten von erfahrenen Prüfern/innen gibt, abhängig davon, ob sie Erfahrung als OSCE-Prüfer/in besitzen oder nur eine längere klinische Erfahrung bzw. ob beides gegeben ist. Die erfahrenen Prüfer/innen in der aktuellen Studie hatten alle mehr als 5 Jahre klinische Erfahrung, die Erfahrung als OSCE-Prüfer variierte allerdings zwischen 2 und mehr als 5 OSCE-Prüfungseinsätzen. Da es sich bei der hier vorliegenden Studie um ein Pilotprojekt mit kleiner Fallzahl handelt, wurde dieser Aspekt nicht weiterverfolgt.

In der hier vorgestellten Studie stellt die Nutzung von Videos zur Durchführung einer solchen Untersuchung an sich dabei keine Neuerung dar. Vielmehr bieten Standardisierte Prüflinge aber zukünftig die Möglichkeit losgelöst von Videoanalysen analoge Untersuchung in einem OSCE mit standardisierten Prüflingen durchzuführen. Dabei ist denkbar, Standardisierte Prüflinge als „Qualitätsstandard“ in einem OSCE mitlaufen zu lassen. Die Art des Trainings für die Standardisierung muss zwingend noch weiter ausgearbeitet werden um Abweichungen zu minimieren. Zu überprüfen bleibt auch, ob eine Standardisierung eines Studierenden für mehrere Checklisten möglich ist.


Schlussfolgerung

Durch die Standardisierung von simulierten Prüflingen für definierte Leistungsniveaus, ergibt sich zukünftig die Möglichkeit Einflüsse auf das Bewertungsverhalten von Prüfern in OSCEs direkt zu analysieren. Im Rahmen von High Stakes Prüfungen, gerade auch im Hinblick auf den zukünftigen Einsatz von OSCEs im medizinischen Staatsexamen, stellen Standardisierte Prüflinge, neben der Qualitätssicherung, ein mögliches Instrument zur Schulung von OSCE-Prüfern dar [19].


Interessenkonflikt

Die Autor*innen erklären, dass sie keinen Interessenkonflikt im Zusammenhang mit diesem Artikel haben.


Literatur

1.
Nikendei C, Kruppa E, Jünger J. Einsatz innovativer Lern- und Prüfungsmethoden an den Medizinische Fakultäten der Bundesrepublik Deutschland- eine aktuelle Bestandsaufnahme. Dtsch Med Wochenschr. 2009;134:731-732.
2.
Harden RM, Stevenson M, Downie WW, Wilson GM. Assessment of clinical competence using objective structured examination. Br Med J. 1975;22(1):447-451. DOI: 10.1136/bmj.1.5955.447 Externer Link
3.
Schleicher I, Leitner K, Jünger J, Möltner A, Rüssler M, Bender B, Sterz J, Stibane T, König S, Frankenhauser S, Kreuder JG. Does quantity ensure quality? Standardized OSCE-stations for outcome-oriented evaluation of practical skills at medical faculties. Ann Anat. 2017;212:55-60. DOI: 10.1016/j.aanat.2017.03.006 Externer Link
4.
Byrne A, Soskova T, Dawkins J, coombes L. A pilot study of marking accuracy and mental workload as measure of OSCE examiner performance. BMC Med Educ. 2016;16:191. DOI: 10.1186/s12909-016-0708-z Externer Link
5.
Wood TJ, Chan J, Humphrey-Murto S, Pugh D, Touchie C. The influence of first impressions on subsequent ratings within an OSCE station. Adv Health Sci Educ Theory Pract. 2017;22(4):969-983. DOI: 10.1007/s10459-016-9736-z Externer Link
6.
Fuller R, Homer M, Pell G, Hallam J. Managing extremes of assessor judgement within the OSCE. Med Teach. 2017;37(1):58-66. DOI: 10.1080/0142159X.2016.1230189 Externer Link
7.
Yeates P, Cardell J, Byrne G, Eva KW. Relatively speaking: contrast effects influence assessors' scores and narrative feedback. Med Educ. 2015;49(9):909-919. DOI: 10.1111/medu.12777 Externer Link
8.
Bartman I, Smee S, Roy M. A method of identifying extreme OSCE examiners. Clin Teach. 2013;10(1):27-31. DOI: 10.1111/j.1743-498X.2012.00607.x Externer Link
9.
Pell G, Fuller R, Homer M, Robert T. How to measure the quality of the OSCE: A review of metrics - AMEE guide no. 49. Med Teach. 2010;32(10):802-811. DOI: 10.3109/0142159X.2010.507716 Externer Link
10.
Khan KZ, Ramachandran S, Gaunt K, Pushkar P. The Objective Structured Clinical Examination (OSCE): AMEE Guide No. 81 Part I: A historical and theoretical perspective. Med Teach. 2013;35(9):e1437-1446. DOI: 10.3109/0142159X.2013.818634 Externer Link
11.
Chesser A, Cameron H, Evans P, Gleland J, Boursicot K, Mires G. Sources of variation in performance on a shared OSCE station across four UK medical schools. Med Educ. 2009;43(6):526-532. DOI: 10.1111/j.1365-2923.2009.03370.x Externer Link
12.
Humphrey-Murto S, Touchi C, Wood TJ, Smee S. Does the gender of the standardised patient influence candidate performance in an objective structured clinical examination? Med Educ. 2009;43(6):521-525. DOI: 10.1111/j.1365-2923.2009.03336.x Externer Link
13.
Harasym PH, Woloschuk W, Cunning L. Undesired variance due to examiner stringency/leniency effect in communication skill scores assessed in OSCEs. Adv Health Sci Educ Theory Pract. 2008;13(5):617-632. DOI: 10.1007/s10459-007-9068-0 Externer Link
14.
Turner JL, Dankosko ME. Objective structured clinical exams: A critical review. Fam Med. 2008;40(8):574-578.
15.
Schultz JH, Nikendei C, Weyrich P, Möltner A, Fischer M R, Jünger J. Qualitätssicherung von Prüfungen am Beispiel des OSCE-Prüfungsformats: Erfahrungen der Medizinischen Fakultät der Universität Heidelberg. Z Evid Fortbild Qual Gesundhwes. 2008;102(10):668-672. DOI: 10.1016/j.zefq.2008.11.024 Externer Link
16.
Barman A. Critiques on the objective structured clinical examination. Ann Acad Med Singapore. 2005;34(8):478-482.
17.
Sloan DA, Donelly MB, Schwartz RW, Strodel WE. The Objective Structured Clinical Examination. The new gold standard for evaluating postgraduate clinical performance. Ann Sur.g 1995;222(6):735-742. DOI: 10.1097/00000658-199512000-00007 Externer Link
18.
Mash B. Assessing clinical skill - standard setting in the objective structured clinical exam (OSCE). South Afr Fam Pract. 2007;49(3):5-7. DOI: 10.1080/20786204.2007.10873520 Externer Link
19.
Jünger J. Kompetenzorientiert prüfen im Staatsexamen Medizin. Bundesgesundheitsbl. 2018;61:171-177. DOI: 10.1007/s00103-017-2668-9 Externer Link
20.
Yeates P, O'Neill P, Mann K, Eva KW. 'You're certainly relatively competent': Assessor bias dur to recent experiences. Med Educ. 2013;47:910-922. DOI: 10.1111/medu.12254 Externer Link
21.
Iramaneerat C, Yudkowsky R. Rater errors in a clinical skills assessmant of medical students. Eval Health Prof. 2007;30(3):266-283. DOI: 10.1177/0163278707304040 Externer Link
22.
Schleicher I, Leitner K, Juenger H, Moeltner A, Ruesseler M, Bender B, Sterz J, Schuettler KF, Koenig S, Kreuder JG. Examiner effect on the objective structured cliniclal exam - a study at five medical schools. BMC Med Educ. 2017;17:71. DOI: 10.1186/s12909-017-0908-1 Externer Link
23.
Nikendei C, Kraus B, Lauber H, Schrauth M, Weyrich P, Zipfel S, Jünger J. An innovative model for teaching complex clinical procedures: Integration of standardised patients into ward round training for final year students. Med Teach. 2007;29(2-3):246-252. DOI: 10.1080/01421590701299264 Externer Link
24.
Rethans JJ, Grosfeld FJ, Aper L, Reniers J, Westen JH, van Wijngaarden JJ, van Weel-Baumgarten EM. Six formats in simulated and standardized patients use, based on experiences of 13 undergraduate medical curricula in Belgium and the Netherlands. Med Teach. 2012;34(9):710-716. DOI: 10.3109/0142159X.2012.708466 Externer Link
25.
Barrows HS. An Overview of the uses of standardized patients for teaching and evaluating clinical skills. Acad Med. 1993;68(6):443-451. DOI: 10.1097/00001888-199306000-00002 Externer Link
26.
Schulz JH, Schönemann J, Lauber H, Nikendei C, Herzog W, Jünger J. Einsatz von Simulationspatienten im Kommunikations- und Interaktionstraining für Medizinerinnen und Mediziner (Medi-KIT): Bedarfsanalyse - Training - Perspektiven. Gruppendyn Organisationsberat. 2007;38(1):7-23. DOI: 10.1007/s11612-007-0002-y Externer Link
27.
Yeates P, O'Neill P, Mann K, Eva K. Seeing the same thing differently - Mechanisms that contribute to assessor differences in directly-observed performance assessments. Adv Helath Sci Educ Theory Paract. 2013;18(3):325-341. DOI: 10.1007/s10459-012-9372-1 Externer Link