gms | German Medical Science

GMS Journal for Medical Education

Gesellschaft für Medizinische Ausbildung (GMA)

ISSN 2366-5017

Gerechtigkeit und Objektivität einer OSCE-Prüfung mit multiplen Szenarien

Artikel Prüfungen

  • corresponding author Johannes Spanke - University Medicine Greifswald, Institute for Community Medicine, Department of General Practice and Family Medicine, Greifswald, Deutschland
  • corresponding author Christina Raus - University Medicine Greifswald, Institute for Community Medicine, Department of General Practice and Family Medicine, Greifswald, Deutschland
  • Annekathrin Haase - University Medicine Greifswald, Institute for Community Medicine, Department of General Practice and Family Medicine, Greifswald, Deutschland
  • Aniela Angelow - University Medicine Greifswald, Institute for Community Medicine, Department of General Practice and Family Medicine, Greifswald, Deutschland
  • Fabian Ludwig - University Medicine Greifswald, Institute for Community Medicine, Department of General Practice and Family Medicine, Greifswald, Deutschland
  • Gesine Weckmann - University Medicine Greifswald, Institute for Community Medicine, Department of General Practice and Family Medicine, Greifswald, Deutschland; Europäische Fachhochschule Rhein/Erft, Fachbereich Angewandte Gesundheitswissenschaften, Rostock
  • Carsten Oliver Schmidt - University Medicine Greifswald, Institute for Community Medicine, SHIP-KEF, Greifswald, Deutschland
  • Jean-Francois Chenot - University Medicine Greifswald, Institute for Community Medicine, Department of General Practice and Family Medicine, Greifswald, Deutschland

GMS J Med Educ 2019;36(3):Doc26

doi: 10.3205/zma001234, urn:nbn:de:0183-zma0012343

Dieses ist die deutsche Version des Artikels.
Die englische Version finden Sie unter: http://www.egms.de/en/journals/zma/2019-36/zma001234.shtml

Eingereicht: 23. Mai 2018
Überarbeitet: 11. November 2018
Angenommen: 13. Februar 2019
Veröffentlicht: 16. Mai 2019

© 2019 Spanke et al.
Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung). Lizenz-Angaben siehe http://creativecommons.org/licenses/by/4.0/.


Zusammenfassung

Hintergrund: Das Ziel einer Objective Structured Clinical Examination (OSCE-Prüfung) ist eine standardisierte und faire Prüfung klinischer Fertigkeiten. Nach dem Blockpraktikum Allgemeinmedizin im 2. klinischen Jahr (4. Studienjahr) werden die Studierenden mit einer OSCE-Prüfung Allgemeinmedizin an Simulationspatienten beurteilt. In der Vergangenheit konnten wir beobachten, dass prüfungsrelevante Informationen während der Prüfung unter den Studierenden ausgetauscht wurden. Dies führte zu einer zunehmend hastigen und unpräzisen Interaktion mit dem Simulationspatienten. Daher entwickelten wir eine Multiple-Scenario-OSCE-Prüfung (MS-OSCE), bei der an jeder Station einem bestimmten Beratungsanlass unterschiedliche Szenarios zugrunde gelegt werden, die bei gleichlautender Aufgabenstellung während der Rotation einer Studierendengruppe innerhalb jeder Station randomisiert gewechselt wurden. Eine MS-OSCE soll die Studierenden veranlassen, mögliche Differentialdiagnosen gründlicher zu explorieren, anstatt ihre Aufgaben unter dem Einfluss von weitergeleiteten Informationen vorangehender Prüfungskandidaten zu lösen. Wir wollten beurteilen, ob die unterschiedlichen Szenarien einer Station vergleichbare Schwierigkeiten aufwiesen und welche Faktoren die Fairness und Objektivität der MS-OSCE beeinflussen.

Methoden: Wir entwickelten und pilotierten fünf OSCE-Stationen (Beratungsanlässe: Brustschmerz, Bauchschmerz, Rückenschmerz, Müdigkeit und akuter Husten) mit zwei oder drei unterschiedlichen Szenarien für den an der jeweiligen Station vorgesehenen Beratungsanlass. Der Wechsel der Szenarios an jeder Station erfolgte randomisiert von Student/in zu Student/in. Die Leistungsbewertung der Studierenden erfolgte sowohl mit einer Checkliste als auch mit einem globalen Rating. Der Effekt der Szenarien und der Prüfer/-in auf die Noten der Studierenden wurde durch Berechnung des Intraclass-Korrelationskoeffizienten mit einem linearen Zweiebenen-Modell mit fixen Effekten ermittelt.

Ergebnisse: An der MS-OSCE nahmen insgesamt 169 Studierende und 23 Prüfer/innen teil. Die mittels Cronbach’s alpha berechnete Interne Konsistenz über alle Stationen auf einer Notenskala von 1 bis 5 betrug 0,65. Die mittlere Notendifferenz zwischen den Szenarien eines Beratungsanlasses reichte von 0,03 bis 0,4. Der Einfluss der Szenarien auf die Varianz der durchschnittlichen Noten pro Station lag nach Adjustierung für die Fähigkeiten der Studierenden bei 4% bis 9%. Der Einfluss der Prüfer/-innen reichte von 20% bis 50%.

Schlussfolgerung: Der Einfluss der unterschiedlichen Szenarien einer Station auf die Note war gering im Vergleich zum Einfluss der Prüfer/-in. Um die Objektivität einer MS-OSCE zu gewährleisten muss eine adäquate Prüferschulung erfolgen. Verbesserung der Interrater-Reliabilität ist wichtiger für Fairness und Objektivität, als alle Studierenden mit demselben Szenario zu prüfen.

Schlüsselwörter: Medizinstudenten, Medizinische Ausbildung, OSCE, Prüfereffekte


Einführung

Seit der Einführung durch Harden 1975 [1] hat sich die Objective Structured Clinical Examination (OSCE) zur Prüfung von klinischen Fähigkeiten und Fertigkeiten in der Ausbildung von Medizinstudierenden etabliert. Wir prüfen Medizinstudentinnen und Medizinstudenten nach ihrem Blockpraktikum Allgemeinmedizin im 2. Klinischen Jahr mit einer summativen OSCE-Prüfung. Mit geschulten Simulationspatienten (SP) wird bei einer OSCE-Prüfung, jede/r Studierende in standardisiert dargestellten klinischen Situationen geprüft [2], [3]. Die Objektivität von Prüfungen klinischer Kompetenz (Kriterien für Objektivität: Validität, Reliabilität, Effizienz, Transparenz) ist allerdings häufig beeinträchtigt durch Schwächen bei Planung und Durchführung der Prüfungen [4], [5], [6], [7]. Auch das Weitergeben von prüfungsrelevanten Informationen durch Studierende während einer OSCE-Prüfung stellt eine Beeinträchtigung von deren Fairness und Objektivität dar [8], [9], [10]. Fairness einer Prüfung bedeutet, dass Beurteilungen frei von Voreingenommenheit erfolgen und niemanden benachteiligen. Sie erfordert die Einhaltung übereinstimmender Regeln und Standards für alle Studierenden [11].

Wir nehmen an, dass der Austausch detaillierter Informationen zu Inhalten der OSCE-Stationen während der Prüfung ein Grund für Beobachtungen ist, die wir in den letzten Jahren gemacht hatten: Zur Prüfung der gesamten Jahrgangskohorte der Studierenden im 2. Klinischen Jahr benötigen wir 3 Tage. In diesem Zeitraum konnten wir beobachten, dass Studierende, die die Prüfung erst nach der ersten Prüfungsgruppe antraten, die Aufgaben an den OSCE-Stationen zunehmend hastiger und weniger nachvollziehbar absolvierten. Sie zogen Schlüsse, die nicht auf Informationen beruhten, die sie während der Interaktion mit der Simulationspatientin/ dem Simulationspatienten herausgearbeitet hatten. Sie kamen zum Beispiel zu einer Diagnose oder zu einer Therapieentscheidung, ohne eine ausreichende körperliche Untersuchung oder die Anamnese abgeschlossen zu haben. Da heutzutage jeder Student über “Kommunikative Fähigkeiten” mittels elektronischer Medien verfügt, ist es einfacher, Informationen zum Prüfungsinhalt zeitnah auszutauschen [12], [13]. Wir identifizierten Internetblogs von Medizinstudierenden, die ihre OSCE-Prüfung bereits absolviert hatten, in denen Hinweise für nachfolgende Prüflinge enthalten waren. Auch bemerkten wir, dass Studierende fallspezifische Informationen während der laufenden Prüfung benutzten. Auch wenn mehrere Studien zeigen konnten, dass diese Art von Fehlverhalten die Prüfungsergebnisse nicht notwendigerweise relevant beeinflusst [9], [10], [14], [15], nehmen wir an, dass diese Informationen einen negativen Effekt auf die Prüfungsleistung der Studierenden haben.

Darum entwickelten wir eine Multiple Scenario-OSCE-Prüfung (MS-OSCE), bei der alle Studierenden den immer gleichbleibenden Beratungsanlass einer Station managen müssen, jedoch mit wechselnden zugrundeliegenden Szenarien (d.h. Ursachen). Multiple Szenarien bei gleichem Beratungsanlass sollen dafür sorgen, dass alle Studierenden eine gründliche Anamnese und eine adäquate Untersuchung ausführen, trotz Informationen zur Prüfung von Studierenden, die die MS-OSCE-Prüfung vorher absolviert hatten. Das Verändern einer OSCE-Station im Verlauf einer Prüfung scheint nicht unüblich zu sein, doch wurde darüber bisher nur wenig publiziert; wohingegen der Effekt von wechselnden Prüfer/innen während einer OSCE-Prüfung gut dokumentiert ist [16].

Das Ziel unserer Untersuchung war es, zu prüfen, ob Objektivität und Fairness der MS-OSCE-Prüfung angenommen werden dürfen, auch wenn nicht alle Studierenden mit dem identischen Szenario eines Beratungsanlasses geprüft wurden.

Unsere Hypothese lautet, dass die Notengebung für die Prüfungsleistung der Studierenden nicht unfair beeinflusst wird, wenn das Management eines Beratungsanlasses mittels multipler Szenarien getestet wird.


Methoden

Dies ist eine Beobachtungsstudie zur Implementierung des MS-OSCE Konzepts. Die Prüfung war Teil der Benotung des Blockpraktikums Allgemeinmedizin von 169 Studierenden im 2. Klinischen Jahr. (58% weiblich, Median Alter: 26 Jahre (22-37 Jahre) [17]. Zwei Studierende des Jahrgangs traten die Prüfung wegen Krankheit nicht an.

Entwicklung der MS-OSCE Stationen

In Übereinstimmung mit dem Lernzielkatalog des Faches Allgemeinmedizin erstellten wir einen OSCE-Blueprint und entwickelten daraus fünf OSCE-Stationen, von denen jede einen anderen Beratungsanlass abprüfte mit jeweils 2-3 zugrundeliegenden Szenarien pro Beratungsanlass. Die Beratungsanlässe wurden 4 Wochen vor der OSCE-Prüfung auf der Website der Abteilung Allgemeinmedizin bekanntgegeben, um den Studierenden eine Vorbereitung auf die Prüfung zu ermöglichen. Die Beratungsanlässe lauteten: „Brustschmerz“, „Bauchschmerz“, „Rückenschmerz“, „Müdigkeit“ und „akuter Husten“. Für das Management der genannten Beratungsanlässe, außer für „Bauchschmerz“, existieren nationale Leitlinien. Die Synopse der Beratungsanlässe mit den entsprechend zugeordneten Szenarien ist in Tabelle 1 [Tab. 1] dargestellt. Die Pilotierung der Brustschmerzstation erfolgte bereits für die OSCE-Prüfung des Vorjahres. Die übrigen OSCE-Stationen wurden mit Hilfe freiwilliger Studierender pilotiert.

Simulationspatienten und Prüfertraining

Die Szenarien für jeden Beratungsanlass wurden standardisiert erstellt. Als Simulationspatienten/Simulationspatientinnen (SP) wurden Studierende einer Theaterakademie und Laienschauspieler/innen rekrutiert. Die SPs wurden instruiert, ihre Simulation immer mit einem festgelegten Eingangssatz zu beginnen und erhielten ein detailliertes Skript, in dem jedes Szenario eines Beratungsanlasses mit standardisierten Regieanweisungen beschrieben wurde (siehe Tabelle 1 [Tab. 1]). Die einzelnen Szenarien wurden dann mit Medizinstudierenden ab dem dritten klinischen Jahr und Ärzten in Weiterbildung eingeübt. Für die Szenarien der „Brustschmerz“-Station wurden ältere SPs eingesetzt, um eine möglichst realistische Darstellung des in Frage kommenden akuten Koronarsyndroms zu gewährleisten. Diese älteren SPs hatten bereits im vorangehenden Jahr das Training für die Darstellung eines akuten Koronarsyndroms erhalten und wurden nun zusätzlich für die weiteren Szenarien der „Brustschmerz“-Station (costosternales Syndrom und gastroösophagealer Reflux) trainiert. An der „Bauchschmerz“-Station wurden ausschließlich männliche SPs eingesetzt, um gynäkologische Differentialdiagnosen auszublenden. Jede/r SP erhielt ein 4-stündiges Training inclusive einer Probe mit Supervision durch eine/n Lehrbeauftragten.

Die Prüfer/innen waren Allgemeinärztinnen und Allgemeinärzte des Lehrärztenetzwerks der Abteilung für Allgemeinmedizin. Die meisten von ihnen sind bereits seit Jahren als Prüfer/innen in OSCE-Prüfungen tätig gewesen. Alle Prüfer/innen erhielten eine 15-30 minütige Einführung in die neuen Prinzipien der MS-OSCE-Prüfung bevor sie die erste Bewertung abgaben. Die Checkliste eines jeden Beratungsanlasses war für die ihm zugrundeliegenden Szenarien identisch. Die Szenarien wurden vor Beginn der Prüfung mit den SP nochmals durchgesprochen. Jede Station war mit einem Prüfer/in besetzt. Im Laufe der 3 Prüfungstage wurden 23 Prüfer/innen tätig. 2 Prüfer/innen wechselten durch alle Stationen, wohingegen die meisten Prüfer/innen nur an 1 oder 2 Stationen eingesetzt waren.

Die Studierenden konnten sich elektronisch für einen Prüfungstag und den Prüfzeitraum einschreiben. Sie wurden einer der beiden Prüfungsgruppen zu je 5 Stationen zugeteilt. Beide Prüfungsgruppen zirkulierten simultan von Station 1 bis Station 5 in einem Flur mit 10 getrennten Räumen (2 x Stationen 1-5). Bevor eine Studentin/ein Student den Raum einer Station betrat, wählte die/der Prüfer/in das zu simulierende Szenario nach Zufall aus. Die Studierenden hatten 10 Minuten Zeit, die Aufgabenstellung einer Station zu lösen und wechselten danach alle gleichzeitig die Station in einer festgelegten Zeit. Jede/r Studierende benötigte 60 Minuten für die komplette MS-OSCE Prüfung.

Beurteilung und Notenvergabe

Die Approbationsordnung in Deutschland verlangt eine Notenvergabe auf einer Ordinalskala von 1 bis 5 (sehr gut (1), gut (2), befriedigend (3), ausreichend (4) und mangelhaft (5)). Dieses Benotungssystem wird in deutschen Schulen in ähnlicher Weise benutzt und ist allen Prüfern vertraut [https://www.gesetze-im-internet.de/_appro_2002/BJNR240500002.html]. Wir prüften die Fertigkeiten der Studentinnen und Studenten mit einer Checkliste (checklist rating (CR)), die sowohl binäre Items (z.B. Studierende/r fragt nach Nikotinkonsum: ja/nein) als auch Likert Skalen (z.B. Qualität einer ausgeführten Student/in – Patient/in – Interaktion) beinhaltete. Die Items der Checkliste einer Station erfassten für jedes Szenario eines Beratungsanlasses die gleichen Untersuchungserfordernisse. Die kommunikative Kompetenz wurde mit dem Berliner Global Rating Instrument (BGR) [18] bewertet, einer Globalbewertungsskala [19], [20], basierend auf der von Hodges eingeführten Beurteilungsskala [21], die für deutsche Prüfungserfordernisse angepasst und validiert wurde. Abschließend wurde eine intuitive globale Gesamtbeurteilung (overall global rating (OGR)) [22] für die Gesamtleistung der/des Studierenden an seiner Station abgegeben. Diese wird benötigt, um CR und BGR auf Aspekte hin abzugleichen, die von Checklisten nicht erfasst werden. Die Gesamtnote an jeder Station wurde errechnet als der Durchschnitt aus CR, BGR und OGR. Items, die von mehr als 90% oder weniger als 10% der Studierenden erfüllt wurden, wurden post hoc von der Checkliste gestrichen. Entsprechend der Studienordnung der Universität Greifswald wurde eine Bestehensgrenze von 60% der maximalen erreichbaren Punktzahl im Voraus festgelegt.

Statistische Auswertung

Wir zeigen die Noten einer Station über alle Szenarien als Box-Plots mit Mittelwert, Median, Interquartilenabstand und Ausreißern (siehe Abbildung 1 [Abb. 1]). Die interne Konsistenz der OSCE-Prüfung wurde mittels Cronbach’s Alpha, basierend auf den Noten an jeder Station berechnet.

Wir berechneten Intraclass-Korrelationskoeffizienten (ICC), um den Anteil der Notenvarianz auszudrücken, der auf Szenarien oder Prüfer/innen zurückzuführen war. Idealerweise sollte dieser Anteil nahe Null sein. Dazu berechneten wir für jede Station getrennt lineare Regressionsmodelle und nutzten wegen der Abweichung der Residuen eine Bootstrap-Verfahren zur Varianzabschätzung, weil keine Normalverteilung vorlag. Wir verwendeten zwei Prädiktorensets:

1.
ein Set mit dummy-Kodierung für Szenarien und Prüfer/innen (siehe Tabelle 2 [Tab. 2]);
2.
ein Set mit dem vorgenannten Modell plus der Durchschnittsnote aller Stationen außer der betrachteten Station (siehe Tabelle 3 [Tab. 3]).

Die Noten wurden verwendet, um den Einfluss der Leistungen der Studierenden an allen übrigen Stationen außer der Bezugsstation zu berücksichtigen. Berechnungen wurden mit dem xtreg Befehl in Stata unter Anwendung eines fixed-effects Schätzers ausgeführt. Es gab keine fehlenden Daten für die untersuchten Variablen.

Die Analysen wurden in Stata 13 ausgeführt (Stata Corp., College Station, TX)


Ergebnisse

Stationen und Prüfer/innen waren ebenso wie die Szenarien statistisch voneinander unabhängig (siehe Anhang 1 [Anh. 1] und Anhang 2 [Anh. 2]) Die Interne Konsistenz der OSCE-Prüfung über die 5 Notenstufen für die Stationen war gemäß Cronbach’s alpha 0,65 (CI90 one sided 0,59).

Vergleich der Szenarien für jede Station

Abbildung 1 [Abb. 1] zeigt die Verteilung der Noten getrennt für jedes Szenario innerhalb jeder der fünf Stationen sowie die Verteilung der resultierenden Gesamtnoten pro Station.

Die Gesamtnoten der Stationen lagen durchschnittlich zwischen 2,16 und 2,28. Die Differenz der Durchschnittsnoten der Szenarien einer Station betrug zwischen 0,03 bis 0,40 (siehe Tabelle 2 [Tab. 2] und Tabelle 3 [Tab. 3]). Den größten Unterschied zwischen den Durchschnittsnoten der Szenarien einer Station beobachteten wir an der Station mit dem Beratungsanlass „Brustschmerz“. Hier hatte das lebensbedrohliche Szenario akutes Koronarsyndrom (ACS) eine um 0,4 schlechtere Durchschnittsnote gegenüber dem Szenario gastrointestinaler Reflux. An der Station mit dem Beratungsanlass „Bauchschmerz“ wurde eine um 0,3 schlechtere Durchschnittsnote bei Szenario Appendizitis gegenüber dem Szenario Gastroenteritis beobachtet. Die Gesamtnoten für die Beratungsanlässe (Stationen) lagen im Bereich von 1 bis 5.

Einfluss von Szenarien und Prüfern auf die Noten an jeder Station

Die Einflüsse von Szenarien und Prüferinen/Prüfern auf die Noten an jeder Station werden als ICCs berechnet und sind in Tabelle 2 [Tab. 2] und Tabelle 3 [Tab. 3] dargestellt. In Tabelle 2 [Tab. 2] zeigen wir die ICCs ohne Berücksichtigung (Adjustierung) der studentischen Fähigkeiten an den übrigen OSCE-Stationen und in Tabelle 3 [Tab. 3] die ICCs bei Berücksichtigung (Adjustierung) der Fähigkeit der Studierenden an den übrigen Stationen. Der Einfluss der Szenarien auf die Gesamtnoten der entsprechenden Stationen betrug 5,2% bis 7,8%, wenn keine Berücksichtigung der Durchschnittsnoten der Studierenden an den übrigen Stationen erfolgte. Bei Berücksichtigung der Fertigkeiten der Studierenden an den übrigen Stationen betrug der Einfluss der Szenarien 4,2% bis 9,2%. Bei Betrachtung der größten Differenz zwischen den Durchschnittsnoten der Szenarien einer Station konnte der größte Einfluss eines Szenarios auf die Gesamtnote an der Station mit dem Beratungsanlass „Brustschmerz“ festgestellt werden.

Die Anzahl der Prüfer/innen an jeder Station bewegte sich zwischen 6 und 10 über die drei Prüfungstage. Der nicht adjustierte Einfluss der Prüfer/innen auf die Gesamtnoten an einer Station schwankte zwischen 14,1% und 39,8% ohne Berücksichtigung der Durchschnittsnoten der Studierenden an den übrigen Stationen. Er betrug zwischen 20,5% und 50,3%, wenn die studentischen Fähigkeiten an den übrigen Stationen berücksichtigt wurden (Adjustierung). Der größte Prüfereffekt wurde an der Station mit dem Beratungsanlass „Bauchschmerz“ gesehen.


Diskussion

Zusammenfassung der Hauptergebnisse

Insgesamt nahmen 169 Studierende im 2. klinischen Jahr und 23 Prüferinnen und Prüfer an der MS-OSCE teil. Die Differenz der Durchschnittsnoten der Szenarien eines Beratungsanlasses (Station) betrug 0,03 bis 0.4 auf einer Notenskala von 1-5. Der Einfluss der Szenarien einer Station auf deren Gesamtbenotung erklärte 4% bis 9% der Notenschwankungen. Bei Berücksichtigung der studentischen Fähigkeiten an den übrigen Stationen war der Einfluss der Prüferinnen und Prüfer an einer Station für 20% bis 50% der Gesamtbenotungsschwankungen der Station verantwortlich.

Bedeutung der Ergebnisse

Wir beobachteten Notenunterschiede von 0,03 bis 0,4 zwischen den Szenarien der gleichen Station auf einer Notenscala von 1-5 (siehe Abbildung 1 [Abb. 1]). Auch wenn die Checklist-Items für jedes Szenario eines Beratungsanlasses die gleiche Vorgehensroutine abdeckten, sollten die Bewertungen eigentlich nicht von der Gefährlichkeit der zugrundeliegenden Diagnose beeinflusst worden sein, da wir verlangten, dass die Studierenden alle Möglichkeiten in Erwägung zogen. Wurde die Diagnose eines potentiell lebensgefährlichen Szenarios verpasst oder dessen Management misslang, scheint das zu einer schlechteren Benotung geführt zu haben. Das war der Fall, wenn ein akutes Koronarsyndrom, eine Appendizitis oder eine Pneumonie vorlag, während ähnliche Fehler bei einem eher gutartigen Szenario wie costosternalem Syndrom, Gastroenteritis oder Bronchitis nicht mit einer schlechteren Benotung einherging.

Es besteht kein Konsens darüber, ab wann eine Notendifferenz als bedeutsam für die Objektivität einer Prüfung gewertet werden soll. Wir schätzen die Bedeutung der beobachteten Notendifferenzen als eher gering bis moderat ein. Verglichen mit dem Ausmaß des Einflusses verschiedener Prüfer/innen auf die Noten einer Station erscheint der Effekt unterschiedlicher Szenarien klein aber noch relevant zu sein. Der Einfluss der Prüfer/innen auf die Noten der Studierenden war unabhängig von den Szenarien und von den Fähigkeiten der Studierenden. Aber der Unterschied in der Durchschnittsnote zwischen dem nachsichtigstem und dem strengsten Prüfer lag bei über 1 Notenstufe auf der 5-teiligen Notenskala, was eine schlechte Inter-Rater-Reliabilität (Zuverlässigkeit der Einschätzung durch verschiedene Prüfer/innen an der gleichen Station) wahrscheinlich macht. Daher scheint eine Prüfer/innenschulung (Vermittlung einheitlicher Bewertungskriterien für ein beobachtetes Verhalten) weitaus bedeutender zu sein als eine Anpassung der unterschiedlichen Schwierigkeiten der Szenarien. Wilkinson et al. [23] zeigten, „dass Prüferfaktoren substantiell stärker zur Objektivität einer OSCE-Prüfung beitragen, als es Bewertungsbögen oder Checklisten tun“. Über Inter-Rater-Reliabilität bei OSCE-Prüfungen wurde nur wenig veröffentlicht und sie variiert je nach OSCE-Aufbau, eingesetzten Prüfungsinstrumenten (global rating/ checklist rating) und den Prüfungsbedingungen (direkte Beobachtung der Prüfungssituation/ Beobachtung eines Prüfungsvideos) [20], [24], [25]. Hatala et al. [26] pilotierten eine OSCE-Prüfung, bei der 2 Stationen in 3 aufeinanderfolgende Prüfungssequenzen zu 10 Minuten unterteilt wurden, wobei verschiedene Aspekte eines Problems in der Inneren Medizin abgedeckt wurden. Sie beobachteten eine Inter-Rater-Reliabilität zwischen 0,63 bis 0,91 bei 2 Prüfern für jedes Szenario. Brennan et al [16] berichten, dass, obwohl sich die Spanne der Notengebung änderte, wenn die Prüfer/innen an den OSCE-Stationen wechselten, die Reliabilität der Prüfung und die Ergebnisse der Prüflinge nicht beeinträchtigt wurden (die Gesamtzahl der Prüfer/innen an einer Station wird allerdings nicht mitgeteilt).

Wegen beschränkter finanzieller Ressourcen konnten wir - wie auch viele andere medizinische Fakultäten – es uns nicht leisten, jede OSCE mit zwei Prüfern gleichzeitig zu besetzen.

Intensiveres Training von Prüferinnen/Prüfern und SPs [4] sowie eine noch sorgfältigere Entwicklung von Checklisten sind mögliche Maßnahmen, um den Effekt von Prüferinnen/Prüfern auf die Notengebung zu reduzieren und so eine bessere Inter-Rater-Reliabilität zu erreichen. Die Annahme, dass ein intensiveres Prüfer/innen -Training die Inter-Rater-Reliabilität erhöht, kann nicht generalisiert werden [27], [28]. In welchem Maße Unfairness und Fehlen von Reliabilität akzeptabel sind und wie sehr sich der Einfluss der Prüfer/innen reduzieren lässt, wird noch diskutiert [29].

Wir nehmen nicht an, dass das MS-OSCE Prüfungsformat den Informationsaustausch unter Studierenden reduziert hat, aber wir nehmen an, dass der Wechsel zu MS-OSCE dazu geführt hat, dass Anamnese und klinische Untersuchung an den Stationen während der 3 Prüfungstage gründlicher und weniger hastig ausgeführt werden. Objektive Daten, um diese Annahme zu stützen, haben wir allerdings nicht.

Stärken und Schwächen

Dies ist nach unserer Kenntnis der erste Bericht über eine Multiple Scenario-OSCE-Prüfung. Wir berechneten adjustiert für die Fähigkeiten der Studierenden den Einfluss von multiplen Szenarien und von Prüferinnen und Prüfern auf die Prüfungsnoten bei einer MS-OSCE-Prüfung. Aufgrund limitierter Ressourcen konnten wir keinen Inter-Rater-Korrelationen für die Checklisten ermitteln und nur ein minimales Prüfer/innentraining realisieren. Diese Situation dürfte bei den meisten Medizinischen Fakultäten, die studentische Fähigkeiten mit einer OSCE -prüfen, ähnlich sein. Zwischen der Bewertung mittels Checkliste und der Globalbewertung zeigte sich ein Korrelation von 0,6 bis 0,8, was für eine kongruente Bewertung von kommunikativen und klinischen Fertigkeiten spricht (Ergebnisse nicht dargestellt). Wir können nicht ausschließen, dass eine unterschiedliche Genauigkeit der Darstellung des gleichen Szenarios durch verschiedene SPs während der 3-tägigen Prüfung einen Einfluss auf die Bewertung hatte. Eine Adjustierung der SPs haben wir nicht durchgeführt. Auch Gender-Effekte, die einen Einfluss auf die Notengebung haben können, wurden von uns nicht berücksichtigt [29], [30], [31]. Weibliche und männliche SPs wechselten an einigen Stationen, was die Performance der Studierenden an der „Brustschmerz“-Station und der Station mit dem Beratungsanlass „akuter Husten“, an denen die Auskultation des Thorax als mögliche klinische Untersuchung in Frage kam, beeinflusst haben kann. Unsere MS-OSCE-Prüfung mit nur fünf Stationen für die Beurteilung einer/eines Studierenden ist relativ kurz da für eine reliable Prüfung mindestens 10 Stationen eingerichtet werden sollten [32], [33]. Zehn Minuten pro Station sind eine akzeptable Zeitspanne [34], [35] und sogar für Abschluss/Aufnahmeprüfungen mit höchsten Anforderungen werden nur 15 Minuten für eine interaktive Aufgabenstellung verlangt [36]. Wir haben eine gute interne Konsistenz (Cronbach’s alpha: 0,65) über alle Stationen, verglichen mit anderen Veröffentlichungen [32].

Auch wenn es möglich ist, nach der Prüfung die individuelle Note einer/eines Studierenden für Unterschiede innerhalb der Szenarien und Unterschiede zwischen den Prüfern mit einem Korrekturfaktor zu adjustieren, haben wir das nicht getan. Die Berechnung von Korrekturfaktoren nach jeder Prüfung würde Ressourcen erfordern, die uns derzeit nicht zur Verfügung stehen.

Die Untersuchung der Validität einer MS-OSCE-Prüfung ist nicht Gegenstand unserer Veröffentlichung. Van der Vleuten and Schuwirth [7] stellen fest, dass Schlüsselparameter für die Validität von Kompetenzeinschätzungen die Authentizität der gezeigten Leistung (Performance) und die Einbeziehung von professionellen Kompetenzen sind. Die MS-OSCE-Prüfung zielt auf die Authentizität der Performance der Studierenden ab, indem sie alternierend mehrere Szenarien für den Beratungsanlass einer Station anbietet, um so den Einfluss von weitergegebenen Informationen (Weitersagen) auf den Umgang mit der Aufgabenstellung der Studierenden zu reduzieren. Die Inhaltsvalidität der Prüfung wurde durch Reviewing aller MS-OSCE-Stationen durch ein Team erfahrener Lehrärztinnen und Lehrärzte angestrebt. Durch die Darstellung klinischer Szenarien mit SPs an jeder der fünf MS-OSCE-Stationen und durch den Einsatz standardisierter Checklisten und einem validierten Globalbewertungsinstrument sollte die Augenscheinvalidität der MS-OSCE der einer traditionellen OSCE mit 5 Stationen gleichen.


Schlussfolgerung

Der Einfluss verschiedener Szenarien auf die Examensnote für das Management eines Beratungsanlasses in der Allgemeinmedizin war gering im Vergleich zum Einfluss der Prüferinnen und Prüfer. Um Objektivität und Fairness einer OSCE-Prüfung zu gewährleisten ist es bedeutsamer, die Inter-Rater-Reliabilität zu verbessern, als alle Studierenden mit dem gleichen Szenario zu prüfen.


Liste der Abkürzungen

ACS: Akutes Koronarsyndrom (acute coronary syndrome)

BGR: Berliner Global Rating Instrument

CI: Konfidenzintervall (confidence interval)

CR: Checklistenprüfung (checklist rating)

OGR: globale Gesamtbeurteilung (overall global rating)

ICC: Intraclass-Korrelationskoeffizienten (intraclass correlation coefficient)

MS-OSCE: Multiple Scenario Objective Structured Clinical Examination

OSCE: Objective Structured Clinical Examination

SP: Simulationspatientin/Simulationspatient


Danksagungen

Wir danken den Lehrärzten Francis Baudet, Gisela Greschniok, Heinz Hammermayer, Thomas Hannemann, Mathias Herberg, Gero Kärst, Andreas Krüger, Barbara Krüger, Annika Matz, Hans-Diether Seiboth, Thomas Richter, Claudia Runge, Carmina Spreemann, Antje Theurer, Renate Tilchner, Rüdiger Titze, Arne Wasmuth, Christine Wendt, Arno Wilfert.


Erhältlichkeit weiterer Daten

Weitere Daten können in begründeten Fällen vom Korrespondenzautor zur Verfügung gestellt werden.


Anteilige Mitwirkung der Autoren

JS und JFC hatten die Idee zur MS-OSCE-Prüfung. Szenarien und Prüfungsmaterialien wurden entwickelt und pilotiert von JS, CR, GW, AA, FL, AH, JFC. CR, JS, FL und GW trainierten die Simulationspatientinnen und Simulationspatienten, AH war für die Datenverwaltung verantwortlich, COS führte die statistische Auswertung durch. JS und JFC schrieben den Textentwurf, der von allen Autoren geprüft und freigegeben wurde.


Interessenkonflikt

Die Autoren erklären, dass sie keine Interessenkonflikte im Zusammenhang mit diesem Artikel haben.


Literatur

1.
Harden RM, Stevenson M, Downie WW, Wilson GM. Assessment of clinical competence using objective structured examination. Br Med J. 1975;1(5955):447-451. DOI: 10.1136/bmj.1.5955.447 Externer Link
2.
Vu NV, Barrows HS. Use of Standardized Patients in Clinical Assessments: Recent Developments and Measurement Findings. Educ Res. 1994;23:23-30. DOI: 10.3102/0013189X023003023 Externer Link
3.
Patrício MF, Julião M, Fareleira F, Carneiro AV. Is the OSCE a feasible tool to assess competencies in undergraduate medical education? Med Teach. 2013;35(6):503-514. DOI: 10.3109/0142159X.2013.774330 Externer Link
4.
Baig LA, Beran TN, Vallevand A, Baig ZA, Monroy-Cuadros M. Accuracy of portrayal by standardized patients: results from four OSCE stations conducted for high stakes examinations. BMC Med Educ. 2014;14:97. DOI: 10.1186/1472-6920-14-97 Externer Link
5.
Van der Vleuten CP, Norman GR, De Graaff E. Pitfalls in the pursuit of objectivity: issues of reliability. Med Educ. 1991;25(2):110-118. DOI: 10.1111/j.1365-2923.1991.tb00036.x Externer Link
6.
Furman GE, Smee S, Wilson C. Quality assurance best practices for simulation-based examinations. Simul Healthc. 2010;5(4):226-231. DOI: 10.1097/SIH.0b013e3181da5c93 Externer Link
7.
van der Vleuten CP, Schuwirth LW. Assessing professional competence. From methods to programmes. Med Educ. 2005;39(3):309-317. DOI: 10.1111/j.1365-2929.2005.02094.x Externer Link
8.
Parks R, Warren PM, Boyd KM, Cameron H, Cumming A, Lloyd-Jones G. The Objective Structured Clinical Examination and student collusion: marks do not tell the whole truth. J Med Ethics. 2006;32(12):734-738. DOI: 10.1136/jme.2005.015446 Externer Link
9.
Colliver JA, Barrows HS, Vu NV, Verhulst SJ, Mast TA, Travis TA. Test security in examinations that use standardized-patient cases at one medical school. Acad Med. 1991;66(5):279-282. DOI: 10.1097/00001888-199105000-00011 Externer Link
10.
Colliver JA, Travis TA, Robbs RS, Barnhart AJ, Shirar LE, Vu NV. Test security in standardized-patient examinations: analysis with scores on working diagnosis and final diagnosis. Acad Med. 1992;67(10):S7-S9. DOI: 10.1097/00001888-199210000-00022 Externer Link
11.
Harden RM, Lilley P, Patricio M. The definitive guide to the OSCE: The Objective Structured Clinical Examination as a performance assessment. Edinburgh, New York: Elsevier; 2016.
12.
Kennedy G, Gray K, Tse J. 'Net Generation' medical students: technological experiences of pre-clinical and clinical students. Med Teach. 2008;30(1):10-16. DOI: 10.1080/01421590701798737 Externer Link
13.
Pander T, Pinilla S, Dimitriadis K, Fischer MR. The use of Facebook in medical education - a literature review. GMS Z Med Ausbild. 2014;31(3):Doc33. DOI: 10.3205/zma000925 Externer Link
14.
Rutala PJ. Sharing of Information by Students in an Objective Structured Clinical Examination. Arch Intern Med. 1991;151(3):541. DOI: 10.1001/archinte.1991.00400030089016 Externer Link
15.
Wilkinson TJ, Fontaine S, Egan T. Was a breach of examination security unfair in an objective structured clinical examination? A critical incident. Med Teach. 2003;25(1):42-46. DOI: 10.1080/0142159021000061413 Externer Link
16.
Brennan PA, Croke DT, Reed M, Smith L, Munro E, Foulkes J, Arnett R. Does Changing Examiner Stations During UK Postgraduate Surgery Objective Structured Clinical Examinations Influence Examination Reliability and Candidates' Scores? J Surg Educ. 2016;73(4):616-623. DOI: 10.1016/j.jsurg.2016.01.010 Externer Link
17.
Chenot JF. Undergraduate medical education in Germany. GMS Ger Med Sic. 2009;7:Doc02. DOI: 10.3205/000061 Externer Link
18.
Scheffer S. Validierung des "Berliner Global Rating" (BGR). Ein Instrument zur Prüfung kommunikativer Kompetenzen Medizinstudierender im Rahmen klinisch-praktischer Prüfungen (OSCE) [An instrument for assessing communicative competencies of medical students within the frame of testing clinical skills]. Berlin: Charité - Universitätsmedizin Berlin, Medizinische Fakultät; 2009. Zugänglich unter/available from: http://nbn-resolving.de/urn:nbn:de:kobv:188-fudissthesis000000010951-7 Externer Link
19.
Regehr G, Freeman R, Robb A, Missiha N, Heisey R. OSCE performance evaluations made by standardized patients: comparing checklist and global rating scores. Acad Med. 1999;74(10 Suppl):S135-S137. DOI: 10.1097/00001888-199910000-00064 Externer Link
20.
Ilgen JS, Ma IWY, Hatala R, Cook DA. A systematic review of validity evidence for checklists versus global rating scales in simulation-based assessment. Med Educ. 2015;49(2):161-173. DOI: 10.1111/medu.12621 Externer Link
21.
Hodges B, McIlroy JH. Analytic global OSCE ratings are sensitive to level of training. Med Educ. 2003;37(11):1012-1016. DOI: 10.1046/j.1365-2923.2003.01674.x Externer Link
22.
Hunter DM, Jones RM, Randhawa BS. The use of holistic versus analytic scoring for large-scale assessment of writing. Can J Prog Eval. 1996;11:61-85.
23.
Wilkinson TJ, Frampton CM, Thompson-Fawcett M, Egan T. Objectivity in Objective Structured Clinical Examinations: Checklists Are No Substitute for Examiner Commitment. Acad Med. 2003;78(2):219-223. DOI: 10.1097/00001888-200302000-00021 Externer Link
24.
Kim J, Neilipovitz D, Cardinal P, Chiu M. A comparison of global rating scale and checklist scores in the validation of an evaluation tool to assess performance in the resuscitation of critically ill patients during simulated emergencies (abbreviated as "CRM simulator study IB"). Simul Healthc. 2009;4(1):6-16. DOI: 10.1097/SIH.0b013e3181880472 Externer Link
25.
Malau-Aduli BS, Mulcahy S, Warnecke E, Otahal P, Teague PA, Turner R, van der Vleuten C. Inter-Rater Reliability: Comparison of Checklist and Global Scoring for OSCEs. Creat Educ. 2012; 03:937-942. DOI: 10.4236/ce.2012.326142 Externer Link
26.
Hatala R, Marr S, Cuncic C, Bacchus CM. Modification of an OSCE format to enhance patient continuity in a high-stakes assessment of clinical performance. BMC Med Educ. 2011;11:23. DOI: 10.1186/1472-6920-11-23 Externer Link
27.
Weitz G, Vinzentius C, Twesten C, Lehnert H, Bonnemeier H, König IR. Effects of a rater training on rating accuracy in a physical examination skills assessment. GMS Z Med Ausbild. 2014;31(4):Doc41. DOI: 10.3205/zma000933 Externer Link
28.
Cook DA, Dupras DM, Beckman TJ, Thomas KG, Pankratz VS. Effect of rater training on reliability and accuracy of mini-CEX scores. A randomized, controlled trial. J Gen Int Med. 2009;24(1):74-79. DOI: 10.1007/s11606-008-0842-3 Externer Link
29.
Schleicher I, Leitner K, Juenger J, Moeltner A, Ruesseler M, Bender B, Sterz J, Schuettler KF, Koenig S, Kreuder JG. Examiner effect on the objective structured clinical exam - a study at five medical schools. BMC Med Educ. 2017;17(1):71. DOI: 10.1186/s12909-017-0908-1 Externer Link
30.
Mortsiefer A, Karger A, Rotthoff T, Raski B, Pentzek M. Examiner characteristics and interrater reliability in a communication OSCE. Pat Educ Couns. 2017;100(6):1230-1234. DOI: 10.1016/j.pec.2017.01.013 Externer Link
31.
Carson JA, Peets A, Grant V, McLaughlin K. The effect of gender interactions on students' physical examination ratings in objective structured clinical examination stations. Acad Med. 2010;85(11):1772-1776. DOI: 10.1097/ACM.0b013e3181f52ef8 Externer Link
32.
Brannick MT, Erol-Korkmaz HT, Prewett M. A systematic review of the reliability of objective structured clinical examination scores. Med Educ. 2011;45(12):1181-1189. DOI: 10.1111/j.1365-2923.2011.04075.x Externer Link
33.
Nikendei C, Jünger J. OSCE - hands on instructions for the implementation of an objective structured clinical examination. GMS Z Med Ausbild. 2006;23(3):Doc47. Zugänglich unter/available from: http://www.egms.de/static/de/journals/zma/2006-23/zma000266.shtml Externer Link
34.
Reznick RK, Blackmore D, Dauphinee WD, Rothman AI, Smee S. Large-scale High-stakes Testing with an OSCE: Report from the Medical Council of Canada. Acad Med. 1996;71(1 Suppl):S19-S21. DOI: 10.1097/00001888-199601000-00031 Externer Link
35.
Hamann C, Volkan K, Fishman MB, Silvestri RC, Simon SR, Fletcher SW. How well do second-year students learn physical diagnosis? Observational study of an objective structured clinical examination (OSCE). BMC Med Educ. 2002;2:1-11. DOI: 10.1186/1472-6920-2-1 Externer Link
36.
Chambers KA, Boulet JR, Gary NE. The management of patient encounter time in a high-stakes assessment using standardized patients. Med Educ. 2000;34(10):813-817. DOI: 10.1046/j.1365-2923.2000.00752.x Externer Link