gms | German Medical Science

GMS Journal for Medical Education

Gesellschaft für Medizinische Ausbildung (GMA)

ISSN 2366-5017

Sprache zählt: Entwicklung eines objektiven strukturierten Sprachtests für ausländische Ärztinnen und Ärzte – Ergebnisse einer Pilotstudie in Deutschland

Artikel Sprachtests

  • corresponding author Holger Lenz - Klinikum der Universität München, Institut für Didaktik und Ausbildungsforschung in der Medizin, München, Deutschland
  • author Ansgar Opitz - LMU München, Lehrstuhl für Empirische Pädagogik und Pädagogische Psychologie, München, Deutschland
  • author Dana Huber - LMU München, (ehem.) Institut für Deutsch als Fremdsprache, München, Deutschland
  • author Fabian Jacobs - Klinikum der Universität München, Institut für Didaktik und Ausbildungsforschung in der Medizin, München, Deutschland
  • author Wolfgang Gang Paik - LMU München, Medizinstudierender, München, Deutschland
  • author Jörg Roche - LMU München, Institut für Deutsch als Fremdsprache, München, Deutschland
  • author Martin R. Fischer - Klinikum der Universität München, Institut für Didaktik und Ausbildungsforschung in der Medizin, München, Deutschland

GMS J Med Educ 2019;36(1):Doc2

doi: 10.3205/zma001210, urn:nbn:de:0183-zma0012109

Dieses ist die deutsche Version des Artikels.
Die englische Version finden Sie unter: http://www.egms.de/en/journals/zma/2019-36/zma001210.shtml

Eingereicht: 20. Juni 2018
Überarbeitet: 5. Dezember 2018
Angenommen: 19. Dezember 2018
Veröffentlicht: 15. Februar 2019

© 2019 Lenz et al.
Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung). Lizenz-Angaben siehe http://creativecommons.org/licenses/by/4.0/.


Zusammenfassung

Zielsetzung: Entwicklung einer wissenschaftlich fundierten und standardisierten Fachsprachenprüfung für das Bundesland Bayern gemäß den Vorgaben der 87. Gesundheitsministerkonferenz (GMK). Der SAM – Sprachtest für ausländische Mediziner soll Teil des Approbationsverfahrens ausländischer Ärzte und Ärztinnen sein. In situativen Prüfungsstationen soll er fachsprachliche und kommunikative Kompetenzen auf C1-Niveau abprüfen.

Methodik: Für vier je zehnminütige Mini-Interviews wurden Fallvignetten ausgearbeitet, für die 40-minütige schriftliche Prüfungsstation, die aus zwei Teilaufgaben besteht, wurde ein Video einer Anamnese sowie kommentierte Laborergebnisse als Basis der Aufgabenstellungen erstellt. Fachsprachlichen Kompetenzen wurden anhand von Analysen wissenschaftlicher Literatur und empirischer Beispiele fixiert und als Items zu Bewertungsskalen für jede Teilstation zusammengefasst. In drei Simulationen wurden die Prüfungen per Video (SAM-Prüfungssoftware) aufgezeichnet und im Anschluss von Bewerterteams bewertet.

Ergebnisse: 19 Probanden nahmen an drei Simulationen teil. Eine Goldstandardsetzung konnte bei 18 von ihnen durchgeführt werden. Eine ROC-Analyse ergab einen AUC-Wert von .83, was die prognostische Qualität des SAM bestätigt. Die Reliabilität des SAM konnte nur für zehn Probanden berechnet werden. Die mit Cronbachs Alpha berechnete interne Konsistenz betrug .85. Die Bestehensgrenze wurde mithilfe des Youden-Index ermittelt. Für den SAM ergab sich dabei die Grenze von >60%.

Schlussfolgerung: Mit dem SAM wurde eine valide Fachsprachenprüfung mit hoher Test-Objektivität vorgelegt, die in authentischen Kommunikationssituationen und einem standardisierten Setting die Fachsprachenkenntnisse im geforderten C1-Niveau abprüft. Mit weiteren Erprobungen und einer größeren Stichprobe kann der SAM weiter validiert und eine höhere Test-Reliabilität sichergestellt werden.

Schlüsselwörter: Prüfung, Fachsprache, ausländische Ärzte


1. Einleitung

„Wer nur die leicht steigenden Arztzahlen betrachtet, verschließt die Augen vor der ganzen Wahrheit. Tatsächlich öffnet sich die Schere zwischen Behandlungsbedarf und Behandlungskapazitäten immer weiter.“ [1]. So kommentierte der Präsident der Bundesärztekammer Frank Ulrich Montgomery die bundesweite Ärztestatistik für das Jahr 2016. Längst sind „Ärztemangel“ und „Fachkräftemangel“ fest etablierte Schlagwörter im gesundheitspolitischen Diskurs [2]. Die Versorgungslücke schließen immer mehr Ärztinnen und Ärzte aus dem Ausland, deren Zahl sich in den letzten fünf Jahren fast verdoppelt und 2016 mit insgesamt 41.658 in Deutschland ein neues Rekordhoch erreicht hat [3].

Beim Integrationsprozess in den Berufsalltag sind diese aber mit fachbezogenen, administrativen und kulturellen Herausforderungen konfrontiert, die sich immer auch sprachlich manifestieren. Mangelnde oder mangelhafte Kompetenzen führen oft zu sinkender Behandlungsqualität, geringer Patientenzufriedenheit und interkollegialen Konflikten und gefährden somit erheblich die Patientensicherheit. Im Extremfall entscheidet das Scheitern von Kommunikation sogar über Leben und Tod [4], [5], [6], [7], [8]. Kompetente Kommunikation, die Missverständnisse ausräumt und verhindert, ist ein vitales Element ärztlicher Praxis [9].

Daher beschloss die 87. Gesundheitsministerkonferenz (GMK) 2014 die bundesweite Einführung einer Fachsprachenprüfung (FSP) für Berufstätige in verkammerten akademischen Heilberufen unter Vorgabe grundlegender Mindestanforderung. Die Anforderungen schließen ein simuliertes Berufsangehöriger-Patienten-Gespräch, das Anfertigen eines in der ärztlichen Praxis vorkommenden Schriftstückes und ein Gespräch mit einem Angehörigen derselben Berufsgruppe ein. Für jeden Teil wurden 20 Minuten veranschlagt [10] (vgl. Abbildung 1 [Abb. 1]). Bis dato gibt es keine gemeinsamen Standards für die testtheoretischen und methodischen Rahmenbedingungen der FSP. Die formellen Rahmenvorgaben der GMK beziehen sich vor allem auf das Sprachniveau C1 in einer fachsprachlichen Ausprägung. Mit diesen Vorgaben wurden zwar notwendige Rahmenbedingungen für höhere sprachliche Standards geschaffen; gleichzeitig liegt die Verantwortung, qualitativ hochwertige FSPen zu garantieren, bei den einzelnen Ländern. Anhand einer Übersicht des Marburger Bunds zeigt sich eindrücklich die Diversität in der Umsetzung der Sprachprüfung zwischen einzelnen Bundesländern [11]. Das Fehlen einer bundesweit einheitlichen FSP birgt wiederum die Gefahr des „Prüfungstourismus“, der darin besteht, dass sich ausländische Ärztinnen und Ärzte bevorzugt in Ländern zur Prüfung anmelden, in denen die Prüfung leichter zu bewältigen ist als in anderen Bundesländern. Der Freistaat Bayern, vertreten durch das Staatsministerium für Gesundheit und Pflege (StMGP), beauftragte 2016 daher ein interdisziplinäres Forscherteam der Ludwig-Maximilians-Universität (LMU) aus den Bereichen Medizin, Medizindidaktik, Deutsch als Fremdsprache (DaF) und Psychometrie mit der Entwicklung einer validen, reliablen, fairen, authentischen, objektiven und ökonomisch durchführbaren Sprachprüfung für ausländische Mediziner (SAM). Im englischsprachigen Raum gilt das australische Verfahren als führendes, da es auf ähnlichen wissenschaftlich-methodischen Standards aufbaut [12]. Eine Analyse dieses Verfahrens hat gezeigt, dass internationale Modelle zwar als Orientierungshilfe dienen können. Auch das australische Verfahren entspricht jedoch nicht allen Kriterien der wissenschaftlichen Testentwicklung [13], [14]. Eine eigenständige methodische Fundierung des SAM war deshalb unumgänglich. Der vorliegende Artikel skizziert die Konzeption und Pilotierung des SAM und stellt bisherige Ergebnisse vor.


2. Projektbeschreibung und Methodik

Unter Rücksichtnahme auf die im Eckpunktepapier der 87. GMK genannten Vorgaben entwickelte das SAM-Team ein Konzept, das v.a. die testtheoretischen Gütekriterien der Objektivität, Reliabilität, Validität und Authentizität erfüllen soll [10], [15], [16], [17].

2.1. Prüfungsaufbau

Der Aufbau des SAM ist in Abbildung 1 [Abb. 1] dargestellt. Für den Bereich Arzt-Patienten-Kommunikation wurde das Führen eines Anamnesegesprächs, sowie das Führen eines vorbereitenden Aufklärungsgesprächs über eine Operation (OPV) gewählt. Beim Anamnesegespräch muss der Prüfling die für eine Anamnese notwendigen Informationen vom Patienten einholen, ihm Raum zum Berichten über Beschwerden einräumen und eine respektvolle Gesprächsatmosphäre schaffen. Gleichzeitig wird die rezeptive Sprachkompetenz geprüft. Im Teilbereich OPV liegt der Fokus auf der Informationsvermittlung. Der Arzt soll dem Patienten den Ablauf einer bevorstehenden Operation, die Risiken des Eingriffs, sowie postoperative Verhaltensmaßnahmen vermitteln. Das Augenmerk liegt hier auf der Verwendung von Laiensprache (allgemeinsprachliche Ausdrücke statt medizinischer Fachbegriffe), dem Rückversichern, dass der Patient alle Informationen verstanden hat, sowie dem verbalen und nonverbalen Ausdruck von Empathie bei Bedenken und Fragen.

Als prototypische Kommunikationssituation für professionelle Interaktion wurde die Patientenvorstellung – der Stationsarzt berichtet dem Oberarzt – ermittelt. Hier soll der Geprüfte in einer simulierten Patientenvorstellung unter Einsatz berufssprachlicher Begriffe und Redewendungen das Kommunizieren unter Kollegen (hier: Oberarzt) unter Beweis stellen. Sowohl die Informationsweitergabe als auch Rückfragen sollen knapp und präzise formuliert werden.

Im Gegensatz zu anderen Fachsprachentests in Deutschland schließt der SAM auch die per GMK geforderte Überprüfung fachsprachlicher Kompetenzen zwischen Ärzten und Angehörigen anderer Heilberufe ein [10]. Als typische Kommunikationssituation wurde hierfür das Anweisungsgespräch mit einem Krankenpfleger/einer -pflegerin gewählt. Im Arzt-Pfleger-Gespräch werden klar verständliche Weisungen an einen Pfleger weitergegeben. Dies soll ebenfalls unter Verwendung berufssprachlicher Begriffe und Redewendungen in respektvoller Gesprächsatmosphäre geschehen.

Für den schriftlichen Teilbereich des Tests ergab eine Korpusanalyse von 200 Arztbriefen aus Chirurgie und Innerer Medizin am Klinikum der LMU hinsichtlich Struktur und sprachlicher Gestaltung, dass Arztbriefe in der Regel aus vier typischen Strukturelementen bestehen. Von diesen wurden zwei – Anamnese mit Aufnahmegrund und Verlauf und Procedere – aufgrund der hohen sprachlichen Anforderung in den schriftlichen Teil des SAM übernommen. Der schriftliche Teil prüft die Rezeptionsfähigkeit und Verarbeitung sprachlichen Inputs, sowie die schriftsprachliche Ausdrucksfähigkeit des Prüflings.

Für die Fallvignetten wurden Fälle aus den Fachbereichen „Allgemeinmedizin“, „Innere Medizin“ und „Chirurgie“ gewählt. Diese Bereiche decken sich weitgehend mit den Inhalten der Kenntnisprüfung, die ausländische Ärztinnen und Ärzte aus Drittstaaten (nicht EU) nach erfolgreichem Bestehen der Fachsprachenprüfung ablegen müssen, um ihr medizinisch-fachliches Wissen auf Niveau des 3. Staatsexamen nachzuweisen, bevor sie die Approbation erhalten.

Unabhängig von der persönlichen fachlichen Spezialisierung der Prüflinge kann daher eine Konzentration auf diese Fachgebiete als gerechtfertigt angesehen werden.

Um eine Fokussierung der Prüfung auf fachspezifische Inhalte zu vermeiden, wurden die Fallszenarien so allgemein wie möglich gehalten. Z.B. behandelt das Aufklärungsgespräch häufige chirurgische Eingriffe wie die Operation an der Schilddrüse oder die Tonsillektomie.

2.2. Prüfungsformat

Um den realen (authentischen) Anforderungen der Berufspraxis gerecht zu werden und damit gleichzeitig vergleichbare Bedingungen zum Nachweis medizinischer Kompetenzen im Studium anzusetzen, wurde das OSCE-Format (Objective Structured Clinical Examination) für den SAM gewählt. Nach Miller bieten OSCE-Prüfungen die Möglichkeit, Wissen nicht nur zu reproduzieren, sondern Gelerntes in kontextuell-situativer Praxis zu zeigen [17]. Aus medizindidaktischer Sicht haben sich OSCEs als reliables und valides Instrument zur Prüfung klinisch-praktischer Fähigkeiten international etabliert [18]. Brandes und Bagnasco et al. haben zudem gezeigt, dass sich OSCEs auch als methodisches Setting für die Messung kommunikativer Kompetenzen in kulturellen und professionellen Kontexten eignen [19], [20].

Analog zum OSCE-Konzept kurzer Prüfungsstationen von fünf bis zehn Minuten sieht der SAM jeweils zwei Stationen à zehn Minuten für jeden der zwei mündlichen Prüfungsbereiche vor (siehe Abbildung 1 [Abb. 1]). Dies führt zu einer erhöhten Reliabilität, da das Verhalten des Prüfungsteilnehmers dadurch insgesamt viermal in unterschiedlichen Kontexten beobachtet werden kann. Zehnminütige Stationen stellen zudem eine realistische Abbildung der zeitlichen Ressourcen im Arbeitsalltag von Ärztinnen und Ärzten dar, was sich wiederum positiv auf das Authentizitätskriterium auswirkt.

2.3. Abhängigkeit der Prüfungsteile

Bestehende Fachsprachenprüfungen testen meist einen einzigen Fall über alle vorgegebenen Prüfungsbereiche hinweg. Aus psychometrischer Sicht ist dieses Konzept problematisch: kommt ein Prüfungsfall über die gesamte Prüfung zum Einsatz, entsteht dadurch ein Abhängigkeitsverhältnis zwischen den Bewertungskriterien der Prüfungsbereiche. Die Leistung in einem Bereich hängt dann nicht mehr ausschließlich von der Kompetenz in diesem Bereich ab, sondern auch von der Leistung in bereits durchlaufenen Testabschnitten [15].

Zugleich führt das Ein-Fall-Szenario zu einer deutlichen Reduktion der Fairness: bekommt der Teilnehmer z. B. zufällig einen Fall aus einem Fachgebiet, mit dem er oder sie durch bisherige ärztliche Tätigkeit besonders vertraut ist, führt dies automatisch zu einer besseren Prüfungsleistung und umgekehrt. Schließlich erleichtert das Modell voneinander unabhängiger Testbereiche den durch Prüfungsverschleiß bedingten Austausch älterer Fallszenarien: besteht ein Test aus mehreren Fällen, ist es möglich, die Schwierigkeit eines neu eingeführten Falls mit den bestehenden Fällen mit bekannter Schwierigkeit zu vergleichen; besteht ein Test dagegen nur aus einem Fall, bedeutet der Austausch eines Falls automatisch den Austausch des gesamten Tests. Somit ist keine vergleichbare Einschätzung der Schwierigkeit des neuen Falls möglich. Für den SAM liegen daher unterschiedliche Fälle pro Prüfungsbereich zugrunde.

2.4. Durchführung und Bewertung

Jede Sprachprüfung, die die rezeptive und produktive Sprachleistung der Teilnehmer testen soll, muss Kommunikationssituationen schaffen, die so realitätsnah wie möglich (authentisch) und so wiederholbar wie möglich (objektiv und fair) sind. Damit wird gewährleistet, dass alle Teilnehmer im gleichen kommunikativen Kontext getestet werden. Um solch standardisierte Kommunikationssituationen zu schaffen, werden im SAM ausgebildete Schauspieler für die Rollen „Patient“ und „Pflegekraft“ eingesetzt. Die Rolle des vorgesetzten Arztes im Arzt-Arzt-Gespräch übernimmt ein Arzt.

Sowohl Schauspielpatienten als auch Arzt wurden in mehrstündigen Einheiten trainiert und geschult. Hauptaugenmerk der Schulungen lag dabei auf der Vereinheitlichung der Prüfungssituation (Objektivität, Fairness) und dem Evozieren fallspezifischer Sprachhandlungen. Pro mündliche Station wurde ein Skript für die Schauspielpatienten mit detaillierten Gesprächsanleitungen und Zusatzfragen erarbeitet.

Bereits bestehende Fachsprachprüfungen in anderen Bundesländern bewerten die Leistung der geprüften Person synchron: mehrere Prüfer sitzen mit im Raum und bewerten die Leistung des Prüflings, meist auf Grundlage vorgefertigter Bewertungsbögen. Synchrone Bewertungen mündlicher Prüfungsleistungen sind jedoch in verschiedener Hinsicht problematisch: das Gesagte ist flüchtig und kann nicht wiederholt werden; es wird zudem nur ‘aus der Situation’ bewertet und das oft von einer an der Kommunikationssituation beteiligten Person.

Eine asynchrone Bewertung mit unabhängigen Bewertern hingegen, die nur den mündlichen Text bewerten, ermöglicht das wiederholte, unabhängige, standardisierte Anhören der Prüfungsleistung und steigert somit die Auswertungsobjektivität. Im SAM werden die mündlichen Teilbereiche daher per Video aufgezeichnet. Diese VOSCE (Video-Recorded Objective Structured Clinical Examination) genannte Prüfungs- und Bewertungsform wurde bereits als durchführbare, reliable und valide Methode zur Bewertung kommunikativer Fähigkeiten in anderen medizinischen Kontexten erfolgreich erprobt [21], [22], [23]. Da Speicherung und Zugriff auf aufgezeichnete Prüfungsleistungen aus datenschutztechnischen Gründen oft problematisch ist, wurde hierfür eigens ein Computerprogramm entwickelt, das die Prüfungsleistungen über eine an einem Laptop angeschlossene Kamera aufzeichnet, diese auf einem geschützten Server pseudonymisiert speichert und dem Bewerterteam schließlich zu einem späteren Zeitpunkt sicheren Zugang zu den Dateien gewährt.

Das Bewerterteam besteht dabei aus einer Ärztin oder einem Arzt und einem Sprachwissenschaftler mit testmethodischem Fachwissen zu Deutsch als Fremdsprache. Für die Bewertung wurde pro Prüfungsstation (Anamnese, OPV, etc.) eine eigene Skala entwickelt. Die Bewerter wählen bei jedem Item eine von drei Antwortmöglichkeiten: „Trifft eher zu“, „Trifft eher nicht zu“ und „Uneindeutig“. Die Antwortoption „Trifft eher zu“ wird mit einem Punkt bewertet, die Option „Trifft eher nicht zu“ mit 0 Punkten und die Option „Uneindeutig“ mit 0,5 Punkten. Die zu bewertenden Items sind bezüglich der fachsprachentypischen Struktur, der sprachlichen Gestaltung und des kommunikativen Verhaltens, sowie der globalen Einschätzung des gesamten Gesprächs gruppiert. Pro Teilstation wurden zwischen 11 und 17 Items erstellt, was einer Gesamtzahl von 83 Items für den SAM insgesamt entspricht (siehe Tabelle 1 [Tab. 1]). Eine Beispielskala für die Station Anamnesegespräch findet sich in Anhang 1 [Anh. 1].

Ein der Skala angehängtes Beiblatt erklärt die Intention und die Verwendung der Items im Bewertungsprozess und gibt fallspezifische Beispiele. Dies entspricht den Forderungen der Association of Language Testers in Europe (ALTE) zur Bewertung von Sprachtests [24] und steigert die Wahrscheinlichkeit einer einheitlichen Bewertung. Zusätzlich erhielt das Bewerterteam direkt vor der ersten Bewertung eine ca. einstündige Schulung durch die Testautoren, in denen das Bewertungsverfahren und die Skalen erklärt und Fragen beantwortet wurden.

Die Experten müssen einstimmig über das Bestehen oder Nicht-Bestehen eines Prüflings entscheiden, wobei die Bewertung zunächst getrennt erfolgt. Nach getrennter Bewertung vergleichen die Bewerter das Ergebnis und einigen sich bei abweichender Bewertung auf einen Wert. Die kumulative Leistung in den sechs Teilbereichen entscheidet schließlich über Bestehen oder Nichtbestehen.


3. Pilotierung des SAM

3.1. Durchführung

In der Pilotierungsphase wurde der Test in drei Simulationen erprobt. Insgesamt nahmen an den drei Simulationen 19 Prüflinge teil. Testteilnehmer waren dabei entweder ausländische Medizinstudierende der LMU (n=10), oder ausländische Ärztinnen und Ärzte, die noch keine Approbation in Deutschland haben (n=9). Mit Hilfe der Simulationen konnte einerseits die Durchführbarkeit des Tests überprüft werden. Andererseits wurden die Ergebnisse genutzt, um die Beobachterübereinstimmung, Reliabilität und prognostische Güte des SAM zu bestimmen, sowie, um die Bestehensgrenze festzulegen.

Um die prognostische Güte zu überprüfen und die Bestehensgrenze festzulegen, wurde ein sogenannter Goldstandard ermittelt: neben der regulären Beurteilung der Prüfungsleistungen von einem Bewerterteam, kam ein Expertenteam mit langjähriger Erfahrung in der Bewertung kommunikativer Prüfungsleistungen aus den Bereichen Medizin und Deutsch als Fremdsprache zum Einsatz. Diese Experten beurteilten auf globaler Ebene, ob die Prüflinge mindestens das C1-Niveau erreicht haben. Der Vergleich der regulär bewerteten Items mit diesem globalen Expertenurteil, das den sogenannten Goldstandard darstellt, erlaubt es die Qualität des SAM zu beurteilen und eine Bestehensgrenze festzulegen.

3.2. Ergebnisse

Die Übereinstimmung des Bewerterteams bei der Beurteilung der 83 Items lässt sich am besten mit Cohens Kappa ermitteln. Dies gibt an, inwieweit die Übereinstimmung der beiden Bewerter bzgl. der abgegebenen Bewertungen im Vergleich mit zufällig generierten Bewertungen höher ausfällt. Mögliche Werte liegen zwischen 0 und 1. Die so erfasste Übereinstimmung ließ sich durch die durchgeführten Schulungen von .49 auf .72 steigern. Die prozentuale Übereinstimmung lag am Ende der Pilotierungsphase bei 88% (zu Beginn: 80%).

Aufgrund fehlender Daten und leicht unterschiedlicher Itemzusammenstellungen zwischen der ersten und den weiteren beiden Erprobungen konnte die Reliabilität der Gesamtskala des SAM nur für zehn Prüflinge anhand 81 Items berechnet werden. Für die Menge dieser 81 Items betrug die mit Cronbachs alpha berechnete interne Konsistenz .85. Die Reliabilitäten der Teilstationen (für die mehr Daten vorhanden sind) können Tabelle 1 [Tab. 1] entnommen werden.

Im Durchschnitt erfüllten die Prüflinge M=55% (SD=20%) der 83 Items der sechs Skalen. Die Goldstandardsetzung konnte bei 18 Prüflingen durchgeführt werden. Fünf wurden dabei als fachsprachlich qualifiziert (auf dem C1-Niveau) eingestuft. Die Leistung dieser fünf Prüflinge im SAM lag dabei mit M=69% (SD=19%) über der Leistung derer, die laut Goldstandard nicht als fachsprachlich qualifiziert gelten (M=46%, SD=14%). Um die prognostische Qualität des SAM (in Bezug auf die Eignung der Prüflinge) genauer zu untersuchen, wurde eine sogenannte ROC-Analyse (receiver operating characteristic) durchgeführt [25]. Diese ermittelt, inwieweit die Prüfungsleistung in einem Test mit der „wirklichen“ Leistung der Prüflinge (die durch den Goldstandard abgebildet wird) übereinstimmt. Die globale Güte des Tests kann dabei mit Hilfe des AUC-Werts (area under the curve) quantifiziert werden. Der AUC-Wert kann zwischen 0 und 1 liegen. Eine AUC von .5 bedeutet, dass der Test nicht besser als der Zufall zwischen geeigneten und ungeeigneten Prüflingen unterscheidet. Eine AUC von 1 bedeutet, dass alle Prüflinge korrekt eingeschätzt werden. Für den SAM ergab sich eine AUC von .83, was nach gängigen Messverfahren einer großen Effektstärke entspricht und damit die prognostische Qualität des SAM unterstreicht [26].

Mit Hilfe der ROC-Analyse wurde zudem die Bestehensgrenze ermittelt. Dabei wurde der Youden-Index herangezogen [27]. Dieser Index kombiniert die Sensitivität (die Rate der qualifizierten Prüflinge, die vom Test korrekt erkannt werden) und Spezifität (die Rate der unqualifizierten Prüflinge, die vom Test korrekt erkannt werden) des Tests zu einem einzelnen Wert. Höhere Werte sind dabei wünschenswert. Eine Bestehensgrenze von >50% erzielte dabei den Wert .49. An dieser Grenze betragen die Sensitivität .80 und die Spezifität .69. Der PPV (positive predictive value; die Wahrscheinlichkeit, dass ein Prüfling wirklich qualifiziert ist, wenn die Bestehensgrenze erreicht wird) liegt an dieser Schwelle bei .50 und der NPV (negative predictive value; die Wahrscheinlichkeit, dass ein Prüfling wirklich nicht qualifiziert ist, wenn die Bestehensgrenze nicht erreicht wird) liegt bei .90.

Eine Bestehensgrenze von >60% erreicht einen Youden-Index von .52. Zwar sinkt die Sensitivität auf .60, aber die Spezifität steigt dafür auf .92. Der PPV beträgt .75 und der NPV .86. Wenn man den Youden-Index als Kriterium heranzieht und davon ausgeht, dass es die höchste Priorität eines Tests ist, der über die Zulassung zur Arbeit als Arzt entscheidet, möglichen Schaden von der Bevölkerung abzuwenden, so sollte die konservative Grenze von >60% herangezogen werden. „Konservativ“ bedeutet in diesem Zusammenhang, dass ein Prüfling im Grenzbereich eher als unqualifiziert eingestuft wird. Die Daten der Erprobung erlauben sogar die Möglichkeit, die Grenze auf >70% zu legen. Ohne Sensitivitätsverlust würde dabei die Spezifität auf 1 steigen. Da die Verteilung der Daten allerdings nahelegt, dass die Sensitivität bei einer größeren Datenmenge bei einer solchen Grenze abfallen würde, und da die Spezifität mit .92 bereits sehr hoch ist bei einer Grenze von >60%, wird zu einer Grenze von >60% für den SAM geraten. Tabelle 2 [Tab. 2] bietet eine Übersicht der wichtigsten Ergebnisse.


4. Diskussion und Schlussfolgerung

Besonders in den Bereichen der Test-Fairness, Authentizität und Objektivität konnten gute Ergebnisse erzielt werden. In diesem Zusammenhang ist die Wichtigkeit der Schulung der an der Kommunikationssituation beteiligten Schauspielpatienten nochmals zu betonen. Erst das korrekte Verhalten der Schauspielpatienten dem jeweiligen Prüfungsteilnehmer gegenüber gewährleistet eine konstante Testumgebung. Die dadurch erhöhte Test-Objektivität wirkt sich ihrerseits positiv auf die Reliabilität und Validität aus. So könnte umgekehrt auch die geringe Reliabilität der Teilstation OP-Vorbereitung eventuell durch nicht vorgesehene Hilfestellungen der Schauspielpatienten, die teilweise bei der Erprobung beobachtet wurden, erklärt werden. Es könnte sein, dass die Schauspielpatienten (die keinen medizinischen Hintergrund besitzen) aus Mitgefühl mit schwächeren Prüfungsteilnehmern diesen Stichworte geben. Dies würde die systematische Varianz der Ergebnisse und damit die Reliabilität reduzieren. Diese und andere im Rahmen der vorliegenden Arbeit gesammelten Daten zu den speziellen Anforderungen und Schwierigkeiten, denen die Schauspielpatienten und Prüfungsteilnehmer im Rahmen der Prüfungssituation begegnen, können dabei als erste Grundlage für die Entwicklung einer standardisierten, wissenschaftlich gesicherten Schulungsmethodik dienen.

Eine weitere Stärke des SAM bietet der Ansatz der asynchronen Bewertung der Prüfungsleistung. Prüfer, die die Kommunikationssituation selbst miterleben oder sogar selbst daran beteiligt sind, erhöhen die Gefahr der Verzerrung (Bias) der Leistungsbewertung. Das im SAM verfolgte Modell der asynchronen Bewertung trägt zu einer fairen und objektiven Bewertung aller Teilnehmer bei und reduziert somit das Potential rechtlicher Beschwerden seitens der Prüflinge.

Die Validitätswerte des SAM basierend auf der ROC-Analyse der Pilotierungsdaten sind vielversprechend. Dies gilt besonders, wenn man bedenkt, dass die Rate geeigneter Teilnehmer laut Goldstandard gering war, was die Erkennung der geeigneten Kandidaten erschwert. Bei der Bewertung der Ergebnisse muss dabei bedacht werden, dass es sich bei mehr als der Hälfte der Probanden um ausländische Studierende handelte. Da Studierende im Vergleich zu bereits erfahrenen Ärzten insgesamt geringere Kenntnisse mitbringen, kann dies zu einer Verzerrung des Gesamtbilds der Prüfungsleistungen aller Teilnehmer beitragen. In einer Stichprobe erfahrener Ärzte sollte die Rate geeigneter Kandidaten höher liegen. Des Weiteren muss bedacht werden, dass die Unsicherheit aller Kennwerte aufgrund der relativ kleinen Erprobungs-Stichprobe noch hoch ist. Der Test sollte daher dringend systematisch validiert werden. Beispielsweise standen der insgesamt guten Skalenvalidität während der bisherigen Testsimulation und -auswertung unzureichend abgesicherte Reliabilitäten zweier Einzelskalen gegenüber (OP-Vorbereitung und Pflegeanweisungen). Zukünftige Simulationen, die die Schwäche der genannten Einzelskalen verringern und die psychometrische Qualität aller Skalen verbessern wollen, profitieren folglich besonders von Stichproben, deren Umfang größer und deren Verhältnis zwischen Prüfungsteilnehmern auf dem C1-Niveau und solchen unterhalb des C1-Niveaus ausgeglichener wäre. Die genauere Bestimmung der Test-Reliabilität wäre eine weitere natürliche Folge einer erweiterten Datenmenge.

Eine weitere Schwäche des SAM ist, dass zu Beginn einige Investitionen (Aufnahmesoftware und Schulung der Schauspielpatienten und Bewerterteams) in die Prüfungslogistik getätigt werden müssen. Im Langzeitbetrieb sollten die Stärken des SAM diesen Nachteil allerdings mehr als ausgleichen.

Weiterer Handlungsbedarf liegt in der Verteilung der Itemanzahl der Bewertungsskalen. Die Itemanzahl der verschiedenen Teilstationen schwankt zwischen 11 und 17. Um die gleiche Gewichtung aller Teilstationen sicherzustellen, wird eine nachträgliche Anpassung empfohlen um die Itemanzahl nicht künstlich erhöhen oder reduzieren zu müssen. Bevor der Summenwert für den Test berechnet wird, müsste dabei die Punktzahl der sechs Teilstationen durch eine Multiplikation mit unterschiedlichen Faktoren so gewichtet werden, dass jeweils 16 der maximal möglichen Gesamtpunktzahl in jeder Teilstation erworben werden kann.


5. Ausblick

Beim SAM handelt es sich um den ersten und bis dato einzigen bundesweiten Ansatz einer wissenschaftlich fundierten Fachsprachprüfung. Zusätzlich zu den per GMK-Beschluss vorgegebenen Rahmenbedingungen wurden testtheoretische Gütekriterien wie Objektivität, Reliabilität, Validität, Authentizität, Fairness und Ökonomie als Leitprinzipien in der Testentwicklung verfolgt. Als bisher einzige Fachsprachenprüfung in Deutschland bezieht der SAM die interprofessionelle Kommunikation mit ein. Neben der bisher erprobten Kommunikation zwischen einem Arzt und einer Pflegedienstleitung ist die Ausweitung auf weitere Situationen der interprofessionellen Kommunikation denkbar. Im Hinblick auf einen wissenschaftlich und damit auch rechtlich soliden Test muss der SAM jedoch in weiteren Simulationen erprobt und getestet werden.

Des Weiteren wird empfohlen, testmethodische Kennwerte anderer Testverfahren mit denen des SAM zu vergleichen. Nur so kann das Ziel eines bundesweit einheitlichen Fachsprachentests, der ausländische Ärzte reliabel auf C1 Niveau prüft und somit die Patientensicherheit gewährleistet, letztendlich erreicht werden. Derzeit ist eine weitere Validierung der in Bayern eingesetzten Verfahren mittels einer Vergleichsstudie geplant. Es ist das erklärte Ziel der Testentwickler, den Sprachtest mittelfristig als Beitrag zu einer nachhaltigen Verbesserung gegenwärtiger Testverfahren zum Einsatz zu bringen, nicht nur in Bayern.


Danksagung

Für die nachhaltige Unterstützung des Projekts bedanken wir uns ferner bei Prof. Dr. Matthias Siebeck, Klinik für Allgemeine, Viszeral-, Transplantations-, Gefäß- und Thoraxchirurgie der LMU München.


Förderung

Wir bedanken uns beim Bayerischen Staatsministerium für Gesundheit und Pflege (StMGP) für die Unterstützung des Projekts unter dem Förderkennzeichen G32g-G8517.1-2015/5-91.


Interessenkonflikt

Die Autoren erklären, dass sie keine Interessenkonflikte im Zusammenhang mit diesem Artikel haben.


Literatur

1.
Bundesärztekammer. Die Schere zwischen Behandlungsbedarf und Behandlungskapazitäten öffnet sich. Berlin: Bundesärztekammer; 2017. Zugänglich unter/available from: http://www.bundesaerztekammer.de/presse/pressemitteilungen/news-detail/die-schere-zwischen-behandlungsbedarf-und-behandlungskapazitaeten-oeffnet-sich/ Externer Link
2.
Bundesärztekammer, Kassenärztliche Bundesvereinigung. Dem deutschen Gesundheitswesen gehen die Ärzte aus! Studie zur Altersstruktur- und Arztzahlentwicklung. 5th ed. Berlin: Bundesärztekammer und Kassenärztliche Bundesvereinigung; 2010. Zugänglich unter/available from: http://www.kbv.de/media/sp/Arztzahlstudie_2010.pdf Externer Link
3.
Bundesärztekammer. Ärztestatistik zum 31. Dezember 2016. Berlin: Bundesärztekammer; 2017. Zugänglich unter/available from: http://www.bundesaerztekammer.de/fileadmin/user_upload/downloads/pdf-Ordner/Statistik2016/Stat16AbbTab.pdf Externer Link
4.
Wichmann R. Weitere Zehn Jahre Warten hilft nicht. Praxisguide D Krankenhaus. 2015;(1):14-15.
5.
Karimi P, Rudenko O. Am Anfang verstand ich null. Praxisguide D Krankenhaus. 2015;(1):20-21.
6.
Arndt J. Sprachbarrieren im Krankenhaus – Wenn dem Arzt die Worte fehlen. Pneumologie. 2016;70(9):564-566. DOI: 10.1055/s-0042-114156 Externer Link
7.
AG Leipzig. Aufklärung durch einen Arzt, der die deutsche Sprache nicht beherrscht. MedR. 2003;10:582-583.
8.
Roche J. Zur Frage der Deutschkenntnisse. Sprache Beruf. 2014;7:316-318.
9.
Schröder H. Theoretische Aspekte der Arzt-Patienten-Interaktion. In: Witt C, ed. Der gute Arzt aus interdisziplinärer Sicht Ergebnisse eines Expertentreffens. Essen: Natur und Medizin; 2010.
10.
Gesundheitsministerkonferenz. Beschluss der 87. Gesundheitsministerkonferenz am 26. und 27. Juni 2014 . TOP 7.3 Eckpunkte zur Überprüfung der für die Berufsausübung erforderlichen Deutschkenntnisse in den akademischen Heilberufen. Hamburg: Gesundheitsministerkonferenz; 2014. Zugänglich unter/available from: https://www.gmkonline.de/documents/TOP73BerichtP_Oeffentl_Bereich.pdf Externer Link
11.
Marburger Bund. Deutschkenntnisse – Anforderungen in den Bundesländern für die Approbationserteilung Stand: Januar 2018. Berlin: Marburger Bund; 2018. Zugänglich unter/available from: https://www.marburger-bund.de/sites/default/files/files/2018-09/deutschkenntnisse-german-requirements-approbation.pdf Externer Link
12.
McNamara T. Item Response Theory and the validation of an ESP test for health professionals. Language Test. 1990;7(1):52-76. DOI: 10.1177/026553229000700105 Externer Link
13.
Woodward-Kron R, Elder C. A Comparative Discourse Study of Simulated Clinical Roleplays in Two Assessment Contexts: Validating a Specific-Purpose Language Test. Language Test. 2016;33(2):251-270. DOI: 10.1177/0265532215607399 Externer Link
14.
McNamara, T. Problematising content validity: the Occupational English Test (OET) as a measure of medical communication. Melbourne Papers. Language Test. 1997;6(1):19-43.
15.
Moosbrugger H, Kelava A. Testtheorie und Fragebogenkonstruktion. Berlin: Springer; 2008. DOI: 10.1007/978-3-540-71635-8 Externer Link
16.
Bachman L, Palmer A. Language testing in practice. Oxford: Oxford University Press; 2013.
17.
Corkill D. Handbuch zur Entwicklung und Durchführung von Sprachtests. Frankfurt a.M.: Telc; 2012.
18.
Nikendei C, Jünger J. OSCE – praktische Tipps zur Implementierung einer klinisch-praktischen Prüfung. GMS Z Med Ausbild. 2006;23(3):Doc47. Zugänglich unter/available from: http://www.egms.de/static/de/journals/zma/2006-23/zma000266.shtml Externer Link
19.
Brandes H. Überprüfung kommunikativer Fähigkeiten der Studierenden des Reformstudienganges Medizin der Charité Berlin mit Hilfe einer OSCE-Station. Berlin: Charité – Universitätsmedizin Berlin, Medizinischen Fakultät; 2006.
20.
Bagnasco A, Tolotti A, Pagnucci N, Torre G, Timmins F, Aleo G, Sasso L. How to maintain equity and objectivity in assessing the communication skills in a large group of student nurses during a long examination session, using the Objective Structured Clinical Examination (OSCE). Nurse Educ Today. 2016;38:54-60. DOI: 10.1016/j.nedt.2015.11.034 Externer Link
21.
Kiehl C, Simmenroth-Nayda A, Goerlich Y, Entwistle A, Schiekirka S, Ghadimi B, Raupach T, Koenig S. Standardized and quality-assured video-recorded examination in undergraduate education: informed consent prior to surgery. J Surg Res. 2014;191(1):64-73. DOI: 10.1016/j.jss.2014.01.048 Externer Link
22.
Eckes T. Die Beurteilung sprachlicher Kompetenz auf dem Prüfstand. Fairness in der beurteilergestützten Leistungsmessung. In: Aguado K., Schramm K., Vollmer H, eds. Fremdsprachliches Handeln beobachten, messen, evaluieren Neue methodische Ansätze der Kompetenzforschung und der Videographie. Frankfurt a.M.: Lang; 2010. S.65-97.
23.
Kecker G. Was macht eine gute Sprachprüfung aus? Qualitätssicherung beim TestDaF. In: Drumbl H, Kletschko D, Sorrentino D, Zanin R, eds. Lerngruppenspezifik in DaF, DaZ, DaM. Bozen: Bozen University Press; 2016. S.145-64.
24.
Association of Language Testers in Europe (ALTE). Handreichungen für Testautoren. 2nd ed. Bochum: Association of Language Testers in Europe (ALTE); 2005. Zugänglich unter/available from: https://www.testdaf.de/fileadmin/Redakteur/Bilder/Aktuelles/2007/ALTE_Deutsche_HR_Vorwort.pdf Externer Link
25.
Fawcett T. An introduction to ROC analysis. Patt Recogn Lett. 2006;27(8):861-874. DOI: 10.1016/j.patrec.2005.10.010 Externer Link
26.
Rice M, Harris G. Comparing effect sizes in follow-up studies: ROC Area, Cohen's d, and r. Law Human Behav. 2005;29(15):615-620. DOI: 10.1007/s10979-005-6832-7 Externer Link
27.
Youden W. Index for rating diagnostic tests. Cancer. 1950;3(1):32-35. DOI: 10.1002/1097-0142(1950)3:1<32::AID-CNCR2820030106>3.0.CO;2-3 Externer Link