gms | German Medical Science

GMS Journal for Medical Education

Gesellschaft für Medizinische Ausbildung (GMA)

ISSN 2366-5017

Zentrale Schritte der Erstellung, Durchführung, Auswertung und Qualitätssicherung des schriftlichen Teils der eidgenössischen Prüfung Humanmedizin (Schweizer Staatsexamen)

Artikel Staatsexamen

  • corresponding author Tina Schurter - Universität Bern, Institut für Medizinische Lehre, Abteilung für Assessment und Evaluation, Bern, Schweiz
  • author Monica Escher - Universität Genf, Medizinische Fakultät, Genf, Schweiz
  • author David Gachoud - Universität Lausanne, Medizinische Fakultät, Lausanne, Schweiz
  • author Piotr Bednarski - Universität Fribourg, Medizinische Fakultät, Fribourg, Schweiz; Universität Bern, Medizinische Fakultät, Bern, Schweiz
  • author Balthasar Hug - Universität Basel, Medizinische Fakultät, Basel, Schweiz; Universität Luzern, Medizinische Fakultät, Luzern, Schweiz
  • author Roger Kropf - Universität Zürich, Medizinische Fakultät, Zürich, Schweiz; Universität Basel, Medizinische Fakultät, Basel, Schweiz
  • author Juliane Meng-Hentschel - Universität Bern, Institut für Medizinische Lehre, Abteilung für Assessment und Evaluation, Bern, Schweiz
  • author Benjamin König - Universität Bern, Institut für Medizinische Lehre, Abteilung für Assessment und Evaluation, Bern, Schweiz
  • author Christine Beyeler - Universität Bern, Institut für Medizinische Lehre, Abteilung für Assessment und Evaluation, Bern, Schweiz
  • author Sissel Guttormsen - Universität Bern, Institut für Medizinische Lehre, Abteilung für Assessment und Evaluation, Bern, Schweiz
  • author Sören Huwendiek - Universität Bern, Institut für Medizinische Lehre, Abteilung für Assessment und Evaluation, Bern, Schweiz

GMS J Med Educ 2022;39(4):Doc43

doi: 10.3205/zma001564, urn:nbn:de:0183-zma0015649

Dieses ist die deutsche Version des Artikels.
Die englische Version finden Sie unter: http://www.egms.de/en/journals/zma/2022-39/zma001564.shtml

Eingereicht: 27. September 2021
Überarbeitet: 7. Juni 2022
Angenommen: 5. Juli 2022
Veröffentlicht: 15. September 2022

© 2022 Schurter et al.
Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung). Lizenz-Angaben siehe http://creativecommons.org/licenses/by/4.0/.


Zusammenfassung

Zielsetzung: Dieser Bericht beschreibt die zentralen Schritte der Erstellung, Durchführung, Auswertung und Qualitätssicherung des schriftlichen Teils der eidgenössischen Prüfung Humanmedizin (Schweizer Staatsexamen) sowie die seit deren Einführung 2011 gewonnenen Erkenntnisse.

Methodik: Die eidgenössische Prüfung wird auf Basis vorhandener wissenschaftlicher Evidenz, internationaler Expertise sowie Erfahrungen aus vorhergehenden Prüfungen durch Experten aller fünf Medizinischen Fakultäten der Schweiz mit Unterstützung des Instituts für medizinische Lehre erstellt und gleichzeitig an fünf Standorten durchgeführt. Die Prüfungsorganisatoren dokumentieren und reflektieren jede Prüfungsdurchführung, optimieren die Prozesse kontinuierlich und haben die Ergebnisse in diesem Bericht zusammengefasst.

Ergebnisse: Die zentralen Schritte umfassen: Fragenerstellung, -revision, -übersetzung; Prüfungszusammenstellung und Materialherstellung; Kandidatenvorbereitung; Prüfungsdurchführung und -auswertung. Die Qualitätssicherungsmassnahmen bestehen aus Richtlinienkohärenz bei der Fragenerstellung und Prüfungsdurchführung, Revisionsprozessen, Prüfungszusammenstellung auf Basis des nationalen Blueprints, mehrstufiger Überprüfung der Übersetzungen und des Prüfungsmaterials sowie der statistischen Auswertung der Prüfung und der Kandidatenkommentare.

Bewährt hat sich dabei die enge Zusammenarbeit insbesondere von Vertretern aller beteiligten Fakultäten sowie einer zentralen Koordinationsstelle, die sämtliche Schritte methodisch begleitet und sich um die Auswertung der Prüfung kümmert. Die Endergebnisse der Qualitätssicherungsmassnahmen sind erfolgreiche Prüfungsdurchführungen und reliable Ergebnisse in den bisher elf so durchgeführten Prüfungen. Wichtige Erkenntnisse der vergangenen Jahre sind die Bedeutung der Wertschätzung der Arbeit der Beteiligten und die zentrale Organisation der Prüfungserstellung, um den Prozess langfristig erfolgreich durchzuführen.

Schlussfolgerung: Um eine solche Prüfung langfristig mit hoher Qualität durchzuführen, sind gemeinsame Richtlinien und Workshops, Qualitätssicherungsmassnahmen mit fortlaufender Verbesserung aller Prozesse sowie die Wertschätzung der Beteiligten zentral.

Schlüsselwörter: nationale Schlussprüfung, lizenzierende Prüfung, summatives Assessment, Multiple Choice


1. Einleitung

Aufgrund des am 1. September 2007 in Kraft getretenen Bundesgesetzes vom 23. Juni 2006 über die universitären Medizinalberufe (Medzinalberufegesetz, MedBG) musste die eidgenössische Prüfung Humanmedizin zentral organisiert und neu strukturiert werden. Nach entsprechender Vorbereitungszeit wird daher seit 2011 nach Abschluss des Medizinstudiums auf Masterstufe eine nationale (eidgenössische) Prüfung auf Basis der aktuellen Lernziele durchgeführt (2011-2020: Swiss Catalogue of Learning Objectives for Undergraduate Medical Training SCLO [1], seit 2021 Principal Relevant Objectives and Framework for Integrative Learning and Education in Switzerland PROFILES [http://www.profilesmed.ch/). Nach erfolgreichem Bestehen sind die Kandidaten* dazu berechtigt, den Arztberuf unter Aufsicht auszuüben und die ärztliche Weiterbildung zu beginnen. Die Prüfung besteht aus zwei fächerübergreifenden Teilen [2]: eine Multiple Choice Prüfung (MC) und eine strukturierte klinisch-praktische Prüfung mit Einsatz von standardisierten Patienten (so genannte Clinical Skills Prüfung (CS)) [3]. Diese löst die bisherigen fachspezifischen Schlussprüfungen ab. Bei der Vorbereitung dieser neuen Prüfung besteht die Herausforderung darin, auf möglichst effiziente Weise mit den aktuell fünf medizinischen Fakultäten aus zwei Sprachregionen eine gemeinsame fächerübergreifende, anwendungsorientierte und nach mehrdimensionalem Blueprint gewichtete Prüfung zu erstellen, welche die Befähigung zur Weiterbildung auf nationaler Ebene sicherstellt, den internationalen Qualitätsstandards entspricht und juristischen Anfechtungen standhält.

Das Interesse an nationalen Abschlussprüfungen ist hoch [4], [5]. Weitere Länder denken über deren Neueinführung nach (Grossbritannien [6] und Norwegen), andere über die Vereinheitlichung auch der praktischen Prüfung bei bereits bestehender gemeinsamer schriftlicher Abschlussprüfung (Deutschland [7]). Publikationen zu den Erfahrungen und Erkenntnissen bei der gemeinsamen Erstellung von fakultätsübergreifenden oder nationalen schriftlichen Prüfungen sind jedoch spärlich [8]. Edwards und Team [9] konnten für den australischen Kontext zeigen, dass insbesondere folgende Faktoren den Erfolg einer Prüfungszusammenarbeit ausmachen: Committed group (e.g. medical schools, stakeholders), Funding (e.g. development grant), Engagement (Team meetings to build vision), Products (e.g. framework, assessment development), Ownership (e.g. Open to all medical schools). Im Weiteren liegen Publikationen zu speziellen Aspekten vor wie der automatischen Fragen-Generierung für das nationale Examen in Kanada [8], [10] oder zum Einsatz von computerbasiertem [11], [12] oder adaptivem [13] Testen in solch einem Rahmen.

Insgesamt sind nur wenige Publikationen dazu verfügbar, wie eine schriftliche Prüfung von hoher Qualität zielgerichtet für eine nationale Abschlussprüfung erstellt werden kann. Wird der zusätzliche Aspekt der zweisprachigen Durchführung berücksichtigt, so sind noch weniger Erkenntnisse vorhanden.

Der vorliegende Bericht knüpft an bisherige Publikationen zum Schweizer Staatsexamen [2], [3] an. Er stellt dabei die zentralen Schritte, Qualitätssicherungsmassnahmen und Erkenntnisse aus Sicht der Prüfungsorganisatoren des schriftlichen Teils des Schweizer Staatsexamens nach inzwischen elf Prüfungszyklen vor und bietet Interessierten eine Vergleichsmöglichkeit und Anhaltspunkte für eigene ähnliche Projekte.


2. Methoden

Setting

Die MC-Prüfung umfasst zwei Teilprüfungen mit je 150 MC-Fragen, für die je 4.5 Stunden zur Verfügung stehen, und wird an allen fünf medizinischen Fakultäten gleichzeitig in enger Zusammenarbeit durchgeführt. Bezüglich übergreifender Informationen zu dieser Prüfung verweisen wir auf den bestehenden Übersichtsartikel [2]. Nebst inhaltlichen Experten aus den Kliniken sind Vertreter der Hausarztmedizin, methodische Experten (Expertise in Fragenerstellung, -revision und Auswertung), Informatiker, Sachbearbeiter, professionelle Übersetzer, Vertreter des Bundesamtes für Gesundheit (BAG) sowie die eidgenössische Prüfungskommission am Prüfungsprozess beteiligt. Die Prüfungskommission als wichtigstes Entscheidungsgremium besteht aus den Vizedekanen für Lehre der medizinischen Fakultäten sowie Vertretern der Hausarztmedizin, der Weiterbildung und des BAG. Die methodischen Experten konstituieren die nationale Arbeitsgruppe MC mit Vertretern der Fakultäten und des Instituts für Medizinische Lehre (IML). Abgesehen von der Rekrutierung der Fragenautoren und der Durchführung der Prüfung in den Fakultäten erfolgt die Koordination durch das IML.

Erstellung dieses Projektberichts

Dieser Projektbericht beruht auf den Erfahrungen aus bisher elf schriftlichen eidgenössischen Prüfungen seit 2011. Nach jedem Prüfungsdurchgang werden die aktuelle Prüfung inklusive Qualitätssicherungen und Qualitätsindizes reflektiert und dokumentiert, um Bewährtes fortzusetzen und nach Optimierungsmöglichkeiten zu suchen. In einem iterativen Prozess werden die zentralen Schritte der Erstellung, Durchführung, Auswertung und Qualitätssicherung sowie die Erkenntnisse durch die Prüfungsorganisatoren zusammengetragen.


3. Ergebnisse

Der Prüfungsprozess wird nachfolgend detailliert erklärt. Abbildung 1 [Abb. 1] zeigt dabei die wichtigsten Schritte des Prozesses, Tabelle 1 [Tab. 1] fasst die Qualitätssicherung und die Erkenntnisse zusammen.

3.1. Fragenstellung und Revision

Rund 60 von den Fakultäten benannte Fachexperten erstellen Fragenentwürfe, die am ersten Tag eines zweitägigen Workshops in Autorengruppen (Peer-Review) diskutiert und gegebenenfalls revidiert werden. Am zweiten Workshoptag werden die neuen Fragen in Revisionsgruppen, bestehend aus mindestens einem Vertreter jeder Fakultät und Vertreter unterschiedlicher medizinischer Fachrichtungen, ein zweites Mal begutachtet und finalisiert. In den gleichen Revisionsgruppen werden zudem alle alten Fragen auf Aktualität überprüft und angepasst, die fünf Jahre zuvor erstellt wurden oder die in der vergangenen Prüfung durch statistische Abweichungen respektive Kandidatenkommentare aufgefallen waren. Nach der zentral durchgeführten formalen und sprachlichen Überprüfung der neuen Fragen durch methodische Experten des IML werden die Fragen in einem nationalen Review-Board (bestehend aus Medizinern verschiedenster Fachrichtungen aus allen Fakultäten, die die Richtlinien der Fragenerstellung dieser Prüfung gut kennen und auch selber als Autoren Fragen erstellen) auf Stufengerechtigkeit (angemessener Schwierigkeitsgrad) und klinische Relevanz überprüft, bevor sie in der Datenbank für die Zusammenstellung der nächsten Prüfung freigegeben werden. Die Fragenverwaltung findet innerhalb einer am IML entwickelten Software statt [https://www.iml.unibe.ch/themen/uebersichten/projekte].

Qualitätssicherung

Die Anforderungen an die Fragenautoren umfassen die inhaltlichen Grundlagen (Lernziele und darauf basierender inhaltlicher Blueprint), Informationen über die Fragetypen, die vorgegebene Standardstruktur für Fallvignetten sowie Formulierungsprinzipien gemäss Krebs [14]. Bevorzugt werden Fragen mit Fallvignetten und damit anwendungsorientierte Fragen unter anderem zu diagnostischen oder therapeutischen Entscheiden erstellt.

In den öffentlichen Vorgaben der Medizinalberufekommission (MEBEKO) ist zum Anwendungsbezug der Fragen Folgendes definiert [15]: „Mit der Clinical Knowledge Prüfung (schriftliche Prüfung) wird fächerübergreifend anwendungsorientiertes Wissen zum gesamten Spektrum humanmedizinischer Probleme geprüft“ und „Die Fragen sollen sich wenn immer möglich auf ein konkretes Problem beziehen, das in einer so genannten Fall- oder Problemvignette präsentiert wird.“ In den internen Anleitungen resp. Schulungsunterlagen für die Autoren wird dies mit Beispielen konkret spezifiziert. Jede Frage soll möglichst authentisch sein, also den Arbeitsalltag eines Arztes widerspiegeln. Dazu soll sie sich wenn möglich auf einen konkreten Fall beziehen, in dem eine Patientin oder ein Patient beschrieben wird (Alter, Geschlecht, Setting, Konsultationsgrund, Anamnese, Status/Befunde, ev. Resultate der diagnostischen Untersuchungen, ev. Anfangsbehandlung, Folgebefunde etc.), zu dem eine bestimmte Frage beantwortet werden muss, z.B. „Welches ist die wahrscheinlichste Diagnose?“, „Was ist therapeutisch am sinnvollsten?“). Zudem sollte jede Frage auch von klinischer Relevanz sein.

Zu den Fragetypen ist in den MEBEKO-Vorgaben definiert [15]: „Auswahl der einzig richtigen oder besten aus 3-5 angebotenen Wahlantworten (Typ A, positiv oder negativ formuliert) und vierfache Entscheidung richtig/falsch (Typ Kprim).“

Welche Fragen erstellt werden, wird anhand der Lernziele und des Blueprints (siehe Tabelle 2 [Tab. 2]) festgelegt. Im Blueprint ist auch die prozentuale inhaltliche Verteilung der Fragen festgelegt. Alle Autoren sind in die Lehre sowie die Erstellung von Fragen für fakultäre Prüfungen involviert. Im Rahmen des Workshops werden sie durch Infomaterial, das sie zur Erstellung ihrer Fragenentwürfe vor dem Workshop erhalten, mit den Standards der eidgenössischen Prüfung vertraut gemacht. Der Einbezug aller Fakultäten in allen Revisionsschritten (inklusive in Ausnahmefällen Streichung von Fragen) ermöglicht die Erstellung einer national gültigen und von allen Ausbildungsorten akzeptierten Prüfung.

Erkenntnisse

Die Befragung der Teilnehmenden der Workshops zeigt, dass der Rahmen der Fragenerstellung seit 2017 (Workshop ohne Alltagsablenkung, Austausch mit Fachkollegen schweizweit) als sehr motivierend empfunden wird [16], im Gegensatz zu den bis 2016 dezentral und in Einzelarbeit erstellten Fragen. Zudem führt das Workshop-Format zu einem erhöhten Output an neuen Fragen mit höherer Qualität (geringerer Revisionsbedarf). Die auf zwei Tage konzentrierte Arbeit wird durch die oben genannte webbasierte, gesicherte Fragendatenbank ermöglicht.

3.2. Übersetzung

Die Fragen werden je nach Autor auf Deutsch oder Französisch erstellt und nach dem Revisionsprozess durch professionelle Übersetzer in die jeweils andere Sprache übersetzt. Die Übersetzung wird sowohl formal und sprachlich durch methodische Experten als auch inhaltlich durch medizinische Fachexperten überprüft.

Qualitätssicherung

Die Qualität der Übersetzungen wird durch die mehrstufige Überprüfung sichergestellt. Nach der Prüfung werden die Kandidatenkommentare und die Beantwortungsmuster der Fragen analysiert, um Übersetzungsfehler oder fachliche Unklarheiten aufzudecken. Fragen mit einem Übersetzungsfehler werden wie andere Fragen mit möglichen formalen Mängeln aus der Bewertung ausgeschlossen.

Erkenntnisse

Teilweise wurden in den Kandidatenkommentaren einzelne Übersetzungsprobleme genannt. Deshalb werden inzwischen alle Fragen, zusätzlich zum bestehenden Kontrollprozess, einer medizinischen Fachperson in ihrer Muttersprache vorgelegt.

Die Anpassung und Einführung zusätzlicher Kontrollschritte in der Übersetzungskontrolle hat dazu geführt, dass weniger Fragen aufgrund mangelhafter Übersetzungen eliminiert werden mussten.

3.3. Prüfungszusammenstellung

Pro Prüfung werden 300 Fragen aus der Fragendatenbank gemäss national geltendem Blueprint (erste zwei Dimensionen siehe Tabelle 2 [Tab. 2]) zusammengestellt, der auf Basis der Lernziele entwickelt wurde [1], [http://www.profilesmed.ch/]. Der aktuelle Blueprint besteht aus drei Hauptdimensionen:

  • Dimension 1: Situations as starting points,
  • Dimension 2: Medical tasks und
  • Dimension 3: General objectives (Fokus auf medical expert). Type of condition (acute, subacute, chronic) und setting (ambulatory practice, hospital, nursing home for elderly people, other) stellen weitere Dimensionen des Blueprints dar.

Die prozentualen Sollwerte werden nicht veröffentlicht, daher in der Tabelle auch nicht angegeben, um damit ein strategisches Auslassen einzelner Wissensgebiete beim Lernen zu verhindern. Es wird dabei ein Anteil von mindestens 20% bewährter Fragen früherer Prüfungen eingesetzt. Durch die klaren Vorgaben durch das Prüfungsreglement, inhaltlich anhand des Blueprints und der Vorgaben bezüglich der verwendeten Fragetypen wird die Kongruenz von Lernzielen und Prüfungsfragen gewährleistet.

Qualitätssicherung

Die repräsentative Verteilung der Inhalte wird durch den Blueprint und die Befragung der Kandidaten im Anschluss an die Prüfung anhand eines Fragebogens mit offenen und geschlossenen Fragen sichergestellt. Die Einhaltung des Blueprints wird dank der Verschlagwortung der Fragen in der Fragendatenbank unterstützt.

Erkenntnisse

Die Auswertung des Fragebogens zeigt, dass vielen Kandidaten eine möglichst breite Abdeckung des Lernstoffs wichtig ist (Kommentare zu offenen Fragen des Fragebogens), und dass der Inhalt der Fragen mit den Lernzielen übereinstimmt (mit einem Median von 4 auf der Skala von 1 (überhaupt nicht einverstanden) bis 5 (absolut einverstanden), geschlossene Frage des Fragebogens). Die Einhaltung des Blueprints und die breite Abdeckung ist nur dank der detaillierten Verschlagwortung der Fragen möglich.

3.4. Erstellung Prüfungsmaterial

Die Prüfungsheftvorlagen werden aus der Fragendatenbank heraus erzeugt und gedruckt, bevor sie an die Fakultäten verschickt werden. Die Themengebiete der Fragen werden gleichmässig auf beide Prüfungshefte verteilt, auch die Textlänge beider Prüfungshefte ist gleich.

Qualitätssicherung

Die Qualität der Prüfungshefte wird mittels eines mehrstufigen Lektorats durch inhaltliche und methodische Überprüfung (Form und Sprache) durch Experten sichergestellt.

Erkenntnisse

Trotz vorangehendem Revisionsprozess bei der Fragenerstellung und Übersetzung werden beim Lektorat der Druckvorlagen gelegentlich noch Auffälligkeiten festgestellt. Diese werden zur inhaltlichen Überprüfung durch Ärzte gegengelesen und berichtigt.

3.5. Kandidatenvorbereitung

Die Kandidaten informieren sich auf der Homepage des Bundesamtes für Gesundheit sowie in fakultären Informationsveranstaltungen über den Prüfungsablauf [15] und erhalten von den Standortverantwortlichen schweizweit einheitliche Unterlagen. Zudem werden rund 300 repräsentative Fragen online in einem Self-Assessment-Tool zur Verfügung gestellt [https://www.iml.unibe.ch/angebote/assessment/pruefungsdienstleistungen/self-assessment].

Qualitätssicherung

Die vorbereitenden Informationen werden jährlich überprüft und nötigenfalls angepasst.

Erkenntnisse

Rückmeldungen der Kandidaten im Fragebogen sowie Argumente in Einsprachen gegen das Prüfungsergebnis zeigten auf, dass nicht alle Kandidaten die vor der Prüfung zur Verfügung stehenden Informationen aktiv einholen. Deshalb werden diese den Kandidaten im Vorfeld zusätzlich persönlich zugeschickt.

3.6. Prüfungsdurchführung

Die Prüfung wird an zwei Tagen zur selben Zeit (4,5 Std.) an den fünf Fakultäten durchgeführt. Zur Prüfung treten nebst den erfolgreichen Absolventen der Masterstudiengänge der Schweiz auch Kandidaten mit nicht anerkennbaren ausländischen Arztdiplomen an, welche ausserhalb der EU/EFTA ausgestellt wurden.

Qualitätssicherung

Gemeinsame Richtlinien zur Prüfungsdurchführung regeln beispielsweise die Gegebenheiten der Prüfungsräume, erlaubten Hilfsmittel oder während der Prüfung vorzulesenden Instruktionen.

Erkenntnisse

Einigen Kandidaten fällt es schwer, am Prüfungstag Informationen oder Anweisungen zum Prüfungsablauf aufzunehmen. Deshalb werden ihnen sämtliche Informationen zusätzlich im Vorfeld zur Verfügung gestellt. Die Vorschläge der Kandidaten im Fragebogen helfen, die Durchführung laufend zu verbessern.

3.7. Auswertung und Ergebnisse

Für jede verwendete Prüfungsfrage wird eine Item-Analyse (Beurteilung der Messeigenschaften der Items) durchgeführt. Primär beurteilt werden Schwierigkeit und Trennschärfe; diese bleiben im Fragen-Pool sichtbar. Bei Wiederverwendung derselben Frage kann diese somit über verschiedene Prüfungs-Jahrgänge miteinander verglichen werden. Als Trennschärfe-Index r eines Items wird mindestens 0,2 angestrebt und als Schwierigkeitsgrad ein P von 50-90%. Die multiplen Falsch/Richtig-Fragen vom Typ Kprim werden nach der am IML entwickelten Halbpunkt-Methode ausgewertet [17].

Die Prüfungsresultate und die Kommentare der Kandidaten zu mangelhaft erscheinenden Fragen werden zunächst durch methodische Experten analysiert. Auffällige Fragen werden mit mehreren klinischen Fachexperten diskutiert und, falls sich dabei formale oder inhaltliche Mängel zeigen, von der Bewertung ausgeschlossen. Zum Beispiel lässt sich bei einer Frage mit zu hoher Schwierigkeit ein „Facharzt“- Niveau feststellen, oder bei zu geringem r ein zuvor übersehener formaler Fehler erkennen.

Die Bestehensgrenze beruht auf zwei international bekannten Standardsetting-Methoden (nach Angoff und Hofstee [18], [19], [20]) sowie einer Analyse auf Grundlage des Rasch-Modells [21]. Das Rasch-Modell ist das einfachste Modell der Item-Response Theorie (IRT), bei welchem die Item-Schwierigkeiten und die Fähigkeiten der Kandidierenden geschätzt werden, um damit die Prüfungsresultate zu erklären. Das Modell erlaubt es, durch den Einsatz von Items, deren Schwierigkeit bereits über vergangene Prüfungen beobachtet und deshalb bekannt sind (sogenannte Ankeritems), die Bestehensanforderung über die Jahre konstant zu halten, auch wenn die Prüfungen in den einzelnen Jahren unterschiedlich schwierig ausfallen. Einfach gesagt ermöglicht ein Vergleich zwischen Ankeritems und dem Rest der Prüfung eine Einschätzung der Prüfungsschwierigkeit im Vergleich zu den Vorjahren und die Bestehensgrenze kann somit entsprechend angepasst werden. Auf Basis der Standardsetting-Methoden und dem Raschmodell wird dann die Bestehensgrenze durch die Prüfungskommission festgelegt.

Qualitätssicherung

Die endgültige Entscheidung über die Bestehensgrenze wird durch die nationale Prüfungskommission gefällt. Die bei der Auswertung entdeckten formalen oder inhaltlichen Mängel an Prüfungsfragen werden den Autoren und dem Review-Board gemeldet, damit die nächste Fragenproduktion entsprechen optimiert werden kann. Fragen mit schlechten Messwerten der Schwierigkeit und Trennschärfe und inhaltlichen Mängeln werden nicht wiederverwendet. Alle wichtigen Auswertungsschritte werden im Vieraugenprinzip durchgeführt: Eine zweite Person kontrolliert die wichtigsten Ergebnisse anhand einer Checkliste, bevor sie veröffentlicht werden. Beispielsweise: Wurde auf den Resultatelisten, in den Grafiken im Analysebericht und auf den Briefen an die Kandidaten wirklich die letztendlich durch die Prüfungskommission festgelegte und im Sitzungsprotokoll festgehaltene Bestehensgrenze angewendet? Stimmen die Antworten auf den Antwortbogen der nicht bestehenden Kandidaten tatsächlich mit den elektronisch erfassten und für die Resultateberechnung berücksichtigten Antworten überein? Die Auswertungen bilden einen zentralen letzten Schritt der Qualitätssicherung des gesamten Prüfungsprozesses, weitere Details sind unter [14], Kapitel 4, dargestellt.

Erkenntnisse

Dank kontinuierlich optimierten Massnahmen zur Qualitätssicherung im gesamten Prüfungsprozess, einschliesslich der Rückmeldung der entdeckten Mängel in Prüfungsfragen an die Autoren und das Review-Board, mussten über die Jahre immer weniger Fragen aufgrund formaler oder inhaltlicher Mängel aus der Bewertung ausgeschlossen werden (rund 40 in der ersten Prüfung (13.3%), zuletzt noch rund 15 (5%)). Die Ergebnisse der bisherigen elf Prüfungsdurchführungen zeigten durchwegs reliable Prüfungsergebnisse (Cronbach Alpha im Mittel 0.90, Range 0.87-0.91).

Abbildung 2 [Abb. 2] zeigt exemplarisch die Ergebnisse der Prüfung 2020. Die Erfolgsraten der Kandidaten, die ihr Studium an einer Schweizer Fakultät abgeschlossen haben (fakultäre Kandidaten genannt), waren mit 99.5% konstant hoch, währenddem die Erfolgsraten der Kandidaten mit nicht anerkennbarem ausländischen Arztdiplom deutlich tiefer lagen. Dies könnte so interpretiert werden, dass Schweizer Kandidierende auch auf Basis des Schweizer Lernzielkatalogs unterrichtet wurden und somit bei diesen eine gute Abstimmung von Unterricht und Prüfung vorliegt, bei den ausländischen Kandidierenden jedoch nicht. Weitere Gründe könnten in den sprachlichen Schwierigkeiten der ausländischen Kandidaten liegen oder darin, dass deren Abschluss oft mehrere Jahre zurückliegt und das Wissen daher nicht mehr gleich präsent ist.


4. Diskussion

Wichtige Qualitätssicherungsmassnahmen umfassen unter anderem die gemeinsamen Richtlinien zur Fragenerstellung und Prüfungsdurchführung, die Fragenerstellung in nationalen Workshops, den mehrstufigen Revisionsprozess unter Einbezug aller Fakultäten, die Prüfungszusammenstellung auf Basis des nationalen Blueprints sowie die mehrstufige Überprüfung der Übersetzungen und des Prüfungsmaterials. Die Prüfungsanalyse inklusive Analyse der Kandidatenkommentare ist ein abschliessender wichtiger Qualitätssicherungsschritt des gesamten Prüfungsprozesses.

Während über einige dieser Prozesse einschliesslich Erfolgsfaktoren auch von Edwards und Kollegen [9] berichtet wurde, können wir zusätzlich über Aspekte der Fragenerstellung in nationalen Workshops, der Zweisprachigkeit und der Auswertung berichten. Hinzu kommt, dass der Einbezug aller Fakultäten bei der Erstellung des Blueprints sowie in allen Fragenerstellungs-, Revisions-, und Durchführungsschritten zu einer hohen Akzeptanz bei den Fakultäten führt und die Glaubwürdigkeit der Kandidatenergebnisse erhöht.

Die Korrelation der schriftlichen Prüfungsergebnisse mit denen der praktischen Prüfung (Mittelwert seit 2011: 0.56, Range: 0.48-0.65) legt eine gewisse Praxisrelevanz der Fragen nahe, da die Aufgabenstellungen im OSCE ja praxisorientiert sind. Erstrebenswert erscheint uns in Zukunft insbesondere die Überprüfung, dass diejenigen Absolventen, die diese Gesamt-Prüfung (schriftliche und praktische Prüfung) bestehen, danach auch als kompetente Ärzte ihre Patienten zielführend versorgen. Ähnlich standardisierte und qualitätssgesicherte Prüfungen aus dem Ausland legen diesen Zusammenhang nahe [22], [23], [24].

Wichtig ist zu berücksichtigen, dass im vorliegenden Artikel nur über den Multiple Choice-Teil berichtet wird, der durch den zuvor publizierten Clinical Skills-Teil [3] zu einer Gesamt-Prüfung [2] ergänzt wird. In der Publikation zum Clinical Skills Teil der Prüfung [3] wird vorgestellt, dass die konsequente Umsetzung der Prinzipien der Aktionsforschung zur erfolgreichen Weiterentwicklung des praktischen Teils der Prüfung beiträgt. Weiterhin wird vorgestellt, dass der zentral koordinierte, kollaborativ-iterative Prozess mit Einbindung von Fachexperten aus allen Fakultäten wesentlich zur Qualität der EP CS beiträgt [3]. Für die Gesamtprüfung wurden auch positive Implikationen in einer qualitativen Studie unter beteiligten Prüfungsexperten und Studiendekanen gesehen, wie beispielsweise die intensivierte und positive Zusammenarbeit der Fakultäten und die vermehrte Einführung praktischer Kurse [24].

Die Unterschiede der Bestehensraten der Absolventen der Schweizer Fakultäten gegenüber den Kandidaten mit in der Schweiz nicht anerkennbaren ausländischen Arztdiplomen kann auch als Unterstützung der Validität dieser Prüfung verstanden werden. Derartige Unterschiede in nationalen Examen wurden auch in anderen Ländern festgestellt [25]. Eine Ursache könnte darin liegen, dass sich die Ausbildung in der Schweiz an den nationalen Lernzielen [1], [http://www.profilesmed.ch/] ausrichtet und daraus für die Kandidaten aus der Schweiz eine bessere Prüfungsvorbereitung resultiert. Als weitere Ursache kommt in Frage, dass die meisten Kandidaten mit nicht anerkennbaren ausländischen Arztdiplomen ihre Weiterbildung in einem Fachgebiet vorangetrieben haben und mit den allgemeinen Prüfungsinhalten nicht mehr so vertraut sind. Zu den wichtigsten Erkenntnissen der vergangenen Jahre gehört, dass die Wertschätzung der Arbeit aller Beteiligter sowie die zentrale Organisation der Prüfungserstellung essentiell sind, um den Prozess langfristig erfolgreich durchführen zu können. Die Wertschätzung der an der medizinischen Lehre beteiligten Personen stellt einen zentralen Gesichtspunkt dar, da die klinische und wissenschaftliche Arbeit häufig höher gewichtet werden, die der individuellen Karriere förderlicher sind. Dadurch kann es schwierig werden, geeignete Personen für Lehr- und insbesondere Assessmentaufgaben zu finden. Dies scheint eine verbreitete Herausforderung zu sein, wie (inter-)nationale Umfragen zeigen [26], [27]. Gemäss unseren Erfahrungen konnte durch die Fragenerstellung im Rahmen nationaler Workshops in einem Seminarhotel unter Anerkennung der Arbeit als Lehrleistung – anstelle mehrerer kleinerer Workshops beziehungsweise individueller Heimarbeit – eine höhere Wertschätzung der Teilnehmer und im Endeffekt ein qualitativ besserer und wirtschaftlich günstigerer Weg gefunden werden [16].

Die Stärken des vorliegenden Berichts bestehen darin, dass dieser auf den langjährigen praktischen Erfahrungen der zahlreichen Beteiligten bei der Erstellung, Durchführung und Auswertung dieser nationalen Prüfung beruht, welche aktuell in zwei Landessprachen an fünf Standorten durchgeführt wird. Dabei zeigten sich die letzten elf Jahre durchwegs reliable Prüfungsergebnisse, wobei dies natürlich auch sehr durch die grosse Anzahl an Prüfungsfragen unterstützt wird.

Eine Schwäche liegt darin, dass dieser Bericht auf Erfahrungen basiert, die nicht im Einzelnen gezielt wissenschaftlich untersucht wurden. Allerdings beruhen die hier vorgestellten Erkenntnisse auf einem kontinuierlichen Verbesserungsprozess, der gut dokumentiert, nachverfolgbar und nachvollziehbar ist und von den Autoren für diesen Bericht zusammengefasst wurde.

Ausblickend lässt sich feststellen, dass die Fortentwicklung dieser Prüfung kontinuierlich weitergeht. Seit 2021 ist das neue Lernzielrahmenwerk „PROFILES“ für diese Prüfung gültig [http://www.profilesmed.ch/]. Dementsprechend basiert der Blueprint neu darauf. Dabei wurde insbesondere die Struktur des Blueprints vereinfacht. So gibt es zum Beispiel weniger Dimensionen, da die alten Dimensionen „Alter“ und „Geschlecht“ sowie ein Teil der alten Dimension „Ärztliche Handlung“ unter PROFILES bereits in den „Ausgangssituationen“ (original „Situations as Starting Points“) berücksichtigt sind und entsprechend gelöscht oder gekürzt werden konnten. Hingegen wird in der Dimension „Setting“ neu differenzierter unterschieden (Praxis, Krankenhaus, Altersheim, andere) als noch unter SCLO (stationär, ambulant), da das präzise Setting des beschriebenen Falles oft ausschlaggebend für die korrekte Antwort ist. Zudem wurde die alte Dimension Konsultationsgründe/Leitsymptome (original „Problems as Starting Points“) mit PROFILES zu „Ausgangssituationen“ (original „Situations as Starting Points“), wobei nun auch physiologische Situationen vorkommen (z.B. „Vorsorgeuntersuchungen in der Schwangerschaft“ (original „process and basic care of pregnancy“ oder „pädiatrische Vorsorgeuntersuchungen“ (original „well-baby and well-child visit“)) und Bereiche wie „Notfall“ (original „Emergency“) oder Palliativmedizin/Palliativpflege (original „Palliative care“) einen wichtigeren Platz einnehmen. Zudem ist entschieden, ab 2022 die schriftliche Prüfung an allen Standorten elektronisch auf Tabletcomputern durchzuführen. Dadurch können in Zukunft einerseits neue Fragetypen verwendet werden, die beispielsweise die Auswertung von Freitexten anhand von so genannten Long Menus [28] zu einem grossen Teil automatisiert ermöglichen, andererseits können neu auch Videos eingesetzt werden.


5. Schlussfolgerung

Um eine solche Prüfung langfristig mit hoher Qualität durchzuführen, sind gemeinsame Richtlinien, gemeinsame Workshops, Qualitätssicherungsmassnahmen mit fortlaufender Verbesserung aller Prozesse sowie die Wertschätzung der Beteiligten zentral.


Anmerkung

*Für eine einfachere Lesbarkeit wurde die männliche Form gewählt, gemeint sind damit jedoch alle Personen.


Danksagung

Eine nationale Prüfung lässt sich nur durch Einsatz von unzähligen engagierten Personen bewerkstelligen. Unser ausgesprochener Dank geht insbesondere an die Teilnehmer der Workshops und Review-Boards sowie an die Standortverantwortlichen. Im Weiteren danken wir der Prüfungskommission und dem Bundesamt für Gesundheit für die gute Zusammenarbeit und wertvolle Unterstützung.


Interessenkonflikt

Die Autor*innen erklären, dass sie keinen Interessenkonflikt im Zusammenhang mit diesem Artikel haben.


Literatur

1.
Bürgi H, Rindlisbacher B, Bader C, Bloch R, Bosman F, Gasser C, Gerke W, Humair JP, Im Hof V, Kaiser H, Lefebvre D, Schläppi P, Sottas B, Spinas GA, Stuck AE. Swiss Catalogue of Learning Objectives for Undergraduate Medical Training (SCLO). Genf: Joint Conference of Swiss Medical Faculties (SMIFK); 2008.
2.
Guttormsen S, Beyeler C, Bonvin R, Feller S, Schirlo C, Schnabel K, Schurten T, Berendonk C. The new licencing examination for human medicine: from concept to implementation. Swiss Med Wkly. 2013;143:w13897. DOI: 10.4414/smw.2013.13897 Externer Link
3.
Berendonk C, Schirlo C, Balestra G, Bonvin R, Feller S, Huber P, Jünger E, Monti M, Schnabel K, Beyeler C, Guttormsen S, Huwendiek S. The new final Clinical Skills examination in human medicine in Switzerland: Essential steps of exam development, implementation and evaluation, and central insights from the perspective of the national Working Group. GMS Z Med Ausbild. 2015;32(4):Doc40. DOI: 10.3205/zma000982  Externer Link
4.
Swanson DB, Roberts TE. Trends in national licensing examinations in medicine. Med Educ. 2016;50(1):101-114. DOI: 10.1111/medu.12810 Externer Link
5.
Archer J, Lynn N, Coombes L, Roberts M, Gale T, Price T, de Bere SR. The impact of large scale licensing examinations in highly developed countries: a systematic review. BMC Med Educ. 2016;16(1):212. DOI: 10.1186/s12909-016-0729-7 Externer Link
6.
Rimmer A. GMC will develop single exam for all medical graduates wishing to practise in UK. BMJ. 2014;349:g5896. DOI: 10.1136/bmj.g5896 Externer Link
7.
Bundesministerium für Bildung und Forschung. Masterplan Medizinstudium 2020. Berlin: Bundesministerium für Bildung und Forschung; 2017. Zugänglich unter/available from: https://www.bmbf.de/de/masterplan-medizinstudium-2020-4024.html Externer Link
8.
Gierl MJ, Lai H, Turner SR. Using automatic item generation to create multiple-choice test items. Med Educ. 2012;46(8):757-765. DOI: 10.1111/j.1365-2923.2012.04289.x Externer Link
9.
Edwards D, Wilkinson D, Canny BJ, Pearce J, Coates H. Developing outcomes assessments for collaborative, cross-institutional benchmarking: Progress of the Australian Medical Assessment Collaboration. Med Teach. 2014;36(2):139-147. DOI: 10.3109/0142159X.2013.849798 Externer Link
10.
Gierl MJ, Lai H. Evaluating the quality of medical multiple-choice items created with automated processes. Med Educ. 2013;47(7):726-733. DOI: 10.1111/medu.12202 Externer Link
11.
Bennett RE. Technology for large-scale assessment. In: Peterson P, Baker E, McGaw B, editors. International Encyclopaedia of Education. 3rd ed. Oxford: Elsevier; 2010. p.48-55. DOI: 10.1016/B978-0-08-044894-7.00701-6 Externer Link
12.
Bennett RE. The changing nature of educational assessment. Rev Res Educ. 2015;39:370-407. DOI: 10.3102/0091732X14554179 Externer Link
13.
Seo DG. Overview and current management of computerized adaptive testing in licensing/certification examinations. J Educ Eval Health Prof. 2017;14:17. DOI: 10.3352/jeehp.2017.14.17 Externer Link
14.
Krebs R, Prüfen mit Multiple Choice. Kompetent planen, entwickeln, durchführen und auswerten. Bern: Hofgrefe; 2019. DOI: 10.1024/85092-000 Externer Link
15.
Bundesamt für Gesundheit. Eidgenössische Prüfung in Humanmedizin. Bern: Bundesamt für Gesundheit; 2019. Zugänglich unter/available from: https://www.bag.admin.ch/bag/de/home/berufe-im-gesundheitswesen/medizinalberufe/eidgenoessische-pruefungen-universitaerer-medizinalberufe/eidgenoessische-pruefung-in-humanmedizin.html Externer Link
16.
Meng-Hentschel J, Delmas C, Zurbuchen B, Wagner F, Schurter T. Erstellung von MC-Fragen für Prüfungen in der Medizin: individuell oder im integrierten Workshop. In: Gemeinsame Jahrestagung der Gesellschaft für Medizinische Ausbildung (GMA) und des Arbeitskreises zur Weiterentwicklung der Lehre in der Zahnmedizin (AKWLZ). Münster, 20.-23.09.2017. Düsseldorf: German Medical Science, GMS Publishing House; 2017. Doc353. DOI: 10.3205/17gma353 Externer Link
17.
Krebs R. The Swiss way to score multiple true-false items: theoretical and empirical evidence. In: Scherpbier AJ, van der Vleuten CM, Rethans JJ, van der Steeg AF, editors. Advances in Medical Education. Proceedings of the 7th Ottawa International Conference on Medical Education and Assessment. Dordrecht: Kluwer Academic Publishers; 1996. p.158-161. DOI: 10.1007/978-94-011-4886-3_46 Externer Link
18.
Angoff WH. Scales, norms and equivalent scores. In: Thorndike RI, editor. Educational Measurement. 2nd ed. Washington DC: American Council on Education; 1971. p.508-600.
19.
Hofstee KW. The case for compromise in educational selection and grading. In: Anderson SB, Helmick JS, editors. On Educational Testing. San Francisco: Jossey-Bass; 1983. p.109-127.
20.
Livingston SA, Zieky MJ. Passing Scores, A Manual for setting standards of performance on educational and occupational test. Princeton, NJ: Educational Testing Service; 1982.
21.
Rasch G. Probabilistic Models for Some Intelligence and Attainment Tests. Kopenhagen: The Danish Institute for Educational Research; 1960.
22.
Norcini JJ, Boulet JR, Opalek A, Dauphinee WD. The relationship between licensing examination performance and the outcomes of care by international medical school graduates. Acad Med. 2014;89(8):1157-1162. DOI: 10.1097/ACM.0000000000000310 Externer Link
23.
Tamblyn R, Abrahamowicz M, Dauphinee WD, Hanley JA, Norcini J, Girard N, Grand'Maison P, Brailovsky C. Association between licensure examination scores and practice in primary care. JAMA. 2002;288(23):3019-3026. DOI: 10.1001/jama.288.23.3019 Externer Link
24.
Huwendiek S, Jung D, Schirlo C, Huber P, Balestra G, Guttormsen S, Berendonk C. The introduction of a standardised national licensing exam as a driver of change in medical education: A qualitative study from Switzerland. Med Teach. 2020;42(10):1163-1170. DOI: 10.1080/0142159X.2020.1798911 Externer Link
25.
Boulet JR, Swanson DB, Cooper RA, Norcini JJ, McKinley DW. A comparison of the characteristics and examination performances of U.S. and non-U.S. citizen international medical graduates who sought Educational Commission for Foreign Medical Graduates certification: 1995-2004. Acad Med. 2006;81(10 Suppl):S116-119. DOI: 10.1097/00001888-200610001-00029 Externer Link
26.
Huwendiek S, Mennin S, Dern P, Ben-David MF, Van Der Vleuten C, Tönshoff B, Nikendie C. Expertise, needs and challenges of medical educators: Results of an international web survey. Med Teach. 2010;32(11):912-918. DOI: 10.3109/0142159X.2010.497822 Externer Link
27.
Huwendiek S, Hahn EG, Tönshoff B, Nikendei C. Challenges for medical educators: results of a survey among members of the German Association for Medical Education. GMS Z Med Ausbild. 2013;30(3):Doc38. DOI: 10.3205/zma000881 Externer Link
28.
Huwendiek S, Reichert F, Duncker C, de Leng BA, van der Vleuten CP, Muijtjens AM, Bosse HM, Haag M, Hoffmann GF, Tönshoff B, Dolmans D. Electronic assessment of clinical reasoning in clerkships: A mixed-methods comparison of long-menu key-feature problems with context-rich single best answer questions. Med Teach. 2017;39(5):476-485. DOI: 10.1080/0142159X.2017.1297525 Externer Link