gms | German Medical Science

GMS Journal for Medical Education

Gesellschaft für Medizinische Ausbildung (GMA)

ISSN 2366-5017

Formatives Prüfen praktischer Fertigkeiten mit studentischen Prüfern: Qualitätseigenschaften des OSCE Allgemeinmedizin der Medizinischen Fakultät Heidelberg

Artikel Formatives Prüfen

  • corresponding author Andreas Möltner - Universität Heidelberg, Kompetenzzentrum für Prüfungen in der Medizin Baden-Württemberg, Heidelberg, Deutschland
  • author Mirijam Lehmann - Universität Heidelberg, Kompetenzzentrum für Prüfungen in der Medizin Baden-Württemberg, Heidelberg, Deutschland
  • author Cornelia Wachter - Universität Heidelberg, Med. Fakultät, Abteilung Allgemeinmedizin und Versorgungsforschung, Heidelberg, Deutschland
  • author Sonia Kurczyk - Universität Heidelberg, Med. Fakultät, Abteilung Allgemeinmedizin und Versorgungsforschung, Heidelberg, Deutschland
  • author Simon Schwill - Universität Heidelberg, Med. Fakultät, Abteilung Allgemeinmedizin und Versorgungsforschung, Heidelberg, Deutschland
  • author Svetla Loukanova - Universität Heidelberg, Med. Fakultät, Abteilung Allgemeinmedizin und Versorgungsforschung, Heidelberg, Deutschland

GMS J Med Educ 2020;37(4):Doc42

doi: 10.3205/zma001335, urn:nbn:de:0183-zma0013354

Dieses ist die deutsche Version des Artikels.
Die englische Version finden Sie unter: http://www.egms.de/en/journals/zma/2020-37/zma001335.shtml

Eingereicht: 14. Mai 2019
Überarbeitet: 24. März 2020
Angenommen: 15. April 2020
Veröffentlicht: 15. Juni 2020

© 2020 Möltner et al.
Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung). Lizenz-Angaben siehe http://creativecommons.org/licenses/by/4.0/.


Zusammenfassung

Hintergrund: Objective Structured Clinical Examinations (OSCEs) sind mittlerweile ein etabliertes Prüfungsformat an deutschen medizinischen Fakultäten. Üblicherweise werden darin praktische und kommunikative Fertigkeiten von medizinischen Experten summativ bewertet. Der Einsatz des OSCEs als formatives Prüfungsformat mit studentischen Prüfern findet bislang eher wenig Anwendung.

Zielsetzung: Der an der Medizinischen Fakultät Heidelberg im Fach Allgemeinmedizin durchgeführte formative OSCE, der von Peer-Tutoren durchgeführt und bewertet wird, soll hinsichtlich seiner Gütekriterien untersucht und mit denen summativer OSCEs aus anderen Fachbereichen verglichen werden.

Methodik: Schwierigkeiten und Trennschärfen der einzelnen Stationen werden für die summativen sowie den formativen OSCE bestimmt und einander gegenübergestellt. Zur Beurteilung der Messzuverlässigkeit wird eine Analyse der Daten mittels der Generalisierbarkeitstheorie durchgeführt. Zusätzlich findet ein Vergleich zwischen den Bewertungen der studentischen Prüfer und Zweitbewertungen medizinischer Experten statt.

Ergebnisse: Die Stationen des formativen OSCEs weisen ähnliche Schwierigkeiten wie die der summativen Vergleichs-OSCEs auf (Pform=0.882; Psum=0.845 – 0.902). Bezüglich der Messzuverlässigkeit zeigen sich keine Unterschiede zwischen dem OSCE Allgemeinmedizin und denen der anderen Fächer. Die Bewertungen der studentischen Prüfer und der medizinischen Experten korrelieren hoch (r=0.888).

Schlussfolgerung: Der formative OSCE Allgemeinmedizin ist hinsichtlich seiner Qualitätskriterien vergleichbar mit denen der summativen Vergleichsformate. Der Einsatz studentischer Prüfer kann bei formativen OSCEs eine verlässliche Alternative zu medizinischen Experten darstellen.

Schlüsselwörter: formativ, OSCE, studentische Prüfer, Generalisierbarkeitstheorie


1. Einleitung

Praktische klinische Fähigkeiten und Anamneseerhebung werden bereits an verschiedenen medizinischen Fakultäten in den vorklinischen Studiensemestern vermittelt und mit Hilfe eines Objektive Structured Clinical Examination (OSCE) überprüft. Es konnte gezeigt werden, dass das frühe Erlernen praktischer Fähigkeiten zu besseren Ergebnissen in klinischen Examensabschnitten und in den klinischen Fertigkeiten führt [1].

Die Vermittlung der Lehrinhalte erfolgt traditionsgemäß durch Lehrärzte der Fakultät, in zunehmendem Maße jedoch auch durch studentische Tutoren höherer Semester. Ein Vorteil von Peer-Tutoren (Peer Assisted Learning, PAL) sind die höhere Akzeptanz durch die Studierenden [2], die niedrigeren Kosten [3], [4] und der Möglichkeit von kleineren Lerngruppen [5]. Zudem profitieren hierbei sowohl die Studierenden durch eine Reduktion von Stress- und Angstfaktoren [6] wie auch die studentischen Tutoren [2], [7] durch die eigene Vertiefung der Lerninhalte. Beim Vergleich der Studententutoren mit Lehrärzten der Fakultät erzielen die Studierenden beim PAL einen gleichen Ergebnisstand in abschließenden Prüfungen [8], [9], [10], [11] und eine gleiche bis höhere Qualität des Feedbacks [10]. Voraussetzungen hierbei sind genau definierte Studententutoren-Schulungen und Checklisten [12], [13].

Seit dem Jahr 2013 werden an der Medizinischen Fakultät Heidelberg im vorklinischen Studienabschnitt im Rahmen der AaLPLUS -Veranstaltungen (AaL: „Anatomie am Lebenden“) der Abteilung Allgemeinmedizin praktische Fähigkeiten und Anamnesetechniken mit Hilfe von Peer-Tutoren vermittelt und anschließend in einem ebenfalls von Studententutoren durchgeführten formativen OSCE überprüft [14]. Eine detaillierte Darstellung des Programms und der Evaluation des OSCEs durch Studierende und Peer-Tutoren findet sich in [15].

Black und Wiliam [16] sehen fünf wesentliche Aspekte bei formativen Prüfungen. Angepasst an den Kontext der universitären Ausbildung sind dies:

1.
Klärung und Austausch von Lernabsichten und Erfolgskriterien
2.
Anstoß von effektiven Diskussionen und anderen Lernaufgaben, die das Verständnis der Studierenden für die Lerninhalte belegen
3.
Rückmeldungen, die für die Studierenden nützlich sind
4.
Aktivierung der Studierenden, als gegenseitige Lernquelle zu fungieren
5.
Aktivierung der Studierenden, sich als Initiator ihrer eigenen Lernaktivitäten zu sehen.

Diese Zielsetzungen beinhalten einen ganzen Prozess der Lehre, in dem mehr oder weniger kontinuierlich formative Prüfungen integriert sind. Dies ist in vollem Umfang bei formativen praktischen Prüfungen in Form von OSCEs in der medizinischen Ausbildung logistisch oft schwer zu erfüllen, so dass der hier betrachtete formative OSCE eher als Instrument zu sehen ist [17], der am Ende des vorklinischen Abschnitts des Studiums steht. Um die von Black und Wiliam avisierten Ziele zu erreichen, dürften andere Formen formativer Prüfungsverfahren geeignet sein [18]. Trotz dieser begrenzten Funktion des formativen OSCEs kann erwartet werden, dass er sich positiv auf das Lernverhalten der Prüfungsteilnehmer auswirkt [19], [20].

In einem Übersichtsartikel von Khan et al. aus dem Jahr 2017 werden 13 Publikationen zum Thema „Studierende als Prüfer in OSCEs“ näher dargestellt [21]. Einige der dort aufgeführten Arbeiten untersuchen die Bewertungen von Studierenden und Experten hinsichtlich basaler Kennwerte wie Unterschiede bei den vergebenen Punktzahlen und die Korrelation der Bewertungen durch Studierende und Experten als Prüfer. Eine eingehendere quantitative Analyse, die auch eine Differenzierung von Stations- und Prüfereffekten und deren Konsequenzen für die Messzuverlässigkeit enthält, erfolgt nur in den Arbeiten von Moineau et al. [10] und Basehore et al. [22]. Bei beiden Arbeiten werden Doppelbewertungen an den Stationen durch Studierende und Experten untersucht (in [22] bewerteten die Experten anhand von Videos der Prüfungen). Nicht untersucht wurde jedoch, ob sich studentische Prüfer hinsichtlich des Ausmaßes an Prüfereffekten von Experten unterscheiden.

Neben dem Vergleich von studentischen Prüfern und Experten bei der gleichen formativen Prüfung ist auch die Qualität der formativen Prüfung in Relation zu an der Fakultät etablierten summativen Prüfungen von Interesse. Formative Prüfungen unterscheiden sich von Ihrer Zielsetzung und Struktur (z. B. höhere Bedeutung des Feedbacks) und der Relevanz für die Prüflinge von summativen Prüfungen. Insbesondere Letzteres kann Auswirkungen auf die Messzuverlässigkeit und -genauigkeit haben, z. B. etwa dann, wenn durch eine verringerte Motivation der Prüflinge deren Leistungen weniger differenziert erbracht werden.

Ziel der Studie

Ziel der Studie ist,

1.
nachzuweisen, dass Studierende im Kontext formativer Prüfungen praktischer Fertigkeiten, Experten als Prüfer ersetzen können, ohne dass dadurch die Qualität der Prüfung leidet und
2.
dass die Qualität solcher formativen Prüfungen die gleichen Standards erreicht wie etablierte summative Prüfungen.

Hierzu soll der im Jahr 2018 durchgeführte formative OSCE Allgemeinmedizin an der Medizinischen Fakultät Heidelberg, bei dem Tutoren als Prüfer eingesetzt werden, hinsichtlich seiner Gütekriterien (Kennwerte der Stationen, Messzuverlässigkeit der Prüfung, Ausmaß von Prüfereffekten) untersucht werden, ein Vergleich mit summativen OSCEs erfolgen und die Übereinstimmung der Bewertungen studentischer Prüfer mit denen von Experten („Supervisoren“) betrachtet werden .

Andere Aspekte des formativen OSCE Allgemeinmedizin mit studentischen Prüfern, wie etwa die Akzeptanz seitens der prüfenden wie auch der geprüften Studierenden, die Einschätzung der Qualität des Feedbacks und des subjektiven Nutzens hinsichtlich der im OSCE abgeprüften Fertigkeiten für die Prüfungsteilnehmer und die Prüfer sind ausführlich in [15] dargestellt. Die vorliegende Studie thematisiert ausschließlich die durch statistische Kennwerte der Prüfungsergebnisse erfassbaren Qualitätseigenschaften des OSCE.

Standardanalysen von Prüfungen umfassen meist basale Kennwerte wie Schwierigkeit, Trennschärfe und Reliabilität (s. 3.1.1). Auf Basis der Generalisierbarkeitstheorie werden darüber hinaus die Facetten (Einflussfaktoren) „Studierende“ (Unterschiede in der Fähigkeit der Studierenden), „Station“ (Unterschied in der Schwierigkeit der Stationen), „Prüfer“ (Unterschied bei der „Strenge“ der Prüfer) und der Interaktion „Station x Prüfer“ (Unterschiedliche Strenge von Prüfern an verschiedenen Stationen) und deren Auswirkungen auf Generalisierbarkeit und absolute Messgenauigkeit (s. 3.1.2) untersucht.

Zum Vergleich der Kennwerte des OSCEs Allgemeinmedizin mit etablierten summativen OSCEs der Medizinischen Fakultät Heidelberg wurden die OSCEs der Fächer Chirurgie und Innere Medizin des Wintersemesters (WS) 2017/2018, des Sommersemesters (SS) 2018 und des WS 2018/2019 herangezogen.

Abschließend erfolgt ein Vergleich von Doppelbewertungen durch studentische Prüfer und Experten innerhalb des formativen OSCEs Allgemeinmedizin (3.2).


2. Methoden

2.1. Durchführung des OSCEs

An dem formativen OSCE Allgemeinmedizin im Mai 2018 nahmen 300 Studierende des vierten Fachsemesters teil. Der OSCE fand an zwei Tagen statt und umfasste vier Stationen. Eine der vier Stationen („Venöse Blutentnahme“) wurde von allen Studierenden durchlaufen. An zwei Stationen mussten verschiedene klinische Untersuchungen durchgeführt werden. Diese Stationen waren für die teilnehmenden Studierenden nicht identisch, sondern wechselten zwischen den verschiedenen Parcours. Insgesamt wurden 11 verschiedene Aufgaben (Allgemeine Untersuchung des Abdomens, Untersuchung von Milz/Niere/Appendizitiszeichen, Blutdruckmessung, Untersuchung des Herzens, der Leber, des Lymphknotenstatus, des Pulsstatus, der Schilddrüse, des Thorax, der Wirbelsäule und eine neurologische Untersuchung) verwendet. Weiter musste eine vollständige Anamnese durchgeführt werden. Auch hier wechselten die Inhalte (Rücken-, Bauch- und Kopfschmerz). Für die klinischen Untersuchungen und die Anamnesen wurden geschulte Schauspielpatienten eingesetzt. Die Inhalte der Stationen und die wesentlichen Kriterien zur Beurteilung waren den teilnehmenden Studierenden aus den Kursen und -materialien bekannt.

Jeder Teilnehmende durchlief insgesamt vier Stationen von achtminütiger Dauer (5 Minuten pro Aufgabe und 3 Minuten Feedback). Die Bewertung der Leistung erfolgte anhand von Checklisten durch basisdidaktisch geschulte Studierende, die mindestens im sechsten Semester waren. Insgesamt konnten an den Stationen jeweils 25 Punkte erreicht werden. Eine Ausnahme hiervon bildeten die drei Stationen, an denen eine Anamnese durchgeführt werden musste. Bei diesen waren 30 Punkte zu erreichen.

Als Prüfer waren 32 Studierende im Einsatz, von denen im Verlauf des OSCEs 26 an mehreren (bis zu fünf) Stationen geprüft haben (siehe Tabelle 1 [Tab. 1]). Die Erfassung der Bewertungen erfolgte mit Tablets (Programm tOSCE des UCAN-Prüfungsverbunds) [23].

Zur Qualitätskontrolle der Durchführung und Bewertung waren fünf Supervisoren eingesetzt, die stichprobenartig Zweitbewertungen durchführten (insgesamt 135 Bewertungen). Die geschulten Prüfer waren (ärztliche) Mitarbeiter der Abteilung Allgemeinmedizin und für die Beurteilung der kommunikativen Fertigkeiten an den drei Anamnesestationen Lehrende der Abteilung Medizinische Psychologie.

2.2. Vergleich mit summativen OSCEs

Zum Vergleich der Gütekriterien des OSCEs Allgemeinmedizin wurden sechs OSCEs der Fächer Chirurgie und Innere Medizin der Wintersemester 2017/2018 und 2018/2019 und des Sommersemesters 2018 der Medizinischen Fakultät Heidelberg herangezogen. Durch die Einbeziehung mehrerer Vergleichs-OSCEs aus zwei verschiedenen Fächern und Semestern wird sichergestellt, dass bei den Vergleichs-OSCEs eine Abschätzung der Variabilität ihrer Kennwerte (z. B. Anteil von Prüfereinflüssen) vorgenommen werden kann.

Die OSCEs der Inneren Medizin umfassten jeweils 10, die der Chirurgie 13 Stationen. An allen Stationen dieser OSCEs konnten maximal 25 Punkte erreicht werden (siehe Tabelle 2 [Tab. 2]). Diese OSCEs wurden jeweils an zwei bis drei Tagen in jeweils zwei zeitlich parallelen Parcours durchgeführt. Die Stationen wurden teilweise in den verschiedenen Parcours gewechselt. Die beiden Fächer Innere Medizin und Chirurgie wurden gewählt, da bei diesen

1.
an denselben Stationen unterschiedliche Prüfer und
2.
die Prüfer i. A. an verschiedenen Stationen eingesetzt wurden.

Dies ermöglicht bei der Auswertung eine Abschätzung von Prüfer-, Stations- und dem Interaktionseffekt Station x Station.

2.3. Statistische Analyse

Für die Stationen aller genannten OSCEs wurden Schwierigkeiten P und korrigierte Trennschärfen rit (Korrelationen der an einer Station erreichten Punktzahl mit den an allen anderen Stationen erreichten Punkten) sowie die gemittelten Interkorrelationen mit allen anderen Stationen rij (Average inter-item correlation) bestimmt. Als Korrelationsmaß wurde durchweg die Produkt-Moment-Korrelation (nach Pearson) verwandt.

Um eine Gleichwertigkeit der Stationen zu erzielen, wurden für alle dargestellten Analysen die an den Anamnesestationen, an denen 30 Punkte zu erreichen waren, erzielten Punktwerte auf den Bereich von 0-25 Punkten reskaliert.

Zur Beurteilung der Messzuverlässigkeit wurde eine Analyse der Daten mittels der Generalisierbarkeitstheorie [24] durchgeführt. Die betrachteten Facetten waren „Studierende“, „Stationen“, „Prüfer“ und die Interaktion „Station x Prüfer“. Aus den durch die Anwendung der Generalisierbarkeitstheorie gefundenen Varianzkomponenten lassen sich die „Generalizability“ 2 (als Analogon zur internen Konsistenz/Cronbachs α) und die „Dependability“ Φ als Maß der absoluten Messgenauigkeit bestimmen:

Bezeichne n die Zahl der Stationen, so ist

Zur Analyse der Übereinstimmung der Bewertungen der studentischen Prüfer und der Supervisoren wurden je Station die vergebenen Punktzahlen verglichen (Wilcoxon-Vorzeichen-Rang-Tests) und die Korrelationen bestimmt. Weiterhin erfolgte eine Varianzanalyse des Gesamtdatensatzes (Prüfer und Supervisoren) mit dem festen Faktor „Studentischer Prüfer/Supervisor“ und den Facetten „Studierende“, „Stationen“, „studentische Prüfer“, „Supervisor“ sowie der Interaktion „Station x Prüfer“.

Anmerkung: Bei der Analyse mittels der Generalisierbarkeitstheorie muss unterschieden werden zwischen sog. festen und Zufallsfaktoren („fixed“ bzw. „random factors“). Wird die Facette „Student“ als Zufallsfaktor betrachtet, so intendiert man eine Verallgemeinerbarkeit auf äquivalente Studentengruppen (also im selben Semester, gleiche demographische Zusammensetzung, gleichwertige Lehre etc.). Die in der untersuchten Prüfung betrachtete Studierendengruppe ist demzufolge als Stichprobe aus einer Population aufzufassen. Ähnliches gilt für die Facette „Station“: Als Zufallsfaktor steht die Verallgemeinerbarkeit auf äquivalent konstruierte Stationen im Zentrum, bei der Facette „Prüfer“ die Einbeziehung von Prüfern aus einer potentiellen Gruppe von Prüfern. Bei der Modellierung von Station oder Prüfer als fester Faktor zielt man hingegen auf die in der Prüfung tatsächlich eingesetzten Stationen bzw. Prüfer ab: Sind einzelnen Stationen besonders leicht oder schwer, sind Prüfer zu streng oder zu nachsichtig? Da in der vorliegenden Studie die Verallgemeinerbarkeit im Fokus steht, werden nur die Ergebnisse für die Analysen mit „Student“, „Station“ und „Prüfer“ als Zufallsfaktoren dargestellt.

Die statistischen Analysen wurden mit R Version 3.5.1 durchgeführt. Für die Mixed-Model-Analysen zur Auswertung mit dem Modell der Generalisierbarkeitstheorie wurden die Pakete „lme4“ und „lmerTest“ verwendet.


3. Ergebnisse

3.1. Kennwerte der Prüfung
3.1.1. Schwierigkeiten und Trennschärfe der Stationen

Die Basiskennwerte (mittlere erreichte Punktzahl x, Schwierigkeit P und korrigierte Trennschärfe rit) der an den Stationen erzielten Punktwerte sind in Tabelle 3 [Tab. 3] aufgeführt. Abbildung 1 [Abb. 1] enthält eine grafische Darstellung der Verteilungen als Boxplot.

Die Schwierigkeiten an den einzelnen Stationen reichen von P=0.794 bei der Station „Anamnese Bauch“ bis P=0.959 an der Station „KU Blutdruck“. Im Mittel wurden 87.632 von maximal 100 Punkten erreicht. Man beachte, dass im Unterschied zu dichotomen Items, bei denen nur 0 oder 1 Punkt erreicht werden kann, bei feiner granulierten Bewertungen (hier 0-25 Punkte) Trennschärfen u. U. auch dann interpretiert werden können, wenn die Schwierigkeiten numerisch hoch sind.

Elf der 15 Stationen weisen Part-whole-korrigierte Trennschärfen von über 0.300 auf, zwei Stationen liegen mit Trennschärfen von 0.276 und 0.296 knapp unter dieser Grenze („KU Blutdruck“ bzw. „KU Neurologie“). Deutlich niedriger sind die der Stationen „KU Leber“ mit rit=0.112 und „Pulsstatus“ mit rit=0.099.

Vergleich mit summativen OSCEs

Abbildung 2 [Abb. 2] zeigt die Verteilung der an den Stationen erreichten Punktzahlen des OSCEs Allgemeinmedizin im Vergleich zu den summativen OSCEs der Inneren Medizin und der Chirurgie der vergangenen drei Semester (siehe auch Tabelle 4 [Tab. 4]).

Im Vergleich zu den betrachteten OSCEs der Inneren Medizin und der Chirurgie waren die Stationen des OSCE Allgemeinmedizin annähernd gleich schwer (P=0.882 gegenüber P=0.876).

Die korrigierten Trennschärfen waren im Mittel etwas geringer als bei den Vergleichs-OSCEs, lediglich der OSCE Innere Medizin SS 2018 wies hier niedrigere Werte auf (rit=0.358 gegenüber 0.386, siehe Tabelle 4 [Tab. 4] und Abbildung 3 [Abb. 3]). Bei diesem Vergleich ist jedoch zu berücksichtigen, dass beim OSCE Allgemeinmedizin die für die korrigierte Trennschärfe verwendete Punktsumme der anderen Stationen nur aus drei Stationen bestimmt wird, im Gegensatz zur Inneren Medizin und der Chirurgie mit neun bzw. zwölf Stationen. Damit ist diese Summe beim OSCE Allgemeinmedizin mit mehr Fehlervarianz behaftet. Eine bessere Vergleichsmöglichkeit bietet hier das Mittel aus allen Korrelationen der Punktsumme aus einer Station mit allen anderen Stationen rij („averaged inter-item correlation“). Hier zeigt sich, dass jeweils drei der Vergleichs-OSCEs niedrigere und höhere Werte aufweisen (siehe Tabelle 4 [Tab. 4] und Abbildung 4 [Abb. 4]).

3.1.2. Messzuverlässigkeit

Zur Analyse der Messzuverlässigkeit wurden Verfahren der Generalisierbarkeitstheorie eingesetzt. Analysiert wurde ein Modell mit den Facetten „Studierender“, „Station“, „Prüfer“ und der Interaktion „Station x Prüfer“.

In Tabelle 5 [Tab. 5] sind die geschätzten Varianzkomponenten der Facetten aufgeführt.

Nahezu 53% der Varianz können durch die Effekte des Modells erklärt werden, wobei 22% auf die Unterschiede zwischen den Studierenden hinsichtlich ihrer Leistungen zurückgeführt werden können. Auf die Variabilität der Stationen entfallen 21%, die zusammengefassten Prüfereinflüsse betragen etwa 10%. Dabei ist der Interaktionseffekt Station x Prüfer nicht als signifikant von 0 verschieden nachweisbar.

Die zu erwartende Korrelation der beim OSCE erreichten Punktwerte mit einem äquivalenten OSCE beträgt 2=0.647. In diesen Werte gehen die Effekte von Station und Prüfer nicht mit ein, da bei einem äquivalenten Parcours alle Studierenden die gleichen Stationen mit den gleichen Prüfern durchlaufen, ihre erreichte Punktsumme daher durch diese Facetten nur durch einen für alle konstanten Wert verändert sind, der bei einer Korrelation nicht berücksichtigt wird (2 ist somit ein Maß für die relative Messgenauigkeit). Im Unterschied dazu berücksichtigt die Dependability Φ als Maß für die absolute Messgenauigkeit diese Faktoren, und beträgt für die Prüfung Φ=0.525.

Vergleich mit summativen OSCEs

Abbildung 5 [Abb. 5] zeigt graphisch die prozentualen Anteile der Varianzkomponenten für die OSCEs. Ein Qualitätsvergleich des OSCEs Allgemeinmedizin mit denen der Inneren Medizin und der Chirurgie hinsichtlich der Stationsqualität und des Umfangs der Prüfereinflüsse muss die unterschiedliche Zahl von Stationen berücksichtigen. Bei Normierung auf einem Parcours von zehn Stationen erhält man die in Tabelle 6 [Tab. 6] aufgeführten Werte. Es zeigt sich, dass für 2 drei der sechs Vergleichs-OSCEs niedrigere wie auch höhere Werte aufweisen. Die absolute Genauigkeit ist bei vier Vergleichs-OSCEs höher. Wie aus Abbildung 5 [Abb. 5] zu entnehmen ist, ist dies im Wesentlichen auf die höhere Variabilität der Stationen zurückzuführen.

3.2. Supervision

Bei 135 Bewertungen wurde eine Zweitbewertung durch einen Supervisor (ärztliche Mitarbeiter der Abteilung Allgemeinmedizin und Medizinische Psychologie) vorgenommen, die der Qualitätssicherung des OSCE dient (siehe Tabelle 1 [Tab. 1]). In Tabelle 7 [Tab. 7] sind die Mittelwerte der Bewertungen durch die Prüfer sowie die der Supervisoren für die Stationen mit Doppelbewertungen aufgeführt, zusätzlich ist der Signifikanzwert des Tests auf Unterschied der Bewertungen (Wilcoxon-Vorzeichen-Rang-Test) angegeben. Nur bei einer Station („Anamnese Bauch“) zeigt sich ein statistisch signifikanter Unterschied.

Tabelle 7 [Tab. 7] enthält weiterhin die Korrelationen zwischen Prüfern und Supervisoren an den Stationen, diese lagen zwischen 0.729 und 0.989. Als Beispiele sind die Streudiagramme (Blasendiagramme) der Bewertungen für die Stationen „Anamnese Rücken“ und „KU Neurologie“ in Abbildung 6 [Abb. 6] dargestellt.

Eine Gesamtanalyse auf Basis der Generalisierbarkeitstheorie aller Daten (studentische Prüfer und Supervisoren) mit der Prüfergruppe als fester Faktor und mit getrennten Varianzkomponenten für die beiden Prüfergruppen enthält Tabelle 8 [Tab. 8]. Die Supervisoren vergeben 0.568 Punkte weniger als die studentischen Prüfer, der Effekt ist jedoch nicht signifikant (p=0.152). Die Prüfereffekte haben eine Standardabweichung von 0.700 Punkten (vgl. auch Tabelle 5 [Tab. 5]). Bei den fünf Supervisoren kann keine von Null verschiedene Varianzkomponente nachgewiesen werden (p=0.117), was gleichbedeutend damit ist, dass kein Unterschied hinsichtlich ihrer Strenge nachzuweisen ist.


4. Diskussion

Die Ergebnisse zeigen, dass die Stationen des OSCE Allgemeinmedizin 2018 im Wesentlichen die gleichen Qualitätskriterien erfüllen wie die Stationen, die in den seit Jahren etablierten OSCEs der Fächer Chirurgie und Innere Medizin geprüft werden. Bei zwei der klinischen Untersuchungsstationen ist eine Überprüfung auf Grund niedriger Trennschärfen angeraten. Die Übereinstimmung der Bewertungen der studentischen Prüfer mit denen der Supervisoren kann an allen Stationen als gut bis sehr gut bezeichnet werden, systematische Unterschiede zwischen den Bewertungen der studentischen Prüfer und den Supervisoren sind nicht nachzuweisen. Ein relativer Einfluss der Prüfer ist zwar vorhanden, die Prüfereffekte sind tendenziell sogar niedriger als bei den Vergleichs-OSCEs.

Die auf zehn Stationen normierte Generalisierbarkeit liegt im OSCE Allgemeinmedizin mit 2=0.82 gegenüber den beiden im Review von Khan [21] genannten Arbeiten, in denen eine Analyse mittels der Generalisierbarkeitstheorie erfolgte, in [10] merklich, in [22] marginal höher (2=0.51 für die Checkliste und 2=0.63 für den „global score“ bzw. 2=0.80 für den „total score“).

Sofern man von der Anzahl der Stationen absieht, ist die Messzuverlässigkeit der OSCE-Prüfung Allgemeinmedizin vollständig im Rahmen der summativen Vergleichs-OSCEs der Fächer Chirurgie und Innere Medizin der letzten drei Semester.

Damit ist gezeigt, dass bei entsprechender Vorbereitung

1.
Studierende statt Experten als Prüfer praktischer Fertigkeiten eingesetzt werden können und
2.
die Qualität einer formativen Prüfung mit studentischen Prüfern ähnlich hoch ist wie die etablierter summativer OSCEs mit Experten als Prüfern.

Da die Durchführung praktischer formativer Prüfungen, die den Kenntnisstand für die Studierenden selbst wie auch für Lehrende strukturiert erfassen, an den Fakultäten häufig an der Verfügbarkeit von Prüfern des Lehrkörpers scheitert, können Studierende höherer Fachsemester hier einen vollwertigen Ersatz bieten.

Einzige Schwäche des OSCE Allgemeinmedizin ist die geringe Zahl von vier Stationen, die die Prüfungsteilnehmerinnen und -teilnehmer zu durchlaufen haben. Die Tatsache, dass mit vier Stationen keine Messzuverlässigkeit zu erreichen ist, die den Anforderungen an qualitativ hochwertige Prüfungen genügt, ist jedoch wenig überraschend. Sie steht im Einklang mit der Literatur, in der für OSCEs deutlich höhere Stationszahlen gefordert werden, um als aussagekräftig einzustufende Gesamtbewertungen zu erhalten [25].

Die Analyse anderer formativer Prüfungen, in denen Studierende als Prüfer fungieren, ist natürlich wünschenswert, da aus dem hier vorgestellten Einzelfall keine Verallgemeinerung auf andere Institutionen, Rahmenbedingungen o. ä. möglich ist. Solche Untersuchungen könnten zeigen, welche Voraussetzungen für den Einsatz studentischer Prüfer gegeben sein müssen, um teststatistisch zufriedenstellende und aussagekräftige Leistungsbeurteilungen zu gewinnen. Limitationen: Die stichprobenartigen Zweitbewertungen durch die Supervisoren wurden nicht systematisch durchgeführt, so dass die Vergleiche mit den studentischen Bewertern teils auf sehr geringen Datenzahlen beruhen (siehe Tabelle 7 [Tab. 7]). Ebenfalls verbesserungswürdig ist die Systematik der Zuordnung der beiden klinischen Untersuchungsstationen aus der Menge der elf verfügbaren Stationen zu den Prüfungsteilnehmerinnen und -teilnehmern.


5. Schlussfolgerung

Insgesamt zeigt der OSCE Allgemeinmedizin, dass es möglich ist, mit studentischen Prüfern eine große Zahl an Studierenden zu beurteilen und damit qualitativ hochwertige formative praktische Prüfungen durchzuführen. Die Einbindung von Studierenden in den Prozess der Erstellung formativer Leistungsbeurteilungen stellt damit eine für die medizinischen Fakultäten praktikable Möglichkeit dar, die allseits anerkannten Vorteile von Feedback in der Hochschullehre mit Hilfe strukturierter Leistungserfassungen zu nutzen.


Förderung

Die Arbeit entstand im Rahmen des vom Bundesministerium für Bildung und Forschung geförderten Projekts MERLIN II (01PL17011C).


Interessenkonflikt

Die Autor*innen erklären, dass sie keinen Interessenkonflikt im Zusammenhang mit diesem Artikel haben.


Literatur

1.
Swierszcz J, Stalmach-Przygoda A, Kuzma M, Jablonski K, Cegielny T, Skrzypek A, Wieczorek-Surdacka E, Kruszelnicka O, Chmura K, Chyrchel B, Surdacki A, Nowakowski M. How does preclinical laboratory training impact physical examination skills during the first clinical year? A retrospective analysis of routinely collected objective structured clinical examination scores among the first two matriculating classes of a reformed curriculum in one Polish medical school. BMJ Open. 2017;7(8):e017748. DOI: 10.1136/bmjopen-2017-017748 Externer Link
2.
Khalid H, Shahid S, Punjabi N, Sahdev N. An integrated 2-year clinical skills peer tutoring scheme in a UK-based medical school: perceptions of tutees and peer tutors. Adv Med Educ Pract. 2018;9:423-432. DOI: 10.2147/AMEP.S159502 Externer Link
3.
Bosse HM, Nickel M, Huwendiek S, Schultz JH, Nikendei C. Cost-effectiveness of peer role play and standardized patients in undergraduate communication training. BMC Med Educ. 2015;15:138. DOI: 10.1186/s12909-015-0468-1 Externer Link
4.
Lee CB, Madrazo L, Khan U, Thangarasa T, McConnell M, Khamisa K. A student-initiated objective structured clinical examination as a sustainable cost-effective learning experience. Med Educ Online. 2018;23(1):1440111. DOI: 10.1080/10872981.2018.1440111 Externer Link
5.
Hudson JN, Tonkin AL. Clinical skills education: outcomes of relationships between junior medical students, senior peers and simulated patients. Med Educ. 2008;42(9):901-908. DOI: 10.1111/j.1365-2923.2008.03107.x Externer Link
6.
Young I, Montgomery K, Kearns P, Hayward S, Mellanby E. The benefits of a peer-assisted mock OSCE. Clin Teach. 2014;11(3):214-218. DOI: 10.1111/tct.12112 Externer Link
7.
Nomura O, Onishi H, Kato H. Medical students can teach communication skills - a mixed methods study of crossyear peer tutoring. BMC Med Educ. 2017;17(1):103. DOI: 10.1186/s12909-017-0939-7 Externer Link
8.
Weyrich P, Celebi N, Schrauth M, Möltner A, Lammerding-Köppel M, Nikendei C. Peer-assisted versus faculty staff-led skills laboratory training: a randomised controlled trial. Med Educ. 2009;43(2):113-120. DOI: 10.1111/j.1365-2923.2008.03252.x Externer Link
9.
Chenot JF, Simmenroth-Nayda A, Koch A, Fischer T, Scherer M, Emmert B, Stanske B, Kochen MM, Himmel W. Can student tutors act as examiners in an objective structured clinical examination? Med Educ. 2007;41(11):1032-1038. DOI: 10.1111/j.1365-2923.2007.02895.x Externer Link
10.
Moineau G, Power B, Pion AJ, Wood TJ, Humphrey-Murto S. Comparison of student examiner to faculty examiner scoring and feedback in an OSCE. Med Educ. 2011;45(2):183-191. DOI: 10.1111/j.1365-2923.2010.03800.x Externer Link
11.
Blank WA, Blankenfeld H, Vogelmann R, Linde K, Schneider A. Can near-peer medical students effectively teach a new curriculum in physical examination? BMC Med Educ. 2013;13:165. DOI: 10.1186/1472-6920-13-165 Externer Link
12.
Melcher P, Roth A, Ghanem M, Rotzoll D. Klinisch-praktische Prüfungen in der orthopädischen Lehre: Wer ist der "ideale" Prüfer? Z Orthop Unfall. 2017;155(4):468-475. DOI: 10.1055/s-0043-109022 Externer Link
13.
Melcher P, Zajonz D, Roth A, Heyde C, Ghanem M. Peer-assisted teaching student tutors as examiners in an orthopedic surgery OSCE station - pros and cons. GMS Interdiscip Plast Reconstr Surg DGPW. 2016;5:Doc17. DOI: 10.3205/iprs000096 Externer Link
14.
Ledig T, Eicher C, Szecsenyi J, Engeser P. AaLplus - ein Anamnese- und Untersuchungskurs für den vorklinischen Studienabschnitt. Z Allg Med. 2014;90(2):76-80.
15.
Schwill S, Fahrbach-Veeser J, Moeltner A, Eicher C, Kurczyk S, Pfisterer D, Szecsenyi J, Loukanova S. Peers as OSCE assessors for junior medical students-a review of routine use: a mixed methods study. BMC Med Educ. 2020;20(1):1-12. DOI: 10.1186/s12909-019-1898-y Externer Link
16.
Black P, Wiliam D. Developing the theory of formative assessment. Educ Asse Eval Acc. 2009;21(1):5-31. DOI: 10.1007/s11092-008-9068-5 Externer Link
17.
Dolin J, Black P, Harlen W, Andrée Tiberghien A. Exploring Relations Between Formative and Summative Assessment. In: Dolin J, Evans R, editors. Transforming Assessment: Through an interplay between practice, research and policy. Cham, Switzerland: Springer; 2018. p.53-80. DOI: 10.1007/978-3-319-63248-3_3 Externer Link
18.
O'Shaughnessy SM, Pauline J. Summative and Formative Assessment in Medicine: The Experience of an Anaesthesia Trainee. Internl J High Educ. 2015;4(2):198-206. DOI: 10.5430/ijhe.v4n2p198 Externer Link
19.
Pugh D, Desjardins I, Eva K. How do formative objective structured clinical examinations drive learning? Analysis of residents' perceptions. Med Teach. 2018;40(1):45-52. DOI: 10.1080/0142159X.2017.1388502 Externer Link
20.
Lim YS. Students' Perception of Formative Assessment as an Instructional Tool in Medical Education. Med Sci Educ. 2019;29(1):255-263. DOI: 10.1007/s40670-018-00687-w Externer Link
21.
Khan R, Payne MW, Chahine S. Peer assessment in the objective structured clinical examination: A scoping review. Med Teach. 2017;39(7):745-756. DOI: 10.1080/0142159X.2017.1309375 Externer Link
22.
Basehore PM, Pomerantz SC, Gentile M. Reliability and benefits of medical student peers in rating complex clinical skills. Med Teach. 2014;36(5):409-414. DOI: 10.3109/0142159X.2014.889287 Externer Link
23.
Hochlehnert A, Schultz JH, Möltner A, Timbil S, Brass K, Jünger J. Elektronische Erfassung von Prüfungsleistungen bei OSCE-Prüfungen mit Tablets. GMS Z Med Ausbild. 2015;32(4):Doc41. DOI: 10.3205/zma000983 Externer Link
24.
Brennan RL. Generalizability Theory. New York NY: Springer; 2001. DOI: 10.1007/978-1-4757-3456-0 Externer Link
25.
Epstein RM. Assessment in Medical Education. N Engl J Med. 2007;356(4):387-396. DOI: 10.1056/NEJMra054784 Externer Link