gms | German Medical Science

GMS Journal for Medical Education

Gesellschaft für Medizinische Ausbildung (GMA)

ISSN 2366-5017

Einfluss einer Prüferschulung auf die Genauigkeit der Bewertung einer Untersuchungskursprüfung

Forschungsarbeit Humanmedizin

  • corresponding author Gunther Weitz - Universitätsklinikum Schleswig-Holstein, Campus Lübeck, Medizinische Klinik I, Lübeck, Deutschland
  • author Christian Vinzentius - Institut für Qualitätsentwicklung an Schulen Schleswig-Holstein, Kronshagen, Deutschland
  • author Christoph Twesten - Universitätsklinikum Schleswig-Holstein, Campus Lübeck, Medizinische Klinik I, Lübeck, Deutschland
  • author Hendrik Lehnert - Universitätsklinikum Schleswig-Holstein, Campus Lübeck, Medizinische Klinik I, Lübeck, Deutschland
  • author Hendrik Bonnemeier - Universitätsklinikum Schlesweig-Holstein, Campus Kiel, Medizinische Klinik III, Kiel, Deutschland
  • author Inke R. König - Universität zu Lübeck, Institut für Medizinische Biometrie und Statistik, Lübeck, Deutschland

GMS Z Med Ausbild 2014;31(4):Doc41

doi: 10.3205/zma000933, urn:nbn:de:0183-zma0009338

Dieses ist die deutsche Version des Artikels.
Die englische Version finden Sie unter: http://www.egms.de/en/journals/zma/2014-31/zma000933.shtml

Eingereicht: 8. Januar 2014
Überarbeitet: 24. März 2014
Angenommen: 20. August 2014
Veröffentlicht: 17. November 2014

© 2014 Weitz et al.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielfältigt, verbreitet und öffentlich zugänglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Zusammenfassung

Hintergrund: Die Genauigkeit und Reproduzierbarkeit von Prüferurteilen im Medizinstudium ist gering. Eine Schulung von Prüfern hat keinen oder allenfalls minimalen Effekt. Die dazu verfügbaren Studien beziehen sich jedoch auf die Beurteilung von Arzt-Patienten-Interaktionen in eigens dafür angefertigten Videos. Wir untersuchten, ob eine Schulung, die sich auf den Bezugsrahmen des Prüfers bezieht, die Prüfergenauigkeit bei curricularen Untersuchungskurstestaten verbessert.

Methoden: 21 Prüfer testierten 242 Studierende im dritten Studienjahr. Elf der Prüfer wurden randomisiert ausgewählt, an einer kurzen Prüferschulung teilzunehmen, die wenige Tage vor dem Testat stattfand. 218 Testate konnten auf Video festgehalten werden und wurden später unabhängig von drei Nachprüfern bewertet. Genauigkeit definierten wir als die Konkordanz zwischen der Benotung des eigentlichen Prüfers und dem Median der Benotung der Nachprüfer. Im Anschluss an das Testat füllten sowohl Prüflinge als auch Prüfer einen Fragebogen zum Testat aus.

Ergebnisse: Die Prüferschulung hatte keinen messbaren Einfluss auf die Genauigkeit der Bewertung. Die geschulten Prüfer waren aber strenger als die ungeschulten und ihr Notenspektrum lag eher in dem Bereich des Spektrums der Nachprüfer. Außerdem waren die geschulten Prüfer sich des Halo-Effektes stärker bewusst. Obwohl die Selbsteinschätzung der Studierenden in beiden Gruppen nahe bei der Prüfernote lag, waren die Studierenden, die von geschulten Prüfern testiert wurden, häufiger mit ihrer Note unzufrieden.

Diskussion: Trotz einiger marginaler Effekte hatte die Prüferschulung keinen Effekt auf die Genauigkeit der Bewertung. Diese Beobachtung bei echten Testaten stimmt mit den Ergebnissen von Studien mit Videobewertungen überein. Auch die starke Standardisierung der Aufgabe im Testat half nicht, das Prüferurteil zu harmonisieren. Unsere Studie bestätigt, dass die Bewertung ärztlicher Tätigkeiten individuell sehr unterschiedlich ist. Eine Schulung, die wie in unserem Versuch auf den Bezugsrahmen des Urteils abzielt, ist nicht in der Lage, die ärztliche Bewertung von Testatleistungen zu vereinheitlichen.

Schlüsselwörter: Prüferschulung, Prüfergenauigkeit, Testat, körperliche Untersuchung, randomisierte kontrollierte Studie


Einleitung

Die körperliche Untersuchung ist eine Kernkompetenz im klinischen Alltag. Eine wesentliche Aufgabe der ärztlichen Ausbildung muss es daher sein, die Beherrschung von körperlichen Untersuchungstechniken sicher zu vermitteln. Kürzlich publizierte Studien machen allerdings auf wachsende Defizite auf diesem Gebiet bei Absolventen des Medizinstudiums aufmerksam [1], [2]. Zu dieser Entwicklung tragen der Mangel an geeigneten Patienten, geeigneten Dozenten und Unterrichtszeit am Patientenbett bei [3], [4]. Außerdem führt die zunehmende Spezialisierung in der Medizin zu Apparategläubigkeit und Betriebsblindheit [4], [5]. Das Vermitteln und Prüfen von Fertigkeiten der körperlichen Untersuchung dürfte daher mehr und mehr zur Herausforderung im Medizinstudium werden.

In den letzten Jahrzehnten wurden zahlreiche Anstrengungen unternommen, die Qualität der Vermittlung von Fertigkeiten der körperlichen Untersuchung zu verbessern. Dazu gehören die Einführung von Schauspielerpatienten und Patienteninstruktoren [6], [7], die Anwendung von Checklisten und Bewertungsbögen [8], das Implementieren von OSCEs [9] und die systematische Beobachtung von Arzt-Patienten-Interaktionen [10]. Nicht immer hatten diese Maßnahmen den gewünschten Effekt. So gaben in einer Studie aus Taiwan 22% der Studierenden im letzten Studienjahr an, niemals bei einer körperlichen Untersuchung supervidiert worden zu sein (36% nicht von Lehrpersonal) und 10% fühlten sich bei der Prozedur noch unsicher [11].

An unserer Fakultät muss jeder Student im dritten Studienjahr eine körperliche Untersuchung von Kopf bis Fuß im Rahmen eines Untersuchungskurstestates vorführen. Dieses Testat findet unmittelbar im Anschluss an ein fünfwöchiges Tutorium statt. In den Evaluationen wird allerdings vielfach eine mangelnde Fairness bei der Benotung beklagt. In der Tat sind Reliabilität und Genauigkeit der Bewertung durch Lehrpersonal gering [12]. Die Strukturierung der Bewertung mittels Bewertungsbögen kann zwar die Genauigkeit der Beobachtungen verbessern, hat aber keinen Einfluss auf die Übereinstimmung von Gesamtbeurteilungen [13]. Das dürfte daran liegen, dass die Strategien der Prüfer, Informationen zu integrieren, eher individuell geprägt sind und dass sich der Bezugsrahmen der Prüfer stark unterscheidet [14], [15]. Studien aus der Personalpsychologie zeigen, dass Schulungen, die sich auf diesen Bezugsrahmen beziehen, durchaus die Genauigkeit von Personalbeurteilungen verbessern können [16], [17]. Ziel eines solchen Trainings ist es, Prüfern eine gemeinsame Konzeptualisierung der zu beurteilenden Aufgabe zu vermitteln. Dabei sollen sich verlässlichere Bewertungsschemata entwickeln [18]. Diese Art der Prüferschulung wollten wir daher auf unser Setting übertragen.

Erstaunlicherweise gibt es kaum Studien zum Thema Prüferschulung in der medizinischen Ausbildung und die Ergebnisse sind eher enttäuschend. In einer kleinen Studie untersuchten Newble und Mitarbeiter den Einfluss einer Prüferschulung auf die Bewertung von fünf gefilmten Untersuchungstechniken [19]. Die Prüfer erhielten entweder keine Intervention, ein Feedback über die Prüferleistung in der zweiten Gruppe oder zusätzlich eine Prüferschulung mit Diskussion eines weiteren Videos in der dritten Gruppe. Als die fünf Filme zwei Monate später erneut bewertet wurden, gab es keine messbaren Unterschiede im Prüferurteil der drei Gruppen. Holmboe und Mitarbeiter untersuchten die Effekte einer intensiven multidimensionalen Prüferschulung auf die Bewertungen von gefilmten Arzt-Patienten-Interaktionen acht Monate nach der Schulung [20]. Die geschulten Prüfer waren strenger und nutzten bei einigen Bewertungen eine kleinere Notenskala. Des Weiteren untersuchten Cook und Mitarbeiter die Effekte einer ähnlichen, aber kürzeren Schulung auf die Interrater-Reliabilität und die Genauigkeit von Mini-CEX-Bewertungen in einem Weiterbildungsprogramm [21]. Die Schulung hatte keinen Einfluss auf diese Parameter.

Wir wollten nun untersuchen, ob eine Prüferschulung die Genauigkeit der Bewertungen in unserem Untersuchungskurstestat verbessern könnte. Unser Setting unterscheidet sich in mehrfacher Hinsicht von dem der zitierten Studien: Zum einen fokussiert unser Testat auf eine klar umrissene Fertigkeit statt auf die Bewertung einer allgemeinen Arzt-Patienten-Interaktion. Zum zweiten haben wir die Aufgabe für alle Beteiligten genau definiert und Prüflinge wie Prüfer waren mit diesem Standard vertraut. Zum dritten geht es in der vorliegenden Studie um echte Prüfungssituationen statt um die Bewertung gestellter Filmszenen. Das bedeutet, dass die Bewertungen relevant waren und der Prüfer die Note den Prüflingen auch mitteilen musste. Um die tatsächliche Leistung der Studierenden abschätzen zu können, haben wir die Videoaufnahme jeder einzelnen Prüfung drei Nachprüfern zur Bewertung vorgelegt. Die Überlegung war, dass die Bewertungen der trainierten Prüfer näher an der Einschätzung der Nachprüfer liegen würden und demnach genauer wären. Zudem wollten wir die Effekte der Prüferschulung auf Strenge der Prüfer und die Ausnutzung der Notenskala untersuchen.


Methoden

Curriculärer Zusammenhang

Das Untersuchungskurstestat ist der Abschluss eines Untersuchungskurstutoriums am Beginn des dritten Studienjahres. Ziel des Tutoriums ist es, den Studenten die Grundlagen der allgemeinen körperlichen Untersuchung zu vermitteln. Nach dem Tutorium geht der Untersuchungskurs mit Unterricht am Krankenbett weiter, wo die Studierenden die erlernten Fertigkeiten praktisch anwenden. Aufgabe im Testat ist, eine standardisierte Untersuchung von Kopf bis Fuß vorzuführen. Die Untersuchung umfasst die Inspektion von Kopf und Mundhöhle, die Inspektion und Palpation vom Hals, die komplette Untersuchung von Thorax und Abdomen, die korrekte Messung des Blutdrucks an einem Arm, die Erhebung des Pulsstatus, sowie die Inspektion der Extremitäten. Ein Anleitungsvideo ist für alle Studierenden auf unserer Homepage frei zugänglich. Weitere Untersuchungstechniken wie die genitorektale Untersuchung, die neurologische Untersuchung und die Untersuchung des Bewegungsapparates werden in anderen Teilen des Kurses vermittelt.

Das Tutorium findet in den ersten fünf Wochen des Wintersemesters statt. Es besteht aus fünf Abschnitten mit jeweils zwei Vorlesungsstunden und jeweils anderthalbstündigem Kleingruppenunterricht, in dem sechs Studierende sich unter Anleitung eines erfahrenen Internisten gegenseitig untersuchen. Das Testat findet in der sechsten Semesterwoche statt. Aufgabe ist es, die standardisierte Untersuchung in einem Zeitlimit von zehn Minuten an einem Schauspielerpatienten vorzuführen. Die Prüfer sind Ärzte der Medizinischen Kliniken. Sie beobachten den Untersuchungsgang, geben Feedback und bewerten die Leistung mit einer Schulnote (siehe Tabelle 1 [Tab. 1] ). Sie greifen weder in die Untersuchung ein, noch stellen sie Theoriefragen. Jeder Prüfer prüft sechs Studierende in einem Zeitrahmen von 15 Minuten pro Prüfling an jeweils zwei Tagen. Die Schauspielerpatienten sind gesunde Studierende. Sie sollen passiv agieren und nur eindeutigen Anweisungen folgen.

Für diese Studie wählten wir 21 Ärzte aus, die 242 Testate abnehmen sollten. Alle 21 Prüfer waren mit den Lernzielen des Tutoriums, dem Anleitungsvideos und den Feedback-Regeln vertraut. Elf der 21 Personen wurden randomisiert der Prüferschulung zugeordnet. Für die Randomisierung wurden die Prüfer nummeriert und mittels Zufallszahlengenerator einer einschlägigen Internetseite den beiden Gruppen zugeteilt. Zur Bestimmung der Prüfergenauigkeit wurden alle Testate auf Video aufgenommen. Dazu gaben sowohl alle Prüfer als auch alle Studierenden vor der Studie ihr schriftliches Einverständnis. Die Studie war der Ethikkommission zur Begutachtung vorgelegt worden und es gab keine Einwände. Das Protokoll befindet sich im Einklang mit der Helsinki-Deklaration und die Anonymität aller Teilnehmer wurde gewahrt.

Intervention

Die elf Prüfer, die für die Schulung ausgewählt waren, wurden in zwei Gruppen (zu 6 und 5) aufgeteilt um eine kleinere Gruppengröße zu erreichen. Die Schulung fand am Ende der fünften Semesterwoche kurz vor den Testaten statt (Schulung Donnerstag- und Freitagnachmittag, Testate Montag- und Dienstagnachmittag). Für die Schulung wurden 90 Minuten angesetzt. In einer kurzen Begrüßung erläuterte der Moderator (Autor GW) Ziele und Standards der Testate und die Bewertungsdimensionen (siehe Tabelle 2 [Tab. 2]). Im Anschluss wurden vier Beispielvideos gezeigt, in denen Studierende des vierten Studienjahres die standardisierte Untersuchung in unterschiedlicher Qualität an Schauspielerpatienten durchführten. Die Reihenfolge der Videos war in beiden Schulungsgruppen gleich. Nach jeder Präsentation wurden die Prüfer gebeten, anhand einer Checkliste mit den sieben Dimensionen (siehe Tabelle 2 [Tab. 2]) die jeweilige Leistung einer Schulnote (siehe Tabelle 1 [Tab. 1]) zuzuordnen. Die Prüfer lasen dann ihre Bewertung vor und die Prüfer mit der höchsten und der niedrigsten Schulnote wurden für die jeweilige Dimension gebeten, ihre Bewertung zu rechtfertigen. Die daraufhin entstehende Diskussion wurde vom Erstautor moderiert. Nachdem alle Dimensionen diskutiert waren, erläuterte der Moderator die im Video eingebauten Fehler.

Testate

Da die nicht geschulten Prüfer mit der Checkliste nicht vertraut waren, wurden alle Prüfer gebeten, im Testat lediglich eine Gesamtnote zu vergeben (siehe Tabelle 1 [Tab. 1]). Die feinteilige Bewertung in der Schulung wurde fürs Testat also wieder verlassen. Nach dem Testat wurden alle Studierenden gebeten, einen Fragebogen zu ihren Ansichten über das Testat auszufüllen und sich selbst eine Note für die Testatleistung zu geben. Außerdem wurden die Prüfer gebeten, ihre bisherige Erfahrung als Prüfer offenzulegen und zur Idee der Prüferschulung und ihrer eigenen Leistung im Testat Stellung zu nehmen (siehe Abbildung 1 [Abb. 1]). Die geschulten Prüfer wurden zudem gebeten, ihre Zufriedenheit mit der Schulung auf einer Skala von eins bis fünf wiederzugeben. Die Videos der Testate wurden eingesammelt, geschnitten und hinsichtlich der Allokation (geschulte/ungeschulte Prüfer) anonymisiert.

Bewertung der Videos durch Nachprüfer

Alle Videos der Testate wurden durch drei Nachprüfer (ein Dozent, zwei Studierende im fünften Studienjahr) reevaluiert, die als Gruppe ebenfalls die oben beschriebene Prüferschulung erhalten hatten (moderiert durch Autor CV). Dabei wurde zunächst eine Gesamtnote vergeben, um dann wie im Training die einzelnen Dimensionen zu bewerten, wiederum gefolgt von einer Gesamtnote. Die Bewertung der Nachprüfer erfolgte unabhängig voneinander und bezüglich der Randomisierung verblindet. Der Median der drei Nachprüfernoten wurde als endgültige Note der Nachprüfer definiert.

Statistik

Alle Noten werden als Median mit 1. und 3. Quartile angegeben. Aus Gründen der Veranschaulichung werden in den Grafiken abweichend Mittelwert und Standardfehler bzw. Standardabweichung verwendet. Die Bandbreite der verwendeten Notenskala wird als mittlere Standardabweichung pro Prüfer (ihrerseits mit Standardabweichung) angegeben. Für jedes Paar an Nachprüfern und für alle drei Nachprüfer zusammen wurde Kendalls Konkordanzkoeffizient berechnet. Zielvariable war die Differenz zwischen der Note der Prüfer und der Note der Nachprüfer als Absolutwert. Einflussvariable war das Training, Beobachtungseinheit waren die Prüflinge, wobei in dem Modell berücksichtigt wurde, dass mehrere Prüflinge vom selben Prüfer geprüft wurden. Das Modell wurde mittels verallgemeinerter Schätzgleichungen mit austauschbaren Korrelationsstrukturen ausgewertet. Angegeben werden die Schätzwerte β mit Standardabweichungen. Analog wurde der Effekt von Prüfererfahrung auf die Genauigkeit und der Effekt von Training auf die Bewertung mittels verallgemeinerter Schätzgleichungen untersucht.

Bezüglich der Selbsteinschätzung der Prüflinge wurden zwei Parameter zwischen den beiden Gruppen von Prüflingen mit geschulten und ungeschulten Prüfern mittels Mann-Whitney U-Test verglichen: die selbst gegebene Note an sich und die absolute Abweichung zwischen selbst gegebener Note und der Note der Prüfer. Darüber hinaus wurde die Konkordanz zwischen der Prüfernote und der selbst gegebenen Note mittels Kendalls Koeffizient abgeschätzt. Zur Kontrolle des multiplen Testens legten wir folgende Testhierarchie fest: Zunächst testeten wir die Konkordanz zwischen den drei Nachprüfern mit einem Signifikanzniveau von 5%. Nur bei Signifikanz sollte getestet werden, ob die Prüferschulung einen Effekt auf die Genauigkeit hat, wiederum mit einem Signifikanzniveau von 5%. Alle anderen Tests sind rein deskriptiv. Die Auswertungen erfolgten mittels SPSS und R Version 2.15.0 [http://www.R-project.org].


Ergebnisse

Stichprobe

Alle 21 Prüfer vollendeten die Studie. Die Charakteristika der geschulten und ungeschulten Prüfer sind in Tabelle 3 [Tab. 3] wiedergegeben. Die zufällig ausgewählten Prüfer der geschulten Gruppe waren älter sowie häufiger männlich, höhergestellt und prüfungserfahren. Von den 247 Studierenden, die zum Testat angemeldet waren, absolvierten 242 (98%) das Testat und 218 Testate (90%) wurden erfolgreich auf Video dokumentiert. 208 Prüflinge der letzten Gruppe (95%) beantworteten den Fragebogen. Der Median von Prüflingen pro Prüfer war 11 in beiden Gruppen (4-12 Prüflinge in der ungeschulten bzw. 5-12 in der geschulten Gruppe).

Noten der Nachprüfer und ihre Konkordanz

Um die Genauigkeit der Bewertungen abzuschätzen, wurde der Median der Gesamtnoten der drei Nachprüfer als Vergleich herangezogen. Die Differenz zwischen diesem Median und der Prüfernote definierte die Genauigkeit (bzw. Ungenauigkeit). Um die Zulässigkeit dieses Vorgehens zu determinieren, errechneten wir den Konkordanzkoeffizienten zwischen den drei Nachprüfern. Dieser betrug 0,70 (P=5,84x10-19). Die Konkordanz war höher zwischen den studentischen Nachprüfern (0,90; P=6,58x10-12) als zwischen dem Dozenten und den Studenten (0,70; P=1,26x10-4 bzw. 0,73; P=1,01x10-5). 71 bzw. 75% der studentischen Noten entsprachen dem Median, während das nur in 30% beim Dozenten der Fall war. Der Median der Gesamtnote [1.;3. Quartile] der Nachprüfer war 2 [1-;2-]. Im Vergleich der Bewertungen der Nachprüfer war der Median des Dozenten (2- [2+;3]) strenger als derjenige der Studenten (beide 2 [1-;2-]). Die Gesamtnote nach Bewertung aller sieben Dimensionen (siehe Tabelle 2 [Tab. 2]) war praktisch identisch mit der primär gegebenen Gesamtnote und wurde nicht weiter verfolgt.

Effekt der Prüferschulung auf Benotung und Genauigkeit, Effekt der Prüferfahrung auf Genauigkeit

Der Median der Gesamtnote [1.;3. Quartile] der geschulten Prüfer war 2 [1-;2-], die der ungeschulten Prüfer 2+ [1;2]. In Abbildung 2 [Abb. 2] sind die mittleren Gesamtnoten der Prüfer (±Standardfehler) gegen die korrespondierenden Gesamtnoten der Nachprüfer aufgetragen. Im Modell der verallgemeinerten Schätzgleichungen waren die geschulten Prüfer strenger als die ungeschulten (β=-0,94 ±0,36; P=0,01).

Es gab keinen erkennbaren Effekt der Schulung auf die Genauigkeit (β=-0,09 ±0,20; P=0,64). Der Faktor "Prüferfahrung" hatte ebenfalls keinen Einfluss auf die Genauigkeit der Benotung (β=-0,12 ±0,17; P=0,48).

Selbsteinschätzung der Prüflinge

Analog zu den Benotungen der Prüfer schätzten sich die Prüflinge, die von geschulten Prüfern testiert worden waren, strenger ein als die Prüflinge, deren Prüfer nicht geschult waren (2 [2+;2] bzw. 2+ [1-;2]; P=0,01 nach Mann-Whitney U-Test). Die Konkordanz zwischen den Prüfernoten und der Selbsteinschätzung war in beiden Gruppe hoch (Kendalls Koeffizient 0,83 bzw. 0,80 in der Gruppe mit geschulten bzw. ungeschulten Prüfern; P=1,29x10-5 bzw. P=1,25x10-4). Allerdings waren die Prüflinge, die von geschulten Prüfern testiert worden waren, bezüglich ihrer Note eher unzufrieden und fanden die Benotung häufiger nicht adäquat (P=5,74x10-3 nach Mann-Whitney U-Test).

Die Bandbreite der verwendeten Notenskala unterschied sich nicht zwischen geschulten und ungeschulten Prüfern. Die mittleren Standardabweichungen der gegebenen Noten waren 0,56 ±0,18 in der Gruppe der geschulten und 0,61 ±0,15 in der Gruppe der ungeschulten Prüfer. Die entsprechenden Standardabweichungen der Mediane der Nachbeobachter waren 0,67 ±0,26 bzw. 0,66 ±0,19, die der studentischen Selbsteinschätzungen 0,49 ±0,21 bzw. 0,50 ±0,10.

Die erfragten Meinungen der Prüfer zur Prüferschulung und ihre Sicht auf die eigenen Leistungen sind in Abbildung 1 [Abb. 1] wiedergegeben. Von den elf geschulten Prüfern gaben zehn an, sich bei der Benotung sicherer gefühlt zu haben. Der elfte Prüfer äußerte sich in dieser Hinsicht neutral.


Diskussion

Die vorliegende Studie konnte keinen Effekt einer Prüferschulung auf die Genauigkeit der Bewertung belegen. Geschulte Prüfer waren strenger als ungeschulte, haben aber die Bandbreite der Notenskala nicht besser genutzt. Diese Ergebnisse spiegeln im Wesentlichen die Ergebnisse anderer Studien zu Prüferschulungen im medizinischen Kontext wider. In der Studie von Newble und Mitarbeitern [19] mussten die Prüfer Bewertungsbögen ausfüllen und die Bewertungsqualität wurde anhand der Übereinstimmung bemessen, mit der die Prüfer fünf gefilmte Situationen bewerteten. Wie in unserer Studie fokussierten die Autoren auf körperliche Untersuchungstechniken. Trotz der hohen Spezifität der Aufgabe war die Übereinstimmung allenfalls schwach bis akzeptabel und veränderte sich nach der Schulung nicht. Die geringsten Übereinstimmungen ergaben sich in den Merkmalen "allgemeiner Zugang zum Patienten" und "allgemeine Beobachtung". Dies könnte darauf hindeuten, dass allgemeine Kategorien (wie in unserer Studie) schwieriger einheitlich zu bewerten sind als konkretere.

Holmboe und Mitarbeiter untersuchten die Effekte eines viertägigen hochschuldidaktischen Kurses auf die Bewertung von neun Filmszenen einer Arzt-Patienten-Interaktion mittels Mini-CEX-Bewertungsbogen [20]. Die geschulten Prüfer fühlten sich in einer späteren Umfrage wesentlich sicherer mit ihrer Einschätzung von tatsächlichen Arzt-Patienten-Interaktionen. Nach acht Monaten wurden die Teilnehmer erneut beurteilt. Die geschulten Prüfer benoteten dabei wesentlich strenger unter geringerer Ausnutzung der Notenskala. Die Genauigkeit wurde als Fähigkeit definiert, zwischen drei verschiedenen Kompetenzstufen der gezeigten Filmszenen zu unterscheiden. Die Differenzierung war gleichermaßen gut bei geschulten wie ungeschulten Prüfern vor und nach dem Training. Obwohl sich dieser Ansatz grundsätzlich von unserem unterscheidet, spiegeln die größere Strenge der geschulten Prüfer und das Ausbleiben eines Effekts der Schulung auf die Genauigkeit in dieser Studie unsere Ergebnisse weitgehend wider.

Die Effekte einer Prüferschulung auf die Genauigkeit der Bewertung wurden noch spezifischer von Cook und Mitarbeitern untersucht [21]. 18 der 32 in Prä- und Posttest verwendeten Videos beinhalteten dieselben gestellten Szenen, die schon Holmboe und Mitarbeiter verwendet hatten. Die Zeitspanne zwischen Schulung und Nachuntersuchung betrug in dieser Studie einen Monat. Genauigkeit war definiert als Unterscheidung der Gesamtnoten zwischen den im Video dargestellten Kompetenzstufen, als Häufigkeit der Übereinstimmung der Note mit dem intendierten Ergebnis, und (wegen unterschiedlicher Meinungen über die tatsächlich dargestellten Kompetenzstufen) als zufallskorrigierte Übereinstimmung mittels Intraklassen-Korrelationskoeffizienten. Die Prüferschulung hatte auf keinen dieser Parameter einen Einfluss. Interessanterweise war die Interrater-Reliabilität für Bewertungen in der Unterkategorie "körperliche Untersuchung" auffällig niedrig. Dies könnte darauf hindeuten, dass es besonders schwierig war, in dieser Disziplin Einigkeit zu erzielen.

Unsere Studie unterschied sich von den vorigen Studien zur Prüferschulung in einem entscheidenden Punkt: Während andere Studien für die Bewertungen vorbereitete Videos verwendeten, untersuchten wir tatsächliche Prüfungssituationen, die wir mitschnitten und später nachevaluierten. Diese Nachuntersuchung könnte einen Einfluss auf die Bewertungen haben, der bereits wissenschaftlich untersucht wurde: In einer Studie über ein OSCE zu Gelenkuntersuchungen fanden die Autoren eine moderate Interrater-Reliabilität zwischen der Bewertung in der Prüfung und der Bewertung der Aufzeichnung der Prüfung [22]. Die Autoren betonen aber, dass der Unterschied ähnlich groß war wie die zuvor publizierte Interrater-Reliabilität zwischen zwei Prüfern derselben Prüfung [23]. Eine zweite Studie mit Pharmaziestudenten untersuchte die Intrarater-Reliabilität nach einem Monat [24]. Die Reliabilität war hoch, allerdings wären aufgrund einer größeren Strenge bei der Bewertung der Videoaufzeichnung nach einem Monat mehr Kandidaten durchgefallen. Eine größere Strenge bei der Bewertung von Videoaufzeichnungen war bereits in der vorgenannten Studie über die Gelenkuntersuchungen beobachtet worden und auch wir beobachten in unserer Studie eine solche Tendenz. Dieser Effekt dürfte dadurch bedingt sein, dass ein tatsächlicher Prüfer sein Urteil dem Kandidaten ins Gesicht sagen muss, während der Bewerter eines Videos für seine Bewertung keine unmittelbare Verantwortung übernehmen muss. Das Mitteilen des eigenen Urteils macht Bewertungen in der Tat großzügiger [25]. Da dieser Effekt in unserer Studie aber beide Gruppen gleichermaßen betraf, dürfte er nicht entscheidend für die Interpretation unserer Ergebnisse sein.

Um dem Problem der niedrigen Interrater-Reliabilität bei der Bewertung medizinischer Interaktionen [26] zu begegnen, haben wir alle Prüfungen von drei Nachprüfern noch einmal bewerten lassen. Zwei der Nachprüfer waren ältere Studenten, der dritte Dozent. Untersuchungen haben ergeben, das trainierte Studenten praktische Fertigkeiten ihrer jüngeren Kommilitonen ähnlich verlässlich bewerten wie Dozenten [27], [28]. Diese Studien zeigen auch, dass Dozenten dabei strenger bewerten. Dies war auch in unserer Studie der Fall. Indem wir den Median der drei Nachprüfer als Maß für Genauigkeit gewählt haben, dominierten die studentischen Bewertungen unter den Nachprüfern. Dies könnte ein Problem bei der Interpretation der Ergebnisse darstellen. Darüber hinaus verzerrte der Randomisierungsprozess die Allokation der Prüfer zu den beiden Gruppen: Die Prüfer der Schulungsgruppe waren älter, eher männlich, höhergestellt und häufiger erfahrene Prüfer. Diese Faktoren hatten in anderen Studien allerdings keinen [29], [30] oder allenfalls marginalen [31] Einfluss auf die Qualität von Prüferurteilen. Passend dazu konnten wir in unserer Studie ebenfalls keinen Einfluss des Faktors "Prüfungserfahrung" auf die Prüfergenauigkeit feststellen.

Andere Probleme könnten in der Stichprobengröße und in der Art der Intervention gesehen werden. Um den Beobachterfehler zu minimieren haben wir versucht, auf mindestens zehn Prüflinge pro Prüfer zu kommen. Angesichts der Jahrgangsgröße war die Stichprobe also auf etwas über 20 Prüfer limitiert. Das war gleichzeitig die Menge an Ärzten, die wir für die Testate aus dem laufenden Klinikbetrieb rekrutieren konnten. Die Dauer der Schulung richtete sich nach dem Zeitaufwand für die Testate (90 Minuten an beiden Tagen). Eine größere Anzahl an Prüfern und eine längere Schulung hätten wir nicht bewältigen können. Zudem sind wir der Meinung, dass der Aufwand einer noch intensiveren Schulung (mit möglicherweise messbarem Effekt auf die Genauigkeit) dem potentiellen Nutzen nicht mehr entsprochen hätte.

Einige andere Aspekte erscheinen uns noch erwähnenswert: Zunächst einmal war die Zeitspanne zwischen Schulung und Testaten recht kurz, so dass der Trainingseffekt während der Testate vermutlich noch präsent war. Zweitens war die Aufgabe, die die Prüflinge erfüllen sollten, sehr klar definiert und einheitlich. Kontextuelle Faktoren als Fehlerquellen [14], [32] waren also bereits durch den Versuchsaufbau weitgehend ausgeschlossen. Und drittens könnte man auch argumentieren, dass die Schulung doch einen gewissen Effekt auf die Prüfergenauigkeit hatte: Die Strenge der Gesamtnote der geschulten Prüfer war deutlich näher an derjenigen der Nachprüfer. Demnach war die Notengebung trotz der individuellen Ungenauigkeit im Ganzen zutreffender. Die geschulten Prüfer waren also eher "weniger nachgiebig" als "strenger". Diesen Effekt hatten bereits Holmboe und Mitarbeiter beobachtet [20]. Das würde bedeuten, dass die Schulung doch den Bezugsrahmen der Prüfer vereinheitlicht hat, indem es sie in die Lage versetzt hat, eine angemessenere Notenskala zu verwenden. Die Individualität der Informationsverarbeitung durch die Prüfer und der Konversion ihrer Beobachtung und Beurteilung in eine Schulnote [33] blieb davon jedoch unberührt.

Die ungeschulten Prüfer glaubten weniger an die Möglichkeit eines Halo-Effektes als die geschulten. Dies könnte durchaus ein Schulungseffekt sein und impliziert, dass eine Prüferschulung für kognitive Verzerrungen sensibilisieren kann. Darüber hinaus fühlten sich Prüflinge von geschulten Prüfern eher ungerecht behandelt, da sie häufiger angaben, ihre Benotung sei nicht adäquat gewesen. Dies kann leicht durch die strengere Benotung erklärt werden. Dennoch war die Konkordanz zwischen Selbsteinschätzung und gegebener Note in beiden Gruppen gleich groß. Die Prüflinge mussten sich allerdings selbst einschätzen, kurz nachdem sie ihre Note erhalten hatten. Demnach könnte trotz aller Unzufriedenheit die selbst gegebene Note noch stark von der Note des Prüfers beeinflusst worden sein.

Zusammenfassend bezog sich unsere Studie auf ein curriculäres Testat mit einer äußerst spezifischen Aufgabe, einer kurzen und stark standardisierten körperlichen Untersuchung. Die Prüferschulung hatte keinen Einfluss auf die individuelle Genauigkeit der Benotung. Allerdings lag die Strenge der Bewertungen durch die geschulten Prüfer näher an den Bewertungen der Nachbeobachter als das bei den ungeschulten Prüfern der Fall war. Zudem waren die geschulten Prüfer sich des Halo-Effekts eher bewusst und ihre Prüflinge waren mit ihrer eigenen Benotung häufiger unzufrieden. Die Ergebnisse weisen darauf hin, dass die geschilderte Prüferschulung zwar einen gewissen Effekt hatte, dass aber die außerordentliche Individualität der Urteilsbildung bei der Bewertung komplexer medizinischer Fertigkeiten zu stark ist, um von einer einzigen Schulung beeinflusst zu werden. Der Aufwand einer regulären Prüferschulung zur Verbesserung der Fairness von Testaten dürfte sich daher kaum lohnen. Vielmehr sollten die Beurteilungen von medizinischen Fertigkeiten mit Vorsicht bewertet werden.


Danksagung

Die Autoren sind insbesondere Prof. Dr. Jana Jünger und Dr. Andreas Möltner vom Kompetenzzentrum für Prüfungen in der Medizin, Baden-Württemberg, zu Dank verpflichtet für ihre Beratung in der Planungsphase und bei der statistischen Auswertung sowie für die Zurverfügungstellung der Videokameras. Außerdem möchten wir Sebastian Sosnowki und Christopher Beck für die Assistenz bei den Filmaufnahmen und die Auswertung der Filme herzlich danken.


Interessenkonflikt

Die Autoren erklären, dass sie keine Interessenkonflikte im Zusammenhang mit diesem Artikel haben.


Literatur

1.
Horwitz RI, Kassirer JP, Holmboe ES, Humphrey HJ, Verghese A, Croft C, Kwok M, Loscalzo J. Internal medicine residency redesign: proposal of the Internal Medicine Working Group. Am J Med. 2011;124(9):806-812. DOI: 10.1016/j.amjmed.2011.03.007 Externer Link
2.
Clark D, III, Ahmed MI, Dell'italia LJ, Fan P, McGiffin DC. An argument for reviving the disappearing skill of cardiac auscultation. Cleve Clin J Med. 2012;79(8):536-537, 544. DOI: 10.3949/ccjm.79a.12001 Externer Link
3.
Smith MA, Burton WB, Mackay M. Development, impact, and measurement of enhanced physical diagnosis skills. Adv Health Sci Educ Theory Pract. 2009;14(4):547-556. DOI: 10.1007/s10459-008-9137-z Externer Link
4.
Ramani S, Ring BN, Lowe R, Hunter D. A pilot study assessing knowledge of clinical signs and physical examination skills in incoming medicine residents. J Grad Med Educ. 2010;2(2):232-235. DOI: 10.4300/JGME-D-09-00107.1 Externer Link
5.
Alexander EK. Perspective: moving students beyond an organ-based approach when teaching medical interviewing and physical examination skills. Acad Med. 2008;83(10):906-909. DOI: 10.1097/ACM.0b013e318184f2e5 Externer Link
6.
Ainsworth MA, Rogers LP, Markus JF, Dorsey NK, Blackwell TA, Petrusa ER. Standardized patient encounters. A method for teaching and evaluation. JAMA. 1991;266(10):1390-1396. DOI: 10.1001/jama.1991.03470100082037 Externer Link
7.
Barley GE, Fisher J, Dwinnell B, White K. Teaching foundational physical examination skills: study results comparing lay teaching associates and physician instructors. Acad Med. 2006;81(10 Suppl):S95-S97. DOI: 10.1097/00001888-200610001-00024 Externer Link
8.
Norcini JJ, Blank LL, Duffy FD, Fortna GS. The mini-CEX: a method for assessing clinical skills. Ann Intern Med. 2003;138(6):476-481. DOI: 10.7326/0003-4819-138-6-200303180-00012 Externer Link
9.
Newble D. Techniques for measuring clinical competence: objective structured clinical examinations. Med Educ. 2004;38(2):199-203. DOI: 10.1111/j.1365-2923.2004.01755.x Externer Link
10.
Pelgrim EA, Kramer AW, Mokkink HG, van den EL, Grol RP, van der Vleuten CP. In-training assessment using direct observation of single-patient encounters: a literature review. Adv Health Sci Educ Theory Pract. 2011;16(1):131-142. DOI: 10.1007/s10459-010-9235-6 Externer Link
11.
Chen W, Liao SC, Tsai CH, Huang CC, Lin CC, Tsai CH. Clinical skills in final-year medical students: the relationship between self-reported confidence and direct observation by faculty or residents. Ann Acad Med Singapore. 2008;37(1):3-8.
12.
Holmboe ES, Hawkins RE. Methods for evaluating the clinical competence of residents in internal medicine: a review. Ann Intern Med. 1998;129(1):42-48. DOI: 10.7326/0003-4819-129-1-199807010-00011 Externer Link
13.
Noel GL, Herbers JE Jr, Caplow MP, Cooper GS, Pangaro LN, Harvey J. How well do internal medicine faculty members evaluate the clinical skills of residents? Ann Intern Med. 1992;117(9):757-765. DOI: 10.7326/0003-4819-117-9-757 Externer Link
14.
Kogan JR, Conforti L, Bernabeo E, Iobst W, Holmboe E. Opening the black box of clinical skills assessment via observation: a conceptual model. Med Educ. 2011;45(10):1048-1060. DOI: 10.1111/j.1365-2923.2011.04025.x Externer Link
15.
Yeates P, O'Neill P, Mann K, Eva K. Seeing the same thing differently : Mechanisms that contribute to assessor differences in directly-observed performance assessments. Adv Health Sci Educ Theory Pract. 2013;18(3):325-341. DOI: 10.1007/s10459-012-9372-1 Externer Link
16.
Woehr DJ. Rater training for performance appraisal: a quantitative review. J Occup Organ Psychol. 1994;67:189-205. DOI: 10.1111/j.2044-8325.1994.tb00562.x Externer Link
17.
Lievens F. Assessor training strategies and their effects on accuracy, interrater reliability, and discriminant validity. J Appl Psychol. 2001;86(2):255-264. DOI: 10.1037/0021-9010.86.2.255 Externer Link
18.
Gorman CA, Rentsch JR. Evaluating frame-of-reference rater training effectiveness using performance schema accuracy. J Appl Psychol. 2009;94(5):1336-1344. DOI: 10.1037/a0016476 Externer Link
19.
Newble DI, Hoare J, Sheldrake PF. The selection and training of examiners for clinical examinations. Med Educ. 1980;14(5):345-349. DOI: 10.1111/j.1365-2923.1980.tb02379.x Externer Link
20.
Holmboe ES, Hawkins RE, Huot SJ. Effects of training in direct observation of medical residents' clinical competence: a randomized trial. Ann Intern Med. 2004;140(11):874-881. DOI: 10.7326/0003-4819-140-11-200406010-00008 Externer Link
21.
Cook DA, Dupras DM, Beckman TJ, Thomas KG, Pankratz VS. Effect of rater training on reliability and accuracy of mini-CEX scores: a randomized, controlled trial. J Gen Intern Med. 2009;24(1):74-79. DOI: 10.1007/s11606-008-0842-3 Externer Link
22.
Vivekananda-Schmidt P, Lewis M, Coady D, Morley C, Kay L, Walker D, Hassell AB. Exploring the use of videotaped objective structured clinical examination in the assessment of joint examination skills of medical students. Arthritis Rheum. 2007;57(5):869-876. DOI: 10.1002/art.22763 Externer Link
23.
Newble DI, Hoare J, Elmslie RG. The validity and reliability of a new examination of the clinical competence of medical students. Med Educ. 1981;15(1):46-52. DOI: 10.1111/j.1365-2923.1981.tb02315.x Externer Link
24.
Sturpe DA, Huynh D, Haines ST. Scoring objective structured clinical examinations using video monitors or video recordings. Am J Pharm Educ. 2010;74(3):44. DOI: 10.5688/aj740344 Externer Link
25.
Klimoski R, Inks L. Accountability forces in performance appraisal. Organ Behav Hum Decis Proc. 1990;45:194-208. DOI: 10.1016/0749-5978(90)90011-W Externer Link
26.
Martin JA, Reznick RK, Rothman A, Tamblyn RM, Regehr G. Who should rate candidates in an objective structured clinical examination? Acad Med. 1996;71(2):170-175. DOI: 10.1097/00001888-199602000-00025 Externer Link
27.
Ogden GR, Green M, Ker JS. The use of interprofessional peer examiners in an objective structured clinical examination: can dental students act as examiners? Br Dent J. 2000;189(3):160-164.
28.
Chenot JF, Simmenroth-Nayda A, Koch A, Fischer T, Scherer M, Emmert B, Stanske B, Kochen MM, Himmel W. Can student tutors act as examiners in an objective structured clinical examination? Med Educ. 2007;41(11):1032-1038. DOI: 10.1111/j.1365-2923.2007.02895.x Externer Link
29.
Carline JD, Paauw DS, Thiede KW, Ramsey PG. Factors affecting the reliability of ratings of students' clinical skills in a medicine clerkship. J Gen Intern Med. 1992;7(5):506-510. DOI: 10.1007/BF02599454 Externer Link
30.
Kogan JR, Hess BJ, Conforti LN, Holmboe ES. What drives faculty ratings of residents' clinical skills? The impact of faculty's own clinical skills. Acad Med. 2010;85(10 Suppl):S25-S28. DOI: 10.1097/ACM.0b013e3181ed1aa3 Externer Link
31.
McManus IC, Thompson M, Mollon J. Assessment of examiner leniency and stringency ('hawk-dove effect') in the MRCP(UK) clinical examination (PACES) using multi-facet Rasch modelling. BMC Med Educ. 2006;6:42. DOI: 10.1186/1472-6920-6-42 Externer Link
32.
Williams RG, Klamen DA, McGaghie WC. Cognitive, social and environmental sources of bias in clinical performance ratings. Teach Learn Med. 2003;15(4):270-292. DOI: 10.1207/S15328015TLM1504_11 Externer Link
33.
Gingerich A, Regehr G, Eva KW. Rater-based assessments as social judgments: rethinking the etiology of rater errors. Acad Med. 2011;86(10 Suppl):S1-S7. DOI: 10.1097/ACM.0b013e31822a6cf8 Externer Link