gms | German Medical Science

GMS Journal for Medical Education

Gesellschaft für Medizinische Ausbildung (GMA)

ISSN 2366-5017

Studie zur Interrater-Reliabilität einer OSPE (Objective Structured Practical Examination) in Abhängigkeit vom Bewertungsmodus im Phantomkurs der Zahnerhaltungskunde

Artikel Praktische Fertigkeiten

  • Laura Schmitt - Goethe-Universität Frankfurt am Main, Carolinum Zahnärztliches Universitäts-Institut gGmbH, Poliklinik für Kieferorthopädie, Frankfurt/Main, Deutschland
  • Andreas Möltner - Universität Heidelberg, Medizinische Fakultät, Kompetenzzentrum für Prüfungen in der Medizin/Baden-Württemberg, Heidelberg, Deutschland
  • Stefan Rüttermann - Goethe-Universität Frankfurt am Main, Carolinum Zahnärztliches Universitäts-Institut gGmbH, Poliklinik für Zahnerhaltungskunde, Frankfurt/Main, Deutschland
  • corresponding author Susanne Gerhardt-Szép - Goethe-Universität Frankfurt am Main, Carolinum Zahnärztliches Universitäts-Institut gGmbH, Poliklinik für Zahnerhaltungskunde, Frankfurt/Main, Deutschland

GMS J Med Educ 2016;33(4):Doc61

doi: 10.3205/zma001060, urn:nbn:de:0183-zma0010608

Dieses ist die deutsche Version des Artikels.
Die englische Version finden Sie unter: http://www.egms.de/en/journals/zma/2016-33/zma001060.shtml

Eingereicht: 23. Oktober 2015
Überarbeitet: 1. April 2016
Angenommen: 3. Juni 2016
Veröffentlicht: 15. August 2016

© 2016 Schmitt et al.
Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung). Lizenz-Angaben siehe http://creativecommons.org/licenses/by/4.0/.


Zusammenfassung

Einleitung: Ziel der vorliegenden Studie war es, die Reliabilität einer OSPE-Semesterabschlussprüfung im Phantomkurs der Zahnerhaltungskunde in Frankfurt am Main unter Berücksichtigung unterschiedlicher Bewertungsmodi (Prüfer-Checkliste versus Dozentenmanual) und PrüferInnenanzahl (drei versus vier) zu evaluieren.

Methoden: Im Rahmen einer historischen monozentrischen Vergleichsstudie wurden zwei verschiedene Bewertungsmodi (Gruppe I: Verwendung ausschließlich einer Prüfer-Checkliste versus Gruppe II: Verwendung einer Prüfer-Checkliste inklusive eines Dozentenmanuals) im Rahmen einer realen Semesterabschlussprüfung, die in OSPE-Form abgehalten wurde, evaluiert. Zur Analyse der Interrater-Reliabilität wurde die Generalisierbarkeitstheorie verwendet, die eine Verallgemeinerung des Konzepts der internen Konsistenz (Cronbachs alpha) beinhaltet.

Ergebnisse: Die Ergebnisse zeigen, dass die alleinige Verwendung der Prüfer-Checkliste zu höheren Interrater-Reliabilitätswerten führte als das zusätzlich zu der Liste verwendete ausführliche Dozentenmanual.

Schlussfolgerung: Zusammenfassend kann festgehalten werden, dass die in der vorliegenden Studie verwendete Prüfer-Checkliste ohne Dozentenmanual im Rahmen der durchgeführten OSPE die höchste Interrater-Reliabilität ergab in Kombination mit der Anzahl von drei BewerterInnen.

Schlüsselwörter: OSCE, OSPE, Checkliste, Bewerter, Dozentenmanual, Feedback, Zahnmedizin


Einleitung und Problemstellung

Leistungskontrollen bilden einen zentralen Bestandteil der Lehre; deren Evaluation wird in erster Linie durch die Gütekriterien Objektivität, Reliabilität und Validität charakterisiert [1], [2]. Eine hierzu existierende Leitlinie der GMA (Gesellschaft für Medizinische Ausbildung) [1] und die Basisstandards der WFME (World Federation for Medical Examination) [3] weisen zudem auf folgende Kriterien hin:

  • Die Prüfungen müssen justiziabel sein.
  • Das Prüfungsverfahren orientiert sich an Lernzielen und an der lernsteuernden Wirkung auf die Studierenden.
  • Die verwendeten Prüfungsverfahren und die Grundsätze zum Bestehen der Prüfungen müssen bekannt gemacht werden.

Der Aufbau eines funktionierenden Evaluationssystems auf internationalem Niveau für Leistungskontrollen in den Universitäten wurde 2008 vom Wissenschaftsrat empfohlen. Die verwendeten Bewertungsinstrumente sollten die Lehrleistung verlässlich und transparent analysieren [http://www.wissenschaftsrat.de/download/archiv/8639-08.pdf, zuletzt abgerufen am 23.10.2015]. Dem steht gegenüber, dass die aktuell geltende Approbationsordnung für Zahnärzte aus dem Jahre 1955 keine Vorgaben zu den abzuhaltenden, studiumsbegleitenden Prüfungen beinhaltet [http://www.gesetze-im-internet.de/z_pro/BJNR000370955.html, zuletzt abgerufen am 23.10.2015].

Da im Zahnmedizinstudium verstärkt praktische Fertigkeiten vermittelt und somit auch geprüft werden, handelt es sich meistens um den Einsatz kompetenzorientierter Prüfungsformen, die auf der Miller-Pyramide mit „zeigt wie“ beziehungsweise „handelt“ charakterisiert werden können [4]. Aus diesem Kontext kommen vor allem die Prüfungsformen des OSCE (Objective Structured Clinical Examination) und OSPE (Objective Structured Practical Examination) in Frage [4].

Die Prüfungsform OSCE wurde im Jahr 1975 durch Harden eingeführt [5]. Zunächst für Prüfungen im Fach Medizin konzipiert, wird OSCE heute ebenfalls im Rahmen zahnmedizinischer Prüfungen angewandt. In einer Studie aus dem Jahr 1998 stellten Manogue und Brown [6] erstmals die Entwicklung und Ausführung von OSCE in der Zahnmedizin vor. Die Begriffe OSCE und OSPE werden in der Literatur meist äquivalent und somit nicht differenziert verwendet. Sowohl Natkin und Guild [7] als auch der AMEE (Association for Medical Education in Europe) Guide No. 81 Part I. [8] beschreiben OSPE - als eine Variation der OSCE - als Prüfungsmethode, um praktische Fertigkeiten und Wissen in einer nicht-klinischen Umgebung zu prüfen. Die Autoren Wani und Dalvi [9] stellten ergänzend fest, dass OSPE eine Prüfungsform sei, mit der sich die Stärken und Schwächen der studentischen, praktischen Fertigkeiten darstellen und überprüfen lassen. Sowohl Studierende als auch PrüferInnen bewerteten diese Prüfungsform als positiv und sinnvoll [10], [11], [1], [12], [13], [14]. In weiteren Studien, wie der Untersuchung von Smith et al. [15], Nayak et al. [16] und Abraham et al [12], bezeichneten die Studierenden sowohl OSCEs als auch OSPEs im Vergleich zu schriftlichen und mündlichen Prüfungen als gerechtere und weniger stressige Prüfungsformen und zogen die OSPE der „traditionellen“ Prüfungsform vor. Eine Untersuchung von Schoonheim-Klein et al. [17] konnte außerdem zeigen, dass speziell OSCEs im dentalen Kontext die Fähigkeiten im Bereich der klinischen Kompetenz, das Lernen selbst, sowie eine realistischere Selbsteinschätzung der Studierenden förderten. Zudem konnte die Studie von Nayak et al. [16] darstellen, dass durch OSPE neben den individuellen Kompetenzen eines jeden Studierenden, auch die praktische Demonstration von Fakten- und Handlungswissen, sowie das Lernverhalten positiv beeinflusst werden.

Für die OSCEs wurden Reliabilitätswerte zwischen 0.11 und 0.97 angegeben [18]. Die stark differierenden Ergebnisse erklären sich vor allem dadurch, dass die Parameter unter denen eine OSCE abgehalten wird (Stationsanzahl, PrüferInnenanzahl, Dauer der Prüfung, Art der Bewertungsmodi), starke Variationen aufweisen können.

Unabhängig von der Prüfungsart wird standardmäßig bei der Bewertung zwischen den Methoden der „glance and grade“ (= per Augenschein) und der Bewertung aufgrund definierter Kriterien unterschieden. Diese Methoden wurden auch im Kontext von zahnärztlichen Prüfungssettings evaluiert [19], [20], [21], [22], [23], [24], [25], [26], [27], [28], [29], [30], [31]. Die meisten der oben genannten Studien konnten keine signifikanten Unterschiede zwischen der Augenschein- und der kriterienbasierten Methodik feststellen. Zudem fanden sie nicht in einer realen, sondern in einer artifiziellen Prüfungsumgebung statt.

Zu OSPE-Prüfungen, die wie bereits beschrieben im eigentlichen Sinne eine Variation der OSCE darstellen gibt es kaum Studien zur Einschätzung der weiter oben genannten Parameter. So ist es beispielsweise nicht erforscht, inwieweit die PrüferInnenanzahl und die Art der Bewertungsmethode das Ergebnis einer OSPE beeinflussen.

Vor diesem Hintergrund war es das Ziel der vorliegenden Studie, die Reliabilität einer realen OSPE-Semesterabschlussprüfung im Phantomkurs der Zahnerhaltungskunde in Frankfurt am Main unter Berücksichtigung unterschiedlicher Bewertungsmodi und PrüferInnenanzahl zu evaluieren.


Material und Methoden

Der Phantomkurs der Zahnerhaltungskunde lief jeweils über einen Zeitraum von einem Semester (16 Wochen). In dieser Zeit mussten die Studierenden praktische Arbeiten an verschiedenen Simulationsmodellen (an extrahierten humanen bzw. industriell hergestellten Kunststoffzähnen) absolvieren. Anhand von vorher definierten Behandlungsprotokollen wurden Schritt für Schritt verschiedene Therapiealternativen (beispielsweise Füllungen, Laborrestaurationen wie Inlays, endodontische Maßnahmen etc.) mit Unterstützung der Lehrenden eingeübt. Jeder Schritt wurde in einem sogenannten Testatheft von den betreuenden Lehrenden unterzeichnet, sobald die im Vorfeld definierten Kriterien erfüllt wurden. Der Lernprozess wurde mit formativem Feedback begleitet. Zum Abschluss des Kurses fand neben einer mündlichen Wissensüberprüfung auch eine summative OSPE statt. Letztgenannte wurde an der Simulationseinheit an sogenannten „Phantompatienten“ durchgeführt. Zwei Kunststoffmodelle (Ober- und Unterkiefer) wurden in einem „Phantomkopf“ bestehend aus jeweils 14 Kunststoffoberkiefer- und 14 Kunststoffunterkieferzähnen befestigt. Die OSPE bestand aus zwei Prüfungsteilen, der „Füllung“ (A) und dem „Inlay“ (B), durchgeführt an zwei verschiedenen Kunststoffzähnen der jeweiligen Modelle. Diese gliederten sich in insgesamt sechs „Untereinheiten“ (1. „Primärpräparation“; 2. „Unterfüllung und Sekundärpräparation“; 3. „Füllung“; 4. „Inlay“; 5. „Füllung gesamt“ und 6. „Gesamtnote“), die jeweils von den PrüferInnen benotet wurden (siehe Abbildung 1). Diese Untereinheiten entsprachen den Kriterien, auf deren Basis die Testate im Kursablauf von den Lehrenden erteilt wurden. Die Prüfer-Checkliste, die die oben genannte Aufzählung von Teilaspekten (Untereinheiten) beinhaltete, wurde im Vorfeld in vier aufeinanderfolgenden Semestern (SS 2008 bis WS 2009) im regulären Prüfungsszenario erprobt. Während der Erprobung erfolgte die Bewertung durch Inaugenscheinnahme der vorgegebenen Teilaspekte, alleine anhand von aus Sicht der PrüferInnen allgemeingültigen Qualitätskriterien. Vergeben wurden Schulnoten von 1 bis 5 (1=sehr gut bis 5=mangelhaft).

Jeder Prüfer, jede Prüferin bewertete im realen Prüfungsszenario (Dauer: 3 h) jeden Studierenden. Das bedeutete, dass die PrüferInnen in einer festgelegten Reihenfolge die Arbeiten der Studierenden direkt am Arbeitsplatz (am Phantompatienten) während der laufenden Prüfung beurteilten. Die Studierenden meldeten den PrüferInnen durch Handzeichen, dass sie bereit waren, eine Untereinheit zur Bewertung vorzuzeigen. Die PrüferInnen tauschten während der laufenden OSPE untereinander keine Informationen über die jeweils vergebenen Noten aus. Nachdem die PrüferInnen unabhängig voneinander ihre jeweiligen Prüfer-Checklisten vervollständigt hatten, wurden in einer gemeinsamen Besprechungsrunde die Bewertungen diskutiert und festgelegt, welche Studierenden die Prüfung wiederholen sollten. Dies geschah nach dem Delphi-Prinzip [http://www.horx.com/zukunftsforschung/Docs/02-M-09-Delphi-Methode.pdf, zuletzt abgerufen am 23.10.2015].

Prüfungszenario der Studie

Die vorliegende Studie bezieht sich auf einen Zeitraum von zwei Semestern (SS 2010 = Gruppe I, SS 2012 = Gruppe II). Die Zusammensetzung der Studienpopulation ist in Tabelle 1 [Tab. 1] dargestellt. Die Einschlusskriterien lauteten:

  • Studierende des 6. Semesters
  • Teilnahme am Phantomkurs für Zahnerhaltungskunde
  • Prüfungsfähigkeit vorhanden

Die Ausschlusskriterien waren wie folgt definiert:

  • Studierende anderer Semester
  • KursabbrecherInnen bzw. KurswiederholerInnen
  • Prüfungsfähigkeit nicht gegeben

Der Unterschied in der jeweiligen Gruppengröße (I versus II) ergab sich aus der tatsächlichen Semestergröße, die großen Schwankungen unterlag und von den Ergebnissen des vorangestellten Physikums abhing. Eine zahlenmäßige Anpassung beider Gruppen war nicht durchführbar, da alle TeilnehmerInnen des Kurses laut Studienordnung an der Prüfung teilnehmen mussten. Die Festlegung der PrüferInnenanzahl erfolgte im Vorfeld dieser Studie beim Einreichen des Ethikantrages. Der Einsatz identischer PrüferInnen bei beiden Gruppen war aus Personalbesetzungsgründen in der Poliklinik nicht realisierbar.

In Gruppe I wurde ausschließlich eine Prüfer-Checkliste, wie in Abbildung 1 [Abb. 1] ersichtlich, angewendet. In Gruppe II verwendeten die PrüferInnen die identische Prüfer-Checkliste wie in Gruppe I, jedoch in Kombination mit einem detaillierten Dozentenmanual (siehe Abbildung 2 [Abb. 2]). Dieser enthielt klar definierte Bewertungskriterien für die einzelnen Schulnoten.

Insgesamt nahmen fünf PrüferInnen (A-E), vier Frauen und ein Mann an der Studie teil. Die PrüferInnen waren ZahnärztInnen der Poliklinik für Zahnerhaltungskunde, hatten Erfahrung in der Lehre und der Bewertung von studentischen Arbeiten im Phantomkurs. Tabelle 2 [Tab. 2] zeigt deren Verteilung nach Anzahl und Geschlecht. PrüferIn A hatte im Jahr 1990, B 2007, C 2008, D 2010 und E 2011 das zahnärztliche Examen absolviert. Sie alle hatten Erfahrung in der Betreuung des Phantomkurses der Zahnerhaltungskunde. Lediglich A wies zusätzlich zu den anderen auch Erfahrung in der Betreuung von Patientenbehandlungskursen auf.

Die Prüfer-Checkliste entstand in Anlehnung an Themengebiete, die im laufenden Kurs und in den Lehrbüchern für Zahnerhaltungskunde standardmäßig inhaltlich abgebildet waren. Diese entsprachen zudem den in der Studie von Baumann [32] interdisziplinär zwischen vier Zentren (Universität Frankfurt, Freiburg, Leipzig und München) erhobenen Einheiten (Füllung, Inlay) und Untereinheiten, die im Fach Zahnerhaltungskunde als prüfungsrelevant definiert wurden. Dem für die Gruppe II beigefügten Manual konnten die Prüfer zusätzlich entnehmen, welche Bewertungskriterien erfüllt sein sollten, damit eine bestimmte Note vergeben werden konnte.

Train-the-Teacher

In jedem Semester fand eine 45-minütige „Train-the-Teacher-Veranstaltung“ statt. In diesem Seminar wurden die PrüferInnen durch praktische Übungen und theoretische Unterweisungen auf die Situationen in der OSPE und die Anwendung der Prüfer-Checkliste bzw. des Dozentenmanuals vorbereitet. So konnte im Vorfeld ein relativ hohes Maß an Standardisierung zwischen den PrüferInnen gewährleistet werden.

Statistik und Ethikantrag

Die Auswertung der Ergebnisse erfolgte nach der Generalisierbarkeitstheorie (G-Theorie) mit den Statistikprogrammen SAS 9.2 (SAS Institute Inc., Cary, USA, PROC MIXED) und R (Version 2.15, Package lme4). Die Varianz der erzielten Noten wird dabei auf die Einflussfaktoren (in der Terminologie der G-Theorie „Facetten“) „Studierender“ und „Untersucher“ sowie einer Messfehlerkomponente zurückgeführt (siehe Abbildung 3 [Abb. 3]). Aus den Varianzanteilen der Facette Untersucher und der Fehlervarianz relativ zu dem der Facette „Studierender“ lässt sich die Messzuverlässigkeit der Bewertungen abschätzen. Der Generalisierbarkeitskoeffizient stellt dabei ein Analogon zur internen Konsistenz (Cronbachs alpha) dar. Im Unterschied zur üblichen Anwendung auf verschiedene Aufgaben wird er hier für verschiedene Prüfer verwendet. Die G-Theorie erlaubt eine Abschätzung der Messzuverlässigkeit bei Annahme einer anderen Zahl von Prüfern als in der tatsächlichen Untersuchung. Damit lassen sich die beiden Studien, bei denen eine unterschiedliche Zahl von PrüferInnen beteiligt waren, vergleichbar machen (analog zur Spearman-Brown-Formel, mit der eine Normierung der Reliabilität auf eine bestimmte Anzahl von Aufgaben möglich ist).

Analog hierzu wurden auch die einzelnen PrüferInnen (A-E) untereinander hinsichtlich des Parameters „Gesamtnote OSPE“ evaluiert. Eine alle Parameter erfassende Subgruppenanalyse betreffend PrüferInnen A und B vervollständigte die statistische Analyse.

Ein Ethikantrag der monozentrischen Vergleichsstudie erhielt bei der Ethikkommission des Fachbereiches für Medizin der Goethe-Universität die Genehmigungsnummer 135/13.


Ergebnisse

Tabelle 3 [Tab. 3] zeigt die Ergebnisse der Reliabilitätsbestimmung aus Gruppe I bei Verwendung der Prüfer-Checkliste ohne Dozentenmanual. In dieser Gruppe wurden bei drei PrüferInnen nur für die zwei Kriterien „Kavitäteninnenwände“ und „Breite/Tiefe“ Cronbachs Alpha Werte unter 0,6 ermittelt.

Alle übrigen Untereinheiten konnten den für eine ausreichende Reliabilität geforderten Wert von 0,6 bzw. größer als 0,6 erreichen. Die Untereinheit „Nachbarzahn“ erzielte den Wert 1,0; was als idealer Reliabilitätswert anzusehen ist. Des Weiteren zeigt Tabelle 3 [Tab. 3] die Ergebnisse der Reliabilitätsbestimmung aus Gruppe II (Verwendung der Prüfer-Checkliste inklusive Dozentenmanual). Um eine Vergleichbarkeit der Generalisierbarkeitskoeffizienten in beiden Studien zu ermöglichen, wurden diese jeweils sowohl für eine Zahl von drei wie auch für vier PrüferInnen umgerechnet. So wurden für Studie I die Reliabilitätswerte für vier PrüferInnen mit Hilfe der Spearman-Brown-Formel aus denen für drei PrüferInnen bestimmt bzw. für Studie II umgekehrt.

In Gruppe II zeigten die Ergebnisse für vier PrüferInnen hohe Varianzen in den ermittelten Cronbachs-Alpha-Werten. Für die 1. Untereinheit „Primärpräparation“ und die dazugehörigen Kriterien („Kontaktpunkt approximal“ bis „Breite/Tiefe“) wurden Cronbachs-Alpha-Werte unter 0,6 ermittelt. Ebenso verhielt es sich für die Untereinheit „Füllung“ und die dazugehörigen Kriterien „Kontaktpunkte“, „okklusale Gestaltung“ und „Glätte“, für „Inlay gesamt“ und die dazugehörigen Kriterien wie „Kavitätenaußenränder“, „Kavitäteninnenwände“, „Breite/Tiefe“, „Glätte“ und „Nachbarzahn“. Die verbliebenen Untereinheiten und Kriterien konnten den für eine ausreichende Reliabilität geforderten Wert von 0,6 erreichen.

Beim Vergleich der einzelnen PrüferInnen untereinander hinsichtlich des Parameters „Gesamtnote OSPE“ konnten im Sommersemester 2010 Korrelationskoeffizienten von 0,58 (A versus C), 0,64 (A versus B) und 0,68 (C versus B) ermittelt werden. Im Sommersemester 2012 fielen die korrespondierenden Werte niedriger aus (A versus B: 0,33; A versus E: 0,35; A versus D: 0,34; E versus D: 0,52; B versus D: 0,37 und E versus B: 0,35). Die Ergebnisse der Subgruppenanalyse (A versus B, die in beiden Studiengruppen eingesetzt wurden) sind Tabelle 3 [Tab. 3] zu entnehmen.


Diskussion

Limitationen

Eine Limitation der vorliegenden Studie liegt in der Art des gewählten Versuchsdesigns (historische Vergleichsgruppe), denn die Untersuchung wurde nicht innerhalb eines Semesters an einer Studienpopulation, sondern an zwei aufeinanderfolgenden Semestern an unterschiedlichen TeilnehmerInnen durchgeführt. Eine semesterinterne Teilung der summativen Prüfung aufgrund zweier verschiedener Bewertungsmodi wurde von der Ethikkommission der Fakultät für unzulässig erklärt. Eine weitere Limitation sehen die Autoren darin, dass die PrüferInnen der beiden untersuchten Gruppen sowohl in der Anzahl als auch in der Team-Zusammensetzung ungleich waren. Lediglich zwei PrüferInnen (A und B) bewerteten vergleichend in beiden Studiengruppen. Zudem ist trotz der vor geschalteten Train-the-Teacher-Veranstaltungen von einem bestehenden Unterschied in der Lehrerfahrung auszugehen. Diese Variation ließ sich jedoch aus Personalgründen (Vertragsablaufszeiten) nicht homogenisieren. Die aufwendige statistische Analyse trägt dieser Limitation Rechnung und standardisiert die ungleiche Prüferzahl.

Bewertungsmodi

Über den Nutzen einer Prüfer-Checkliste in Bezug auf die Reliabilität einer Prüfung kann aus der derzeitigen wissenschaftlichen Datenlage kein eindeutiger Schluss gezogen werden. Nach aktuellem Forschungsstand gibt es nur wenige Studien, die sich mit verschiedenen Bewertungsmodi auseinander gesetzt haben [19], [20], [26], [28], [29], [33]. In der vorliegenden Studie konnten die besten Ergebnisse in Bezug auf eine hohe Reliabilität bei der Verwendung der Prüfer-Checkliste eruiert werden, bei der kein zusätzliches Dozentenmanual verwendet wurde. Zu einem vergleichbaren Ergebnis kam auch die Studie von Bazan und Seale [34], bei der eine ähnlich konzipierte Prüfer-Checkliste für eine Prüfungsbewertung zu einem vergleichbaren Reliabilitätswert für die Prüfung führte. Eine Erklärung hierfür könnte sein, dass der Differenzierungsgrad der Bewertungsvorgaben im Dozentenmanual möglicherweise zu detailliert war, um von den PrüferInnen während der praktischen Prüfung angewendet werden zu können und die Train-the-Teacher-Veranstaltung scheinbar nicht in der Lage war, einen vergleichbaren Bewertungsstandard bei den PrüferInnen zu setzen. Besonders deutlich wurde diese Problematik bei dem Teilschritt „Inlay: Nachbarzahn“, bei dem das sehr ausführliche Manual mit den definierten Unterpunkten zu einer massiven Verschlechterung der Cronbachs alpha-Werten führte. Dies steht auch im Einklang mit der Studie um die Autorengruppe Houpt und Kress [31], die ergab, dass, je enger der vorgegebene Bewertungsrahmen für ein Kriterium definiert war, umso eher Abweichungen in der Messgenauigkeit und Einschätzung der PrüferInnen auftraten. Beim direkten Vergleich der PrüferInnen A und B, die in beiden Semestern prüften, zeigte sich, dass die Verwendung des Manuals die im SS 2010 ermittelte mittlere Korrelation (0.68) auf einen Wert von 0.33 senkte. Trotzdem bleibt Klärungsbedarf, warum ausgerechnet dieser Teilschritt solch extreme Abweichungen bedingte. Möglicherweise bewirkte die Wortwahl der Zahnhartsubstanzdefinitionen (Schmelz und Dentin) eine Verwirrung seitens der PrüferInnen, denn die Prüfungsaufgabe wurde nicht an natürlichen Zähnen bestehend aus Schmelz und Dentin durchgeführt, sondern an Prüfungszähnen bestehend aus Kunststoff. Zukünftige Studien sollten die genaue Wortwahl der Manualparameter inhaltlich thematisieren.

Prüfungssetting

Im Unterschied zu bereits erwähnten Studien fand die Beurteilung durch die PrüferInnen in der vorliegenden Studie in einer realen Prüfungssituation statt. Als mögliche zukünftige Alternative bezüglich des Studiendesigns wäre hierfür denkbar, den PrüferInnen mehr Zeit für die Bewertung zu geben, was allerdings an der hier untersuchten Prüfung an der Universität Frankfurt am Main eine grundlegende Neukonzeption der Semesterabschlussprüfung erfordern würde. Bedenkt man, dass für die gesamte Prüfung drei Stunden angesetzt wurden, und dass die einzelnen Schritte gleichzeitig bei durchschnittlich n=22 Studierenden adhoc durch die PrüferIn beurteilt wurden, so wäre ein längeres Verweilen bei der Beurteilung nur schwierig zu realisieren. Es stellt sich die Frage, warum während des realen OSPE-Prüfungszenarios ein solcher Aufwand betrieben wird und warum die einzelnen Schritte nicht nach der Prüfung gemeinsam mit allen PrüferInnen beurteilt werden können. Dies liegt daran, dass viele Einzelschritte während der Prüfung durch den darauffolgenden Schritt nicht mehr beurteilbar, da nicht mehr sichtbar sind. Beispielsweise ist der Schritt der „Primärpräparation“ nach der „Unterfüllung/ Sekundärpräparation“ nicht mehr beurteilbar, weil Ersterer nach dem Legen einer Unterfüllung teilweise verdeckt ist. So verhält es sich mit allen Teilschritten, so dass am Ende des Prüfungsabschnittes „Füllung“ nur noch der endgültig resultierende Schritt beurteilbar bliebe.

Dieses Vorgehen steht im großen Gegensatz zu allen bisher publizierten OSPE-Prüfungen, bei denen in der Regel die Einzelschritte auch nach der Prüfung noch sichtbar und beurteilbar waren. Verglichen mit den Studien von Goepferd und Kerber [26], Vann et al. [28] und Scheutzel [33] ergibt sich ein deutlicher Unterschied, da für die dort untersuchten Prüfungen der ähnlich komplexe Bewertungsbogen unter günstigeren Zeitvoraussetzungen angewendet werden konnte. Dies könnte die unterschiedlichen Ergebnisse zwischen der hier durchgeführten Untersuchung und den zuvor erwähnten Studien erklären.

Train-the-Teacher

OSCE-basierte Prüfungen weisen in Analogie zu den bereits weiter oben erwähnten Vorteilen auch einige Nachteile auf. Nach Miller [4], [35] haben Erfahrungen gezeigt, dass OSCE besonders trainings- und zeitaufwendig ist und nach Nayak et al. [16] einer intensiven Planung und Teamarbeit bedarf. In der Regel benötigen die eingesetzten PrüferInnen ein intensives, systematisches Training, um die Anforderungen an Reliabilität und Validität einer OSCE-Prüfung zu erfüllen [35]. OSCE ist folglich, im Vergleich zu anderen Prüfungsarten wie Multiple-Choice-Fragen oder mündliche Prüfungen, zeit- und vor allem kostenintensiv [8], [35], [36]. Auch im Rahmen der hier vorliegenden Studie wurde eine zeitintensive Vorbereitung der PrüferInnen in einer Train-the-Teacher-Veranstaltung durchgeführt. Dadurch mussten im klinischen und organisatorischen Arbeitsablauf in der Abteilung für Zahnerhaltungskunde personelle und räumliche Ressourcen und damit auch finanzielle Mittel gebunden werden. Die Dauer einer Vorlesungseinheit (45 min.) war hierfür realistisch gewählt und konnte von allen PrüferInnen wahrgenommen werden. Es stellt sich jedoch die Frage, wie lang eine Vorbereitung effektiv ausfallen muss um Erfahrungsunterschiede bei gemischten Teams im Vorfeld homogenisieren zu können. Im SS 2010 zeigten die drei PrüferInnen untereinander eine mittlere Korrelation zwischen 0.58 und 0.68. Im SS 2012 führte die identisch lang durchgeführte Train-the-Teacher-Veranstaltung bei den vier PrüferInnen zu Korrelationswerten zwischen 0.33 und 0.52. Hier kann vermutet werden, dass im Falle des angewendeten Manuals die Train-the-Teacher-Veranstaltung nicht effektiv eingesetzt wurde.

PrüferInnen

Bei der Reliabilitätswertung spielen nach der heutigen Datenlage die PrüferInnen eine wichtige Rolle. Bisher gibt es allerdings keine uns bekannten wissenschaftlichen Untersuchungen, die eine Aussage treffen, wie hoch die Mindestanzahl an PrüferInnenn für eine OSPE sein sollte. In der hier vorliegenden Studie konnte mit drei PrüferInnen eine ausreichend hohe Reliabilität in Kombination mit Check-Listen erzielt werden. Nach Ergebnissen dieser Untersuchung kann der Reliabilitätswert allerdings durch eine höhere Prüferzahl weiter gesteigert werden. Diese Steigerung der Reliabilitätswerte fällt im Verhältnis zu der PrüferInnenanzahl jedoch gering aus. Darüber hinaus würde eine weitere Erhöhung der PrüferInnenanzahl zu einem gesteigerten Aufwand hinsichtlich Organisation und finanziellen Kosten führen.

In diesem Zusammenhang muss kritisch erwähnt werden, dass aus den vorliegenden Daten keine generelle Empfehlung für andere Standorte bezüglich der PrüferInnenanzahl abgegeben werden kann, da die Möglichkeit, drei bis vier lang erfahrene PrüferInnen für eine OSPE-Prüfung zur Verfügung zu haben, für viele Standorte durchaus nicht die Regelsituation darstellt bzw. nicht realisierbar ist. Zu einem ähnlichen Ergebnis in Bezug auf den gesteigerten Aufwand hinsichtlich Organisation bei OSCE-Prüfungen kamen auch die Autorengruppen um Nikendei und Jünger [37] bzw. Norcini et al. [38]. Natkin und Guild [39] konnten in ihrer Arbeit durch eine systematische Vorbereitung der PrüferInnen eine deutliche Reliabilitätssteigerung nachweisen. Ähnliche Ergebnisse stellte auch Dhuru [25] vor, in dessen Arbeit BewerterInnen mit langjähriger Berufserfahrung und bei Verwendung eines Bewertungsbogens die reliabelsten Prüfungsergebnisse erzielten. Dies kann in der vorliegenden Studie lediglich bei der Verwendung der Checkliste bestätigt werden, denn die zwei Prüferinnen mit der längsten Erfahrung wiesen im Falle des verwendeten Manuals lediglich schwache Korrelationen auf. Die Checkliste scheint, wie in dieser Untersuchung deutlich wird, in der Lage zu sein, die Reliabilität weiter zu erhöhen beziehungsweise mangelnde Prüfungserfahrung aufseiten der Bewertenden zu kompensieren. Dagegen konnte in der Untersuchung von Houpt und Kress [31] die Reliabilität nicht bei allen Bewertungskriterien gesteigert werden. Somit scheint es nach Meinung der Autoren, dass Train-the-Teacher-Veranstaltungen alleine nicht in der Lage sind, die Interrater-Reliabilität signifikant zu erhöhen. Derartige Trainingsveranstaltungen hatten den größten Effekt bei „Non-Expert“-Prüfern, dagegen relativ geringen Einfluss bei erfahrenen BewerterInnen [31]. Dies kann auch von unserer Untersuchung bestätigt werden.

Prüfungsaufgaben

Die Anzahl der in dieser Studie definierten Prüfungsaufgaben, die man häufig in der Literatur mit dem Begriff der „Stationen“ gleichsetzt, sollte kritisch hinterfragt werden. Im vorliegenden Fall waren es zwar nur zwei getrennte Aufgaben (A. Füllung und B. Inlay), jedoch insgesamt 22 Bewertungen, die man als BewerterIn pro Studierenden in und während der Prüfung abgab. Es geht letztlich um die Definition des Begriffes „Station“ in Zusammenhang mit einer OSPE, was evidenzbasiert aus der Literatur nicht abzuleiten ist. Es bleibt zudem kritisch anzumerken, dass ein Wert von 0,6 für Cronbachs alpha lediglich einen „ausreichenden“ Charakter besitzt. Es ist ebenfalls zu hinterfragen, wie valide eine Prüfung dann überhaupt ist und ob sie sich für eine summative Prüfung eignet. Vor diesem Hintergrund lässt sich die Variante II aus unserer Sicht für „high stakes“ Examina nach der vorliegenden Datenlage nicht empfehlen.


Schlussfolgerung

Aus der vorliegenden Studie ergeben sich folgende Schlussfolgerungen hinsichtlich der Frage, wie eine OSPE in der zahnmedizinischen Lehre im Phantomkurs der Zahnerhaltungskunde möglichst reliabel gestaltet werden kann:

  • Eine Prüfer-Checkliste ohne Dozentenmanual ergab eine höhere Interrater-Reliabilität im Rahmen der durchgeführten OSPE.
  • Die Bewertung der studentischen Prüfungsleistungen im Rahmen der OSPE sollte nach Möglichkeit durch mindestens drei PrüferInnen vorgenommen werden.

Danksagung

Die Autoren bedanken sich bei den Studierenden des 6. Semesters im Fach Zahnerhaltungskunde und bei den zahnärztlichen KursassistentInnen, die bei der Bewertung der OSPE ihren Beitrag geleistet haben.


Interessenkonflikt

Die Autoren erklären, dass sie keinen Interessenkonflikt im Zusammenhang mit diesem Artikel haben.


Literatur

1.
Gesellschaft für Medizinische Ausbildung, Kompetenzzentrum Prüfungen Baden-Württemberg, Fischer MR. Leitlinie für Fakultätsinterne Leistungsnachweise während des Medizinstudiums: Ein Positionspapier des GMA-Ausschusses Prüfungen und des Kompetenzzentrums Prüfungen Baden-Württemberg. GMS Z Med Ausbild. 2008;25(1):Doc74. Zugänglich unter/available from: http://www.egms.de/static/de/journals/zma/2008-25/zma000558.shtml Externer Link
2.
Taylor CL, Grey NJ, Satterthwaite JD. A comparison of grades awarded by peer assessment, faculty and a digital scanning device in a pre-clinical operative skills course. Eur J Dent Educ. 2013;17(1):16-21. DOI: 10.1111/j.1600-0579.2012.00752.x Externer Link
3.
World Federation for Medical Education. Basic Medical Education The 2012 Report. Copenhagen: WFME Office; 2012.
4.
Miller GE. The assessment of clinical skills/competence/performance. Acad Med.1990;65:S63-67. DOI: 10.1097/00001888-199009000-00045 Externer Link
5.
Harden RM, Stevenson M, Downie WW, Wilson GM. Assessment of clinical competence using objective structured examination. Br Med J. 1975;1:447-451. DOI: 10.1136/bmj.1.5955.447 Externer Link
6.
Manogue M, Brown G. Developing and implementing an OSCE in dentistry. Eur J Dent Educ.1998;2(2):51-57. DOI: 10.1111/j.1600-0579.1998.tb00039.x Externer Link
7.
Natkin E, Guild RE. Evaluation of preclinical laboratory performance: a systematic study. J Dent Educ.1967;31(2):152-161.
8.
Khan KZ, Ramachandran S, Gaunt K, Pushkar P. The Objective Structured Clinical Examination (OSCE): AMEE Guide No. 81. Part I: an historical and theoretical perspective. Med Teach. 2013;35(9):e1437-1446. DOI: 10.3109/0142159X.2013.818634 Externer Link
9.
Wani P, Dalvi V. Objective Structured Practical Examination vs Traditional Clinical Examination in Human Physiology: Students perception. Int J Med Sci Public Health. 2013;2(3):522–547. DOI: 10.5455/ijmsph.2013.080320133 Externer Link
10.
Schoonheim-Klein M, Muijtjens A, Muijtens A, Habets L, Manogue M, van der Vleuten C, Hoogstraten J, Van der Velden U. On the reliability of a dental OSCE, using SEM: effect of different days. Eur J Dent Educ. 2008;12(3):131–137. DOI: 10.1111/j.1600-0579.2008.00507.x Externer Link
11.
Hofer M, Jansen M, Soboll S. Potential improvements in medical education as retrospectively evaluated by candidates for specialist examinations. Dtsch Med Wochenschr. 2006;131(8):373–378. DOI: 10.1055/s-2006-932527 Externer Link
12.
Abraham RR, Raghavendra R, Surekha K, Asha K. A trial of the objective structured practical examination in physiology at Melaka Manipal Medical College. India. Adv Physiol Educ. 2009;33(1):21–23. DOI: 10.1152/advan.90108.2008 Externer Link
13.
Adome RO, Kitutu F. Creating an OSCE/OSPE in a resource-limited setting. Med Educ. 2008;42(5):525–526. DOI: 10.1111/j.1365-2923.2008.03045.x Externer Link
14.
Davenport ES, Davis JE, Cushing AM, Holsgrove GJ. An innovation in the assessment of future dentists. Br Dent J. 1998;184(4):192–195.
15.
Smith LJ, Price DA, Houston IB. Objective structured clinical examination compared with other forms of student assessment. Arch Dis Child. 1984;59:1173-1176. DOI: 10.1136/adc.59.12.1173 Externer Link
16.
Nayak V, Bairy KL, Adiga S, Shenoy S, Magazine BC, Amberkar M, Kumari M. OSPE in Pharmacology: Comparison with the conventional Method and Students' Perspective Towards. Br Biomed Bull. 2014;2(1):218-222.
17.
Schoonheim-Klein ME, Habets LL, Aartman IH, van der Vleuten CP, Hoogstraten J, van der Velden U. Implementing an Objective Structured Clinical Examination (OSCE) in dental education: effects on students' learning strategies. Eur J Dent Educ. 2006;10(4):226-235. DOI: 10.1111/j.1600-0579.2006.00421.x Externer Link
18.
Chenot JF, Ehrhardt M. Objective structured clinical examination (OSCE) in der medizinischen Ausbildung: Eine Alternative zur Klausur. Z Allg Med. 2003;79(2):437-442.
19.
Sharaf AA, AbdelAziz AM, El Meligy OA. Intra- and inter-examiner variability in evaluating preclinical pediatric dentistry operative procedures. J Dent Educ. 2007;71(4):540-544.
20.
Kellersmann CT. Zur Reliabilität der Beurteilung vorklinischer Phantomarbeiten bei Einsatz eines strukturierten Bewertungsbogens. Inaugural-Dissertation. Münster: Westfälischer Wilhelms-Universität Münster; 2007.
21.
Lilley JD, ten Bruggen Cate HJ, Holloway PJ, Holt JK, Start KB. Reliability of practical tests in operative dentistry. Br Dent J. 1968;125(5):194-197.
22.
Fuller JL. The effects of training and criterion models on interjudge reliability. J Dent Educ. 1972;36(4):19-22.
23.
Hinkelman KW, Long NK. Method for decreasing subjective evaluation in preclinical restorative dentistry. J Dent Educ. 1973;37(9):13-18.
24.
Gaines WG, Bruggers H, Rasmussen RH. Reliability of ratings in preclinical fixed prosthodontics: effect of objective scaling. J Dent Educ. 1974;38(12):672-675.
25.
Dhuru VB, Rypel TS, Johnston WM. Criterion-oriented grading system for preclinical operative dentistry laboratory course. J Dent Educ.1978;42(9):528-531.
26.
Goepferd SJ, Kerber PE. A comparison of two methods for evaluating primary class II cavity preparations. J Dent Educ. 1980;44(9):537-542.
27.
Feil PH. An analysis of the reliability of a laboratory evaluation system. J Dent Educ. 1982;46(8):489-494.
28.
Vann WF, Machen JB, Hounshell PB. Effects of criteria and checklists on reliability in preclinical evaluation. J Dent Educ. 1983;47(10):671-675.
29.
Bedi R, Lo E, King NM, Chan T. The effect of pictorial criteria upon the reliability of assessments of cavity preparations. J Dent. 1987;15(5):222-224. DOI: 10.1016/0300-5712(87)90116-3 Externer Link
30.
Jenkins SM, Dummer PM, Gilmour AS, Edmunds DH, Hicks R, Ash P. Evaluating undergraduate preclinical operative skill; use of a glance and grade marking system. J Dent. 1998;26(6):679-684. DOI: 10.1016/S0300-5712(97)00033-X Externer Link
31.
Houpt MI, Kress G. Accuracy of measurement of clinical performance in dentistry. J Dent Educ. 1973;37(7):34-46.
32.
Baumann MP. Evaluation von Bewertungskriterien für praktische Studentenarbeiten im Vergleich zur Bewertung per Augenschein. Inaugural-Dissertation. München: Medizinischen Fakultät der Ludwig-Maximilians-Universität München; 2015.
33.
Scheutzel P. Einfluss des Bewertungssystems auf Objektivität und Reliabilität der Benotung zahnmedizinischer Studentenarbeiten am Phantompatienten. GMS Z Med Ausbild. 2007;24(1):Doc67. Zugänglich unter/available from: http://www.egms.de/static/de/journals/zma/2007-24/zma000361.shtml Externer Link
34.
Bazan MT, Seale NS. A technique for immediate evaluation of preclinical exercises. J Dent Educ. 1982;46(12):726-728.
35.
Barman A. Critiques on the Objective Structured Clinical Examination. Ann Acad Med Singapore. 2005;34(8):478-482.
36.
Boursicot K, Ware J, Hazlett C. Objective Structured Clinical Examination Objective Structured Practical Examination. Med Educ. 1979;31:41-54.
37.
Nikendei C, Jünger J. OSCE-praktische Tipps zur Implementierung einer klinisch-praktischen Prüfung. GMS Z Med Ausbild. 2006;23(3):Doc47. Zugänglich unter/available from: http://www.egms.de/static/de/journals/zma/2006-23/zma000266.shtml Externer Link
38.
Norcini JJ, Maihoff NA, Day SC, Benson JA. Trends in medical knowledge as assessed by the certifying examination in internal medicine. JAMA. 1989;262(17):2402–2404. DOI: 10.1001/jama.1989.03430170064029 Externer Link
39.
Natkin E, Guild RE. Evaluation of preclinical laboratory performance: a systematic study. J Dent Educ. 1967;31(2):152-161.