gms | German Medical Science

Gemeinsame Jahrestagung der Gesellschaft für Medizinische Ausbildung (GMA), des Arbeitskreises zur Weiterentwicklung der Lehre in der Zahnmedizin (AKWLZ) und der Chirurgischen Arbeitsgemeinschaft Lehre (CAL)

25.09. - 28.09.2019, Frankfurt am Main

OSCE: Fairness über mehrere Prüfungstage mittels PCM-Modelling

Meeting Abstract

  • presenting/speaker Joy Backhaus - Universitätsklinikum Würzburg, Institut für Medizinsche Lehre und Ausbildungsforschung, Würzburg, Deutschland
  • Kerstin Kasseckert - Universitätsklinikum Würzburg, Institut für Medizinsche Lehre und Ausbildungsforschung, Würzburg, Deutschland
  • Anne Simmenroth - Universitätsklinikum Würzburg, Institut für Allgemeinmedizin, Würzburg, Deutschland
  • Sarah König - Universitätsklinikum Würzburg, Institut für Medizinsche Lehre und Ausbildungsforschung, Würzburg, Deutschland

Gemeinsame Jahrestagung der Gesellschaft für Medizinische Ausbildung (GMA), des Arbeitskreises zur Weiterentwicklung der Lehre in der Zahnmedizin (AKWLZ) und der Chirurgischen Arbeitsgemeinschaft Lehre (CAL). Frankfurt am Main, 25.-28.09.2019. Düsseldorf: German Medical Science GMS Publishing House; 2019. DocV7-07

doi: 10.3205/19gma055, urn:nbn:de:0183-19gma0555

Published: September 20, 2019

© 2019 Backhaus et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License. See license information at http://creativecommons.org/licenses/by/4.0/.


Outline

Text

Einleitung: Die Auswertung von OSCEs (Objective Structured Clinical Examination) zur Prüfung ärztlicher Kompetenzen stellt eine besondere Herausforderung dar. Eine Vergleichbarkeit der Bewertungen sollte über mehrere Parcours und Tage sichergestellt werden [1]. Der Tatsache, dass sich bereits nach dem ersten Durchlauf die Studierenden über Hinweise zur Prüfung austauschen (z.B. „Frage unbedingt nach Bauchschmerzen!“), kann nur bedingt entgegengewirkt werden.

Im Rahmen der klassischen Testtheorie wird die Borderline Regressionsmethode zur Berechnung unterschiedlicher Bestehensgrenzen der Station über Prüfungstage verwendet [2]. Eine Möglichkeit der Validierung der Ratingskalen bei Kommunikations-OSCEs bleibt jedoch aus [3]. In vorliegender Arbeit wird ein probabilistischer Ansatz gewählt, der eine Standardisierung der Prüfungsergebnisse durch differenzierte Analyse der Ratingkategorien mit konsekutivem, mathematischem Modelling der Ergebnisse ermöglicht.

Material und Methoden: Im Sommersemester 2019 wurde an der Medizinischen Fakultät in Würzburg im interdisziplinären Basisfertigkeiten-OSCE mit 149 Studierenden über zwei Prüfungstage erstmals eine Station zur Messung ärztlicher Anamnesekompetenz eingesetzt. Die Station umfasste die vegetative Anamnese mit einem Schauspielpatienten, geschulte Rater bewerteten mithilfe von Tablets. Die Checkliste bestand aus insgesamt 21 Items, die auf einer zwei- oder dreistufigen Likertskala verhaltensnah verankert waren. Zur Auswertung der Ergebnisse fand das Partial Credit Model (PCM) Anwendung, die Berechnungen wurden mittels des extended Raschmodeling (eRm) package durchgeführt.

Ergebnisse: Differential Item Functioning (DIF) konnte zwischen dem ersten und zweiten OSCE-Tag für die Items „Gewichtsabnahme“, „Schlaf“ und „Verdauung“ festgestellt werden, die auf einer dreistufigen Likertskala bewertet wurden. Das PCM deckte die genaue Lokalisation der Schwierigkeitsverschiebung anhand der Schwellenparameter auf. Statistisch konnte eindeutig belegt werden, dass es den Studierenden des 2. Prüfungstages verstärkt gelungen war, anstelle gar keiner Lösung („nicht erfragt“) nun eine Teillösung zu nennen („teilweise erfragt“). Die korrekte anamnestische Erhebung („vollständig erfragt“) war dagegen nicht betroffen. Folglich wurde im Sinne eines systematischen Modellings die Schwierigkeitskorrektur für die jeweiligen Schwellenparameter vorgenommen, wodurch nicht-vergleichbare Prüfungsbedingungen nivelliert werden.

Schlussfolgerung: Anders als bei der Borderline-Regression muss nicht die Bestehensgrenze korrigiert werden, sondern kontaminierende Einflussgrößen werden bereits auf Ebene der Antwortoptionen individuell detektiert und in die Berechnungen mit einbezogen. Eine Standardisierung wie auch eine erhöhte Fairness der Prüfungsauswertung werden somit herbeigeführt. Ratingskalen bei Kommunikations-OSCEs können so differenziert betrachtet und einer Qualitätskontrolle unterzogen werden.


Literatur

1.
Bauer D, Huwendiek S, März M. “Pass, fail” – On Standard Setting Procedures for the Assessment of Practical Skills at Medical Schools in Germany, Austria, and Switzerland. GMS J Med Educ. 2016;33(4):Doc50. DOI: 10.3205/zma001049 External link
2.
Berendonk C, Schirlo C, Balestra G, Bonvin R, Feller S, Huber P, Jünger E, Monti M, Schnabel K, Beyeler C, Guttormsen S, Huwendiek S. The new final Clinical Skills examination in human medicine in Switzerland: Essential steps of exam development, implementation and evaluation, and central insights from the perspective of the national Working Group. GMS Z Med Ausbild. 2015;32(4):Doc40. DOI: 10.3205/zma000982 External link
3.
Cömert M, Zill JM, Christalle E, Dirmaier J, Härter M, Scholl I. Assessing communication skills of medical students in objective structured clinical examinations (OSCE) -- A systematic review of rating scales. PLoS One. 2016;11(3):e0152717. DOI: 10.1371/journal.pone.0152717 External link