gms | German Medical Science

Jahrestagung der Gesellschaft für Medizinische Ausbildung (GMA)

02.10. - 05.10.2008, Greifswald

Prüft die Prüfer! Zum Effekt von selbstverfassten MC-Fragen-Verbesserungen auf Beantwortbarkeit und Trennschärfe in einem MC-Fragen-Bewertungssystem für HabilitationswerberINNnen

Poster

  • corresponding author Wolfgang Prodinger - Medizinische Universität Innsbruck, Sektion für Hygiene und Medizinische Mikrobiologie, Innsbruck, Österreich
  • author Walter Rabl - Medizinische Universität Innsbruck, Institut für Gerichtliche Medizin, Innsbruck, Österreich
  • author Hans-Georg Kraft - Medizinische Universität Innsbruck, Sektion Humangenetik, Innsbruck, Österreich
  • author Erich Brenner - Medizinische Universität Innsbruck, Sektion für Klinisch-Funktionelle Anatomie, Innsbruck, Österreich

Jahrestagung der Gesellschaft für Medizinische Ausbildung - GMA. Greifswald, 02.-05.10.2008. Düsseldorf: German Medical Science GMS Publishing House; 2008. Doc08gma4

The electronic version of this article is the complete one and can be found online at: http://www.egms.de/en/meetings/gma2008/08gma004.shtml

Received: June 15, 2008
Revised: August 6, 2008
Accepted: August 6, 2008
Published: August 19, 2008

© 2008 Prodinger et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution License (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.en). You are free: to Share – to copy, distribute and transmit the work, provided the original author and source are credited.


Outline

Text

Seit 2007 überprüft die Medizinische Universität Innsbruck die MC- Autorqualitäten von HabilitationswerberINNen. Ziel ist letztlich die Qualitätsverbesserung hausinterner Jahresabschlussprüfungen, die vor sechs Jahren eingeführt wurden. Bisher wurden 41 BewerberINNen anhand eines Sets von 10 eigenen MC-Fragen von einem Prüferteam mittels Scoringsystems bewertet. Da 75% des Maximalscores erforderlich ist, mussten 25 von 41 BewerberINNen in Folge eine verbesserte Fragenversion (V2) einreichen.

Die Reliabilität (Inter-Rater-Reliabilität (IRR)) und Validität (Lösung und Bewertung der Fragen durch Studierende) sollten nach dem ersten Durchführungsjahres überprüft werden. Die IRR wurde anhand von 6 neuen Fragensets untersucht. Zur Validitätsbeurteilung wurden 30 Fragen mit V1 und V2 nach inhaltlichen Aspekten ausgewählt (durchschnittliche Verbesserung von V2: 3,5 Punkte von max. 10). Daraus wurden für Studierende zwei Testversionen (A, B) zu je 30 Fragen in einem Cross-over-Design erstellt, sodass jede Testversion jede Frage als V1 oder V2 erhielt. Nahe dem Termin ihrer summativen Jahresprüfung wurden 270 Studierende eingeladen, die für sie inhaltsrelevanten 30 Testfragen geblindet gegenüber dem Testdesign in einer prüfungsartigen Situation zu lösen und anschließend „Klarheit der Fragestellung“ sowie „fehlendes Cueing“ zu bewerten (4-er Likert Skala).

Der Mittelwert der IRR für 4 Bewerter betrug 0,77 ±0,13; Spearman Rho). An der anonymen Testung beteiligten sich 145 Studierende, 117 ganz ausgefüllte Bögen (m:w = 53:64) wurden ausgewertet. Für A und B waren mittlere Scores (19,3 und 18,7; Max. = 30) und Score-Range (11-26 und 13-26) nicht signifikant unterschiedlich, ebenso nicht die mittlere Richtigbeantwortung (MW insg. 0,73 ±0,28) und die Trennschärfe der besten vs. schlechtesten 27% der Kandidaten (MW insg. 0,23 ±0,17). Fragenversionen zeigten jedoch keinen wesentlichen Unterschied hinsichtlich Richtigbeantwortung (mittlere Differenz V1-V2: 0,03; SD=0,13)) und Trennschärfe (mittlere Differenz V1-V2: -0,02 (SD=0,11)). Ein nicht signifikanter Trend zeigte eine schlechtere Richtigbeantwortung von V2 bei Männern mit niedrigem Gesamtscore. Die Studierenden bewerteten für V1 und V2 „Klarheit“ (MW= 3,53 ± 0,26; n.s.) und „fehlendes Cueing“ (MW= 3,67 ± 0,16; n.s.) sehr ähnlich.

Die Bewertung der Qualität von MC-Fragen der Habilitationswerber durch ein Prüferteam ist erscheint zufriedenstellend reliabel. Die Validität der eingeforderten und gewerteten Fragenverbesserungen ist bei Studierenden in diesem Ansatz aber nicht nachweisbar. Mögliche Gründe:

1.
die zu geringe Verbesserung des Items bzw. gegenläufige Wirkung multipler Änderungen in einer Frage,
2.
die niedrige Zahl an Fragen im Experiment,
3.
Kontamination, da Diskussionen zwischen Nachbarn über die Versionsunterschiede nicht wirklich verhindert werden konnten.

Eine stärker differenzierende Bewertung von sehr guten und mäßig guten MC-Fragen in diesem System muss überlegt werden.