gms | German Medical Science

Jahrestagung der Gesellschaft für Medizinische Ausbildung (GMA)

02.10. - 05.10.2008, Greifswald

Prüft die Prüfer! Zum Effekt von selbstverfassten MC-Fragen-Verbesserungen auf Beantwortbarkeit und Trennschärfe in einem MC-Fragen-Bewertungssystem für HabilitationswerberINNnen

Poster

Suche in Medline nach

  • corresponding author Wolfgang Prodinger - Medizinische Universität Innsbruck, Sektion für Hygiene und Medizinische Mikrobiologie, Innsbruck, Österreich
  • author Walter Rabl - Medizinische Universität Innsbruck, Institut für Gerichtliche Medizin, Innsbruck, Österreich
  • author Hans-Georg Kraft - Medizinische Universität Innsbruck, Sektion Humangenetik, Innsbruck, Österreich
  • author Erich Brenner - Medizinische Universität Innsbruck, Sektion für Klinisch-Funktionelle Anatomie, Innsbruck, Österreich

Jahrestagung der Gesellschaft für Medizinische Ausbildung - GMA. Greifswald, 02.-05.10.2008. Düsseldorf: German Medical Science GMS Publishing House; 2008. Doc08gma4

Die elektronische Version dieses Artikels ist vollständig und ist verfügbar unter: http://www.egms.de/de/meetings/gma2008/08gma004.shtml

Eingereicht: 15. Juni 2008
Überarbeitet: 6. August 2008
Angenommen: 6. August 2008
Veröffentlicht: 19. August 2008

© 2008 Prodinger et al.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielfältigt, verbreitet und öffentlich zugänglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Gliederung

Text

Seit 2007 überprüft die Medizinische Universität Innsbruck die MC- Autorqualitäten von HabilitationswerberINNen. Ziel ist letztlich die Qualitätsverbesserung hausinterner Jahresabschlussprüfungen, die vor sechs Jahren eingeführt wurden. Bisher wurden 41 BewerberINNen anhand eines Sets von 10 eigenen MC-Fragen von einem Prüferteam mittels Scoringsystems bewertet. Da 75% des Maximalscores erforderlich ist, mussten 25 von 41 BewerberINNen in Folge eine verbesserte Fragenversion (V2) einreichen.

Die Reliabilität (Inter-Rater-Reliabilität (IRR)) und Validität (Lösung und Bewertung der Fragen durch Studierende) sollten nach dem ersten Durchführungsjahres überprüft werden. Die IRR wurde anhand von 6 neuen Fragensets untersucht. Zur Validitätsbeurteilung wurden 30 Fragen mit V1 und V2 nach inhaltlichen Aspekten ausgewählt (durchschnittliche Verbesserung von V2: 3,5 Punkte von max. 10). Daraus wurden für Studierende zwei Testversionen (A, B) zu je 30 Fragen in einem Cross-over-Design erstellt, sodass jede Testversion jede Frage als V1 oder V2 erhielt. Nahe dem Termin ihrer summativen Jahresprüfung wurden 270 Studierende eingeladen, die für sie inhaltsrelevanten 30 Testfragen geblindet gegenüber dem Testdesign in einer prüfungsartigen Situation zu lösen und anschließend „Klarheit der Fragestellung“ sowie „fehlendes Cueing“ zu bewerten (4-er Likert Skala).

Der Mittelwert der IRR für 4 Bewerter betrug 0,77 ±0,13; Spearman Rho). An der anonymen Testung beteiligten sich 145 Studierende, 117 ganz ausgefüllte Bögen (m:w = 53:64) wurden ausgewertet. Für A und B waren mittlere Scores (19,3 und 18,7; Max. = 30) und Score-Range (11-26 und 13-26) nicht signifikant unterschiedlich, ebenso nicht die mittlere Richtigbeantwortung (MW insg. 0,73 ±0,28) und die Trennschärfe der besten vs. schlechtesten 27% der Kandidaten (MW insg. 0,23 ±0,17). Fragenversionen zeigten jedoch keinen wesentlichen Unterschied hinsichtlich Richtigbeantwortung (mittlere Differenz V1-V2: 0,03; SD=0,13)) und Trennschärfe (mittlere Differenz V1-V2: -0,02 (SD=0,11)). Ein nicht signifikanter Trend zeigte eine schlechtere Richtigbeantwortung von V2 bei Männern mit niedrigem Gesamtscore. Die Studierenden bewerteten für V1 und V2 „Klarheit“ (MW= 3,53 ± 0,26; n.s.) und „fehlendes Cueing“ (MW= 3,67 ± 0,16; n.s.) sehr ähnlich.

Die Bewertung der Qualität von MC-Fragen der Habilitationswerber durch ein Prüferteam ist erscheint zufriedenstellend reliabel. Die Validität der eingeforderten und gewerteten Fragenverbesserungen ist bei Studierenden in diesem Ansatz aber nicht nachweisbar. Mögliche Gründe:

1.
die zu geringe Verbesserung des Items bzw. gegenläufige Wirkung multipler Änderungen in einer Frage,
2.
die niedrige Zahl an Fragen im Experiment,
3.
Kontamination, da Diskussionen zwischen Nachbarn über die Versionsunterschiede nicht wirklich verhindert werden konnten.

Eine stärker differenzierende Bewertung von sehr guten und mäßig guten MC-Fragen in diesem System muss überlegt werden.