gms | German Medical Science

12th Graz Conference – Quality of Teaching

18.09. - 20.09.2008 in Graz, Österreich

Prüft die Prüfer! Zum Effekt von selbstverfassten MC-Fragen-Verbesserungen auf Beantwortbarkeit und Trennschärfe in einem MC-Fragen-Bewertungssystem für HabilitationswerberINNen

Poster

  • corresponding author Wolfgang M. Prodinger - Medizinische Universität Innsbruck, Sektion für Hygiene und Medizinsiche Mikrobiologie, Innsbruck, Austria
  • author Walter Rabl - Medizinische Universität Innsbruck, Institut für Gerichtsmedizin, Innsbruck, Austria
  • author Hans-Georg Kraft - Medizinische Universität Innsbruck,Sektion für Humangenetik, Innsbruck, Austria
  • author Erich Brenner - Medizinische Universität Innsbruck, Sektion für Klinisch-funktionelle Anatomie, Innsbruck, Austria

12. Grazer Konferenz - Qualität der Lehre: Skills and Attitudes. Graz, Österreich, 18.-20.09.2008. Düsseldorf: German Medical Science GMS Publishing House; 2009. Doc08grako24

DOI: 10.3205/08grako24, URN: urn:nbn:de:0183-08grako247

Received: January 15, 2009
Revised: February 5, 2009
Accepted: February 18, 2009
Published: April 6, 2009

© 2009 Prodinger et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution License (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.en). You are free: to Share – to copy, distribute and transmit the work, provided the original author and source are credited.


Outline

Poster

Seit 2007 überprüft die Medizinische Universität Innsbruck die MC-Autorqualitäten von HabilitationswerberINNen. Ziel ist letztlich die Qualitätsverbesserung hausinterner Jahresabschlussprüfungen, die vor sechs Jahren eingeführt wurden. Bisher wurden 41 BewerberINNen anhand eines Sets von 10 eigenen MC-Fragen von einem Prüferteam mittels Scoringsystems bewertet. Da 75% des Maximalscores erforderlich ist, mussten 25 von 41 BewerberINNen in Folge eine verbesserte Fragenversion (V2) einreichen.

Die Reliabilität (Inter-Rater-Reliabilität (IRR)) und Validität (Lösung und Bewertung der Fragen durch Studierende) sollten nach dem ersten Durchführungsjahres überprüft werden. Die IRR wurde anhand von 6 neuen Fragensets untersucht. Zur Validitätsbeurteilung wurden 30 Fragen mit V1 und V2 nach inhaltlichen Aspekten ausgewählt (durchschnittliche Verbesserung von V2: 3,5 Punkte von max. 10). Daraus wurden für Studierende zwei Testversionen (A, B) zu je 30 Fragen in einem Cross-over-Design erstellt, sodass jede Testversion jede Frage als V1 oder V2 erhielt. Nahe dem Termin ihrer summativen Jahresprüfung wurden 270 Studierende eingeladen, die für sie inhaltsrelevanten 30 Testfragen geblindet gegenüber dem Testdesign in einer prüfungsartigen Situation zu lösen und anschließend „Klarheit der Fragestellung” sowie „fehlendes Cueing” zu bewerten (4-er Likert Skala).

Der Mittelwert der IRR für 4 Bewerter betrug 0,77 ± 0,13; Spearman Rho). An der anonymen Testung beteiligten sich 145 Studierende, 117 ganz ausgefüllte Bögen (m:w = 53:64) wurden ausgewertet. Für A und B waren mittlere Scores (19,3 und 18,7; Max. = 30) und Score-Range (11–26 und 13–26) nicht signifikant unterschiedlich, ebenso nicht die mittlere Richtigbeantwortung (MW insg. 0,73 ± 0,28) und die Trennschärfe der besten vs. schlechtesten 27% der Kandidaten (MW insg. 0,23 ± 0,17). Fragenversionen zeigten jedoch keinen wesentlichen Unterschied hinsichtlich Richtigbeantwortung (mittlere Differenz V1 - V2: 0,03; SD=0,13)) und Trennschärfe (mittlere Differenz V1 - V2: -0,02 (SD=0,11)). Ein nicht signifikanter Trend zeigte eine schlechtere Richtigbeantwortung von V2 bei Männern mit niedrigem Gesamtscore. Die Studierenden bewerteten für V1 und V2 „Klarheit” (MW= 3,53 ± 0,26; n.s.) und „fehlendes Cueing” (MW= 3,67 ± 0,16; n.s.) sehr ähnlich.

Die Bewertung der Qualität von MC-Fragen der Habilitationswerber durch ein Prüferteam ist erscheint zufriedenstellend reliabel. Die Validität der eingeforderten und gewerteten Fragenverbesserun- gen ist bei Studierenden in diesem Ansatz aber nicht nachweisbar. Mögliche Gründe:

1.
die zu geringe Verbesserung des Items bzw. gegenläufige Wirkung multipler Änderungen in einer Frage,
2.
die niedrige Zahl an Fragen im Experiment,
3.
Kontamination, da Diskussionen zwischen Nachbarn über die Versionsunterschiede nicht wirklich verhindert werden konnten.

Eine stärker differenzierende Bewertung von sehr guten und mäßig guten MC-Fragen in diesem System muss überlegt werden.