gms | German Medical Science

Jahrestagung der Gesellschaft für Medizinische Ausbildung (GMA)

23.09. - 25.09.2010, Bochum

Bewertung von MC-Aufgaben des Typs Mehrfach-RIchtig-Falsch

Vortrag

Suche in Medline nach

  • corresponding author presenting/speaker Andreas Möltner - Universität Heidelberg, Kompetenzzentrum für Prüfungen in der Medizin, Heidelberg, Deutschland

Jahrestagung der Gesellschaft für Medizinische Ausbildung (GMA). Bochum, 23.-25.09.2010. Düsseldorf: German Medical Science GMS Publishing House; 2010. Doc10gma36

DOI: 10.3205/10gma036, URN: urn:nbn:de:0183-10gma0365

Veröffentlicht: 5. August 2010

© 2010 Möltner.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielfältigt, verbreitet und öffentlich zugänglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Gliederung

Text

Fragestellung: Bei Multiple-Choice Aufgaben des Typs X (Mehrfach-Richtig-Falsch) können Teilpunkte vergeben werden, um auch unvollständiges Wissen zu honorieren. In einer Reihe empirischer Arbeiten (z. B. [2]) ist für Mehrfach-Richtig-Falsch-Aufgaben gezeigt worden, dass eine Teilbepunktung i. A. verbesserte Kennwerte von Aufgaben und Prüfung zur Folge haben, das „optimale Bewertungsschema (wie z. B. „halber Punkt bei einem Fehler oder „1/n Punkt für jede korrekte Teilantwort) ist jedoch umstritten [3]. Wesentlicher Grund dafür dürfte sein, dass ohne klare Definition von „Optimalität und ohne Zugrundelegung eines formalen Modells die Eigenschaften von Bewertungsschemata nicht untersucht und verstanden werden können, rein empirische Untersuchungen besitzen hierfür nur eine geringe Aussagekraft. Modellbasierte Ansätze, wie sie z. B. im Rahmen der Item-Response-Theorie entwickelt wurden, erfordern eine eigenständige Analyse der Aufgaben und sind im Rahmen universitärer Prüfungen nicht praktikabel.

In der vorgestellten Analyse für Aufgaben des Typs X sollen verschiedene Bewertungsschemata theoretisch untersucht werden, um praktische Empfehlungen für die Wahl der Bepunktung von Typ X-Aufgaben zu geben. Eine empirische Untersuchung verschiedener Prüfungen der Fakultät Heidelberg belegt die Anwendbarkeit des Modells.

Methoden: Das Typ X-Fragenformat wird mit dem Finite-State-Modell [4] theoretisch analysiert und Kennwerte wie Ratewahrscheinlichkeit und Aufgabenreliabilität für verschiedene Bewertungsverfahren bestimmt (vgl. [1]). Zur Modellvalidierung wird an Hand der Ergebnisse von insgesamt 135 Typ X-Aufgaben aus acht medizinischen Prüfungen untersucht, ob die empirischen Kennwerte der Aufgaben für verschiedene Bewertungsverfahren mit den theoretisch abgeleiteten Aussagen übereinstimmen.

Ergebnisse: Bei den untersuchten Bewertungsverfahren ist die Reliabilität bei der Anteilsbewertung am höchsten, gefolgt von „Halber Punkt falls 1 Fehler, „... falls 2 oder 1 Fehler usw. bis zur Punktgabe nur bei vollständiger Beantwortung. Dabei ist jedoch die Ratewahrscheinlichkeit für die Anteilsbewertung hoch. Die aus dem Finite-State-Modell abgeleitete Rangfolge der Aufgabenreliabilitäten stimmt mit den empirischen Befunden für die Trennschärfen bei allen Vergleichen signifikant überein.

Schlussfolgerung: Das Finite-State-Modell stellt ein geeignetes Modell zur Analyse von Typ X-Fragen dar und erklärt die empirisch gefundenen Resultate. Für Typ X-Aufgaben mit 4 oder 5 Teilaussagen dürfte das Schema „Halber Punkt bei einem Fehler, bei 6 Teilaussagen das Schema „Halber Punkt falls 1 oder 2 Fehler praktisch das Verfahren der Wahl sein.


Literatur

1.
Albanese MA, Sabers DL. Multiple true-false items: A study of interitem correlations, scoring alternatives, and reliability estimation. J Educ Meas. 1988;25:111-123. DOI: 10.1111/j.1745-3984.1988.tb00296.x Externer Link
2.
Bandaranayake R, Payne J, White S. Using multiple response true-false multiple choice questions. Aust N Z J Surg. 1999;69(4):311-315. DOI: 10.1046/j.1440-1622.1999.01551.x Externer Link
3.
Dudley A. Multiple dichotomous-scored items in second language testing: investigating the multiple true-false item type under norm-referenced conditions. Lang Test. 2006;23:198-228. DOI: 10.1191/0265532206lt327oa Externer Link
4.
Garcia-Perez MA. A finite theory of performance in multiple choice tests. In: Roskam EE, Suck R, Hrsg. Progress in mathematical psychology 1. Amsterdam: Elsevier; 1987. S.455-464.