Artikel
Bewertung von Mehrfach-Richtig-Falsch-Aufgaben
Suche in Medline nach
Autoren
Veröffentlicht: | 20. September 2019 |
---|
Gliederung
Text
Hintergrund: Mehrfach-Richtig-Falsch-Aufgaben (MTF, auch „Typ X“, „Kprim“) sind Multiple Choice-Aufgaben, bei denen für eine Reihe von Aussagen entschieden werden muss, ob diese zutreffen oder nicht. Dabei stellt sich die Frage, wie dieser Aufgabentyp optimal zu bewerten ist; etwa
- 1.
- nur einen Punkt zu geben, wenn sämtliche Antworten korrekt sind,
- 2.
- noch einen halben Punkt zu geben, wenn über die Hälfte der Antworten korrekt ist oder
- 3.
- für jede korrekte Antwort Teilpunkte zu geben.
Obwohl hierzu bereits eine Reihe empirischer Untersuchungen vorliegt, wird diese Frage auch noch in aktuellen Publikationen thematisiert [1], [2]. Ein generelles Ergebnis dieser Untersuchungen ist, dass die Teilbewertungsverfahren (b) und (c) der dichotomen Bewertung (a) überlegen sind, (b) und (c) jedoch entweder gleichwertig sind oder (b) sogar gegenüber (c) zu bevorzugen ist.
Mangel all dieser empirischen Untersuchungen ist, dass sie zwar die Verfahrenseigenschaften anhand empirischer Daten aufzeigen, diese aber nicht erklären können. Insbesondere ist die Gleichwertigkeit/ Überlegenheit von (b) gegenüber (c) zunächst nicht verständlich, da ein Teil der Informationen (Zahl der korrekten Antworten) von (b) nicht verwendet wird.
Ziel dieser Arbeit ist die Darstellung eines formalen Modells für die Beantwortung von MTF-Aufgaben, aus dem die empirischen Eigenschaften von Bewertungsverfahren abgeleitet werden können.
Methoden: Das Finite-State-Modell von Garcia-Perez [3] für die Beantwortung von Typ A-Aufgaben wird auf MTF-Aufgaben übertragen und die Konsequenzen für Schwierigkeit und Reliabilität in Abhängigkeit von der Verteilung der Fähigkeiten der Klausurteilnehmer/innen analytisch untersucht („Fähigkeit“ sei hier die Wahrscheinlichkeit, die korrekte Antwort einer Aussage zu kennen).
Ergebnisse: Die aus dem Modell folgenden Eigenschaften stimmen mit den empirischen Resultaten der Literatur und eigenen Daten überein. Insbesondere ergibt sich für die Reliabilität einer MTF-Aufgabe mit vier oder fünf Aussagen bei der Halb-Punkte-Bewertung (b) eine annähernde Gleichwertigkeit zur Teilantwort-Bewertung (c). Die Aufgabenschwierigkeit entspricht bei (b) etwa der einer Typ A-Aufgabe, während bei (c) die Aufgabe deutlich leichter wird. Die Verfahren (b) und (c) lassen sich hinsichtlich der Reliabilität mit komplexeren (und damit unpraktischeren) Bewertungsverfahren nur geringfügig verbessern.
Die genannten Beziehungen zwischen den Bewertungsmethoden gelten nicht generell, bei anderen – in der Praxis jedoch unrealistischen – Annahmen für die Fähigkeitsverteilungen, kann auch die dichotome Bewertung (a) überlegen sein.
Fazit: Durch die Anwendung des Modells lassen sich die in der Literatur dargestellten Ergebnisse zu den Bewertungsverfahren erklären. Dabei zeigt sich, dass das in vielen deutschen Fakultäten wie auch im Schweizer Staatsexamen verwendete Teilbewertungsverfahren (b) zur Bewertung von MTF-Aufgaben geeignet und kaum verbesserungsfähig ist.
Literatur
- 1.
- Kanzow P, Schuelper N, Witt D, Wassmann T, Sennhenn-Kirchner S, Wiegand A, Raupach T. Effect of different scoring approaches upon credit assignment when using Multiple True-False items in dental undergraduate examinations. Eur J Dent Educ. 2018;22:e669-e678. DOI: 10.1111/eje.12372
- 2.
- Lahner FM, Lörwald AC, Bauer D, Nouns ZM, Krebs R, Guttormsen S, Fischer MR, Huwendiek S. Multiple true-false items: a comparison of scoring Algorithms. Adv Health Sci Educ Theory Pract. 2018;23(3):455-463. DOI: 10.1007/s10459-017-9805-y
- 3.
- Garcia-Perez MA. A finite theory of performance in multiple choice tests. In: Roskam EE, Suck R, editors. Progress in mathematical psychology 1. Amsterdam: Elsevier; 1987. p.455-464.