gms | German Medical Science

Jahrestagung der Gesellschaft für Medizinische Ausbildung (GMA)

08.10. - 10.10.2009, Freiburg

Urteilskraft der Studierenden versus Teststatistik Sind Einwände von Studierenden der routinemäßigen Teststatistik bei der Identifikation von nicht reliablen Multiple Choice Fragen überlegen?

Vortrag

Suche in Medline nach

Jahrestagung der Gesellschaft für Medizinische Ausbildung - GMA. Freiburg im Breisgau, 08.-10.10.2009. Düsseldorf: German Medical Science GMS Publishing House; 2009. Doc09gmaT5V087

DOI: 10.3205/09gma087, URN: urn:nbn:de:0183-09gma0879

Veröffentlicht: 2. September 2009

© 2009 Pierer et al.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielfältigt, verbreitet und öffentlich zugänglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Gliederung

Text

Fragestellung: Die Medizinische Universität Innsbruck hat in ihrem Studienplan für das Diplomstudium Humanmedizin festgelegt, dass die Prüfungssenate die Einwände der Studierenden zu einer Prüfung (MCQ) behandeln und alle als nicht reliabel identifizierten Fragen aus der Wertung genommen werden. Alternativ können diese Entscheidungen alleine auf Grund von testtheoretisch begründeten statistischen Kenngrößen getroffen werden. Daher erscheint es interessant, ob die Urteilskraft der Studierenden der routinemäßig durchgeführten Teststatistik in der Fehlerbereinigung von MCQ Prüfungen überlegen ist.

Methodik: Die von Studierenden beanstandeten MCQ-Fragen, der Grund der Beanstandung und der Entscheid des Prüfungssenats wurden mit statistischen Kenngrößen verglichen. Die statistischen Daten umfassen: Prozent-richtig beantwortet, Diskriminationsindex (% richtige Beantwortung der besten 27% Studierenden minus % richtige Beantwortung der schlechtesten 27%) und der Antwortverteilung auf die Distraktoren.

Ergebnisse: Fünf Prüfungen über den Jahresstoff des 1. bzw. 3. Studienjahres (1455 KandidatInnen; min. 144 – max. 416 pro Prüfung) wurden ausgewertet. Die Studierenden beanstandeten zwischen 10 – 42% der gestellten Fragen. Die Prüfungen bestehen aus 160 Fragen. Auf Grund statistischer Daten wären es zwischen 5-10% Fragen gewesen, die der Prüfungssenat zu behandeln gehabt hätte. Nicht alle statistisch auffälligen Fragen wurden auch von den Studierenden identifiziert. Fragen mit Antwortschlüsselfehler werden von den Studierenden erkannt, wenn die Kohortenzahl groß genug ist. Bei den Fragen, die nur auf Grund der Beanstandung durch Studierende vom Prüfungssenat behandelt wurden, ging es vor allem um „Verständnis“ bzw. “nicht gelehrten Inhalt”. Bei allen untersuchten Prüfungen wurde keine oder max. eine dieser Fragen von 160 gestellten Fragen aus der Wertung genommen.

Schlussfolgerungen: Bei hohen KandidatInnenzahlen werden alle teststatistisch auffälligen Fragen von den Studierenden identifiziert. In der vorliegenden Untersuchung ist das Verhältnis von Gesamtzahl beanstandeter Fragen zu nicht reliablen Fragen ungünstiger, als das Verhältnis von teststatistisch auffälligen Fragen zu nicht reliablen Fragen. Daraus resultiert ein großer Arbeitsaufwand für den Prüfungssenat. Wenn sich die Urteilskraft der Studierenden der Teststatistik nicht überlegen zeigen sollten, müsste die derzeitige Praxis neu überlegt werden.