gms | German Medical Science

Jahrestagung der Gesellschaft für Medizinische Ausbildung (GMA)

14.09. - 17.09.2016, Bern, Schweiz

Psychometrische Gütekriterien von Multiple-Choice-Examen in Abhängigkeit der Anzahl Kandidaten und Items: Ab welchen Stichprobengrössen sind die Gütekriterien vertrauenswürdig?

Meeting Abstract

Search Medline for

  • corresponding author presenting/speaker Rainer Hofer - Bern, Schweiz
  • Sören Huwendiek - Bern, Schweiz

Jahrestagung der Gesellschaft für Medizinische Ausbildung (GMA). Bern, 14.-17.09.2016. Düsseldorf: German Medical Science GMS Publishing House; 2016. DocV1-643

doi: 10.3205/16gma175, urn:nbn:de:0183-16gma1757

Published: September 5, 2016

© 2016 Hofer et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License. See license information at http://creativecommons.org/licenses/by/4.0/.


Outline

Text

Fragestellung: In Prüfungsanalysen mit einer kleinen Anzahl von Kandidaten und/oder Items wird die Aussagekraft der psychometrischen Gütekriterien in der Itemanalyse respektive in der Interpretation zum Teil nicht ausreichend mitberücksichtigt. In der vorliegenden Studie wurde der Frage nachgegangen, ab welcher Anzahl Kandidaten und Items die Gütekriterien ausschliesslich in dem als vertrauenswürdig bestimmten Intervall liegen.

Methode: Der Studie lagen die Daten der Eidgenössischen Prüfung Humanmedizin des Jahres 2014 zugrunde, bei der 592 deutschsprachige Kandidaten 300 Multiple-Choice-Fragen beantworteten. Die Daten der 269 französischsprachigen Kandidaten wurden nicht berücksichtigt, um soziokulturelle Einflüsse bestmöglich auszuschliessen. Als Ausgangslage dienten die Werte der Gütekriterien (wie Reliabilität, Schwierigkeit, Standardmessfehler, Trennschärfe) über alle 592 Kandidaten und alle 300 Items. Für diese Werte wurden die 95%-Vertrauensintervalle bestimmt.

Mittels Bootstrapping [1] wurden danach 100 Stichproben aus der Grundgesamtheit gezogen. Über die 100 Ziehungen wurden die Gütekriterien gemittelt, deren Vertrauensintervalle berechnet und diese mit den Ausgangswerten verglichen. Das Bootstrapping wurde iterativ mit jeweils um 10 Kandidaten und/oder 10 Items reduzierten Stichproben wiederholt. In der entgegengesetzten Iteration wurden mit Stichproben von 10 Kandidaten und 10 Items gestartet und anschliessend die Stichproben nach dem Zufallsprinzip jeweils um 10 Kandidaten und/oder 10 Items vergrössert. Die Analyse wurde mit dem Statistikpaket R durchgeführt.

Ergebnisse: Die Daten werden bis zum Beitrag zu Ende ausgewertet sein. Es wird aufgezeigt werden, ab welchen Stichprobengrössen (Kandidaten, Items) die Gütekriterien „vertrauenswürdig“ sind.

Diskussion: Die Ergebnisse werden anhand der Literatur diskutiert werden.

Take-Home-Messages: Entsprechend der Ergebnisse werden Take Home Messages formuliert werden.


Literatur

1.
Efron B. Bootstrap methods: another look at the jackknife. Ann Statist. 1979;7:1–26. DOI: 10.1214/aos/1176344552 External link