Article
Verteilungseigenschaften von Klausurergebnissen und deren Konsequenzen für statistische Tests und Fallzahlabschätzungen
Search Medline for
Authors
Published: | July 30, 2024 |
---|
Outline
Text
Fragestellung/Zielsetzung: Statistische Tests von Klausurergebnissen zwischen unterschiedlichen Studierendengruppen – etwa zum Nachweis des Effekts verbesserter Lehrmethoden – gehören zu den basalen quantitativen Methoden der medizinischen Ausbildungsforschung. Bei der Versuchsplanung sind dabei Fallzahlabschätzungen erforderlich, mit der eine hinreichende Teststärke („Power“) sichergestellt werden soll, d. h. Gruppengrößen gewählt werden, die es wahrscheinlich machen, dass ein interessierender Gruppeneffekt auch tatsächlich statistisch nachgewiesen werden kann.
Es soll untersucht werden, ob und inwieweit die Berücksichtigung typischer Verteilungseigenschaften von erreichten Punktzahlen in Klausuren zu Verbesserungen der Teststärke und damit zur Verminderung der erforderlichen Gruppengrößen führen.
Methoden:
- 1.
- Die Verteilungseigenschaften der in Klausuren erreichten Punktzahlen werden anhand von 398 schriftlichen und computerbasierten Prüfungen der Med. Fakultät Heidelberg vom Wintersemester 2021/22 bis Wintersemester – insbesondere auf Abweichungen von einer Normalverteilung – untersucht. Zur statistischen Überprüfung der Normalverteilungsannahme wurden für jede Klausur Tests auf Abweichung der Schiefe durchgeführt (D’Agostiono-Test).
- 2.
- Es wird untersucht, ob Betaverteilungen eine bessere Anpassungsgüte von theoretischen und empirischen Verteilungen (Cramér-von Mises-Distanz ω²) als Normalverteilungen ermöglichen [1], [2].
- 3.
- Durch Simulationen werden die Teststärke (Power) von t-Tests und von Betaregressionen, jeweils ohne und mit Annahme unterschiedlicher Gruppenvarianzen, bestimmt.
Ergebnisse:
- 1.
- Klausurergebnisse sind in der Mehrzahl der Fälle (386 von 398) linksschief verteilt, in etwa 70% der Verteilungen sind diese signifikant mit p<0.05 (siehe Abbildung 1a [Abb. 1]).
- 2.
- Betaverteilungen erlauben eine deutlich bessere Anpassung der theoretischen Verteilungen an Klausurergebnisse: Cramér-von Mises ω² bei 319 Verteilungen für Betaverteilungen kleiner als für Normalverteilungen (p<0.001, siehe Abbildung 1b [Abb. 1]).
- 3.
- Bei Verwendung von Tests, welche auf der Annahme Beta-verteilter Fehler beruhen, lassen sich höhere Teststärken erzielen als die entsprechenden Tests auf Basis normalverteilter Fehler (t-Test, Welch t-Test). Dies gilt jedoch nur dann, wenn für Gruppenvergleiche die möglicherweise unterschiedlichen Streuungen innerhalb der Gruppen in das Modell einbezogen werden (siehe Abbildung 2 [Abb. 2]).
Diskussion: Durch die Verwendung von statistischen Tests, welche die Verteilungseigenschaften berücksichtigen, lassen sich Verbesserungen der Teststärken gegenüber „klassischen“ Verfahren erzielen. Diese erlauben bei der Fallzahlabschätzung eine Verringerung der erforderlichen Gruppengrößen. Bei Punktzahlen in Klausuren sind Verfahren, die Betaverteilungen mit unterschiedlichen Gruppenvarianzen modellieren, klassischen t-Tests leicht überlegen. Die Verwendung von Wilcoxon-Mann-Whitney-Tests (U-Test) ist aufgrund seiner konzeptuellen Schwäche als Lagetest meist kontraindiziert.
Literatur
- 1.
- Cribari-Neto F, Zeileis A. Beta regression in R. J Statist Software. 2010;34(2):1-24. DOI: 10.18637/jss.v034.i02
- 2.
- Baringhaus L, Henze N. Cramér-von Mises distance: probabilistic interpretation, confidence intervals, and neighbourhood-of-model validation. J Nonparametr Stat. 2017;29(2):167-188. DOI: 10.1080/10485252.2017.1285029