gms | German Medical Science

GMS Journal for Medical Education

Gesellschaft für Medizinische Ausbildung (GMA)

ISSN 2366-5017

Ein Algorithmus zur Berechnung von Klausurqualität als Bemessungsgrundlage für LOM-Lehre

Artikel Qualität von Prüfungen

  • Timo Kirschstein - Universitätsmedizin Rostock, "core group" zur Verbesserung der Lehre, Rostock, Deutschland
  • Alexander Wolters - Universitätsmedizin Rostock, "core group" zur Verbesserung der Lehre, Rostock, Deutschland
  • Jan-Hendrik Lenz - Universitätsmedizin Rostock, "core group" zur Verbesserung der Lehre, Rostock, Deutschland
  • Susanne Fröhlich - Universitätsmedizin Rostock, "core group" zur Verbesserung der Lehre, Rostock, Deutschland
  • Oliver Hakenberg - Universitätsmedizin Rostock, "core group" zur Verbesserung der Lehre, Rostock, Deutschland
  • Günther Kundt - Universitätsmedizin Rostock, Institut für Biostatistik und Informatik in Medizin und Alternsforschung, Rostock, Deutschland
  • Martin Darmüntzel - Universitätsmedizin Rostock, Studiendekanat, Rostock, Deutschland
  • Michael Hecker - Universitätsmedizin Rostock, Klinik und Poliklinik für Neurologie, Zentrum für Nervenheilkunde, Rostock, Deutschland
  • Attila Altiner - Universitätsmedizin Rostock, Studiendekanat, Rostock, Deutschland
  • corresponding author Brigitte Müller-Hilke - Universitätsmedizin Rostock, Institut für Immunologie, Rostock, Deutschland

GMS J Med Educ 2016;33(3):Doc44

doi: 10.3205/zma001043, urn:nbn:de:0183-zma0010437

Dieses ist die deutsche Version des Artikels.
Die englische Version finden Sie unter: http://www.egms.de/en/journals/zma/2016-33/zma001043.shtml

Eingereicht: 21. Februar 2015
Überarbeitet: 2. Februar 2016
Angenommen: 4. März 2016
Veröffentlicht: 17. Mai 2016

© 2016 Kirschstein et al.
Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung). Lizenz-Angaben siehe http://creativecommons.org/licenses/by/4.0/.


Zusammenfassung

Zielsetzung: Mit der Novellierung der ÄAppO im Jahr 2002 und der Einführung benoteter Leistungsnachweise hat die Bedeutung schriftlicher Prüfungen im klinischen Abschnitt des Medizinstudiums deutlich zugenommen. Allerdings werden die Mindestanforderungen an die Qualität von Prüfungen mitunter nur schwer erreicht. Mit der Aufnahme von Prüfungsqualität in den Kriterienkatalog zur Vergabe von LOM (Leistungsorientierter Mittelvergabe) könnte die Aufmerksamkeit der Lehrenden gelenkt und allein dadurch die Qualität der Prüfungen verbessert und verstetigt werden. Derzeit mangelt es jedoch an geeigneten Bemessungsgrundlagen.

Methoden: Im Frühjahr 2014 wurde die „core group“ zur Verbesserung der Lehre an der Universitätsmedizin Rostock vom Studiendekan beauftragt, den der Verteilung von LOM Lehre zugrunde liegenden Kriterienkatalog zu überarbeiten. In diesem Zusammenhang wurde zunächst anhand von multiple choice-Klausurergebnissen ein Algorithmus entwickelt, der auf Aufgabenschwierigkeit, Trennschärfe, Reliabilität und Notenspiegel basiert und damit die Qualität der häufigsten Prüfungsform im Studium der Humanmedizin quantitativ abbildet.

Ergebnisse: Dieser Algorithmus wurde anschließend auch auf Klausuren mit offenen Fragen sowie auf den OSCE übertragen. Mit seiner Hilfe lässt sich die Prüfungsqualität in den einzelnen Fächern berechnen und – vergleichbar mit Impaktpunkten und Drittmitteleinwerbungen - in eine intrafakultäre Rangfolge überführen.

Schlussfolgerung: Dieser Algorithmus ist auf alle Prüfungsformate anwendbar, bei denen Aufgabenschwierigkeit, Trennschärfe, Reliabilität und Notenspiegel erfasst werden. Auch wenn eine weitere wichtige Kenngröße, nämlich die Validität einer Prüfung hier nicht berücksichtigt wird, so ist der vorgestellte Algorithmus als Bemessungsgrundlage für LOM durchaus geeignet.

Schlüsselwörter: Prüfungsqualität, Aufgabenschwierigkeit, Trennschärfe, Reliabilität, LOM Lehre


Einleitung

„Assessment drives learning“. Seit etwa 30 Jahren wird ausführlich untersucht und belegt, dass die Art und Weise wie wir prüfen, das Lernverhalten und den Lernerfolg der Studierenden maßgeblich beeinflusst [1], [2], [3], [4], [5]. Mit der Novellierung der ÄAppO 2002 wurde für alle klinischen Fächer und eine steigende Anzahl von Querschnittsbereichen ein benoteter Leistungsnachweis eingeführt, der in aller Regel über eine schriftliche multiple choice (MC) Klausur erbracht wird http://www.gesetze-im-internet.de/_appro_2002/BJNR240500002.html]. Damit ergab sich für die Medizinischen Fakultäten zwar eine neue logistische Herausforderung - aber auch die Chance, über diese Klausuren das Lernverhalten der Studierenden zu steuern und im Idealfall die Voraussetzung für ein gutes Abschneiden im 2. Staatsexamen zu schaffen. Letzteres erfordert jedoch, dass die fakultätsinternen Prüfungen einem hohen Qualitätsstandard folgen. Hier erfahren die Fakultäten Unterstützung in der Form von Leitlinien, die die Qualitätskriterien von schriftlichen und mündlichen Prüfungen zusammenfassen [6], [7]. Zu diesen Qualitätskriterien gehören gut abbild- und berechenbare Parameter wie Schwierigkeit und Trennschärfe einzelner Aufgaben sowie die Reliabilität einer gesamten Prüfung. Die Erhebung der Qualitätskriterien für die Erfassung von Prüfungsqualität sollte objektivierbar, reliabel und valide sein. Während sich Objektivität und Reliabilität quantifizieren lassen, kann die Validität allenfalls geschätzt werden.

Um der logistischen Herausforderung durch die Fülle der schriftlichen Klausuren zu begegnen, hat die Universitätsmedizin Rostock (UMR) 2009 ein elektronisches Prüfungsmanagement eingeführt, das seit 2011 als freiwilliges Angebot fast flächendeckend im klinischen Studienabschnitt eingesetzt wird. Seitdem erlangt das Studiendekanat Einblick in alle Prüfungsergebnisse, während die Prüfungsverantwortlichen eine detaillierte Rückkopplung über Bestehensgrenzen, Notenspiegel, Aufgabenschwierigkeiten, Antworthäufigkeiten und Trennschärfen erhalten. Dennoch hat sich am Prüfungsverhalten der Einrichtungen wenig verändert und das Nichterreichen der angestrebten Qualitätsstandards mündete nicht zwangsläufig in einer wahrnehmbaren Bestrebung, schriftliche MC-Prüfungen qualitativ zu verbessern. Als aufmerksamkeitssteigernde Maßnahme soll deswegen die leistungsorientierte Mittelvergabe (LOM) genutzt werden. Um jedoch Akzeptanz innerhalb der Fakultät und messbare Verhaltensänderungen zu bewirken, müssen die Kriterien für die LOM nachvollziehbar und transparent sein [8], [9]. Vor diesem Hintergrund wurde ein Algorithmus zur Quantifizierung von Prüfungsqualität entwickelt, der als Bemessungsgrundlage für LOM Lehre herangezogen werden kann.


Methoden

Im Frühjahr 2014 wurde die „core group“ zur Verbesserung der Lehre an der UMR vom Studiendekan beauftragt, den der Verteilung von LOM Lehre zugrunde liegenden Kriterienkatalog zu überarbeiten. Um die Prüfungsqualität als Kenngröße integrieren zu können, wurden zunächst bereits publizierte Kriterien qualitativ hochwertiger Klausuren wie Aufgabenschwierigkeit, Trennschärfe und Reliabilität der einzelnen Fragenitems berücksichtigt [10], [11], [12]. Um einer möglichen Schiefe bei der Notenvergabe zu begegnen, wurde zusätzlich die Normalverteilung der Noten als weiteres Kriterium zur Abschätzung von Prüfungsqualität hinzugezogen. Anhand der Ergebnisse aller im Sommersemester 2014 an der UMR geschriebenen Klausuren im klinischen Studienabschnitt wurde ein Algorithmus entwickelt, mit dem alle einzuschließenden Kriterien gleichwertig quantifiziert und die Summen in eine Rangfolge transformiert wurden. Grundlage für die nachfolgenden Berechnungen waren aus den jeweiligen Prüfungen generierte Matrizes, die für jeden Klausurteilnehmer die Information enthalten, welche Frage richtig (1) oder falsch (0) beantwortet bzw. wie viele Punkte bei einer bestimmten Aufgabe erzielt wurden. Diese Matrizes werden bei uns entweder aus dem elektronischen Prüfungsmanagement heraus generiert oder händisch erstellt. Der Hauptfragentyp bei unseren Klausuren ist Typ A mit 5 Antwortoptionen, wobei es auch Fächer mit short essay questions und im 10. Semester einen OSCE gibt.

Zunächst wurde der Anteil der Fragen bzw. Prüfstationen ermittelt, die sowohl eine Aufgabenschwierigkeit zwischen 0,40 und 0,85 als auch eine part-whole-korrigierte Trennschärfe von r=0,2 (Pearson Korrelationskoeffizient) aufwiesen. Aufgabenschwierigkeit war dabei definiert als der Anteil der Studierenden, die eine MC-Frage vom Typ A zutreffend beantwortet haben bzw. die mittlere erreichte Punktzahl bei short essay questions und OSCE-Stationen. Der Chi-Quadrat-Test zur Berechnung der Verteilung der Noten sowie die Berechnung des jeweiligen Cronbach’s α wurden in Excel durchgeführt. Für die nachfolgenden Korrelationsanalysen wurden der Spearmans-Rangkorrelationskoeffizient (r) sowie das dazugehörige 95%-Konfidenzintervall (CI) in GraphPad InStat (Version 3) berechnet.


Ergebnisse

Als objektiv messbare Qualitätskriterien für schriftliche Prüfungen wurden Aufgabenschwierigkeit, Trennschärfe, Reliabilität und Notenverteilung für die Berechnung von Qualität herangezogen. Diese vier Parameter wurden auf drei Messgrößen reduziert, nämlich ein Anteil an „guten“ Fragen (Aufgabenschwierigkeit zwischen 0,4 und 0,85 bei gleichzeitiger (korrigierter) Trennschärfe von r=0,2), die Reliabilität (beschrieben als Cronbach’s α) und die Notenverteilung (beschrieben als P-Wert des Chi-Quadrat-Verteilungstests).

Als erste Messgröße wurde der Anteil „guter“ Fragen herangezogen, der definitionsgemäß im Intervall zwischen 0 und 1 liegt. Erfüllen sämtliche Fragen einer Klausur die beiden Kriterien (Aufgabenschwierigkeit und Trennschärfe), würde ein Wert von 1 resultieren. Cronbach’s α kann theoretisch auch negative Werte annehmen, liegt aber bei der Auswertung von schriftlichen Prüfungen in der Regel zwischen 0 und 1. Auch hier stehen höhere Werte für eine bessere Qualität. Der Chi-Quadrat-Verteilungstest misst die Abweichung der Notenverteilung von der Normalverteilung. Ein P-Wert kleiner als 0,05 spricht gegen eine Normalverteilung und je kleiner der P-Wert wird, desto größer ist die Schieflage der Notenverteilung. Bei dem von uns ausgewerteten Klausursemester lagen die resultierenden P-Werte zwischen 4,6x10-158 und 0,99. Abbildung 1 [Abb. 1] zeigt exemplarisch zwei extreme Notenverteilungen.

Um allen drei Messgrößen bei der Qualitätsberechnung das gleiche Gewicht zu verleihen, wurden die resultierenden Werte – Anteil „guter“ Fragen, Cronbach’s α, P-Wert aus dem Chi2-Test - auf eine Skala zwischen 0 und 1 transformiert. Abschließend wurden für jedes Fach die Summe dieser drei transformierten Werte gebildet und eine Rangfolge erstellt (siehe Tabelle 1 [Tab. 1]). Die aus den Korrelationen der Messwerte für den Anteil „guter“ Fragen, die Reliabilität und die Notenverteilung resultierenden Rangkorrelationskoeffizienten betragen 0,660, 0,1229 bzw. 0,1225 (siehe Tabelle 1 [Tab. 1]).

Tabelle 1 [Tab. 1] bildet die berechnete Qualität für 19 Klausuren ab, die an der UMR im Sommersemester in klinischen Abschnitt des Medizinstudiums geschrieben und mir dem elektronischen Prüfungssystem erfasst wurden. Dabei handelt es sich ausschließlich um Klausuren mit MC-Fragen vom Typ A. Mit der Aufnahme von Klausurqualität in den Kriterienkatalog für LOM-Lehre wurden dann auch Klausuren, die nicht elektronisch erfasst wurden, händisch in Matrizes übertragen, so dass Schweregrad, Trennschärfe, Reliabilität und Notenverteilung berechnet werden konnten. Darunter waren auch Klausuren mit short essay questions. Für den OSCE, der an der UMR zu Beginn des 10. Semesters stattfindet, werden gleichfalls Schweregrad, Trennschärfe, Reliabilität und Notenspiegel berechnet.


Diskussion

Unser hier vorgestellter Algorithmus zur Bewertung von Klausur- und OSCE-Qualität bildet zum einen die interne Konsistenz – in der Form von korrigierter Trennschärfe und Reliabilität – und zum anderen das Prüfungsergebnis – in der Form von Aufgabenschwierigkeit und Notenspiegel – ab. Aufgabenschwierigkeit, Trennschärfe und Reliabilität sind in der medizinischen Literatur bereits als Qualitätskriterien akzeptiert [7], [13], [14], wobei wir an dem unteren Grenzwert von 0,4 für sehr schwere und an dem oberen von 0,85 für sehr leichte Aufgaben auch bei short essay-Fragen und bei OSCE-Stationen festhalten. Der untere Wert könnte bei nicht-MC-Formaten auch anders festgelegt werden, wobei bei einem weiteren Absenken darauf geachtet werden sollte, dass die Aufgaben trennscharf bleiben. Auch der obere Wert wird regelmäßig vor dem Hintergrund diskutiert, dass Klausuren auch solche Fragen enthalten sollen, die jeder Student beantworten kann. Hier könnte jede Fakultät ihre eigenen Empfehlungen aussprechen, wie hoch der Anteil dieser sehr leichten Fragen maximal sein sollte.

Die zusätzliche Aufnahme des Notenspiegels in unseren Kriterienkatalog ist der Beobachtung geschuldet, dass einige Fächer das Notenspektrum konsequent nicht ausnutzen (siehe Abbildung 1 [Abb. 1]). Die resultierende Schieflage verhindert die Binnendifferenzierung und ist aus unserer Sicht nicht geeignet, das Lernverhalten der Studierenden zu unterstützen [5]. Mit dem hier vorgestellten Algorithmus streben wir eine Normalverteilung an, wobei wir den Mittelwert bewusst nicht bei „befriedigend“ festlegen, sondern den für jede Klausur individuell berechneten Mittelwert zulassen. Statt der erreichten Punkte legen wir die erreichten Noten für die Berechnung der Normalverteilung zugrunde, weil es einerseits keine einheitliche maximale Punktzahl in unseren Prüfungen gibt und andererseits die erreichten Punkte auch dann noch normalverteilt sein könnten, wenn die Hälfte der Studierenden die Prüfung nicht bestanden hat. Außerdem geht in unseren Algorithmus statt des Ausmaßes der Abweichung von einer Normalverteilung der P-Wert, der die Wahrscheinlichkeit der Abweichung beschreibt, ein. Für diesen Wert haben wir uns entschieden, weil der P-Wert und das 5%ige Signifikanzniveau omnipräsent und leicht nachvollziehbar sind. Dabei bleibt zu berücksichtigen, dass sowohl der P-Wert als auch der das Ausmaß der Abweichung von einer Normalverteilung beschreibende statistische Wert von „N“ abhängig sind. Das stellt jedoch dann kein Problem, wenn die klinischen Jahrgänge in etwa gleich groß und damit die Teilnehmerzahlen an den Klausuren pro Jahr vergleichbar sind.

Bei dem hier vorgestellten Algorithmus korreliert der Anteil „guter“ Fragen mit der Reliabilität. Das könnte zum einen auf eine Redundanz der Messkriterien zurückzuführen sein, zum anderen könnte es aber auch kausale Gründe geben, wonach ein engagierter Prüfer möglicherweise nicht nur Fragen mit hoher Trennschärfe konzipiert, sondern auch die Verteilung der Aufgabenschwierigkeiten berücksichtigt und mehr Fragenitems inkludiert, wodurch wiederum die Reliabilität angehoben wird.

Der hier vorgestellte Algorithmus ist ein mögliches Messinstrument für qualitativ gute Prüfungen. Er ist auf alle Prüfungsformate, bei denen Aufgabenschwierigkeit, Trennschärfe und Notenspiegel ermittelt werden übertragbar und kann somit direkt als Bemessungsgrundlage für LOM eingesetzt werden. Auch bei zusammengesetzten Prüfungsformaten, bei denen Protokolle oder Log-Bücher in den Leistungsnachweis eingehen, sind die Berechnung von Aufgabenschwierigkeit, Trennschärfe, Reliabilität und Notenspiegel denkbar, sobald ein nachvollziehbares Punktesystem zugrunde gelegt wird.

Gegenüber der studentischen Evaluation, die am häufigsten für die Vergabe von LOM-Lehre herangezogen wird [9], bietet der hier vorgestellte Algorithmus den großen Vorteil, dass Prüfungsqualität unabhängig von der Beliebtheit eines Faches ist. Gleichwohl birgt dieses Instrument auch mögliche Nachteile: So könnten Fächer mit einer hohen Klausurqualität aufgrund der LOM auf ihrem reliablen, aber nicht zwangsläufig validen Prüfungsformat beharren und innovative Änderungen unterbinden. Hier könnte die Fakultät gegensteuern, indem nicht nur die Prüfungsqualität Eingang in die LOM-Berechnung findet, sondern z.B. auch innovative Lehr- und Lernformate. An der UMR setzt sich die LOM-Lehre aus den drei Kriterien Prüfungsqualität, studentische Evaluation und zusätzliches Lehrangebot zusammen. Die Beteiligung am OSCE, einer interdisziplinären Veranstaltung, bildet sich im zusätzlichen Lehrangebot ab und die Qualität der einzelnen Stationen wird ausschließlich genutzt, um prüfende Einrichtungen zu steuern.

Ob sich die Prüfungsqualität tatsächlich durch den Zufluss von Mitteln verbessern lässt, wird sich erst herausstellen, wenn dieses Steuerungsinstrument einige Jahre erprobt und evaluiert worden ist. Wir sind jedoch optimistisch, dass sich durch den veränderten Mittelfluss zumindest die Aufmerksamkeit in Richtung Prüfungen lenken lässt. Ein erstes Ziel, dass nämlich auch diejenigen Fächer, die das elektronische Prüfungsmanagement nicht nutzen, ihre Klausuren jetzt auf qualitative Kriterien analysieren, ist bereits erreicht. Die Transparenz der angelegten Kriterien – Schweregrad, Trennschärfe, Reliabilität und Notenspiegel – birgt darüber hinaus eine hohe Wahrscheinlichkeit, dass die Lehrenden die Reflexion über ihre Prüfungen intensivieren und eine verbesserte Prüfungsqualität anstreben [8], [15]. Der hier vorgestellte Algorithmus bietet dazu mehrere Stellschrauben, wovon die Reliabilität über die Anzahl der Fragenitems am leichtesten zu beeinflussen ist. Ein Mangel an Trennschärfe wird bereits vereinzelt genutzt, um die Distraktoren zu analysieren und die Übereinstimmung von Prüfungs- und Lehrinhalten zu kontrollieren. Im Idealfall wird sich also nicht nur die Qualität der einzelnen Fragenitems verbessern, sondern die Lehrverantwortlichen hinterfragen auch die Validität ihrer Prüfungen, die wir mit unserem Messinstrument direkt gar nicht erfassen können. Letztendlich bleibt auch abzuwarten, ob und wie sich eine verbesserte Prüfungsqualität auf die studentische Evaluation einerseits und das Abschneiden der Studierenden im zweiten schriftlichen Staatsexamen andererseits auswirken wird.


Interessenkonflikt

Die Autoren erklären, dass sie keinen Interessenkonflikt im Zusammenhang mit diesem Artikel haben.


Literatur

1.
Biggs J. Enhancing teaching through constructive alignment. High Educ. 1996;32:347-364. DOI: 10.1007/BF00138871 Externer Link
2.
Shumway JM, Harden RM; Association for Medical Education in E. AMEE Guide No. 25: The assessment of learning outcomes for the competent and reflective physician. Med Teach. 2003;25(6):569-584. DOI: 10.1080/0142159032000151907 Externer Link
3.
chuwirth L, van der Vleuten C. Merging views on assessment. Med Educ. 2004;38(12):1208-1210. DOI: 10.1111/j.1365-2929.2004.02055.x Externer Link
4.
Wormald BW, Schoeman S, Somasunderam A, Penn M. Assessment drives learning: an unavoidable truth? Anat Sci Educ. 2009;2(5):199-204. DOI: 10.1002/ase.102 Externer Link
5.
Norcini J, Anderson B, Bollela V, et al. Criteria for good assessment: consensus statement and recommendations from the Ottawa 2010 Conference. Med Teach. 2011;33(3):206-214. DOI: 10.3109/0142159X.2011.551559 Externer Link
6.
Gesellschaft für Medizinische Ausbildung, Kompetenzzentrum Prüfungen Baden-Württemberg, Fischer MR. Leitlinie für Fakultäts-interne Leistungsnachweise während des Medizinstudiums: Ein Positionspapier des GMA-Ausschusses Prüfungen und des Kompetenzzentrums Prüfungen Baden-Württemberg. GMS Z Med Ausbild. 2008;25(1):Doc74. Zugänglich unter/available from: http://www.egms.de/static/de/journals/zma/2008-25/zma000558.shtml Externer Link
7.
Jünger J, Just I. Empfehlungen der Gesellschaft für Medizinische Ausbildung und des Medizinischen Fakultätentags für fakultätsinterne Leistungsnachweise während des Studiums der Human-, Zahn- und Tiermedizin. GMS Z Med Ausbild. 2014;31(3):Doc34. DOI: 10.3205/zma000926 Externer Link
8.
Kreysing M. Forschungsförderung mittels leistungsorientierter Mittelvergabe. Z Hochschulentw. 2008;3:19-28.
9.
Müller-Hilke B. "Ruhm und Ehre" oder LOM für Lehre? - eine qualitative Analyse von Anreizverfahren für gute Lehre an Medizinischen Fakultäten in Deutschland. GMS Z Med Ausbild. 2010;27(3):Doc43. DOI: 10.3205/zma000680 Externer Link
10.
Möltner A, Schellberg D, Jünger J. Grundlegende quantitative Analysen medizinischer Prüfungen. GMS Z Med Ausbild. 2006;23(3):Doc53. Zugänglich unter/available from: http://www.egms.de/static/de/journals/zma/2006-23/zma000272.shtml Externer Link
11.
WFME, AWSE. WFME Global Standards for Quality improvement in Medical Education European Specifications. Copenhagen: University of Copenhagen, MEDLINE Quality Assurance Task Force; 2007.
12.
WHO, WFME. Guidelines for Accreditation of Basic Medical Education. Geneva, Copenhagen: WHO; 2005.
13.
Norcini J, Anderson B, Bollela V, Burch V, Costa MJ, Duvivier R, Galbraith R, Hays R, Kent A, Perrott V, Roberts T. Criteria for good assessment: consensus statement and recommendations from the Ottawa 2010 Conference. Med Teach. 2011;33(3):206-214. DOI: 10.3109/0142159X.2011.551559 Externer Link
14.
Schuwirth LW, Van der Vleuten CP. Programmatic assessment: From assessment of learning to assessment for learning. Med Teach. 2011;33(6):478-485. DOI: 10.3109/0142159X.2011.565828 Externer Link
15.
Müller-Hilke B. Leistungsorientierte Mittelvergabe. Mehr Geld zur Lehre lenken. Dtsch Arztebl. 2013;110:A-2418/B-2131/C-2053.