gms | German Medical Science

GMS Journal for Medical Education

Gesellschaft für Medizinische Ausbildung (GMA)

ISSN 2366-5017

Offene Fragen vs. Multiple-Choice-Fragen im 1. Abschnitt des Medizinstudiums: Untersuchung am Beispiel von Topographischer Anatomie

Open-answer questions vs. multiple-choice questions for undergraduate medical exams: a case study in topographical anatomy

Originalarbeit Humanmedizin

  • corresponding author Matthias Oppitz - Universität Tübingen, Anatomisches Institut, Abteilung für Experimentelle Embryologie, Tübingen, Deutschland
  • author Gernot Schriek - Universität Tübingen, Anatomisches Institut, Abteilung für Experimentelle Embryologie, Tübingen, Deutschland
  • author Christian Busch - Universität Tübingen, Anatomisches Institut, Abteilung für Experimentelle Embryologie, Tübingen, Deutschland
  • author Thomas Shiozawa - Universität Tübingen, Anatomisches Institut, Abteilung für Experimentelle Embryologie, Tübingen, Deutschland
  • author Ulrich Drews - Universität Tübingen, Anatomisches Institut, Abteilung für Experimentelle Embryologie, Tübingen, Deutschland

GMS Z Med Ausbild 2007;24(3):Doc150

Die elektronische Version dieses Artikels ist vollständig und ist verfügbar unter: http://www.egms.de/de/journals/zma/2007-24/zma000444.shtml

Eingereicht: 21. Mai 2007
Veröffentlicht: 15. August 2007

© 2007 Oppitz et al.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielfältigt, verbreitet und öffentlich zugänglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Zusammenfassung

Multiple-Choice (MC) Fragen sind seit 1970 die Grundlage der staatlichen Ärztlichen Prüfungen. In den vorklinischen Fächern werden neben MC-Fragen auch Aufgaben mit offenen Fragen (OF) zur Prüfung verwendet. Der statistische Vergleich beider Fragentypen in der praktischen Anwendung sollte ihre Eignung zur kursbegleitenden Prüfung, als Anreiz zur Steuerung des Lernverhaltens, prüfen.

In einer retrospektiven Studie wurden die Prüfungsergebnisse von 351 Studierenden der Wintersemester 2003/04, 2004/05 und 2005/06 statistisch ausgewertet. Aus den gepaarten Daten der Prüfungsergebnisse von OF und MC-Fragen im gleichen Testatbogen wurden die Rang-Korrelationskoeffizienten nach Spearman und die F-Ratio berechnet. Zur Abschätzung der Reliabilität der beiden Fragenformate wurden die Raten korrekter Antworten auf einzelne, in zwei aufeinanderfolgenden Semestern eingesetzte, MC-Fragen und offene Fragen vergleichend untersucht. Als Maß für den Lernerfolg wurde die statistische Korrelation zwischen dem Ergebnis des Eingangstestats und späterer, im Verlaufe des Kurses abgelegter Testate ermittelt.

Die statistische Untersuchung der gepaarten Daten ergab in allen untersuchten Semestern einen signifikanten Unterschied zwischen einem Anteil (Anzahl richtig beantworteter Fragen/Anzahl aller Testatfragen) von 0.84 richtig beantworteter OF und von 0.71 richtig beantworteter MC- Fragen. Studierende mit insgesamt schlechterem Abschneiden wiesen eine signifikant höhere Fehlerrate bei der Beantwortung von MC-Fragen im Vergleich zu OF auf. Studierende mit einem unterdurchschnittlichen Ergebnis im Eingangstestat schnitten auch in späteren Testaten signifikant schlechter ab. Andere Einflußgrößen, die als Kontrolle in die Berechnung einbezogen wurden (Alter, Geschlecht und Deutsch als Zweitsprache), beeinflußten das Ergebnis der Prüfung nicht.

Offene Fragen mit einem niedrigen bis mittleren Schwierigkeitsgrad waren im Unterschied zu MC-Fragen geeignet, um Studierende mit befriedigendem Wissensniveau von Kursteilnehmern abzugrenzen, die die Kriterien zum Bestehen des Kurses nicht erfüllten. Im praktischen Einsatz erwiesen sich MC-Fragen wegen ihres größeren Aufwandes bei der Erstellung und ihrer eingeschränkten Wiederverwendbarkeit als problematischer als OF.

Nach unseren Erfahrungen ist eine vom Kursabschnitt abhängige Kombination von OF und MC-Fragen empfehlenswert.

Schlüsselwörter: Multiple-Choice Fragen, Fragen mit offenen Antworten, Validität, Lernstrategien, Kontrolle des Lernerfolgs

Abstract

Multiple choice questions (MCQ) have become the basis of state medical examinations in Germany since 1970. Single answer questions (SAQ) have become a convenient alternative for undergraduate testing in medicine. Our aim was to study the best use of both types of questions by comparison of examination results.

In a retrospective study, examination results of 351 second year students of medicine were selected from written exams that contained both MCQ and SAQ, and evaluated by statistical analysis. Rank correlation coefficients according to Spearman and F-ratio were calculated from the paired data of rates of correct answers from MCQ and SAQ. The reliability of selected exam questions was estimated by comparing results from answers to comparable questions from consecutive years. The effect of learning was evaluated by comparing results from exams before the start of the class with results obtained during the course.

Statistical evaluation revealed that the mean rate of correct answers was 0.84 (ratio right answers / total number) for SAQ, and significantly differed from the answer rate of 0.71 for MCQ. The difference was more pronounced in the subgroup of low performance students. The rate of correct answers of selected SAQ and MCQ were sufficiently reliable in consecutive examinations. There was a clear correlation between rate of successfully solved SAQ in entrance exams and in consecutive examination results. Parameters that were included in statistical calculation (Age, sex, language) as controls did not influence the difference between SAQ and MCQ.

In conclusion, the results suggest that SAQ had the same level of discrimination when compared to MCQ, although their level of difficulty was lower than MCQ. They had a sufficient level of reliability, and were easier to modify for re-use in further examinations. Examinations that consist solely of MCQ are difficult to compose, and can hardly be re-used.

The combination of SAQ and MCQ in exams helps to overcome this problem.

Keywords: Multiple choice questions, short essay questions, validity, strategies for learning, testing of successful learning process


Einführung

Nach dem Inkrafttreten der neuen Approbationsordnung für Ärzte (AppOÄ) [1] von 2002 wurden neue Leistungskontrollen für Studierende an Medizinischen Hochschulen in Deutschland eingeführt. Durch die neue AppOÄ erhalten Erfolgskontrollen in den Fächern des vorklinischen und des klinischen Studienabschnittes im Vergleich zur alten AppOÄ eine größere Bedeutung. Die fächerspezifischen Testate sind zudem als Grundlage für eine Bewertung der Gesamtleistung wichtig geworden. Daher ist die Erstellung von reliablen, validen und objektiven Methoden zur Ermittlung des Lernerfolgs eine Herausforderung an die Lehrkräfte der vorklinischen und klinischen Fächer.

Seit 1970 wurden in der Bundesrepublik Deutschland Multiple Choice (MC)-Fragen des Institutes für Medizinische und Pharmazeutische Prüfungsfragen (IMPP) in den zentral organisierten Ärztlichen Prüfungen eingesetzt. In den angelsächsischen Ländern wurden von den Hochschulen in schriftlichen vorklinischen Prüfungen (undergraduate examinations) und klinischen Prüfungen (clinical examinations) neben MC-Fragen andere Fragentypen angewendet: Offene Fragen (OF) mit kurzem und langen Antwortmöglichkeiten (short answer questions (SAQ), short essay questions (SEQ) [2], und modified essay questions (MEQ)), und schriftlich zu ergänzende Aussagen (extended matching questions (EMQ) [3]). Neben MC-Fragen werden in unserem Bereich, der makroskopischen Anatomie, zunehmend OF zur Prüfung eingesetzt. In einem anderen Grundlagenfach, der Medizinischen Mikrobiologie, haben sich OF als adäquat einsetzbares, unkompliziert auf eine Aussage einstellbares Fragenformat bewährt [4].

Gute Kenntnisse in der topographischen Anatomie sind für eine erfolgreiche Ausbildung in den operativen ärztlichen Fachgebieten während des Studiums und der späteren fachbezogenen Ausbildung unverzichtbar. Diese Ansicht wird von retrospektiven Auswertungen von Facharztprüfungen unterstützt [5]. Auch für das anatomische Fachgebiet besteht eine Verpflichtung zur Durchführung objektiver, reliabler und valider Prüfungen [6]. Um den Anforderungen der neuen AppOÄ zu entsprechen, wurden seit 2001 im Kurs der makroskopischen Anatomie in Tübingen die früher mündlich gehaltenen Testate am Ende eines jeden Kursabschnittes durch eine 30-40 Fragen enthaltende, schriftliche Prüfung zur Leistungskontrolle ergänzt. Dazu wird der Unterricht nach dem beschriebenen multimedialen und interdisziplinären Ausbildungskonzept [7] durchgeführt. Vor Beginn des Kurses wurde die Leistungsfähigkeit mit einem Eingangstestat geprüft, das OF und MC-Fragen enthielt. Dieses Testat prüfte das in den Vorlesungen (des vorangegangenen 1. und 2 Semesters) erworbene Wissen. Auch Inhalte des Kursus der Mikroskopischen Anatomie im 2. Semester, soweit sie für das Verständnis der Makroskopischen Anatomie wichtig waren (Histologie, Osteologie), flossen in die Prüfung ein. Parallel zum eigentlichen Kurs mit der Präparationsarbeit nahmen die Kursgruppen an topographisch-anatomischen Seminaren teil. Die Seminare sind folgendermaßen aufgebaut: Ein Dozent demonstriert das zum jeweiligen Zeitpunkt präparierte anatomische Gebiet, und anschließend wird durch einen Vertreter eines klinischen Faches ergänzendes spezifisches Wissen vermittelt. Den Studenten stehen zum Selbststudium über das Internet aufrufbare Übungsmodule zum Üben, Wiederholen und Vertiefen zur Verfügung, die das in den Seminaren behandelte Wissen durch einprägsame Abbildungen, Texte und OF beinhalten. Zur Leistungskontrolle nahmen die Studierenden am Ende jedes Kursabschnittes an einer mündlichen Prüfung teil, und erhielten anschließend ein schriftliches Testat, das aus OF und MC-Fragen bestand. Seit der Einführung im Jahre 2001 hat sich bei den Studierenden und ihren Lehrenden in Tübingen diese Art der Wissensvermittlung und Leistungskontrolle etabliert. In der vorgestellten Studie wird durch direkten Vergleich von OF und MC-Fragen in einem schriftlichen Testat geprüft, wie weit beide Fragenformate zur Beurteilung des neben der praktischen Präparationsarbeit erworbenen Wissens geeignet sind. Ein weiteres, hier untersuchtes, Merkmal war die Reproduzierbarkeit der Ergebnisse über mehrere Semester hinweg.


Material und Methoden

Die Daten wurden den Auswertungen der Antwortbögen der in den Wintersemestern 03/04, 04/05 und 05/06 durchgeführten schriftlichen Testate entnommen. Im folgenden Abschnitt soll die Durchführung der schriftlichen Testate kurz beschrieben werden.

Die Studierenden wurden vor Beginn des Kurses einmal schriftlich geprüft („Eingangstestat“). Während des Kurses wurden wichtige anatomisch-topographische Einheiten vermittelt und am Ende jedes Kursabschnittes mit schriftlichen und mündlichen Testaten geprüft. Ein Testat bestand aus jeweils 25 bis 35 Prüfungsfragen. Davon waren bis zu 10 im MC-Fragenformat verfaßt. Für jede Prüfungsfrage waren 90 Sekunden Zeit zur Beantwortung angesetzt. Die Prüfungen fanden unter Aufsicht von Dozenten statt. In jeder Prüfung wurden unterschiedliche Testat-Fragebögen eingesetzt. Durch den Einsatz von neu konzipierten oder modifizierten Fragen aus früheren Prüfungen sollen Einflüsse durch Abschreiben, „Spickzettel“ oder das unreflektierte Auswendiglernen von „Altfragen“ weitgehend ausgeschlossen werden. Nach der Prüfung wurden die Antworten auf die Prüfungsfragen als „richtig“ oder „falsch“ klassifiziert. Zum Bestehen eines Testates mußten mindestens 60% der Fragen richtig beantwortet werden. Die Teilnehmer wurden entsprechend ihres Prüfungsergebnisses eingeteilt: mit weniger als 60% richtig beantworteter Fragen wurde ihr Leistungsniveau als niedrig, zwischen 60-80% als mittel und ab 80% als hoch klassifiziert.

Für einzelne Fragen in einem Testatbogen wurde die Trennschärfe nach einschlägigen Empfehlungen [8], [9] ermittelt. Dazu wurden die Ergebnisse der Teilnehmer den oben genannten Kategorien (niedrig, mittel, hoch) zugeordnet. Die Fragen der Eingangstestate wurden von unabhängigen Fachanatomen auf Verständlichkeit, Schwierigkeit und Vergleichbarkeit überprüft, um die Validität der unterschiedlichen Testatfragen über die Semester zu gewährleisten. Die Daten der Studierenden wurden anonymisiert (verschlüsselt durch eine aus der Matrikel-Nummer abgeleitete Personenkennzahl) den entsprechenden Prüfungsergebnissen zugeordnet. Als Kontrolle wurden mögliche Einflußgrößen auf die Prüfungsergebnisse untersucht, indem aus der gesamten Stichprobe Untergruppen gebildet wurden. Die Kriterien für die Gruppenbildung waren:

1.
das Alter der Studierenden,
2.
ihr Geschlecht, und
3.
ihre sprachliche Zugehörigkeit (Deutsch als Zweitsprache).

Die Korrelation zwischen den gepaarten Daten wurde in Form der Rangkorrelations-Koeffizienten nach Spearman für die gesamte Stichprobe, die 3 Semesterkohorten und die Untergruppen berechnet.

Da es aus praktischen Gründen im Kurs nicht möglich war, den Studierenden eine Prüfungsfrage innerhalb des Semesters ein zweites Mal vorzulegen, wurden bei jeweils 5 ausgewählten MC-Fragen oder OF, die in aufeinander folgenden Semestern unverändert eingesetzt worden waren, die Quoten richtiger Antworten zwischen beiden Semesterkollektiven miteinander verglichen. Die erzielten Notenkombinationen wurden bei Annahme einer Normalverteilung miteinander korreliert und der errechnete Wert rs als Maß für die Reliabilität eingesetzt.


Ergebnisse

Die Prüfungsergebnisse von 351 Studierenden wurden in die Auswertung einbezogen (Wintersemester 2003/04, n = 138, Wintersemester 2004/05, n=72, Wintersemester 2005/06, n=141). Die Auswahl von nur 72 Studierenden im Wintersemester 2004/05 kam dadurch zustande, daß in diesem Semester zwei Eingangstestate zum Einsatz kamen, von denen nur eines beide Fragetypen enthielt. Nur Teilnehmer im letzteren Testat wurden in die Semesterkohorte aufgenommen. Damit wurde das Ergebnis der statistischen Auswertung möglicherweise beeinflußt.

Der Anteil korrekt beantworteter Fragen an der Gesamtzahl der Fragen lag in allen Testaten zwischen 0.42 und 1.00. Der letztere Wert entsprach der maximal erreichbaren Punktezahl.

Die Trennschärfe der in allen Testaten eingesetzten Fragen lag bei den OF im Bereich von 0.07 bis 0.54 und bei den MC-Fragen im Bereich von 0.10 bis 0.64.

Der Vergleich der Ergebnisse der Eingangstestate mit dem Mittelwert der späteren Testate zeigte eine ohne Berücksichtigung des Fragentyps eine Korrelation von 0.2<rs<0.6. Hervorzuheben ist hier das Wintersemester 2003/04. In diesem Zeitraum erzielten 44 Studierende mit einem unterdurchschnittlichen Abschneiden im Eingangstestat in den späteren Testaten Ergebnisse, die mit ihren Punktzahlen im Eingangstestat einen deutlichen statistischen Zusammenhang aufwiesen (rs=0.56) (siehe Abbildung 1 b[Abb. 1]). Innerhalb des gesamten Semester-Kollektivs lag der Korrelationskoeffizient bei rs=0.31 (siehe Abbildung 1 a[Abb. 1]). Bei Berücksichtigung der Leistungsgruppen wird die Abweichung von der Mittellinie bei den Teilnehmern mit durchschnittlichen und unterdurchschnittlichen Leistungen in allen Semesterkohorten erkennbar (siehe Abbildung 2 a, c, d[Abb. 2]). Im Wintersemester 2004/05 war der Korrelationskoeffizient niedriger (rs=0.29) als im Semester davor, und wies mit p > 0.02 eine geringere Signifikanz auf (siehe Abbildung 2 c[Abb. 2]). Im Wintersemester 2005/06 betrug die Korrelation rs zwischen richtig beantworteten Fragen des Eingangstestats und den späteren Testaten 0.31 (p<0.0005), was dem Wert des Wintersemesters 2003/04 entsprach.

Die Reliabilität von einzelnen Fragen, die in mehreren Semestern eingesetzt wurden, wurde nach den empfohlenen Modellen [9] abgeschätzt. Bei der Abschätzung der Retest-Reliabilität von jeweils 5 ausgewählten OF und 5 inhaltlich vergleichbaren MC-Fragen, die in zwei aufeinander folgenden Semestern gestellt worden waren, stellte sich heraus, daß die Retest-Reliabilität von OF mit einer Wahrscheinlichkeit von r = 0.65 durchgehend höher als die von MC-Fragen (r=0.60) war.

Die Korrelationen zwischen OF und MC-Fragen wurden für die Semesterkohorten (siehe Abbildung 1 a, b und c[Abb. 1]) und die gesamte Stichprobe (siehe Abbildung 1 d[Abb. 1]) errechnet.

Die statistische Auswertung der miteinander verbundenen Daten (Studierende und Anteile richtig beantworteter Fragen bei den verschiedenen Fragentypen) zeigte, daß die OF von den Studierenden in 2 Wintersemestern mit einer höheren Erfolgsquote (t-Test, p<0.001) beantwortet wurden als MC-Fragen (2003/04: Formel 1 =0.84 vs. 0.75; 2005/06: Formel 1=0.83 vs. 0.68). Die Ergebnisse der ausgewählten 72 Testate mit vollständigem Eingangstestat aus der Semesterkohorte 2004/05 wichen davon ab: Hier lagen die Ergebnisse von MC-Fragen im Mittelwert höher als bei OF (0.94 vs. 0.88). Allerdings waren innerhalb der gesamten Kohorte 2004/05, in die auch die Ergebnisse von Teilnehmern ohne vollständiges Eingangstestat einbezogen worden waren (n=139), keine deutlichen Unterschiede zwischen den Ergebnissen nachweisbar (Formel 1=0.90 für MC vs. 0.87 für OF).

Die varianzanalytische Auswertung der Beziehung zwischen MC-Fragen und OF über alle drei Semester (n=351) ergab eine F-Ratio von 2,5456 bei einem Signifikanzniveau von p< 0.001. Es kann daher mit einer hohen Wahrscheinlichkeit davon ausgegangen werden, daß die Prüfungsergebnisse von beiden Frageformen in den Semestergruppen unterschiedlich waren.

Innerhalb der oben genannten, zur Kontrolle gebildeten Untergruppen (Alter, Geschlecht, Sprache) aus allen 3 Semestern war kein Einfluß der Zugehörigkeit auf das Prüfungsergebnis (t-Test der Rangkorrelationen) erkennbar (nicht abgebildet). In allen Gruppen wurden OF häufiger richtig beantwortet als MC-Fragen. Die Mittelwerte der Raten von richtig gelösten Antworten auf OF innerhalb der Untergruppen von „jüngeren“ und „älteren“ Studierenden (Formel 1=0.83 vs. 0.84, mittlere Differenz ∆Formel 1=0,16 vs. 0.09) sowie Frauen und Männern (Formel 1=0.84 vs. 0.85, mittlere Differenz ∆Formel 1=0,14 vs. 0.14) unterschieden sich nicht wesentlich. Die Korrelationskoeffizienten zwischen OF und MC-Fragen innerhalb der Untergruppen der gesamten Kohorte aus den Semestern 2003/04, 2004/06 und 2005/06 betrugen rs=0.27 für die Untergruppe „weiblich“ (n=211) und rs=0.40 für männlich (n=140).

Eine Besonderheit stellte eine kleine Kohorte von Studierenden dar, die Deutsch als Zweitsprache erlernt hatten. Sie schnitten mit ihrem Anteil von richtigen Antworten auf offene Fragen im Mittelwert mit Formel 1=0.78 niedriger ab als die Ergebnisse der gesamten Stichprobe (2003/04: Formel 1=0.86, 2004/05: Formel 1=0.88 und 2005/06: Formel 1=0.83). Der Mittelwert bei MC-Fragen wich mit Formel 1=0.70 ebenfalls eindeutig von den entsprechenden Werten der gesamten Stichprobe ab (2003/04: Formel 1=0.68, 2004/05: Formel 1=0.93 und 2005/06: Formel 1=0.76). Es bestand in dieser Stichprobe eine deutliche Korrelation zwischen MC-Fragen und OF (rs=0.58). Aufgrund der geringen Anzahl von Teilnehmern in der Gruppe (n=23) und der Inhomogenität der Stichprobe (z.B. wurde keine Unterscheidung bezogen auf die Deutschkenntnisse vorgenommen) ist es nicht möglich, auf ein erhöhtes Schwierigkeitsniveau von offenen Fragen oder MC-Fragen für Studierende in dieser Gruppe zu schließen.

Die unterschiedliche Bewertung des aktiven Wissens im Vergleich zwischen OF und MC-Fragen soll an 2 Beispielen verdeutlicht werden.

Beispiel 1: Der Schichtenbau der Muskulatur des Beckenbodens ist ein für die spätere klinische Tätigkeit relevantes Thema, das am besten bei der Präparation des Beckens erfaßt werden kann. Das Verständnis für die Anordnung der Schichten erfordert ein hohes Maß an Abstraktion, und wird nach unserer Erfahrung erst nach eingehender Beschäftigung mit dem Präparat und Abbildungen erworben. Mit einer offenen Frage konnte das erworbene topographische Wissen gezielt abgefragt werden, und wurde von 54% der Studierenden mit gutem Abschneiden im gesamten Testat richtig beantwortet (siehe Abbildung 3 [Abb. 3]). Da die topographisch-anatomischen Verhältnisse im Beckenboden mit einfachen MC-Fragen nur sehr eingeschränkt zu prüfen sind, kann man auf diese Art und Weise das Verständnis der räumlichen Verhältnisse im Präparat nur mit großem Aufwand abfragen, z.B. mit Hilfe von Photographien mit nummerierten Pfeilen. Die photographische Abbildung stellt das Präparat zweidimensional dar, deshalb ist der Transfer schwieriger und stellt eine höhere Anforderung an den Lernenden dar. Oft kann die photographische Abbildung das Präparat meistens nur unzureichend erfassen. Das für die Lösung der MC-Frage notwendige Wissen kann durch Lernen am Präparat nicht erworben werden, sondern verlangt zum Verständnis ein eingehendes Studium der Literatur. In den von Studierenden in der knappen Zeit gerne eingesetzten, kurzen Lerntexten wird die in dieser MC-Frage erwartete Antwort schlagwortartig abgehandelt. Als Folge beantworten 100% der Teilnehmer in der hohen Leistungsgruppe und 50% der mittleren die MC-Frage richtig, ohne notwendigerweise ein eingehendes topographisches Wissen zu besitzen.

Beispiel 2: Eine Frage aus dem letzten Abschnitt des Wintersemesters 2003/04 betraf eine die für die Präparation wichtige Struktur im Gehirn, den Fornix cerebri (siehe Abbildung 4 [Abb. 4]). Mit der offenen Frageform war die Struktur eindeutig abfragbar, und wurde von allen Studierenden richtig beantwortet, die im Testat gut abgeschnitten hatten. Um den Sachverhalt mit einer MC-Frage zu prüfen, sind aufwendige Distraktoren notwendig, die die Zielrichtung der Frage schließlich ändern, und das Wissen über das Konzept des Papez-Leitungsbogens erforderlich machen. Die Auswertung der Anteile der richtigen Antworten zeigt, daß bei beiden Fragentypen der Anteil der Teilnehmer mit richtigen Antworten mit steigender Leistung zunimmt. Anderseits ist die Lösungsquote für die MC-Frage in allen Gruppen niedriger. In der „hohen“ Leistungsgruppe lag der Anteil von Studierenden mit richtig beantworteten MC-Fragen bei 0.56, während alle Teilnehmer dieser Gruppe die entsprechende OF richtig beantworteten. Diese Beobachtung dürfte im durch die Distraktoren bedingten, höheren Schwierigkeitsgrad der MC-Frage begründet sein.

Die Praktikabilität des Prüfverfahrens wurde abschließend durch persönliche Einschätzung der Dozenten beurteilt. Die Antworten auf die OF waren nach einer kurzen Einarbeitungszeit für die Kursdozenten genauso unproblematisch auswertbar wie MC-Fragen. Antworten, die nicht in das vorgegebene Antwortschema paßten, wurden durch erfahrene Dozenten schnell und zuverlässig als richtige oder falsche Antwort klassifiziert. In einer nachträglichen gemeinsamen Auswertung konnten eventuell abweichende Bewertungen der Ergebnisse einander angeglichen werden.


Diskussion

Der Kursus der Makroskopischen Anatomie vermittelt durch seine Kombination aus praktischen Fertigkeiten und theoretischer Wissensvermittlung ein für die spätere ärztliche Tätigkeit essentielles räumliches Grundlagenwissen über den Körperbau. Zur Evaluierung des Lernerfolgs sind Vergleiche des Vorwissens mit dem im Kurs erworbenen Wissen sinnvoll [10].

Im Rahmen des Tübinger Kurses hatten Eingangstestate die Funktion, Studierende zum Erwerb des für eine sinnvolle Mitarbeit im Präparierkurs notwendigen Wissens anzuleiten. Es zeigte sich, daß sogar Studierende mit einem hohen Leistungsniveau im Eingangstestat schlechter abschnitten als in späteren Testaten, da sie noch über geringe Erfahrungen in der Testatvorbereitung verfügten. Deshalb war innerhalb der gesamten Stichprobe keine deutliche statistische Korrelation zwischen den Ergebnissen der Eingangstestate und denen von späteren Prüfungen nachweisbar. Die Beschäftigung mit dem für den Kurs erforderlichen Stoffkatalog spiegelte sich in den im Durchschnitt guten Ergebnissen des Eingangstestats wieder. Das zum Anfang der Wintersemester teilweise schlechte Abschneiden der Prüfungsteilnehmer beim Lösen der MC-Fragen kann darauf zurückgeführt werden, daß die Mehrheit der Studenten zu diesem Zeitpunkt noch geringe Erfahrungen mit dieser Frageform hatten.

Im späteren Verlauf des Kurses glichen sich die Anteile richtiger Antworten auf MC-Fragen und OF an. Tendenziell wurden jedoch OF in ihrer Fragestellung von den Studenten besser erfaßt und daher korrekt beantwortet, wie der Vergleich beider Frageformen in den Semesterkohorten von 2003/04 und 2005/06 zeigt. Für viele grundlegende Fragestellungen war die Erstellung von MC-Fragen, die ein den OF adäquates Schwierigkeitsniveau aufwiesen, zu aufwendig oder nicht machbar.

Lernschwache Studenten konnten aufgrund ihres Abschneidens in den Testaten unterhalb der Bestehensgrenze identifiziert werden. Nach erneuten Lernanstrengungen in mündlichen Nachprüfungen wurde ein für die Fortsetzung des Studiums erforderliches Wissen testiert.

In einer weiteren Betrachtung sollen die Praktikabilitätskriterien für offene Fragen und MC-Fragen miteinander verglichen werden. Ihr alleiniger Einsatz in kursbegleitenden Prüfungen des vorklinischen Abschnitts, die ein noch nicht gefestigtes Wissen prüfen, wird nach vergleichenden Untersuchungen in Prüfungen der Medizinischen Mikrobiologie in Frage gestellt [3]. Auch neuere Untersuchungen stimmen darin überein, daß der Prüfungserfolg in MC-Fragen im ursprünglichen „richtig-falsch“-Schema zu einem wesentlichen Teil durch das Fragenformat und dem damit verbunden Entscheidungszwang für eine richtige Lösung bedingt ist, was die Reliabilität der Frage oft ungünstig beeinflußt [11]. Über die Eindeutigkeit einer Frage und den Schwierigkeitsgrad entscheidet die Güte der als Distraktoren eingesetzten Auswahlantworten. Die hohen Anforderungen an Distraktoren - sie sollen verständlich sein, als richtige Antwort in Frage kommen, sich eindeutig von der „richtigen“ Antwort unterscheiden, aber nicht die beste Lösung für einen Fall darstellen - machen die Erstellung von MC-Fragen im Grundlagenfach der Makroskopischen Anatomie schwierig. Die Untersuchung der Antwortmuster auf MC-Fragen in klinischen Fächern hat gezeigt, daß bei einem überwiegenden Teil der Fragen die richtige Antwort zu offensichtlich ist und gefunden wird. Damit erhalten MC-Fragen ein insgesamt ähnliches Schwierigkeitsniveau wie offene Fragen. Anderseits sind Fragen mit niedrigem Schwierigkeitsgrad ohne Distraktorfunktion, gerade dann sinnvoll, wenn grundlegende Fakten abgefragt werden sollen [12]. Ein Beispiel dafür ist die Frage nach den Bestandteilen des Sternums (als richtige Antwort wurde in diesem Fall die Sequenz „Manubrium sterni, Corpus sterni, Processsus xiphoideus“ gewertet).

Selbstverständlich führt die Anwendung von offenen Fragen nicht automatisch zu einer eindeutigen Fragestellung. In der Erfahrung der Autoren konnte manchmal eine offene Frage nicht mit letzter Eindeutigkeit formuliert werden, ohne die Antwort mit der Fragestellung zu verraten. Dennoch zeigte die Auswertung, daß von den Studierenden überwiegend die vorgesehene korrekte Antwort (ein Wort oder kurzer Satz) gegeben wurde. Nicht vorgesehene alternative richtige Antworten wurden von den Auswertenden rasch erfaßt und bewertet, und störten die Auswertung nicht. Deshalb erforderte die direkte Auswertung der Prüfungsbögen mit offenen Fragen nicht mehr Zeit als mit MC-Fragen. Insgesamt gesehen, ist der Aufwand für die Erstellung von MC-Fragen, für eventuell erforderliche Modifikationen und für die Auswertung höher anzusetzen als beim offenen Fragentyp. Nur bei der maschinellen Auswertung von Antwortbögen, wie sie bei den zentralen ärztlichen Prüfungen eingesetzt werden, sind MC-Fragen anderen Frageformen überlegen, da die Auswertung offener Fragen mit automatisierten Lese- und Prüfsystemen noch immer Probleme bei der Erkennung von Antworten und der Bewertung von eventuell richtigen Alternativen aufweist. Der für eine automatisierte Auswertung erforderliche technische Aufwand (maschinenlesbare Antwortbögen für jedes Testat, PC mit Bogenleser, Auswertesoftware) für die Erfolgskontrolle eines Kurses mit 200 - 300 Teilnehmern ist für die Mehrzahl der betroffenen Institute oder Kliniken nicht vertretbar. Denkbar ist die Anschaffung eines geeigneten Systems in einem größeren Rahmen, z.B. als Teil eines fakultätseigenen Prüfsystems, das einen Fragenpool für die Prüfungen aller Kurse und Fachgebiete in mehreren Semestern einsetzt. In einem kleinen, auf ein Institut oder eine Klinik begrenzten Rahmen, kann eine automatisierte Prüfung mit offenen Fragen oder MC-Fragen am PC eine Alternative sein. Dazu sind eine nicht von außen beeinflußbare Identifikation der einzelnen Teilnehmer und ein wirksamer Schutz vor Täuschungsversuchen (z.B. durch Aufsicht) erforderlich.

Das Interesse der Medizinischen Fakultäten und der zuständigen Landesministerien richtet sich auf die Referenzgruppe derjenigen Studierenden, die nach der Regelstudienzeit zur Prüfung antreten. Eine objektive Bewertung des Ausbildungserfolgs ist nur möglich, wenn ein hoher Anteil der Studierenden an einer Fakultät effizient auf die Anforderungen der Prüfung vorbereitet wird [13]. Unabhängig vom technischen Aufwand ist bei der Vorbereitung von Studierenden auf die 1. Ärztliche Prüfung im vorklinischen Kurs ein adäquates Wissensniveau sicherzustellen. Mündliche Prüfungen durch erfahrene Lehrkräfte sind aufgrund ihres Lehreffektes sinnvoll für eine gründliche Ausbildung. Leider können sie bei einer nach unseren Erfahrungen abnehmenden Betreuungsrelation zwischen Lehrkräften und Studierenden, kurzen Prüfungszeiten und begrenzter Kapazität der Prüfer ihre Vorteile kaum ausspielen. Schriftliche Prüfungen, in denen die unterschiedlichen Fragentypen überlegt eingesetzt werden, stellen einen zeitsparenden und gut dokumentierbaren Ersatz dar. Wie beschrieben, sind nach der Meinung der Autoren OF zum Prüfen von Grundbegriffen der im Makroskopie-Kurs vermittelten räumlichen Orientierung die bessere Wahl. Bei Prüfungen im fortgeschrittenen Stadium des Kurses, die funktionelle Zusammenhänge und eventuelle klinische Fragestellung zum Inhalt haben, können auch MC-Fragen zum Einsatz kommen. Sie spielen in diesem fortgeschrittenen Kursabschnitt auch die Rolle einer methodischen Einführung für die 6 Monate später folgende 1. ärztliche Prüfung.


Danksagung

Wir danken Herrn Prof. Dr. Hans-Joachim Selbmann, Institut für Medizinische Statistik der Universität Tübingen, für die Beratung und wertvolle Anregungen, Frau Doris Guénon für die statistische Auswertung der Daten, und Frau Gertrud Fischer für ihre engagierte Mitarbeit bei der Datenerhebung.


Literatur

1.
Bundesministerium für Gesundheit. Approbationsordnung für Ärzte vom 27. Juni 2002. Bundesgesetzbl. 2004; 44:2405-2435.
2.
Knox JD. What is ... a modified essay question? Med Teach 1989;11(1):51-57.
3.
Case SM, Swanson DB. Extended matching items: a practical alternative to free response questions. Teach Learn Med. 1993;5;107-115.
4.
Schulze J, Drolshagen S, Nürnberger F, Ochsendorf F, Schäfer V, Brandt C. Einfluss des Fragenformates in Multiple-Choice (MC)-Prüfungen auf die Antwortwahrscheinlichkeit: eine Untersuchung am Beispiel mikrobiologischer Fragen. GMS Z Med Ausb. 2005;22(4):Doc 218.
5.
Hofer M, Jansen M, Soboll S. Verbesserungspotenzial des Medizinstudiums aus retrospektiver Sicht von Facharztprüflingen. Dtsch Med Wochenschr. 2006;131(8):373-378.
6.
Schulze J, Drolshagen S, Nürnberger F, Siegers S-P, Sayed Ali S. Prüfen und Prüfungen im Rahmen der neuen Approbationsordnung - Grundsätze und Rahmenbedingungen. Med Ausbild. 2004;21:30-34.
7.
Drews U, Oppitz M. Computerunterstützung für eine "just in time"-Anatomie im neuen Lehrgebäude auf dem Österberg. In: Bichler KH, Mattauch W (Hrsg.) Multimediales Lernen in der medizinischen Ausbildung. Berlin, Heidelberg, New York: Springer-Verlag; 2001.
8.
IAWF Institut für Aus-, Weiter- und Fortbildung Medizinische Fakultät Universität Bern (Hrsg.). Kompetent prüfen. Handbuch zur Planung, Durchführung und Auswertung von Facharztprüfungen. Im Auftrag der: Verbindung der Schweizer Ärzte FMH und der Österreichischen Ärztekammer ÖÄK. Bern, Wien: ÖAK; 1999.
9.
Möltner A, Schellberg D, Jünger J. Grundlegende quantitative Analyse medizinischer Prüfungen. GMS Z Med Ausb. 2006;23(3):Doc53.
10.
Winkelmann A. Anatomical dissection as a teaching method in medial school. A review of the evidence. Med Teach. 2007;41(1):15-22.
11.
Moss E. Multiple choice questions: their value as an assessment too. Curr Opin Anaestesiol. 2001;14(6):661-666.
12.
Bhakta B, Tennant A, Horton M, Lawton G, Andrich D. Using response theory to explore the psychometric properties of extended matching questions examination in undergraduate medical examination. BMC Med Edu. 2005;5(1):9-22.
13.
Brähler E, Wittig U, Beckert C. Der Studienerfolg an Medizinischen Fakultäten- wie viele Studienanfänger bestehen nach vier Semestern die ärztliche schriftliche Vorprüfung? Gesundheitswesen. 1998;60(5):317-321.