gms | German Medical Science

GMS Journal for Medical Education

Gesellschaft für Medizinische Ausbildung (GMA)

ISSN 2366-5017

Das Fähnchentestat als neue Prüfungsform im Fach Anatomie an der Ludwig-Maximilians-Universität München

Tag test as a particular kind of examination in the dissection course

Originalarbeit Humanmedizin

  • corresponding author Christopher Adamczyk - Ludwig-Maximilians-Universität München, Anatomische Anstalt, München, Deutschland
  • author Bert Huenges - Ruhr-Universität Bochum, Büro für Studienreform, Bochum, Deutschland
  • author Magdalena Müller-Gerbl - Ludwig-Maximilians-Universität München, Anatomische Anstalt, München, Deutschland
  • author Reinhard Putz - Ludwig-Maximilians-Universität München, Anatomische Anstalt, München, Deutschland

GMS Z Med Ausbild 2007;24(3):Doc152

Die elektronische Version dieses Artikels ist vollständig und ist verfügbar unter: http://www.egms.de/de/journals/zma/2007-24/zma000446.shtml

Eingereicht: 20. Juni 2007
Veröffentlicht: 15. August 2007

© 2007 Adamczyk et al.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielfältigt, verbreitet und öffentlich zugänglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Zusammenfassung

Hintergrund: Angesichts der stetig steigenden Zahl (WS 06/07 n=930) an Studienanfängern der Medizin in München ist im Fach Anatomie die traditionelle Prüfungsform der praktischen, mündlichen Prüfung am Präparat für die Bewertung in den Testaten nicht mehr zuverlässig und praktikabel durchführbar.

Material & Methoden: Als Alternative wurde ein Prüfungsparcours etabliert, in dem die Studierenden der Reihe nach unterschiedliche Stationen mit ausgelegten Präparaten durchlaufen und entsprechende Aufgaben bearbeiten. Wir untersuchten die Praktikabilität, Zuverlässigkeit und studentische Akzeptanz des Prüfungsformates.

Ergebnisse: Durch sieben parallel aufgebaute Prüfungsparcours können 930 Studierende in 155 Minuten mit einem Betreuungsaufwand von zwei akademischen und 32 studentischen Mitarbeitern geprüft werden. Die Ergebnisse zeigen eine adäquate Trennschärfe, hohe Zuverlässigkeit und angemessene Schwierigkeit der Prüfung. Ergebnisse einer schriftlichen Evaluation von 442 Studierenden (49%) sprechen für eine hohe Akzeptanz des Prüfungsformates.

Schlussfolgerung: Wir halten diese Form der Prüfung als ernst zu nehmende Alternative zur bisher in den anatomischen Testaten traditionellen Form der mündlichen Prüfung am Präparat.

Schlüsselwörter: Anatomische Testate, studentische Prüfungen, Präparierkurs, makroskopische Anatomie, Reliabilität, Prüfungsevaluation

Abstract

Background: In view of the continuously increasing number of beginners of medical students at the Ludwig-Maximilians-University (LMU), the traditional kind of the practically oral tests on the cadaver for the assessment in tests of anatomy has become no longer reliably and practically realisable.

Material and Methods: As an alternative was an exam-course established, where the students have to pass in turn different stations with preparations and to work on relating tasks. We investigated the practicability, reliability and the students' acceptance of this form of testing.

Results: In 7 parallel prepaired exam-courses, 930 students can be testet within 155 minutes with time and effort of 2 academic teachers and 32 student co-workers. The results show an adequate selectivity high reliability and apropriate difficulty. Results of a written evaluation of 442 students (49%) show a high acceptance of this kind of testing.

Summary: This kind of test represents an alternative, which has to be taken seriously, to the traditional form of anatomical tests.

Keywords: anatomical testing, assessment of medical students, gross anatomy, reliability, evaluation of medical assessment


Einleitung

Im Wintersemester 06/07 stand die medizinische Fakultät der Ludwig-Maximilians-Universität München (LMU) vor der Herausforderung, 930 Studierende im ersten vorklinischen Jahr einschreiben zu müssen. Zum Erhalt des Scheines in Makroskopischer Anatomie sind im ersten Studienjahr sieben Testate zu absolvieren, davon verteilen sich fünf auf das Wintersemester und zwei auf das Sommersemester. Demgegenüber ist die Anzahl der betreuenden Ausbilder für den Makroskopischen Abschnitt sehr gering (siehe Abbildung 1 [Abb. 1]), was zu einem überaus ungünstigen Verhältnis von Lehrpersonal zu Studierenden führt und organisatorische Probleme aufwirft.

So sprengt etwa die in der Anatomie traditionelle Form der mündlichen Prüfung am Präparat jeglichen vertretbaren zeitlichen Rahmen und zwingt zur Einbeziehung von Prüfern, die selber nicht im Ablauf des Kurses aktiv waren. Auch wurde eine Zeit lang versucht, Studierende höherer Semester als Prüfer einzusetzen. Verständlicherweise resultierte daraus ein nicht mehr zu vertretendes Maß einer formalen wie auch inhaltlichen Heterogenität der Prüfung.

Es war daher unser Anliegen, eine Prüfungsform im Präparierkurs einzusetzen, die es ermöglicht, eine praktische Prüfung am Präparat durchzuführen, die jedoch im Grad der Standardisierung mit einer schriftlichen Klausur vergleichbar ist. Sie sollte Grundlagenwissen, wie z.B. Abrufbarkeit von Begriffen, systematische Einordnungen sowie funktionelle Aspekte überprüfen, aber auch die Integration klinisch-praktischer Aspekte ermöglichen. Schließlich muss sie in vertretbarem zeitlichem Rahmen und mit den vorhandenen Ressourcen möglichst transparent und zügig für Studierende und Lehrpersonal durchführbar sein.

Eine solche „Fähnchenprüfung“ soll im Folgenden am Beispiel des Testates I im WS 06/07 mit der zugehörigen Evaluation vorgestellt werden.

Prüfungstheorie

Bekanntermaßen haben Prüfungen nicht nur die Aufgabe, das Wissen der Studierenden zu bewerten, sondern auch Anregungen zur Strukturierung ihres Wissens zu geben und sie zu motivieren, einen gewissen Wissenslevel zu erreichen [7], [10]. So hat die Erfahrung gezeigt, dass nach der Devise: „Assessment drives learning“ Art und Weise einer Prüfung die Inhalte des Lernens sowie das Lernverhalten der Studierenden maßgeblich bestimmen [6]. Eine Übereinstimmung der eigentlichen Lehrziele mit den tatsächlichen Prüfungsgegenständen ist demnach unbedingt anzustreben [8].

Darüber hinaus sollen Prüfungen aber im Idealfall ein hohes Maß an Validität, Reliabilität und Objektivität haben [3], [4] und zudem praktisch durchführbar und finanzierbar sein [2]. Vor allem der Aspekt der Durchführbarkeit spielt in der medizinischen Ausbildung der LMU auf Grund der hohen Zahl an Studierenden verständlicherweise eine große Rolle.

Was sind nun aber die Ziele der anatomischen Ausbildung und die daraus resultierenden, zu prüfenden Gegenstände?

In der vorklinischen Ausbildung geht es um die Vermittlung der wissenschaftlichen Grundlage mit dem Ziel, für die Studierenden das grundlegende medizinische Vokabular zur Selbstverständlichkeit werden zu lassen und es in einen systematischen Zusammenhang stellen zu können. Erst durch die medizinische Sprache erhalten die Studierenden die Möglichkeit, auch klinische Probleme begrifflich zu erfassen [5].

Die anatomische Ausbildung hat darüber hinaus eine Einführung in die Funktionen des Körpers zu vermitteln. Aus diesem Lehrziel ergeben sich die Systematik sowie funktionale Aspekte als Prüfungsgegenstand.

Moderne Verfahren der Bildgebung ermöglichen eine Darstellung anatomischer Strukturen in vivo, wie sie die Grundlage moderner klinischer Arbeit sind. Als praktischer Bezug der anatomischen Ausbildung sind die entsprechenden Strukturen anhand bildgebender Verfahren (MRT, CT, konventionelles Röntgen etc.) zu benennen [12].

Um die Studierenden auf die im späteren klinischen Alltag relevante interindividuelle Vielschichtigkeit anatomischer Gegebenheiten vorzubereiten, empfehlen sich die praktische Arbeit sowie die Prüfung am Präparat [1].

Hypothese

Es ist unser Ziel eine Prüfungsform zu entwickeln, die es ermöglicht eine große Zahl an Studierenden in einem vertretbaren Zeitaufwand standardisiert und fair praktisch am Präparat zu prüfen.

Ziel der Ausbildung des Kurses ist es, dass der Studierende in der Lage ist, eine Struktur am Präparat oder anhand eines Bildgebungsverfahren zu erkennen und benennen zu können, sowie diese Struktur in einen erweiterten Kontext, sprich Systematik, Funktion, Entwicklung etc. stellen zu können.

Organisation

Im sog. Fähnchentestat müssen die Prüflinge insgesamt 21 nummerierte Stationen in Form eines Parcours der Reihe nach durchlaufen. An 20 Stationen sind entweder anatomische Präparate, Abbildungen (z.B. Röntgenbilder) oder theoretische Fragen ausgelegt. Die 21. Station dient den Studierenden für eventuelle Nachbearbeitungen. Die zu den Stationen gehörenden Fragen sind schriftlich auf einem mitgeführten Klausurblatt zu beantworten. Für jede Station steht dem Prüfling eine Minute Zeit zur Verfügung. Es werden in der Regel SAQs (short-answer-questions) verwendet, gelegentlich finden auch Multiple Choice Fragen ihren Einsatz. Die Fragen gliedern sich grundsätzlich in die zwei Teile a) und b):

a) Hierbei muss eine am Präparat oder an einer Bildbeilage markierte Struktur erkannt und möglichst entsprechend der geltenden anatomischen Nomenklatur (T.A.) richtig benannt werden.

b) Es wird eine weiterführende Frage zu der unter a) zu benennenden Struktur gestellt. Diese kann aus den Bereichen Systematik, Topographie, Funktion, Entwicklung, klinischer Bezug etc. kommen.

Bei den SAQs werden beide Fragenabschnitte gesondert bewertet. Multiple Choice Fragen werden nur dann als richtig gewertet, wenn - je nach verlangter Art der Selektion - alle richtigen oder alle falschen Thesen angekreuzt wurden. Die Prüfung gilt gemäß der Studienordnung (StuO MeCuM § 12, Abs. 6, Satz 1) mit Erreichen von 60% richtiger Antworten als bestanden.

Grundlage der Prüfung sind die von den Studierenden im Verlauf des Kurses erstellten und von dem Lehrpersonal als prüfungstauglich bewerteten Präparate. Die zu erkennenden Strukturen werden beim Zusammenstellen der Klausur von der Kursleitung aus dem Programm des jeweiligen Abschnittes des Präparierkurses ausgewählt.

Die Prüfung findet an insgesamt sieben bis neun identischen Parcours gleichzeitig statt. Der Aufbau der Parcours erfolgt durch das Lehrpersonal des Präparierkurses. Es zeigte sich, dass mit fünf bis sechs Mitarbeitern die Parcours in der Regel binnen zwei bis vier Stunden aufzubauen waren. Beim Aufbau wird auf größtmögliche Übereinstimmung zwischen den Parcours geachtet.

Am Prüfungstag versammeln sich zu Beginn der Prüfung alle Studierenden im Hörsaalbereich des Hauses, wo sie unter Aufsicht gewissermaßen kaserniert werden (Handyverbot). Nach Überprüfung der Personalien werden sie randomisiert auf die verschiedenen Parcours verteilt. Eine Minute bevor ihr individueller Durchlauf beginnt, wird ihnen die Klausur mit den zu den jeweiligen Stationen gehörenden Fragen auf einem Klemmbrett ausgehändigt.

Jede Minute ertönt ein Schallsignal, welches das Vorrücken zur nächsten Station anzeigt. Für einen reibungslosen Ablauf sowie zur Unterbindung eventueller Kommunikation zwischen den Prüflingen sorgen die im Saal anwesenden Aufsichtspersonen.

Nach der 21. Station wird die Klausur abgegeben; die Studierenden verlassen das Institut getrennt von den Studierenden, die noch auf ihre Prüfung warten.

Für die Durchführung der Prüfung sind pro Parcours zwei Aufsichtspersonen notwenig sowie eine Person zur Verteilung und zum Einsammeln der Prüfungsbögen. Des Weiteren werden im Prüfungsbereich eine Person zur Kontrolle des Einlasses, eine zum Verteilen der Studierenden auf die unterschiedlichen Parcours, eine zum Anzeigen der jeweiligen Minute sowie eine für den Nachschub an Klausuren benötigt. Darüber hinaus sind drei Personen notwendig, um die wartenden Studierenden zu beaufsichtigen. Dieser Bedarf an Mitarbeitern kann aus der Gruppe der studentischen Hilfskräfte gedeckt werden. Im Prüfungsbereich selbst reichen zwei akademische Angestellte, um einen reibungslosen und fairen Ablauf der Prüfung zu garantieren. In diesem Aufbau ist eine Durchführung der Prüfung für 930 Studierende durch etwa 30 - 36 Personen möglich.

Die Korrektur der Antwortbögen erfolgt durch die übrigen akademischen Lehrpersonen parallel zur Prüfung, sobald die ersten Klausurbögen abgegeben sind. Nach Beendigung der Parcours kommen die studentischen Hilfskräfte hinzu. Die Gesamtdauer der Korrektur beträgt 4-5 Std. Als Bewertungsgrundlage dient ein von der Kursleitung verfasster Lösungsbogen. Die Prüfungsergebnisse werden in der Regel am selben Tag maximal acht Stunden nach Prüfungsbeginn unter der jeweiligen Matrikelnummer im Internet sowie durch Aushang veröffentlicht.

In den darauf folgenden Tagen haben die Teilnehmer der Prüfung die Möglichkeit, ihre Klausuren unter Aufsicht einzusehen. Für Studierende, die nicht bestanden haben, wird mit einer Woche Abstand noch einmal eine Prüfung dieser Form, jedoch mit veränderten Fragen angeboten (Nachtestat).

Auswertung der Prüfungsergebnisse

Für die statistische Auswertung wurde exemplarisch die Prüfung zum Thema Knochen und Gelenke aus dem WS 06/07 herangezogen.

Aus den Prüfungsergebnissen wurden die durchschnittlich erreichte Punktezahl und deren Standardabweichung bestimmt. Eine adäquate Schwierigkeit der Prüfung wird angenommen, wenn der Mittelwert abzüglich der 1- bis 1,5-fachen Standardabweichung der vorgegebenen Bestehensgrenze von 60 % entspricht.

Die Ergebnisse werden auf signifikante Unterschiede zwischen den Prüfungsgruppen (A - F) untersucht, um zu überprüfen, ob sich Unterschiede innerhalb der einzelnen studentischen Gruppen ergeben.

Ferner wird untersucht, ob die Fragen hinreichend trennscharf (Trennschärfe r’, Ziel > 0,2) und in sich konsistent sind (Cronbach Alpha, Ziel > 0,8) [7].


Ergebnisse

Die Studierenden wurden mit Hilfe einer computergestützten Evaluation zu diesem Prüfungsmodus befragt. Dabei hatten sie die Möglichkeit, die jeweiligen Fragen im Rahmen der Hauptvorlesung in einem zeitlichen Abstand von zwei Monaten zum untersuchten Testat auf einer fünfstufigen Skala von sehr schlecht (1) bis sehr gut (5) zu bewerten.

Prüfungsergebnisse

Insgesamt haben von 950 angemeldeten 886 Studierende (59% Studentinnen) an dieser Prüfung teilgenommen, von denen 790 (89,2%) bestanden haben.

Das Prüfungsergebnis wird in Abbildung 2 [Abb. 2] gezeigt: Im Mittel wurden 30,4 (+/- 6,2) von 40 möglichen Punkten erreicht, der Schwierigkeitsindex der Fragen 1 - 20 a) beträgt im Mittel 0,81, der Index der Fragenteile 1 - 20 b) 0,71. Weibliche Prüflinge schnitten mit 30,8 vs. 29,8 Punkten etwas besser ab als ihre Kommilitonen (p< 0,05) (siehe Abbildung 3 [Abb. 3]). Zwischen den studentischen Gruppen A - F zeigten sich keine signifikanten Unterschiede in Bezug auf die erreichten Punkte (1 way ANOVA; p = 0,133) (siehe Abbildung 4 [Abb. 4]).

Der Parameter Cronbach α beträgt 0,862 (Fragen 1 - 20 a) = 0,766; 1-20 b) = 0,738). Die mittlere Trennschärfe (r`) liegt bei 0,35 (0,07 - 0,48), 34 von 40 Fragen weisen eine Trennschärfe > 0,2 auf.

Evaluationsergebnisse

Im Rahmen der Hauptvorlesung nahmen im Abstand von zwei Monaten zum Testat 442 von 886 Studierenden (49,9%) an der Evaluation teil.

Den zeitlichen Rahmen beurteilten die Studierenden im Mittel mit 3,76 (+/- 1,02), den Stoffumfang im Mittel mit 3,95 (+/- 0,87) von 5 Punkten.

92% der Studierenden waren der Meinung, das gelernte Wissen wiedergegeben zu haben (Mittelwert 3,83 +/- 0,89), und ebenfalls 92% fühlten sich durch den anatomischen Kurs auf die Prüfung vorbereitet (Mittelwert 3,84, +/- 0,92).

Organisation und Anlauf wurden im Mittel mit 3,33 (+/- 1,25) Punkten insgesamt am schwächsten bewertet.

Die angegebene Korrelation mit der eigenen erwarteten Prüfungsleistung betrug im Mittel 3.71 (+/- 0.93) Punkte, die Frage nach der Gerechtigkeit wurde im Mittel mit 4,05 (+/- 0,87) Punkten, die Fairness der Prüfung im Mittel mit 4,33 (+/- 0,91) Punkten bewertet (Evaluationsergebnisse siehe Abbildung 5a [Abb. 5] und b [Abb. 6]).


Diskussion

Formalia

Zwei Faktoren bestimmen die Formalia einer Prüfungsfrage: zum einen die Art der Frage an sich und zum anderen das Format der erwarteten Antwort. Bei den Fragen wird zwischen kontextreichen- und kontextarmen Formulierungen unterschieden. Bei kontextreichen Fragen, wie z.B. bei der Darstellung klinischer Fälle beruht ein Großteil der Leistung darauf, das vorhandene Problem zu erkennen und in einem nächsten Schritt das vorhandene Wissen auf das erkannte Problem zu transferieren. Kontextarme Fragen überprüfen dagegen eher gezielt faktisches Wissen.

Die Antwortenformate, wiederum lassen sich generell in freie Antworten oder vorgegebene (Multiple-choice-Antworten) unterteilen. Bei den freien Antworten unterscheidet man sog. short-answer-questions (SAQs) und Antworten im Aufsatzformat (Essay- Format).

SAQs verlangen eine spontan generierte Antwort und eignen sich damit vor allem dazu, faktisches Wissen zu überprüfen. Bei Antworten im Aufsatzformat dagegen wird eher eine Argumentation auf der Basis entsprechenden Wissens verlangt. Mit MC-Fragen wiederum kann sowohl faktisches Wissen abgefragt als auch assoziatives Wissen überprüft werden [13].

Der von den Studierenden im Laufe ihres Studiums zu bewältigende Lernstoff gliedert sich in unterschiedlich abgestufte Wissensqualitäten [10]. Die erste Stufe stellt das jeder Zeit abrufbare Wissen, (Grundwissen, Knowledge) dar. Darauf aufbauend wird assoziatives sowie praktisches Wissen erworben. Dieses lässt sich dann wiederum in sog. primäres und sekundäres Wissen untergliedern. So ist das primär assoziative Wissen dasjenige, das man bereits einmal schnell zugänglich prüfungsbereit, aktiv reproduzierbar gewusst hat (z.B. systematisches Wissen). Unter sekundärem assoziativem Wissen dagegen ist zusammenzufassen, was man einmal verstanden hat (z.B. funktionale Aspekte).

Zur Überprüfung der Abrufbarkeit von anatomischen Begriffen (Grundwissen) eignet sich als Format in erster Linie die kontextarme Frage, insbesondere die SAQ. Im Gegensatz zu den ebenfalls für diesen Einsatz geeigneten MC-Fragen ist dabei die spontane Entwicklung einer Antwort erwünscht [6]. Gerade im Hinblick auf das Lehrziel, die Studierenden zum aktiven Gebrauch von anatomischen Begriffen zu führen, ist es wichtig, sie die Antwort als aktive Leistung selber generieren zu lassen und nicht aus einer Reihe von Begriffen den richtigen auszuwählen. Des Weiteren eignet sich dieses Format auch zur Überprüfung von assoziativem Wissen, in dem unter Teil b) jeder Frage ein weiterführender Kontext nachgefragt wird.

Selbstverständlich erlaubt es das relativ offene Format der Fähnchenprüfung, gelegentlich auch MC-Fragen zur Überprüfung von systematischen sowie von funktionellen Aspekten einzusetzen.

Diskussion der Organisation und des Ablaufes

Um den Kriterien der Objektivität einer Prüfung gerecht zu werden, ist es notwendig, den Prüfungsablauf so weitgehend als möglich zu standardisieren [9]. Dies wird hier durch einen für alle Prüflinge gleichen Klausurbogen erreicht, durch den einheitlichen Prüfungsparcours und durch einen standardisierten Lösungsbogen als Bewertungsgrundlage der Korrektur. Die Tatsache, dass an sieben bis neun Prüfungsparcours gleichzeitig geprüft wird, birgt demgegenüber nur ein kleines Restrisiko von Ungleichheit. Darin steckt auch die Herausforderung für die Studierenden, die individuelle anatomische Vielfalt als Ziel der Ausbildung anzusehen. So hat diese Prüfungsform auch dazu geführt, dass sich die Studierenden in der Lernzeit sich gegenseitig möglichst viele unterschiedliche Präparate demonstrierten.

Eine potentielle Fehlerquelle birgt auch die große Anzahl an Korrektoren, dem kann aber durch Stichproben der Kursleitung begegnet werden.

Obwohl die Prüfung pro Prüfling 22 Minuten dauert, muss sich der einzelne Studierende angesichts einer Gesamtzahl von 930 möglichen Prüflingen trotz sieben Parcours auf einen Zeitaufwand von 155 Minuten zur Durchführung der gesamten Prüfung einstellen. Dies bedeutet, dass die zuletzt geprüften Studierenden 133 Minuten auf den Beginn ihrer Prüfung warten müssen, ein Umstand, der verständlicherweise immer wieder zu Unmut unter den Prüflingen führt. Dem wird begegnet, indem die aus organisatorischen Gründen im Kurs verwendete Einteilung in die Gruppen A-F benutzt wird, um von Testat zu Testat eine jeweils abwechselnde Prüfungsreihenfolge festzulegen. Darüber hinaus wird während der Wartezeit freibleibend ein „Unterhaltungsangebot“ in Form von medizinnahen Videos angeboten, was allerdings auf durchaus unterschiedliche Begeisterung stößt.

Auf der Seite des Institutes beträgt der Zeitaufwand 6094 Arbeitsminuten der Akademischen Mitarbeiter und 9352 Arbeitsminuten der Studentischen Mitarbeiter (siehe Abbildung 6 [Abb. 7]). Vor dem Hintergrund der personellen Besetzung, der hohen Zahl an Studierenden und dem mit dieser Prüfungsform erreichten Grad an Standardisierung der praktischen Prüfung am Präparat stellt dies für uns einen vertretbaren zeitlichen Aufwand dar.

Der Zeitaufwand ist zwar im Vergleich zu dem alten Prüfungssystem der mündlichen Prüfung höher (Mündliche Prüfung bei 930 Studenten 4380 Arbeitsminuten der Akademischen Mitarbeiter und 3300 Arbeitsminuten der Studentischen Mitarbeiter), jedoch ist es gelungen mit der neuen Prüfungsform die Probleme der Heterogenität unterschiedlicher Prüfer auszuschalten und eine standardisierte und faire Prüfung zu gewährleisten.

Diskussion der statistischen Untersuchung

Um Aussagen bezüglich der Prüfungsqualität dieser Prüfungsform treffen zu können, wurde eine statistische Untersuchung der Prüfungsergebnisse durchgeführt. Die auf den ersten Blick annähernd normal verteilte Kurve der von dem Kollektiv der Prüflinge erreichten Gesamtpunktezahl (Abbildung 2 [Abb. 2]) wird generell als ein positives Indiz in Bezug auf die Aussagekraft der vorliegenden Prüfung gewertet. Die Tatsache, dass bezogen auf das Gesamtergebnis der Mittelwert der erreichten Punkte abzüglich der ersten Standardabweichung 60% der möglichen Punkte ergibt, rechtfertigt die in München übliche Bestehensgrenze von ebenfalls 60% der möglichen Punkte. Somit wird das Kollektiv der Prüflinge im Bereich ab der zweiten Standardabweichung nach unten hin als Durchfaller gewertet. Die Schwierigkeit der Prüfung erscheint somit – soweit dies mittels beider rein normorientierter Verfahren beurteilt werden kann – angemessen.

Dem angesichts der großen Kohorte zwar statistisch signifikanten, aber insgesamt geringen Unterschied von 1,02 Punkten zwischen den männlichen und weiblichen Prüflingen wird keine große Bedeutung beigemessen. Erfreulicherweise zeigte sich beim Vergleich der Prüfungsparcours A-F kein signifikanter Unterschied, der auf eine Ungleichheit in der Schwierigkeit der Prüfungsparcours hindeuten könnte.

Der in dieser Prüfung erreichte Wert von Cronbach α=0,862 spricht für eine insgesamt zuverlässige Prüfung [6], [9].

Die Prüfungsaufgaben a) und b) sind hinsichtlich ihrer Trennschärfe und Zuverlässigkeit als annähernd gleichwertig anzusehen. Im Mittel wurden in den Fragen b) etwas schwächere Ergebnisse erreicht. Eine Ursache könnte darin liegen, dass Schwierigkeiten beim Erkennen einer Struktur im Teil a) weiterführende Themen wie Systematik oder Funktion in Teil b) nicht so leicht beantwortet werden können.

Die Trennschärfe (r´) der Fragen ist insgesamt gut; bei sechs der vierzig Fragen mit einer Trennschärfe < 0,2 handelt es sich in erster Linie um solche, die grundlegende Themen, wie z. B. Lagebezeichnungen zum Inhalt hatten und somit auch von eher wenig informierten Studierenden als richtig zu beantworten waren.

Bei der Analyse der Korrelationen zwischen den Korrelationen der Aufgabenteilen A und B zeigten sich bei 3 von 20 Fragen keine erhöhte Korrelation der Teilantworten im Verglich mit der mittleren Korrelation aller Item (< 0,141), bei 5 Fragen zeigte sich eine grenzwertige (< 0,2) und bei 10 Fragen eine geringe (< 0,4) Korrelation der Teilergebnisse aus den Fragen A und B. Lediglich bei 2 Fragen lässt sich aus der statistischen Analyse folgern, dass die Aufgabenteile A und B nicht unabhängig voneinander gelöst werden konnten (Korrelation > 0,4).

Selbst wenn man den Parameter Cronbach Alpha für die 20 Stationen (jeweils A und B zusammen genommen) berechnet, erhält man einen Parameter von 0,845, was immer noch für die hohe Zuverlässigkeit der Prüfung spricht.

Insgesamt sehen wir auf Grund dieser Ergebnisse die Zuverlässigkeit sowie die Fairness dieser Prüfung als statistisch nachgewiesen an. Eine geringe Korrelation der Antworten A und B wird von unserer Seite gerne in kauf genommen, gerade vor dem Hintergrund, das bei einer falschen Antwort A (falsche Benennung der Struktur) dennoch die richtige Antwort B folgt (richtiger weiterer Bezug der markierten Struktur) und gewertet wird. Würde der richtige weitere Bezug der falsch benannten Struktur gewertet werden, bestünde für den Studierende die Möglichkeit Fragen – bzw. Antworten selber zu generieren.

Diskussion der Evaluationsergebnisse

Die im zeitlichen Abstand von zwei Monaten zur entsprechenden Prüfung durchgeführte Evaluation zeigt eine sehr positive Reaktion der Studierenden auf diese Prüfungsform. Die Evaluation wurde ganz bewusst erst nach weiteren Durchführungen von Prüfungen dieser Art angesetzt, um den Studierenden auch einen gewissen geistigen Abstand bei der Bewertung zu ermöglichen. Allerdings wurde sie im Rahmen der nicht direkt an den Kurs assoziierten Hauptvorlesung durchgeführt. Somit erreichte sie nicht alle Studierenden und führte ohne Zweifel zu einer gewissen Selektion in Richtung auf diejenigen Studierenden, die Vorlesungen bevorzugen. Dennoch konnte bei einer Rückmeldung von etwa der Hälfte der Studierenden ein hinreichend repräsentatives Ergebnis erzielt werden.

Der zeitliche Rahmen und der Stoffumfang wurden von den Studierenden als gut bewertet. Es ist jedoch darauf hinzuweisen, dass gezielt nur nach dem ersten Testat gefragt wurde, dessen Inhalt die Osteologie war. Die Evaluation fand aber zu einem Zeitpunkt statt, an dem die Studierenden bereits zwei weitere Testate absolviert hatten. Es ist nicht auszuschließen, dass damit vielleicht das erste Testat auf Grund des überschaubareren Themengebietes als einfach in Erinnerung geblieben ist.

Die Studierenden hatten insgesamt den Eindruck, das gelernte Wissen auch wiedergegeben zu haben. Wir werten dies als positiven Hinweis darauf, dass eine gute Korrelation der Ausbildungselemente und der Prüfung selber besteht. Gleiches zeigt sich in der Frage nach der Vorbereitung durch die anatomischen Übungen im Kurs selber. Wir sehen somit unser Ziel, das zu prüfen, was auch unterrichtet wird, bestätigt.

Die zu den anderen Fragen relativ schwächere Bewertung der Organisation und des Ablaufes führen wir unter anderem auf die mit der Prüfung verbundenen Wartezeiten zurück, aber auch auf das gelegentlich von den Studierenden berichtete Gefühl, sich in einer großen Herde zu befinden.

Die Ergebnisse korrelierten im Schnitt mit der eigenen Prüfungserwartung der Studierenden. Die überwiegende Mehrheit der Studierenden empfand die Prüfung als fair und das Ergebnis als gerecht. Für uns ist dies eine Bestätigung dafür, sowohl im Ablauf der Prüfung als auch in der Bewertung transparente und nachzuvollziehende Kriterien verwendet zu haben.

Somit scheint unser Ziel nach der Akzeptanz der verwendeten Prüfung innerhalb der Studierenden erreicht zu sein.


Zusammenfassung und Ausblick

Das Fähnchen-Testat bietet die Möglichkeit, im Fach Anatomie den Aspekt einer praktischen Prüfung am Präparat mit der Standardisierung einer schriftlichen Klausur zu verbinden. Die für eine moderne Ausbildung in der Anatomie nötigen Prüfungsgegenstände, wie z. B. Abfragen von Grundwissen, systematische Einordnung sowie klinisch-praktische Inhalte, können angemessen integriert werden. Die statistische Untersuchung hat gezeigt, dass diese Prüfungsform als fair und zuverlässig bewertet wird. Darüber hinaus ist sie selbst bei großen Zahlen von Studierenden mit relativ vertretbarem Aufwand für das Lehrpersonal durchzuführen. Die durchgeführte Evaluation zeigt ein hohes Maß an Akzeptanz innerhalb der Studierenden. Wir sehen in dieser Form eine sehr attraktive Alternative zu der traditionellen mündlichen Prüfung am Präparat für die anatomischen Testate.

In Anbetracht der geschilderten Überlegungen erscheint das entwickelte Prüfungsverfahren sowohl inhalts- als auch konstruktvalide zu sein; der Vergleich der Ergebnisse mit externen Erfolgsparametern (z.B. den M1- Ergebnissen) im Vergleich zu anderen in der Anatomie durchgeführten, Prüfungsformen wäre zur Überprüfung dieser Validität aufschlussreich [6].


Danksagung

Wir danken Herr Hoser für seine detaillierte und arbeitsreiche Listenführung des betreffenden studentischen Jahrgangs, sowie all den studentischen Hilfskräften für ihre Mitarbeit an der Durchführung der Prüfung und den Studenten für ihre zahlreiche Teilnahme an der Evaluation.


Literatur

1.
Aziz M, McKenzie J, Wilson J, Cowie J, Ayeni S, Dunn B. The Human Cadaver in the Age of Biomedical Informatics. Ana Rec. 2002;269:20-32.
2.
Barman A. Critiques on the Objective Structured Clinical Examination. Ana Acad Med Singapore. 2005;34(8):478-482.
3.
Downing SM, Haladyna TM. Validity threats: overcoming interference with proposed interpretations of assessment data. Med Educ. 2004;38(3):327-333.
4.
Downing SM. Reliability: on the reproducibility of assessment data. Med Educ. 2004;38(9):1006-1012.
5.
Engel GL. On the care and feeding the faculty. A responsibility for students. N Eng J Med. 1969;281(7):351-355.
6.
Institut für Aus-, Weiter- und Fortbildung IAWF (Boch R, Hofer D, Krebs R, Schläppi P, Weiss S, Westkämper R), Medizinische Fakultät Bern, im Auftrag der Verbindung der Schweizer Ärzte FMH und der Österreichenischen Ärztekammer ÖAK. Kompetent prüfen. Handbuch zur Planung, Durchführung und Auswertung von Facharztprüfungen. Bern: Medizinische Fakultät; 1999.
7.
Miller SA, Perotti W, Silverthorn DU, Dalley AF, Rarey K. From college to clinic:reasoning over memorization is key for understanding anatomy. Ana Rec. 2002;269(2):69-80.
8.
Ministerium für Wissenschaft, Forschung und Kunst Baden-Württemberg. Medizinische Ausbildung in Baden-Württemberg. Aktuelle Reihe. Stuttgart: Schwäbische Druckerei GmbH; 2001. Zugänglich unter: http://www.mwk-bw.de/Aktuelles/Publikationen_index.html.
9.
Möltner A, Schellberg D, Jünger J. Grundlegende quantitative Analysen medizinischer Prüfungen,.GMS Z Med Ausbild. 2006;23(3):Doc53.
10.
Putz R. Lehrstoff und Lernstoff. Strukturierung im Zeitalter des "New Pathway". Med Ausbild. 1996;13:84-87.
11.
Reidenberg JS, Laitman JT. The New Face of Gross Anatomy. Ana Rec. 2002;269(2):81-88.
12.
Schuwirth LW, Van der Vleuten CP. Different assessment methods: what can be said about their strengths and weekness? Med Educ. 2004;38(9):974-979.
13.
Van der Vleuten CP, Schuwirth LW. Assessing professional competence: from methods to programmes. Med Educ. 2005;39(3):309-317.