gms | German Medical Science

GMS Journal for Medical Education

Gesellschaft für Medizinische Ausbildung (GMA)

ISSN 2366-5017

Wissenszuwachs im Praktischen Jahr des Medizinstudiums in Deutschland

Forschungsarbeit Humanmedizin

  • corresponding author Tobias Raupach - Universitätsmedizin Göttingen, Abteilung Kardiologie & Pneumologie, Göttingen, Deutschland
  • Daniela Vogel - Universitätsklinikum Hamburg-Eppendorf, III. Medizinische Klinik, Hamburg, Deutschland
  • Sarah Schiekirka - Universitätsmedizin Göttingen, Abteilung Kardiologie & Pneumologie, Göttingen, Deutschland; Universitätsmedizin Göttingen, Studiendekanat, Göttingen, Deutschland
  • Carolina Keijsers - Universitätsmedizin Utrecht, Abteilung für Geriatrische Medizin, Utrecht, Niederlande
  • Olle Ten Cate - Universitätsmedizin Utrecht, Zentrum für Ausbildungsforschung und -entwicklung, Utrecht, Niederlande
  • Sigrid Harendza - Universitätsklinikum Hamburg-Eppendorf, III. Medizinische Klinik, Hamburg, Deutschland

GMS Z Med Ausbild 2013;30(3):Doc33

doi: 10.3205/zma000876, urn:nbn:de:0183-zma0008769

Dieses ist die deutsche Version des Artikels.
Die englische Version finden Sie unter: http://www.egms.de/en/journals/zma/2013-30/zma000876.shtml

Eingereicht: 23. November 2012
Überarbeitet: 31. März 2013
Angenommen: 2. Mai 2013
Veröffentlicht: 15. August 2013

© 2013 Raupach et al.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielfältigt, verbreitet und öffentlich zugänglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Zusammenfassung

Zielsetzung: In Deutschland besteht das letzte Jahr des Studiums der Humanmedizin ("Praktisches Jahr", PJ) aus drei Tertialen von je 16 Wochen, von denen eines in der Inneren Medizin und eines in der Chirurgie abzuleisten ist. Die Fachrichtung des dritten Tertials von 16 Wochen kann von den Studierenden frei gewählt werden. Während des Praktischen Jahres findet keine gezielte Vorbereitung auf den schriftlichen Teil des Staatsexamens statt. Es ist unklar, inwieweit die Studierenden während des Praktischen Jahres auch neue Wissensinhalte erlernen. Ziel dieser Studie war es, zu Beginn und am Ende des Praktischen Jahres Wissensinhalte zu überprüfen.

Methodik: Zehn Absolventen des Medizinstudiums in Deutschland und den Niederlanden trafen eine Auswahl aus 300 vorselektierten Fragen der US-amerikanischen Abschlussprüfung (USMLE), die zehn verschiedenen Fachrichtungen zugeordnet waren. Die ausgewählten 150 Fragen wurden im Rahmen zweier Tests PJ-Studierenden aus Göttingen und Hamburg vorgelegt: einmal zu Beginn (n=77 Studierende) und einmal am Ende des Praktischen Jahres (n=79).

Ergebnisse: Die interne Konsistenz der beiden Tests (Cronbach’s α) betrug 0,75 (Prätest) bzw. 0,68 (Posttest). Der Anteil richtig beantworteter Fragen betrug im Prätest 63,9±6,9 und im Posttest 69,4±5,7 (p<0,001; Effektstärke als Cohen’s d: 0,87). Individuelle Studierende schnitten bei denjenigen Fragen besonders gut ab, die sich auf Inhalte ihres Wahlfachs bezogen.

Schlussfolgerung: Der in dieser Studie verwendete Wissenstest eignet sich als externes Instrument zur Messung des Wissenszuwachses von Studierenden im Praktischen Jahr. Zudem kann der Prätest genutzt werden, um Studierende bei der Planung ihres Lernverhaltens während des Praktischen Jahres zu unterstützen.

Schlüsselwörter: Medizinstudium, Klinik, Wissen


Einleitung

Deutsche Studierende der Humanmedizin rotieren im letzten Jahr des Studiums (Praktisches Jahr, PJ) durch verschiedene klinische Bereiche. Während alle Studierenden zwei der drei Tertiale für jeweils 16 Wochen in den Fächern Innere Medizin und Chirurgie ableisten müssen, kann sich jeder Studierende für ein Wahlfach für die übrigen 16 Wochen des PJ entscheiden. Bis zum Jahr 2012 fand nach dem PJ das aus 320 Multiple Choice (MC)-Fragen bestehende Zweite Staatsexamen statt, in dem sowohl Grundlagen als auch klinische Wissensinhalte abgefragt wurden. Eine spezifische Vorbereitung auf dieses Examen fand in aller Regel während des PJs nicht statt. Folglich waren die Studierenden gezwungen, während dieses letzten Jahres einerseits klinische Erfahrung zu sammeln und andererseits den für das Bestehen des Staatsexamens erforderlichen theoretischen Wissensstand zu erreichen. Da während des PJs keine Pflichtprüfungen stattfinden, war den Studierenden eine objektive Überprüfung ihres Lernerfolgs bislang nicht möglich.

Mit dem Einsatz von Progress Tests im Medizinstudium sollen Lernprozesse gefördert werden, die stärker auf das Verständnis und weniger auf die reine Reproduktion von Inhalten abzielen [1]. Zur Messung des studentischen Lernerfolgs hinsichtlich medizinischen Faktenwissens wurden in verschiedenen Ländern solche Progress Tests entwickelt [2], [3], [4]. Einige Studierende nutzen das durch Progress Tests generierte Feedback zur Erstellung individueller Lernpläne [5]. Entsprechend könnten formative Wissenstests zu Beginn und am Ende des PJs sich als hilfreiche Feedback-Instrumente für Studierende erweisen. In dieser Studie wurde zu diesem Zweck ein aus 150 Items bestehender MC-Test verwendet. Dieser Test war ursprünglich dazu entwickelt worden, den Leistungsstand von Studierenden unterschiedlicher Europäischer Länder miteinander zu vergleichen [6]. Im Rahmen der vorliegenden Arbeit wurde er an zwei deutschen Universitäten eingesetzt. Das primäre Ziel der Studie war die Messung des Wissenszuwachses während des PJ. Wir stellten die Hypothese auf, dass die studentischen Leistungen am Ende des PJs signifikant höher liegen als am Anfang, da die Exposition gegenüber dem klinischen Alltag auch die Aneignung von Faktenwissen fördern könnte. Es wurde erwartet, dass dieser Effekt besonders für diejenigen Wissensinhalte nachzuweisen sein würde, die sich auf das jeweilige Wahlfach eines Studierenden bezogen.


Methodik

Verwendung von MC-Fragen

Mit Hilfe von MC-Fragen kann Faktenwissen valide geprüft werden [7]. MC-Prüfungen können zudem eine hohe Reliabilität erreichen, was eine wesentliche Voraussetzung dafür ist, dass eine Prüfung zwischen leistungsstarken und leistungsschwachen Studierenden unterscheiden kann [8]. Mit MC-Fragen kann nicht nur die Fähigkeit zur Reproduktion von Wissensinhalten geprüft werden, sondern es ist mit diesem Format auch möglich, komplexere kognitive Prozesse wie z.B. die Interpretation oder Anwendung von Wissen abzubilden [9]. Für MC-Fragen wurden unterschiedliche Formate entwickelt, die sich insbesondere hinsichtlich der Anzahl der Antwortoptionen unterscheiden. Sowohl im deutschen Staatsexamen als auch im amerikanischen Examen (United States Medical Licensing Examination, USMLE) werden typischerweise Fragen mit einer richtigen Antwort und vier Distraktoren verwendet.

Auswahl der Prüfungsfragen

Der aus 150 Fragen bestehende Wissenstest wurde aus 1000 frei verfügbaren USMLE-äquivalenten Items zusammengestellt [10]. In einem ersten Schritt waren 300 Fragen nach den folgenden Kriterien vorselektiert und adaptiert worden:

1.
Alle Fragen mussten zu einer der folgenden Fachrichtungen gehören: Allgemeinmedizin, Anästhesiologie und Notfallmedizin, Innere Medizin, Chirurgie, Urologie, Gynäkologie, Pädiatrie, Neurologie, Psychiatrie, klinische Pharmakologie. Kleinere Fächer wie beispielsweise Hals-Nasen-Ohrenheilkunde und Dermatologie wurden nicht berücksichtigt.
2.
Alle Fragen basierten auf klinischen Fällen.
3.
Erkrankungen, die spezifisch im amerikanischen Sprachraum auftreten (z.B. „Rocky Mountain spotted fever“), wurden nicht eingeschlossen.
4.
Fragen mit Bildbeilage (Röntgenbilder, EKG-Registrierungen) konnten aus Copyright-Gründen nicht berücksichtigt werden.
5.
Alle Antwortoptionen einer Frage mussten zur gleichen Kategorie gehören (z.B. diagnostische, therapeutische oder andere Maßnahmen). Fragen, die beispielsweise zwei diagnostische und drei therapeutische Antwortoptionen beinhalteten, wurden entweder nicht eingeschlossen oder entsprechend modifiziert.
6.
Wenn mehrere Fragen dasselbe Thema abdeckten, wurde jeweils nur eine ausgewählt.

Im Februar 2011 wurden die 300 vorselektierten Fragen von jeweils fünf Absolventen des Medizinstudiums an den Universitäten in Hamburg und in Utrecht (Niederlande) daraufhin begutachtet, ob sie in mehr als einem europäischen Land einsetzbar sind. Hierzu wählte jede/r der zehn Gutachter/innen diejenigen 150 Fragen aus, die ihrer/seiner Meinung nach am ehesten dem Wissensstand von Studienabsolventen ihres Herkunftslandes entsprachen. Im Interesse einer hohen Inhaltsvalidität war dabei die Fragenzahl pro Fachrichtung vorgegeben. Der endgültige Test bestand aus den 150 Fragen, die von mindestens zwei der fünf Gutachter/innen aus jedem der beiden Länder gewählt worden waren. Jeweils ein/e Gutachter/in aus Hamburg und Utrecht nahm dann noch eine Bewertung der Fragen hinsichtlich ihrer Schwierigkeit und ihrer inhaltlichen Domäne (Grundlagen bzw. klinische Wissensinhalte) zur Brauchbarkeitstestung des endgültigen Tests vor. Dies resultierte in einem adäquat balancierten Test mit einer Intraklassenkorrelation von 0,85 bzw. 0,71. Im Rahmen einer Pilotierung an 56 Studierenden aus Deutschland und den Niederlanden wurde die interne Konsistenz des Tests mit einem Cronbach’s α von 0,79 ermittelt [6].

Durchführung der Prä- und Posttests

Im Rahmen der vorliegenden Studie wurde eine deutsche Version der 150 Fragen im Rahmen zweier formativer Prüfungen eingesetzt. Zum Prätest wurden 286 PJ-Studierende (164 in Göttingen, 122 in Hamburg) eingeladen, die im April 2011 am Anfang des Praktischen Jahres standen. Die Studierenden erhielten eine E-Mail, in der Sinn und Zweck der Studie dargestellt wurden. Entsprechend einer Vereinbarung mit den Lehrkrankenhäusern wurden die Studien-Teilnehmer/innen für die Zeit des Prätests von ihren klinischen Aufgaben entbunden.

Alle Studierenden, die im April 2011 zum Prätest eingeladen worden waren, erhielten am Ende ihres Praktischen Jahres (d.h. vor Beginn ihrer Vorbereitung auf das Staatsexamen im Frühjahr 2012) eine Einladung zur Teilnahme am Posttest, der dieselben Fragen enthielt wie der Prätest. Die Fragen und Antworten wurden nicht an die Studierenden ausgegeben und alle Papiere wurden nach dem Test eingesammelt. Allerdings wurden alle Studienteilnehmer/innen per E-Mail über ihre individuellen Ergebnisse informiert. Studienteilnehmer/innen wurden um Angaben zu sozioökonomischen Daten, zu einem eventuellen Auslandsstudium und zu ihren PJ-Wahlfächern gebeten. Die Teilnahme an der Studie war freiwillig. Die Studie wurde von der Ethikkommission der Ärztekammer Hamburg genehmigt.

Datensammlung und statistische Analyse

Die studienbezogenen Fragebögen und die Prä- und Posttests wurden manuell in eine SPSS-Datenbank übertragen (SPSS 19.0; SPSS Inc., Chicago, Illinois, USA). Unterschiede zwischen den beiden Studierendengruppen, die jeweils am Prä- und Posttest teilgenommen hatten, wurden mittels χ2-Tests (dichotome Variablen) und t-Tests (kontinuierliche Variablen) auf Signifikanz untersucht. Effektstärken wurden als Cohen’s d berechnet; hierbei entsprechen Werte von 0,2 kleinen und Werte von 0,8 großen Effekten [11]. Sowohl für den Prä- als auch für den Posttest wurden die gängigen Testgütekriterien (Item-Schwierigkeit, Trennschärfe und Cronbach’s α als Maß für die interne Konsistenz) bestimmt. Zur Detektion eines Leistungsunterschieds von drei Prozentpunkten zwischen zwei Gruppen (z.B. 68% versus 65% bei angenommenen Standardabweichungen von 6,5% in beiden Gruppen) auf einem Signifikanzniveau von 5% und einer Power von 80% mussten sowohl am Prä- als auch am Posttest mindestens 58 Studierende teilnehmen (äquivalent zu einer longitudinalen Teilnahmequote von 20%). Da ein Unterschied um drei Prozentpunkte im deutschen Benotungssystem etwa eine Drittel-Note ausmacht, wurde diese Differenz als bedeutsam erachtet. Die Ergebnisse sind als Mittelwerte±Standardabweichungen oder als prozentuale Anteile (n) angegeben. Das Signifikanzniveau wurde auf p<0,05 festgelegt.


Ergebnisse

Teilnahmequote und Teilnehmer-Charakteristika

Am Prätest nahmen 77 Studierende teil, am Posttest 79 Studierende (Teilnahmequoten jeweils 26,9% und 27,6%). Der Anteil weiblicher Studierender im Prä- und Posttest betrug 66,2% und 73,4%. Die Teilnahmequoten waren in Hamburg höher und schwankten an beiden Studienorten zwischen dem Prä- und dem Posttest (Hamburg: 45/122 (36,9%) versus 58/122 (47,5%); Göttingen: 32/164 (19,5%) versus 21/164 (12,8%)). Insgesamt 47 Studierende nahmen sowohl am Prä- als auch am Posttest teil. Die Charakteristika der Studienteilnehmer/innen sind in Tabelle 1 [Tab. 1] dargestellt. Wie erwartet waren die Studierenden im Posttest signifikant älter als diejenigen im Prätest. Zwischen den beiden Kohorten ergaben sich keine signifikanten Unterschiede hinsichtlich des Geschlechts, der Muttersprache, einer vorhergehenden Berufsausbildung, der Ableistung von Teilen des PJs im Ausland und des Wahlfachs.

Itemanalyse

Das Cronbach’s α des Prä- und Posttest betrug 0,75 bzw. 0,68. Die Schwierigkeit einzelner Fragen des Prätests lag zwischen 0,03 und 1,00 (Mittelwert 0,64) und für den Posttest zwischen 0,04 bis 1,00 (Mittelwert 0,69). Der Anteil der Fragen mit einer Schwierigkeit zwischen 0,4 und 0,8 betrug im Prätest 56,7% (n=85) und im Posttest 50,7% (n=76). Die korrigierten Trennschärfen einzelner Items lagen im Prätest zwischen -0,20 und 0,39 (Mittelwert 0,13) und im Posttest zwischen -0,32 und 0,45 (Mittelwert 0,10). Der Anteil der Fragen mit einer positiven Trennschärfe betrug im Prätest 85,3% (n=128) und im Posttest 70,7% (n=106).

Studentische Leistungen

Von den Studierenden wurden im Prätest ein mittlerer Prozentwert richtig beantworteter Fragen von 63,9±6,9 und im Posttest von 69,4±5,7% erreicht (T(154)=-5,376; p<0,001; t-Test für unabhängige Stichproben). Die Effektstärke dieses Unterschieds, berechnet als Cohen’s d, betrug 0,87, was einem großen Effekt entspricht. Eine Berechnung für verbundene Stichproben, in der nur die 47 Studierenden berücksichtigt wurden, die an beiden Tests teilgenommen hatten, lieferte ein vergleichbares Ergebnis: 64,6±6,7% im Prä- und 69,6±5,3 im Posttest (T(46)=-7,299; p<0,001). Aus der nach Fachrichtungen aufgeschlüsselten Analyse der Testleistungen (siehe Tabelle 2 [Tab. 2]) geht hervor, dass Studierende mit dem Wahlfach „Anästhesiologie und Notfallmedizin“ im Posttest in den Fragen mit Bezug zu diesem Fachgebiet nicht besser abschnitten als Studierende mit einem anderen Wahlfach (11,7±1,4 bzw. 11,7±1,6 von 15 erreichbaren Punkten; p=0,985); ein ähnliches Muster ergab sich für Studierende mit dem Wahlfach Neurologie (9,9±2,0 bzw. 10,2±1,8 von 15 Punkten; p=0,639). Im Gegensatz dazu erreichten Studierende mit dem Wahlfach Pädiatrie im Posttest in den fachbezogenen Fragen höhere Punktzahlen als Studierende mit einem anderen Wahlfach (13,6±1,3 vs. 11,6±1,5 von 15 Punkten; p<0,001; Cohen’s d=1,40) und das gleiche galt auch für Studierende mit dem Wahlfach Gynäkologie (7,8±1,3 vs. 6,7±1,4 von 10 Punkten; p=0,017; Cohen’s d=0,81). Es fiel auf, dass fünf der 14 Studierenden mit dem Wahlfach Pädiatrie alle Fragen aus diesem Fachgebiet richtig beantworteten – dies gelang hingegen nur einem der 65 Studierenden mit einem anderen Wahlfach.


Diskussion

Mit Hilfe eines aus 150 Fragen bestehenden und an das Format des USMLE angelehnten formativen Prä-Post-Tests für PJ-Studierende in Deutschland wurde in dieser Studie eine signifikante Zunahme des Wissensstandes nach dem PJ nachgewiesen. Der Lernzuwachs war auf denjenigen Gebieten besonders stark ausgeprägt, mit denen die Studierenden sich im Rahmen ihrer Wahlfächer intensiver auseinandergesetzt hatten. Eine Abschätzung des eigenen Wissensstandes im Rahmen eines formativen Tests kann Studierende bei der Erstellung ihres Lernplans für das PJ unterstützen. Ein solcher Test war bisher nicht verfügbar. Das hier vorgestellte, neu entwickelte Instrument zur formativen Prüfung von PJ-Studierenden könnte diese Lücke schließen. Einige Teilnehmer/innen dieser Studie erklärten im Rahmen eines informellen Feedbacks, dass sie es als hilfreich empfunden hätten, ihr eigenes Wissen unter simulierten Prüfungsbedingungen testen zu können und dass sie die Ergebnisse des Prätests in der Tat zur Planung ihres Lernverhaltens im PJ nutzten.

Leistungszuwachs im PJ

Für die vergleichsweise niedrigen Leistungen im Posttest sind verschiedene Erklärungen denkbar. Der formative Charakter der Prä- und Posttests ging möglicherweise mit einem geringeren Leistungsanreiz einher als wenn beide Prüfungen einen summativen Ansatz verfolgt hätten, was folglich zu einer möglicherweise falsch-niedrig gemessenen Erfassung des tatsächlichen Leistungsniveaus der Studierenden geführt haben könnte [12]. Andererseits ließe sich auch hypothetisieren, dass Studienteilnehmer/innen besonders an ihrem eigenen Leistungsstand interessiert waren und sich daher in beiden Tests besonders angestrengt haben, um möglichst alle Fragen richtig zu beantworten. Möglicherweise waren die Studierenden jedoch mit der Formulierung der USMLE-artigen Fragen noch nicht hinreichend vertraut.

Selbst in Anbetracht dieser möglichen Limitationen deutet der von uns beobachtete Anstieg der Leistung vom Prä- zum Posttest darauf hin, dass der genutzte formative Test eine valide Einschätzung der studentischen Leistungsfähigkeit ermöglicht. In unserer Prätest-Kohorte (d.h. Studierende, die gerade ein fünfjähriges medizinisches Curriculum hinter sich hatten und freiwillig an der zeitaufwendigen Aktivität einer 150-Fragen Prüfung teilnahmen) wurden im Mittel nur 64% der Punkte erreicht. Unter der Annahme einer Bestehensgrenze von 60% ergibt sich aus unseren Daten eine Bestehensquote von 75% (58 der 77 Prätest-Teilnehmer/innen) in dieser hochmotivierten Subgruppe. Am Ende des Praktischen Jahrs wurden weiterhin im Mittel weniger als 70% der Punkte erreicht, und fünf der 79 Posttest-Teilnehmer/innen erreichten weniger als 60% der möglichen Punkte. Einerseits ist positiv anzumerken, dass die Mehrheit der Studierenden den in dieser Studie genutzten Test bereits zu Beginn des PJs bestanden hätte. Andererseits ist die moderate Leistung im Posttest ein wichtiger Befund, da im Frühjahr 2012 von deutschen Studierenden im Zweiten Staatsexamen Medizin 79,4% der Punkte erreicht wurden [http://www.impp.de/IMPP2010/pdf/ErgMedF12.pdf].

Auf den ersten Blick mag die Leistungszunahme zwischen dem Prä- und dem Posttest erstaunen, da nicht zwingend erwartet werden kann, dass der für das PJ typische Einsatz in einem klinischen Umfeld aufgrund von mangelnder Kongruenz zwischen Lehr- und Prüfungsform auch mit einer Zunahme von Faktenwissen einhergeht [13]. Allerdings ist anzunehmen, dass Studierende während ihrer klinischen Ausbildung zahlreiche Gelegenheiten zum Ausbau ihres Faktenwissens wahrnehmen. So gibt die Befassung mit klinischen Fällen nicht selten Anlass zur Auffrischung von bereits Gelerntem und zur Aufnahme neuer Inhalte, insbesondere, wenn erfahrene Kliniker im Rahmen der Visite informelle Lehre anbieten. Schließlich dürfte die Beteiligung von Studierenden an der Krankenversorgung die Lernmotivation per se erhöhen. Umgekehrt lassen die hier beobachteten besonders guten Leistungen von Studierenden bei Fragen mit Bezug zu ihrem individuellen Wahlfach darauf schließen, dass Studierende primär eine höhere Lernmotivation für das von ihnen selbst gewählte Fach aufweisen. Unsere diesbezüglichen Ergebnisse sind vor dem Hintergrund der curricularen Verankerung der beiden Fächer Pädiatrie und Gynäkologie zu interpretieren. Zudem war die PJ-begleitende Lehre in diesen Fächern möglicherweise besonders gut. Die Lehrqualität in den sieben von den Teilnehmern absolvierten Wahlfächern wurde in der vorliegenden Studie allerdings nicht untersucht.

Stärken und Schwächen

Für das oben beschriebene Fragen-Auswahlverfahren wurden spezifische Qualitätskriterien definiert [14]:

1.
die genutzten Fragen mussten wichtige Inhalte abbilden, die dem Ausbildungsstand der PJ-Studierenden angemessen waren,
2.
die Fragenstämme bestanden meist aus Fallvignetten, in denen die wesentlichen Informationen fokussiert dargestellt waren,
3.
die fünf Antwortoptionen waren bezüglich ihrer Inhalte, Länge und Grammatik homogen.

Dass die Studienteilnehmer/innen noch nicht eng mit dem an das USMLE angelehnte Fragenformat vertraut waren, dürfte auf die Ergebnisse eher von geringem Einfluss gewesen sein, da gezeigt wurde, dass der aus der Präsentation neuer Fragenformate resultierende „Herkunftsbias“ bei fortgeschrittenen Studierenden keine große Rolle spielt [15]. Trotz der sorgfältigen Fragenauswahl und der Konstruktion einer balancierten Prüfung fielen die Itemkennwerte und die interne Konsistenz beider Tests suboptimal aus. Allerdings ergaben sich in einer Untersuchung verschiedener MC-Fragenformate ähnliche Werte für Cronbach’s α [16] und eine noch geringere interne Konsistenz fand sich in einer kürzlich publizierten Arbeit zu 10-jährigem postgraduiertem Progress Testing in der Gynäkologie [17]. Die Ursache für die relativ geringe interne Konsistenz unseres und der hier zitierten Tests bleibt letztlich unklar. Offenbar tritt dieses Problem im Kontext klinischer Wissenstests jedoch nicht selten auf. Es ist denkbar, dass Studierende, die sich freiwillig zur Teilnahme an einer Studie melden, insgesamt ein relativ homogenes Leistungsniveau aufweisen. Die daraus resultierende geringere Varianz der Testergebnisse geht mit einem geringeren Cronbach’s α einher. Künftige Forschungsprojekte sollten den Einfluss der Heterogenität der Studienteilnehmer und/oder der genutzten Prüfungsfragen auf die psychometrischen Eigenschaften eines Prüfungsinstruments näher untersuchen.

Ein eventueller „testing bias“ (d.h. Studierende erzielen bessere Leistungen im Posttest, weil sie sich an die Fragen des Prätests erinnern) dürfte in unserer Studie eher gering ausgefallen sein, da mehrere Monate zwischen den beiden Tests lagen und weder die Fragen noch die richtigen Antworten veröffentlicht wurden. Zur Bearbeitung des primären Studienziels wählten wir ein longitudinales Design. In der Power-Analyse wurde eine Teilnahmequote von 20% angenommen, aber die Studierenden-Stichprobe mit kompletten longitudinalen Daten fiel mit 16,4% der eingeladenen Studierenden etwas geringer aus. Um die Annahme der Power-Analyse nicht zu verletzen, wurden Daten von allen Studierenden ausgewertet, die zu mindestens einem Zeitpunkt an dem Test teilgenommen hatten (Teilnahmequote 25%). Somit wird in dieser Arbeit kein „Progress Test“ im engeren Sinne vorgestellt, da hierzu alle Studierenden an beiden Zeitpunkten am Test hätten teilnehmen müssen. Die insgesamt geringe Teilnahmequote legt nahe, dass die Ergebnisse durch einen Selektionsbias beeinflusst worden sind. Es ist nicht auszuschließen, dass der beobachtete Unterschied zwischen den Leistungen im Prä- und Posttest auch dadurch zustande kam, dass Studierende, die am Posttest teilnahmen, ein höheres Leistungsniveau aufwiesen als Studierende, die am Prätest teilnahmen. Angesichts der großen Überschneidungen zwischen beiden Gruppen ist der Unterschied durch diesen Effekt aber wahrscheinlich nicht komplett zu erklären.


Schlussfolgerung

Der in dieser Studie genutzte und an das amerikanische Examen angelehnte Wissenstest eignet sich zur formativen Erfassung des studentischen Wissenserwerbs im Praktischen Jahr. Der Prätest könnte die Studierenden bei der Planung ihres Lernverhaltens während des Praktischen Jahrs unterstützen und der Posttest könnte der Identifikation von Wissenslücken dienen, die während der Vorbereitung auf das Staatsexamen noch gefüllt werden müssen.


Danksagung

Die Autoren danken allen Mitgliedern des Fragenauswahlkommittees in Utrecht und Hamburg, den teilnehmenden Studierenden und den Organisations-Teams in Göttingen und Hamburg.


Interessenkonflikt

Die Autoren erklären, dass sie keine Interessenkonflikte im Zusammenhang mit diesem Artikel haben.


Literatur

1.
Berkel HJ, Nuy HJ, Geerlings T. The influence of progress tests and block tests on study behaviour. Instruct Sci. 1994;22:317-333. DOI: 10.1007/BF00891784 Externer Link
2.
van der Vleuten CP. National, European licensing examinations or none at all? Med Teach. 2009;31(3):189-191.DOI: 10.1080/01421590902741171 Externer Link
3.
Coombes L, Ricketts C, Freeman A, Stratford J. Beyond assessment: feedback for individuals and institutions based on the progress test. Med Teach. 2010;32(6):486-490. DOI: 10.3109/0142159X.2010.485652 Externer Link
4.
Williams RG, Klamen DL, White CB, Petrusa E, Fincher RM, Whitfield CF, Shatzer JH, McCarty T, Miller BM. Tracking development of clinical reasoning ability across five medical schools using a progress test. Acad Med. 2011;86(9):1148-1154. DOI: 10.1097/ACM.0b013e31822631b3 Externer Link
5.
Nouns ZM, Georg W. Progress testing in German speaking countries. Med Teach. 2010;32(6):467-470. DOI: 10.3109/0142159X.2010.485656 Externer Link
6.
Vogel D, Gierk B, ten Cate O, Harendza S. Composition of an international medical knowledge test for medical students near graduation. Dundee: AMEE; 2011. Abstract book page 71.
7.
Downing SM. Assessment of knowledge with written test formats. In: Norman G, van der Vleuten C, Newble D (Hrsg). International handbook of research in medical education. Dordrecht: Kluwer; 2002. S.647-672. DOI: 10.1007/978-94-010-0462-6_25 Externer Link
8.
Schwartz PL, Crooks TJ, Sein KT. Test-retest reliability of multiple true-false questions in preclinical medical subjects. Med Educ. 1986;20(5):399-406. DOI: 10.1111/j.1365-2923.1986.tb01184.x Externer Link
9.
Case SM, Swanson DB. Constructing written test questions for the basic and clinical sciences. 3rd edition ed. Philadelphia: National Board of Medical Examiners; 2001.
10.
Le T, Vieregger K. First aid Q & A for the USMLE step 2 CK. 2nd edition ed. New York: McGraw-Hill; 2010.
11.
Cohen J. A Power Primer. Psychological Bulletin. 1992;112(1):155-159. DOI: 10.1037/0033-2909.112.1.155 Externer Link
12.
Raupach T, Hanneforth N, Anders S, Pukrop T, Th J ten Cate O, Harendza S. Impact of teaching and assessment format on electrocardiogram interpretation skills. Med Educ. 2010;44(7):731-740. DOI: 10.1111/j.1365-2923.2010.03687.x Externer Link
13.
Kern DE, Thomas PA, Howard DM, Bass EB. Curriculum development for medical education - A six-step approach. Baltimore, London: The John Hopkins University Press; 1998.
14.
Boland RJ, Lester NA, Williams E. Writing multiple-choice questions. Acad Psychiatry. 2010;34(4):310-316. DOI: 10.1176/appi.ap.34.4.310 Externer Link
15.
Muijtjens AM, Schuwirth LW, Cohen-Schotanus J, van der Vleuten CP. Origin bias of test items compromises the validity and fairness of curriculum comparisons. Med Educ. 2007c;41(12):1217-1223.
16.
Coderre SP, Harasym P, Mandin H, Fick G. The impact of two multiple-choice question formats on the problem-solving strategies used by novices and experts. BMC Med Educ. 2004;4:23. DOI: 10.1186/1472-6920-4-23 Externer Link
17.
Dijksterhuis MG, Scheele F, Schuwirth LW, Essed GG, Nijhuis JG, Braat DD. Progress testing in postgraduate medical education. Med Teach. 2009;31(10):e464-468. DOI: 10.3109/01421590902849545 Externer Link