gms | German Medical Science

GMS Journal for Medical Education

Gesellschaft für Medizinische Ausbildung (GMA)

ISSN 2366-5017

Vergleich der Bewertung einer formativen Prüfung an zwei medizinischen Fakultäten mit unterschiedlichen Studien-, Prüfungs- und Feedbackbedingungen

Artikel Formatives Prüfen

  • corresponding author Katrin Schüttpelz-Brauns - Medizinische Fakultät Mannheim der Universität Heidelberg, Mannheim, Deutschland
  • Yassin Karay - Universität zu Köln, Medizinische Fakultät, Köln, Deutschland
  • Johann Arias - RWTH Aachen, Medizinische Fakultät, Aachen, Deutschland
  • Kirsten Gehlhar - Carl von Ossietzky Universität Oldenburg, Fakultät für Medizin und Gesundheitswissenschaften, Oldenburg, Deutschland
  • Michaela Zupanic - Private Universität Witten/Herdecke gGmbH, Fakultät für Gesundheit, Witten, Germany

GMS J Med Educ 2020;37(4):Doc41

doi: 10.3205/zma001334, urn:nbn:de:0183-zma0013341

Dieses ist die deutsche Version des Artikels.
Die englische Version finden Sie unter: http://www.egms.de/en/journals/zma/2020-37/zma001334.shtml

Eingereicht: 29. August 2019
Überarbeitet: 10. März 2020
Angenommen: 27. April 2020
Veröffentlicht: 15. Juni 2020

© 2020 Schüttpelz-Brauns et al.
Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung). Lizenz-Angaben siehe http://creativecommons.org/licenses/by/4.0/.


Zusammenfassung

Einführung: Sowohl formative als auch summative Prüfungen haben ihre Berechtigung in medizinischen Curricula: formative Prüfungen zur Begleitung des Lernprozesses und summative Prüfungen zur Sicherung des Erreichens von Mindeststandards. Je nach Studien-, Prüfungs- und Feedbackbedingungen wird formativen Prüfungen durch die Studierenden mehr oder weniger Bedeutung beigemessen und entsprechend kann die Erfüllung ihrer Funktion fraglich sein. In dieser Studie wird beschrieben, wie der nicht-bestehensrelevante formative Progress Test Medizin (PTM) an zwei Medizinischen Fakultäten mit partiell unterschiedlichen Rahmenbedingungen eingebettet ist und welche Auswirkungen diese auf das Testbemühen der Studierenden und die Bewertung des Tests, insbesondere der Wahrnehmung von dessen Nutzen und (immateriellen) Kosten, wie Nicht-Teilnahme an zeitgleichen Angeboten oder emotionale Beeinträchtigungen, haben.

Methoden: In dieser Studie wurde der Anteil der nicht ernsthaften PTM-Teilnehmenden an zwei Medizinischen Fakultäten (Gesamtstichproben: NF1=1.410, NF2=1.176) im WS 15/16 sowohl durch die Zahl nicht beantworteter Fragen im Test selbst als auch im Rahmen einer Befragung mit einem standardisierten Instrument (NF1=415, NF2=234) bestimmt. Weiterhin wurden in dieser Befragung offene Fragen zum wahrgenommenen Nutzen bzw. den wahrgenommenen Kosten gestellt, welche mit qualitativen und quantitativen Methoden ausgewertet wurden.

Ergebnisse: Der PTM wird an Fakultät 2 insgesamt besser angenommen. Dies zeigt sich in dem höheren Anteil ernsthafter Testteilnehmenden, den niedrigeren wahrgenommenen Kosten und dem höheren berichteten Nutzen sowie dem größeren Anteil an konstruktiven Kommentaren. Studierende der Fakultät 2 haben das Prinzip des formativen Prüfens besser verstanden und nutzen die Ergebnisse des PTM als Feedback über den eigenen Wissensfortschritt, zur Lernmotivation und zur Reduktion von Prüfungsangst.

Diskussion: Wenn Medizinische Fakultäten formative Prüfungen in das Curriculum integrieren, müssen sie Rahmenbedingungen schaffen, in denen diese Prüfungen als wichtiger Teil des Curriculums wahrgenommen werden. Ansonsten ist es fraglich, ob sie ihrer Funktion der Begleitung des Lernprozesses gerecht werden können.

Schlüsselwörter: Formative Prüfungen, Medizinische Ausbildung, Progress Testing, Testbemühen


Einleitung

Nach der Ärztlichen Approbationsordnung (ÄAppO) §2 Absatz 7 Satz 1 muss die erfolgreiche Teilnahme im vorklinischen Abschnitt mit 17 Leistungsnachweisen (Anlage 2a) und im klinischen Abschnitt mit 40 Leistungsnachweisen (Anlage 2b) nachgewiesen werden. Dieser Nachweis erfolgt entweder mit benoteten Prüfungen, welche das Lernergebnis eines Abschnittes, wie ein Fach oder ein Modul abprüfen oder mit der Bewertung bestanden/nicht bestanden. Daher handelt es sich hierbei um das Prüfen des Lernens bzw. summative Prüfungen [1]. Demgegenüber stehen Prüfungen, welche den Lernprozess begleiten. Diese formativen Prüfungen [1] fördern das kontinuierliche und vertiefende Lernen [2]. Feedback ist ein zentraler Aspekt des kontinuierlichen Lernens, indem Lücken im Lernen identifiziert und gezielt korrigiert werden. Das kontinuierliche Lernen bereitet auf das lebenslange Lernen vor, welches aufgrund der Schnelllebigkeit von Wissen und dem ständigen Wechsel von Anforderungen immer mehr verlangt wird [3]. Es gibt bereits einige Studien zu formativen Prüfungen, welche die Wirkung auf das Lernen untersuchen. Dieser sog. Educational Impact ist Teil des Nützlichkeitsmodells für Prüfungen [4] und kann als Indiz dafür gesehen werden, dass die Wirkung auf das kontinuierliche Lernen durch die formative Prüfung bzw. deren Feedback gegeben ist. Wade et al. entwickelten einen Fragebogen, um die Wahrnehmung von Progress Tests – einer Art der formativen Prüfungen (s. u.) – als Lernwerkzeug an zwei verschiedenen medizinischen Fakultäten zu vergleichen und fanden, dass die Lernumgebung einen Einfluss auf die Wertschätzung von Progress Tests als Unterstützung des Lernens hat [5]. Cobb et al. befragten Studierende in semi-qualitativen Interviews zu ihrer Wahrnehmung von DOPS (formativen Direct Observation of Procedural Skills) im Vergleich zu MCQ (summativen Multiple-Choice-Prüfungen) und fanden, dass die formative Prüfung tieferes Lernen förderte, aber die summative Prüfung für die Studierenden wichtiger war [6]. In einer Fragebogenstudie an der Fakultät für Gesundheitswissenschaften in Maastricht wurden summative Blocktests von den Studierenden als lohnender empfunden und die Ergebnisse des Progress Tests nicht für selbstreguliertes Lernen verwendet [7]. Die Einbettung von Feedback durch/mit Progress Tests in ein umfassendes Prüfungsprogramm erhöhte die Verwendung des Progress-Test-Feedbacktools durch die Studierenden und die Integration in das Lernen [8].

Sowohl das kontinuierliche Begleiten des Lernprozesses durch formative Prüfungen als auch das Sicherstellen des Erreichens von Mindeststandards in Form von summativen Prüfungen haben ihre Berechtigung im medizinischen Curriculum.

Es ist anzunehmen, dass die beiden Zielrichtungen des Lernens – Lernen für die Prüfung vs. Prüfungen für das Lernen – von Seiten der Studierenden unterschiedlich intensiv verfolgt werden, welches sich in dem unterschiedlichen Ausmaß an Testbemühen zeigt. Dies lässt sich mit der Erwartungs-Wert-Theorie von Wigfield & Eccles [9] erklären. Die Erwartungs-Wert-Theorie besagt, dass die Motivation zur Erledigung einer Aufgabe von zwei Komponenten abhängig ist: die Erwartung, eine Aufgabe lösen zu können und dem Wert, den diese Aufgabe für das Individuum hat. Wigfield & Eccles [9] unterscheiden vier verschiedene Komponenten, die diesen Wert ausmachen können:

  • Leistungswert (die Aufgabe bestmöglich zu meistern),
  • Intrinsischer Wert (der Spaß bzw. die Freude beim Lösen der Aufgabe),
  • Nutzenwert (wie gut die Aufgabe in zukünftige Pläne passt, also wie nützlich die Aufgabe ist),
  • Kosten (Kosten im eigentlichen Sinne, inwiefern Aktivitäten miteinander konkurrieren, aber auch emotionale Kosten).

In Bezug auf summative und formative Prüfungen gibt es einen Unterschied bei dem Wert, der einer Aufgabe, der Prüfung, beigemessen wird. Welchen Wert eine Aufgabe bzw. Prüfung für jede/n Einzelne/n hat, wird auch durch die Rahmenbedingungen an der eigenen Fakultät beeinflusst. Diese hat maßgeblichen Einfluss auf den wahrgenommenen Nutzen und die wahrgenommenen Kosten. Zum Beispiel ist es sehr wahrscheinlich, dass die summativen Prüfungen im Fokus der Studierenden stehen, wenn an der eigenen medizinischen Fakultät die nach ÄAppO vorgeschriebenen Nachweise ausschließlich durch summative Prüfungen nachgewiesen werden müssen. Im ungünstigsten Fall lernen sie äußerst effizient, d. h. alle jeweils geforderten Inhalte kurz vor der entsprechenden Prüfung, das sog. Bulimielernen [10]. Damit wäre aus Sicht der Studierenden der Nutzen - Bestehen der Prüfungen - maximal bei minimalen Kosten. Dieses so erworbene Wissen läuft Gefahr nach der Prüfung „abgehakt“ und bald vergessen zu werden [11].

Gerade was Nutzen und Kosten aus der Erwartungs-Wert-Theorie betrifft, können Fakultäten Rahmenbedingungen schaffen, um die Motivation zur Nutzung von formativen Prüfungen und damit den Einfluss auf das Lernen zu erhöhen. So können formative Prüfungen als zusätzlicher Aufwand gesehen werden, v. a. wenn summative Prüfungen und/oder arbeitsintensive Lehrveranstaltungen (study load) parallel absolviert werden müssen. Wenn dagegen die formative Prüfung als sinnvoller und wertvoller Bestandteil des Gesamtcurriculums wahrgenommen wird und von den Fakultätsangehörigen wertgeschätzt wird, könnte der Nutzen der formativen Prüfung – trotz paralleler benoteter Prüfungen und hoher study load – als hoch angesehen werden.

Eine Möglichkeit zu untersuchen, unter welchen Bedingungen formative Prüfungen – trotz konkurrierender und damit als nützlicher wahrgenommene – summativer Prüfungen erfolgreich implementiert werden können, bietet der formative Progress Tests Medizin.

Progress Tests sind Multiple-Choice-Tests, die das medizinische Wissen einer Berufsanfängerin/eines Berufsanfängers regelmäßig im Verlauf des Studiums erfassen und mit dem Wissensstand der Kommiliton/innen des gleichen Semesters vergleichen, um Lücken im aktuellen Wissensstand zu identifizieren und um das Lernverhalten konstruktiv zu beeinflussen. Alle Arten von Progress Tests geben Feedback, werden jedoch unterschiedlich bzgl. ihrer Bestehensrelevanz verwendet. Im niederländischen Konsortium und in den U.S.A. werden z. B. die Ergebnisse des Progress Tests pro Individuum über mehrere Testzeitpunkte akkumuliert und sind in dieser Form bestehensrelevant [12], [13]. Das heißt, die Progress Tests werden zwar nicht benotet, haben aber dennoch einen Einfluss auf den Fortgang im Studium. In Deutschland und Österreich sind die Teilnahmen zwar verpflichtend, jedoch nicht bestehensrelevant [2], [14]. Im deutschsprachigen Konsortium Progress Test Medizin (PTM) erfolgt die Testerstellung und Auswertung zentral an der Charité-Universitätsmedizin in Berlin. Alle Teilnehmenden des Tests erhalten aus Berlin ca. 4-6 Wochen nach dem Test eine ausführliche Rückmeldung ihrer Ergebnisse im Verlauf der Jahre, aber auch im Vergleich mit ihren Kommiliton/innen, differenziert nach Organsystemen und Fächern. Das unterschiedliche Ausmaß an Testbemühen an den einzelnen Fakultäten zeigt sich im Anteil ernsthafter Testteilnehmender, der routinemäßig nach jeder Testdurchführung ermittelt wird. Beim nicht bestehensrelevanten PTM zeigt sich, dass es sehr unterschiedliche Anteile an ernsthaften Testteilnehmenden an den verschiedenen Fakultäten gibt. So wurden Anteile von 75-90% an den teilnehmenden Fakultäten berichtet [15].

In der vorliegenden Studie wird untersucht, wie der nicht-bestehensrelevante PTM an zwei Medizinischen Fakultäten eingebettet ist und welchen Einfluss das auf das Testbemühen der Studierenden und die Wahrnehmung des Progress Tests, spezieller die Wahrnehmung der Kosten sowie des Nutzens, als formative Prüfung hat. Die Rahmenbedingungen für den PTM unterscheiden sich in beiden Fakultäten unter anderem in der Einbindung in das jeweilige Curriculum: Die Studien-, Prüfungs- und Feedbackbedingungen im Vergleich sind in Tabelle 1 [Tab. 1] detailliert dargestellt.

Wenn man die Prüfungs- und Feedbackbedingungen an beiden Fakultäten betrachtet, sollte der Anteil ernsthafter Testteilnehmender und die damit einhergehende Wahrnehmung der Kosten und des Nutzens des PTM vergleichbar sein, da beide Fakultäten Bedingungen aufweisen, welche positiv auf die Motivation und entsprechend auf das Testbemühen wirken sollten.

So haben die Studierenden an der Fakultät 1 eine Wahlmöglichkeit, die an Fakultät 2 nicht vorhanden ist. Sie können wählen, an welchen 8 von 10 PTM sie teilnehmen möchten. Nach der Selbstbestimmungstheorie von Ryan & Deci [16] sollte dies die intrinsische Motivation erhöhen und sich damit auch der Anteil ernsthafter Testteilnehmender erhöhen.

Außerdem gibt es an der Fakultät 1 ein sofortiges Feedback durch die computer-basierte Administration. Sofortiges Feedback ist wichtig, damit man Aufgaben beendet und mit der Arbeit zufrieden ist [17], [18], [19]. Daher sollte sich auch durch die Bedingung der computer-basierten Administration das Testbemühen erhöhen und damit auch der Anteil ernsthafter Testteilnehmender.

Obwohl die Rückmeldung der Ergebnisse sehr schnell erfolgt, gibt es keinen Dialog über die Ergebnisse an Fakultät 1. Der Dialog über die Ergebnisse ist an der Fakultät 2 in das Mentorenprogramm eingebunden. Der Dialog ist essentiell für ein effektives Feedback und damit für das Funktionieren formativer Prüfungen [20], [21], [22]. Die sollte den wahrgenommenen Nutzen des PTM an Fakultät 2 erhöhen.

Da an Fakultät 2 der PTM als Prüfung kommuniziert wird, im Gegensatz zu Fakultät 1, in der er als Evaluation präsentiert wird, sollte der PTM an Fakultät 2 aus einem weiteren Grund als nützlicher wahrgenommen werden. Wie Heeneman et al. in ihrer Studie zeigen konnten, nutzen Studierende das Feedbacksystem des bestehensrelevanten Progress Tests mehr und haben höhere Testwerte, wenn der Progress Test in ein ganzheitliches Prüfungssystem eingebunden ist [8]. Die höheren Testwerte wurden dabei als indirekter Indikator für Testbemühen angesehen. Gleichzeitig werden die wahrgenommenen Kosten niedriger, wenn die formative Prüfung Teil des Prüfungssystems ist.

Unter Berücksichtigung der Bedingungen an den beiden Fakultäten und deren theoretischen Einflüsse auf das Testbemühen, gemessen am Anteil ernsthafter vs. nicht ernsthafter Testteilnehmender, sowie auf die wahrgenommenen Kosten und Nutzen des PTM, lassen sich folgende Hypothesen ableiten:

1.
Der Anteil nicht ernsthafter Testteilnehmender an Fakultät 1 (F1) ist niedriger als an Fakultät 2 (F2).
2.
Die wahrgenommenen Kosten des PTM sind an Fakultät 1 (F1) höher als an Fakultät 2 (F2).
3.
Der wahrgenommene Nutzen des PTM ist an Fakultät 1 (F1) niedriger als an Fakultät 2 (F2).

Methodik

Die Studie erfolgt in einem Mixed-Method-Ansatz, bei dem quantitativ die Anteile der nicht ernsthaften Testteilnehmenden bestimmt werden. Im qualitativen Teil werden die Themen identifiziert, die für die Studierenden bezogen auf den PTM in beiden Fakultäten bzgl. des wahrgenommenen Nutzen und der Kosten jeweils von Relevanz sind.

Stichprobe

Im Wintersemester 2015/16 nahmen N=1.410 (F1) bzw. N=1.176 (F2) Medizinstudierende am PTM teil. Das entspricht einem Anteil von 50 % der immatrikulierten Medizinstudierenden in F1 bzw. 61% in F2. Der Frauenanteil der Studierenden an den beiden Fakultäten beträgt 62% (F1) bzw. 68% (F2).

Material

Der Anteil nicht ernsthafter Testteilnehmender wurde auf zwei verschiedene Wege ermittelt. Zum einen wurden die Studierenden, die beim Ausfüllen des Tests im WiSe 2015/16 bei allen Fragen die „weiß nicht“-Option gewählt oder alle Fragen übersprungen haben, als nicht ernsthaft identifiziert, da selbst im 1. Semester die eine oder andere Frage beantwortet werden kann. Zum anderen wurde das Testbemühen mit Hilfe der Test-Effort Short Scale (TESS) [23] ermittelt. TESS besteht aus drei fünf-stufigen Likert-Items mit den Abstufungen 1 bis 5, die den Leistungswert („Ich möchte beim PTM die bestmöglichen Ergebnisse erreichen.“), den Nutzenwert („Ich finde den PTM sinnvoll.“) und die wahrgenommenen Kosten („Der PTM ist ein wertvoller Teil meines Studiums.“) erfragen. Aus den Antworten auf alle drei Fragen wird der Mittelwert berechnet. Studierende, die der jeweiligen Aussage nicht zustimmten und alle Fragen mit 1 beantworteten (entspricht einem TESS-Score von 1), werden als nicht ernsthafte Testteilnehmende kategorisiert. Beide Verfahren haben jeweils einen methodischen Nachteil, der die Validität mindern könnte. Der Nachteil bei der Selbstauskunft ist, dass es einen unbekannten Prozentsatz von Studierenden gibt, die sozial erwünscht antworten. Das bedeutet, dass sie ein höheres Ausmaß an Testbemühen angeben könnten, als dies tatsächlich der Fall ist. Der Nachteil bei der Identifikation über die „weiß nicht“-Option liegt darin, dass es auch sog. Musterkreuzer geben kann. Dies sind Testteilnehmende, welche zwar alle Fragen beantworten, dies jedoch ohne Kenntnis des Fragentextes tun [24]. Aufgrund dieser Nachteile sind beide Verfahren parallel angewendet worden.

Um die wahrgenommenen Kosten und Nutzen messbar zu machen, haben wir offene Fragen gestellt. Sowohl der Begriff der Kosten als auch der Begriff des Nutzens sind sehr abstrakt. Daher haben wir formal balancierte Fragen gestellt, die Antwortmöglichkeiten provozieren, die sich diesen beiden Begriffen zuordnen lassen. Dies sind zum einen die Fragen nach Nachteilen und Vorteilen des PTM, aber auch Fragen direkt zum Nutzen des PTM. So sollten Studierende, welche den PTM nutzen, auch mit anderen Personen über ihre Ergebnisse reden, wie z. B. mit ihrem/ihrer Mentor/in, um mit ihm bzw. ihr das eigene Lernverhalten zu ändern.

Die wahrgenommenen Kosten wurden über zwei offene Fragen abgefragt:

  • Fühlen Sie sich emotional durch den PTM eingeschränkt? (Frage 1)
  • Welche Nachteile sehen Sie beim PTM? (Frage 2)

Der wahrgenommene Nutzen wurde über fünf Fragen (zwei geschlossene und drei offene Fragen) zu verschiedenen Aspekten ermittelt:

  • Dialog mit anderen Personen über die Ergebnisse beim PTM mit den Unterfragen:
    • Ich rede mit Kommilitonen über meine Ergebnisse beim PTM. (Likert-Item mit 1 „trifft nicht zu“ bis 5 „trifft zu“),
    • Ich rede mit meinem Mentor über meine Ergebnisse beim PTM. (Likert-Item mit 1 „trifft nicht zu“ bis 5 „trifft zu“),
    • Ich rede mit anderen Menschen über meine Ergebnisse beim PTM. Und zwar mit … (offene Frage, Frage 3).
  • Nutzen Sie die Ergebnisse des PTM noch anderweitig? (offene Frage, Frage 4)
  • Welche Vorteile sehen Sie beim PTM? (offene Frage, Frage 5)

Es gab keine Einschränkung hinsichtlich der Anzahl der Kommentare, welche die Studierenden zu den offenen Fragen abgeben konnten.

Zusätzlich wurden im Fragebogen das Geschlecht und die Studiensemester abgefragt, um die Vergleichbarkeit beider Gruppen prüfen zu können.

Versuchsdurchführung

An Fakultät 1 und 2 fand der PTM in den ersten Wochen des Semesters in den Räumlichkeiten der Hochschule und unter Aufsicht statt. Für jede Kohorte wurden mindestens zwei überschneidungsfreie Termine geplant, die von den Studierenden selbstständig gewählt werden konnten. An beiden Fakultäten erfolgte die Testung computerbasiert. An Fakultät 2 wurden zusätzlich Termine für eine papierbasierte Testung angeboten.

Die Studierenden an beiden Fakultäten nahmen regulär am PTM-Termin teil. Zu Beginn des Tests wurde neben der regulären Einführung auch über die Gesamtstudie informiert. Die Gesamtstudie untersucht die Motivation beim PTM und seinen Einfluss auf das Lernen beim PTM. Daher enthielt der Fragebogen mehr als die hier angegebenen Fragen. Die Teilnehmenden wurden in der regulären Einführung gebeten, den Fragebogen im Anschluss an die Testbearbeitung auszufüllen und wurden darauf hingewiesen, dass diese Teilnahme freiwillig und anonym ist. Die Ethikkommission der Medizinischen Fakultät Mannheim, Universität Heidelberg, stellte ein positives Ethikvotum für die Gesamtstudie aus (2015-542-N-MA).

Auswertung

Der Anteil nicht ernsthafter Testteilnehmender pro Fakultät wurde jeweils mit einem χ2-Test auf Unabhängigkeit überprüft. Da die Stichprobe sehr groß ist und demzufolge auch kleine Unterschiede signifikant werden können, wurde zusätzlich die Effektstärke Cohens w für Kontingenztabellen und Cohens d für metrische Daten (s. u.) berechnet, um die inhaltliche Relevanz von Unterschieden zu beurteilen [25]. Die Effektstärke w ist kategorisiert als kein Effekt mit w<0,1, kleiner Effekt mit w<0,3, moderater Effekt mit w<0,5 sowie großer Effekt mit w≥0,5 [25].

Für den Vergleich der TESS-Scores zwischen den beiden Fakultäten wurde ein t-Test für unabhängige Stichproben mit ungleichen Varianzen berechnet, sowie die Effektstärke d nach Cohen [25], wobei die gepoolte Standardabweichung nach Leonhart (2004) berechnet wurde [26]. Die Kategorisierung von d lautet wie folgt: d<0,2 kein Effekt, d<0,5 kleiner Effekt, d<0,8 moderater Effekt und d≥0,8 großer Effekt.

Die Auswertung der beiden Likert-Items („Ich rede mit Kommilitonen…“ bzw. „…mit meinem Mentor über meine Ergebnisse beim PTM“) wurden umkodiert, sodass Angaben von 4 oder 5 als Zustimmung gewertet wurden.

Zur Auswertung der offenen Fragen zu den Kosten und Nutzen des PTM wurden qualitative und quantitative Methoden verwendet. Die Daten des Fragebogens wurden in drei Schritten analysiert: Zunächst untersuchten zwei Autorinnen (KG, MZ) alle Kommentare der offenen Fragen und codierten sie unabhängig voneinander anhand der thematischen Inhaltsanalyse [27]. In einem zweiten Schritt nach gemeinsamer Diskussion von Diskrepanzen und neuen Perspektiven wurden diese Codes wiederum unabhängig voneinander in Kategorien gruppiert und eine Kategorienliste erstellt. Im dritten Schritt wurde diese Kategorienliste hinsichtlich der Inter-Coder-Reliabilität überprüft mit perfekten Übereinstimmungen (je 100%) für die offenen Fragen 1 (8 Kategorien), 3 (7 Kategorien) und 4 (4 Kategorien). Sehr gute Übereinstimmungen ergaben sich für die offene Frage 2 (94%, 9 Kategorien) und Frage 5 (97%, 12 Kategorien), so dass diese Kategorienliste in den weiteren Analysen verwendet wurde. Im Ergebnisteil wird die Anzahl der Nennungen pro Kategorie angegeben. Die dazugehörigen Prozentzahlen beziehen sich jeweils auf die Gesamtanzahl der Nennungen für die angegebene Frage.


Ergebnisse

Deskriptive Statistik

415 Studierende an F1 sowie 453 Studierende an F2 nahmen an der Befragung teil. 234 Studierende der F1 beantworteten die in die Analyse einbezogenen Fragen (57% weiblich, Responder=56% der Stichprobe, 234/415). An F2 beantworteten 248 Studierende diese Fragen (71% weiblich; Responder=55% der Stichprobe, 248/453). Eine Übersicht findet sich in Tabelle 2 [Tab. 2].

Die beiden Universitäten unterschieden sich statistisch signifikant hinsichtlich der Verteilung der Geschlechter (χ2=10,52, df=1, p<,001) mit einem höheren Frauenanteil bei F2, jedoch nicht in der Verteilung der Studierenden auf den vorklinischen und klinischen Abschnitt des Studiums (n. s.). In Voranalysen zeigten sich keine statistisch signifikanten Effekte, so dass die Variable Geschlecht in den Auswertungen nicht als Kovariate einbezogen wurde.

Anteile nicht ernsthafter Testteilnehmender beim PTM

Unabhängig von der Berechnung und der gewählten Operationalisierung zeigt sich, dass in Fakultät 1 der Anteil nicht ernsthafter Testteilnehmender deutlich höher ist als in Fakultät 2.

An F1 gibt es NF1=173/1.410 (12%) Studierende, die beim PTM alle Fragen mit „weiß nicht“ bzw. gar nicht beantwortet haben, an F2 NF2=5/1.191 (<1%). Dies ist ein signifikanter Unterschied mit χ2(1)=142,20; p<0,001 und einem kleinen Effekt von w=0,23.

Im Fragebogen wurden an F1 von 291/415 (70%) Studierenden folgende durchschnittliche TESS-Werte, die das selbsteingeschätzte Testbemühen widerspiegeln, angekreuzt: MF1=2,51; SDF1=1,08 und an F2 von 409/453 (90%) Studierenden MF2=3,63, SDF2=0,88. Dieser Unterschied ist ebenfalls signifikant mit T(543,80)=14,68; p<0,001 und einem großen Effekt von d=-1,19. Das Testbemühen der Studierenden an F2 war demnach deutlich größer als an F1. Wenn man die Testteilnehmenden in ernsthaft vs. nicht ernsthaft kategorisiert, gibt es NF1=52/415 (13%) bzw. NF2=3/453 (<1%) nicht ernsthafte Testteilnehmende. Dieser Unterschied ist ebenfalls signifikant mit χ2(1)=68,96; p<0,001 und einem moderaten Effekt (w=0,31).

Wahrgenommene Kosten in Fakultäten mit unterschiedlichen Prüfungs- und Feedbackbedingungen

Insgesamt berichteten die Studierenden aus F1 häufiger von wahrgenommenen Kosten des PTM. An F2 wurden insgesamt mehr positive, konstruktive Nennungen gegeben als in F1. Bei der Beantwortung der Frage 1 „Fühlen Sie sich emotional durch den PTM eingeschränkt?“ waren Mehrfachnennungen möglich. In F1 gab es 55 Nennungen (24% der 234 Responder) zu dieser Frage, von denen 53% (29/55) konstruktiv waren. Von den 19 Nennungen (8% der 248 Responder) aus F2, welche diese Frage beantworteten, waren 15/19 (79%) Nennungen konstruktiv. Die Zuordnung von Nennungen zu den einzelnen Kategorien pro Fakultät ist in Tabelle 3 [Tab. 3] aufgeführt.

Die Frage 2 „Welche Nachteile sehen Sie beim PTM?“ ergab an F1 241 Nennungen (103% der 234 Responder; d. h. einige Mehrfachnennungen), davon 43% (104/241) konstruktive Nennungen. An F2 waren von 105 Nennungen (42% der 248 Responder) 65/105 (62%) konstruktiv. Die Zuordnung von Nennungen zu den einzelnen Kategorien pro Fakultät ist in Tabelle 4 [Tab. 4] aufgeführt.

Wahrgenommener Nutzen in Fakultäten mit unterschiedlichen Prüfungs- und Feedbackbedingungen

163 (39%) der Studierenden aus F1 sowie 309 (68%) der Studierenden aus F2 reden mit anderen Personen über ihre Ergebnisse beim PTM. Dabei stimmten 84 (20%) der Studierenden der F1 der Aussage zu, dass sie mit ihren Kommiliton/innen über ihre Ergebnisse beim PTM reden. An der F2 waren dies 147 (32%). Der Aussage, dass sie mit ihrer Mentorin / ihrem Mentor über die eigenen Ergebnisse beim PTM reden, stimmten 4 (1%) der Studierenden der F1 zu und 16 (4%) der F2. Mit anderen Personen reden insgesamt 75 (18%) der teilnehmenden Medizinstudierenden der F1 sowie 146 (32%) der F2 über ihre PTM Ergebnisse. Die Häufigkeit der Zustimmung zu den beiden geschlossenen Fragen sowie die Zuordnung von Nennungen zu den einzelnen Kategorien pro Fakultät für die anderen Personen (offene Frage 3) sind in Tabelle 5 [Tab. 5] aufgeführt.

Bei der Frage 4 „Nutzen Sie die Ergebnisse des PTM noch anderweitig? Wenn ja, wie?“ gab es 72/234 Nennungen an F1 (31% der Responder), und 33/248 Nennungen (13% der Responder) an F2. Obwohl es an der F1 insgesamt mehr Nennungen für eine anderweitige Nutzung gab als an der F2, waren die Nennungen von F1 zu einem hohen Prozentsatz eher Kategorien mit negativer Konnotation (70/72 Nennungen, 97%) zuzuordnen, im Vergleich dazu gab es an F2 nur 22/33 Nennungen (67%) mit eher negativer Konnotation, wie in Tabelle 6 [Tab. 6] dokumentiert.

Auf die Frage 5 „Welche Vorteile sehen Sie beim PTM?“ gab es an beiden Fakultäten knapp über 200 Nennungen (F1 mit 207/234, 88% bzw. F2 mit 202/248, 81% der Responder). In F1 konnten 163/234 (79%) der Nennungen positiven Kategorien zugeordnet werden, in F2 198/248 (98%), wie in Tabelle 7 [Tab. 7] ersichtlich.


Diskussion

Formative Prüfungen sind wichtig als essentieller Teil des Prüfens für das Lernen. Wenn formative Prüfungen nicht bestehensrelevant sind, können sie im Empfinden der Studierenden hohe Kosten und/oder geringeren Nutzen im Vergleich zu summativen Prüfungen haben. In diesen Fällen kann der Anteil nicht ernsthafter Testteilnehmender hoch sein. In der vorliegenden Studie wurde untersucht, ob unterschiedliche Rahmenbedingungen an zwei Fakultäten einen Einfluss auf das Testbemühen sowie die wahrgenommenen Kosten und Nutzen einer formativen Prüfung – des Progress Tests Medizin (PTM) – haben. Die unterschiedlichen Rahmenbedingungen finden sich in der geforderten Anzahl der Teilnahmen, der Darbietung des PTM, der Rückmeldung der Ergebnisse sowie der universitären Einbindung. Obwohl an beiden medizinischen Fakultäten Maßnahmen zur Erhöhung der Akzeptanz des PTM durchgeführt werden, um das Testbemühen zu steigern, wird der PTM von den Studierenden an Fakultät 2 besser angenommen als an Fakultät 1. Dies zeigt sich in dem höheren Anteil ernsthafter Testteilnehmender, den niedrigeren wahrgenommenen Kosten und dem höheren berichteten Nutzen sowie dem größeren Anteil an konstruktiven Kommentaren.

Ernsthafte Testteilnahme

Die Hypothese „Der Anteil nicht ernsthafter Testteilnehmender an Fakultät 1 ist niedriger als an Fakultät 2.“ konnte nicht bestätigt werden. Entgegen dieser Hypothese ist der Anteil ernsthafter Testteilnehmender an Fakultät 1 kleiner als an Fakultät 2, trotz mehr Wahlmöglichkeiten und einem unmittelbaren Feedback. Obwohl an anderer Stelle gezeigt werden konnte, dass bei computer-basierter Administration der Anteil ernsthafter Testteilnehmender höher ist als bei papier-basierter Administration [28], haben bereits verschiedene Studien gezeigt, dass mehrere Faktoren Einfluss auf das Testbemühen haben. Unizentrische Studien können deshalb nur einen marginalen Erklärungsbeitrag liefern, um das multifaktorielle Bedingungsgefüge für das Testbemühen in formativen Prüfungen vollständig aufzuklären.

Kosten

Die vorliegende Studie konnte die Hypothese „Die wahrgenommenen Kosten des PTM sind an Fakultät 1 höher als an Fakultät 2.“ bestätigen. An Fakultät 1 werden von den Teilnehmenden mehr Kosten dargelegt als an Fakultät 2. Die Kommentare der Teilnehmenden spiegeln Befunde aus der Literatur wider, dass die Kosten des PTM als hoch wahrgenommen werden, wenn die Studierenden einschätzen, dass sie zur gleichen Zeit keine höher bewerteten Alternativen durchführen können, wie Lernen auf „richtige“ Prüfungen oder wenn sie emotionalen Stress beim Ausfüllen des Tests empfinden [29].

Nutzen

Die Ergebnisse zur Überprüfung der Hypothese „Der wahrgenommene Nutzen des PTM ist an Fakultät 1 niedriger als an Fakultät 2.“ müssen differenzierter betrachtet werden. Obwohl mehr Studierende an Fakultät 2 über ihre PTM-Ergebnisse sprechen, handelt es sich hierbei zur Hälfte um fakultätsferne Personen. Dies ist verwunderlich, da der PTM ein Teil des Studiums sein sollte und daher zu erwarten wäre, dass die Studierenden hauptsächlich mit ihren Kommiliton/innen und Mentor/innen über die Ergebnisse reden. Eine Mentorin/ein Mentor wurde bei der Beantwortung dieser Frage jedoch nur selten genannt, obwohl es an F2 ein Mentorenprogramm gibt. Bei der Frage, ob die Studierenden die Ergebnisse des PTM noch anderweitig nutzen, war der Anteil der Kommentare der Studierenden an Fakultät 1 höher als bei den Studierenden der Fakultät 2. Allerdings handelt es sich hierbei um einen sehr hohen Anteil an Kommentaren mit negativer Konnotation bzw. Kommentare, die zeigen, dass die Ergebnisse nicht anderweitig genutzt werden. Studierende der Fakultät 2 haben das Prinzip des formativen Prüfens besser verstanden und nutzen die Ergebnisse des PTM als Feedback über den eigenen Wissensfortschritt, zur Lernmotivation und zur Reduktion von Prüfungsangst. Obwohl an Fakultät 2 die Einstellung gegenüber dem PTM positiver ist, haben an beiden Fakultäten Studierende nur in den seltensten Fällen erwähnt, dass sie den PTM als Lerninstrument verwenden (10 Nennungen von insgesamt 482 Studierenden, die den Fragebogen ausgefüllt haben). Daher ist die Wirkung auf das Lernen fraglich. Dies wäre jedoch ein Qualitätskriterium für die Nützlichkeit einer Prüfung [4], v. a. bei formativen Prüfungen, deren Funktion das Prüfen als eine Anregung und Rückmeldung zum Lernen ist. Die Lernwirkung muss genauer in weiteren Studien untersucht werden, zumal auch bei bestehensrelevanten Progress Tests die Wirkung auf das Lernen fraglich ist. So konnte nur eine moderate Rolle des Progress Tests bei der Identifikation von Stärken und Schwächen ausgemacht werden [30]. Aarts et al. zeigten, dass eine Mehrheit der Studierenden die Ergebnisse des bestehensrelevanten Progress Tests zum Monitoren ihres Wissens nutzten, jedoch war nicht klar, ob dies auch einen direkten Einfluss auf das Lernen hatte [31]. Dies zeigte sich auch bei Given et al. Sie fanden in semi-strukturierten Interviews heraus, dass sich die Studierenden zwar über ihre Stärken und Schwächen informiert fühlten, das Feedback jedoch keinen Einfluss auf das zukünftige Lernen hatte [32]. Auch Yielder et al. fanden in Fokusgruppen heraus, dass bei jüngeren Studierenden das zukünftige Lernen durch den Progress Test beeinflusst wird, jedoch nicht durch das Feedback, sondern durch den Inhalt des Tests [33]. Studierende in höheren Fachsemestern nutzen den Progress Test eher als Erinnerungen daran, dass sie überhaupt lernen müssen. Der Anteil der Kommentare zu den Vorteilen des PTM in der vorliegenden Studie ist in beiden Fakultäten ungefähr vergleichbar, jedoch zeigt sich auch hier, dass die Studierenden der Fakultät 2 den PTM positiver beurteilen. Daher kann gefolgert werden, dass die Hypothese zum wahrgenommenen Nutzen des PTM bestätigt werden kann, einschränkend kommt jedoch hinzu, dass die Wirkung als Lerninstrument auch an Fakultät 2 fraglich ist.

Stärken und Schwächen

In der vorliegenden Studie konnte gezeigt werden, dass verschiedene Prüfungs- und Feedbackbedingungen mit unterschiedlichen Anteilen ernsthafter Testteilnehmender und damit einer erhöhten Varianz des Testbemühens verbunden sein können. Zudem wurde ersichtlich, dass die Kosten und der Nutzen des Progress Tests an beiden Fakultäten unterschiedlich wahrgenommen werden. An Fakultät 2 waren nicht nur mehr ernsthafte Testteilnehmende vorhanden, sondern der PTM wurde auch bzgl. Kosten und Nutzen positiver wahrgenommen als an Fakultät 1.

Der Vorteil der vorliegenden Studie liegt im direkten Vergleich zweier Medizinischer Fakultäten, bei denen der PTM zum gleichen Zeitpunkt vor über 15 Jahren eingeführt wurde. In vielen Punkten sind die Bedingungen an beiden Fakultäten vergleichbar: beide haben einen Modellstudiengang und drei Staatsprüfungen, die Einfluss auf die PTM-Ergebnisse haben können [34]. Bei beiden Fakultäten gibt es vergleichbare Implementationsbedingungen des PTM, wie den gleichen Test, Teilnahmeverpflichtung sowie keine Zulassung zu weiteren Kursen, wenn am PTM nicht teilgenommen wird. Andererseits unterscheiden sich die beiden Bedingungen zur Implementierung des PTM durch die unterschiedliche Einbindung in das Qualitätsmanagementsystem bzw. in das Prüfungssystem sowie in der Rückmeldung (sofortige Rückmeldung der eigenen Ergebnisse bei computer-basierter Testung vs. auf Nachfrage Vergleich mit dem Lösungsheft). Neben den vergleichbaren Bedingungen an den beiden Fakultäten bietet die vorliegende Studie als weiteren methodischen Vorteil den Mixed-Methods-Ansatz, der sowohl quantitative als auch qualitative Auswertungen erlaubt. Somit wurde ein besserer Einblick in die Wahrnehmung des PTM an den beiden Fakultäten gewonnen und es konnte zudem quantitativ gezeigt werden, dass sich der Anteil ernsthafter Testteilnahmen stark zwischen den beiden Fakultäten unterscheidet.

Die Methoden zur Bestimmung des Anteils ernsthafter bzw. nicht ernsthafter Testteilnahmen haben jede einzelne für sich Einschränkungen in ihrer Zuverlässigkeit, wie ein unbekanntes Ausmaß an Sensitivität/Spezifität („objektive Kriterien“) und die fragliche Aussagekraft der Selbstauskunft (TESS-Score). Um die Validität der Ergebnisse zu erhöhen, wurde mit Hilfe von Triangulation das Testbemühen mit verschiedenen Methoden gemessen. Da beide Methoden zu der gleichen Schlussfolgerung führen, kann davon ausgegangen werden, dass das Testbemühen an Fakultät 2 höher ist als an Fakultät 1. Außerdem lassen die Antworten aus den offenen Fragen ebenfalls diese Schlussfolgerung zu, da an Fakultät 2 mehr konstruktive Antworten gegeben wurden und auch ein höherer Nutzen und weniger Kosten berichtet wurden. Nach der Erwartungs-Wert-Theorie sollte daher die Motivation, diese Aufgabe zu erledigen, also beim PTM das Testbemühen, bei Fakultät 2 höher sein als bei Fakultät 1.


Fazit

Der formative PTM als Prüfung für das Lernen soll den Studierenden Rückmeldung über den Stand des eigenen medizinischen Wissens geben, im Vergleich zum Absolvierendenniveau und im Vergleich zu den Kommiliton/innen des gleichen Studienstandes, um im Rahmen des kontinuierlichen Lernens den Lernprozess zu begleiten und zu modulieren. Er soll dadurch ein Gegenpol zum sog. Bulimielernen sein, welches durch zu viele benotete Leistungsnachweise vermehrt auftreten kann [2]. Wie auch bei anderen nicht-bestehensrelevanten Tests gibt es beim PTM große Schwankungen im Testbemühen und damit eine fragliche Wirkung auf das Lernen. Es ist anzunehmen, dass Maßnahmen zur Senkung der wahrgenommenen Kosten und zur Erhöhung des wahrgenommenen Nutzens das Testbemühen und langfristig auch die Wirkung auf das Lernen positiv beeinflussen können. Auch wenn bei bestehensrelevanten Progress Tests mutmaßlich kein Problem mit dem Testbemühen auftritt, zeigt sich in Studien die eingeschränkte Lernwirkung. Daher sollten Rahmenbedingungen identifiziert werden, welche die wahrgenommenen Kosten und Nutzen formativer Prüfungen positiv beeinflussen und damit langfristig auch auf die Lernmodulation wirken. Da durch den PTM zwar Daten für eine Rückmeldung zum Leistungsstand bzw. zum Leistungsverlauf geliefert werden, jedoch die Nutzung des PTM als Lernsteuerungsinstrument bei den Studierenden liegt, sollte der PTM und die Verwendung der Ergebnisse für das eigene Lernen in das Curriculum eingebettet werden. Dies kann durch die Einbettung in das Prüfungssystem geschehen, sowohl als Teil der Prüfungsordnung als auch in der Darstellung der Informationen und der Ergebnisse, wie an Fakultät 2. Weitere Möglichkeiten, wahrgenommene Kosten und Nutzen als Fakultät zu beeinflussen, wären keine parallelen summativen Prüfungen zu den formativen Prüfungen [6], [8], eine Einbindung in das Mentorensystem für alle Studierende und nicht nur als Identifikation für notwendige Förderung leistungsschwacher Studierender [13], [30], [31], [35], [36], [37]. Denkbar wäre auch das Verwenden von formativen Prüfungen zur Erstellung und zum Nachhalten von Lernplänen, zusammen mit dem Mentor/der Mentorin [38]. Wenn formative Prüfungen verwendet werden, um kontinuierlich Feedback zum Wissensstand zu sammeln, mit dem Mentor/der Mentorin zu besprechen und das künftige Lernen darauf auszurichten, wie es im programmatischen Assessment vorgesehen ist [8], [39], dann werden sie ihrem Zweck gerecht. Und erst dann werden die Studierenden den Wert formativer Prüfungen erkennen.

Obwohl formative Prüfungen immer mehr an Bedeutung gewinnen, reicht es nicht, diese als Add-on in das Curriculum einzuführen. Neue Prüfungsformate benötigen vielmehr auch die entsprechenden Rahmenbedingungen, damit sie den gewünschten Effekt erzielen. Bei formativen Prüfungen müssen daher Bedingungen geschaffen werden, in denen die Ergebnisse einen Wert haben und zwar als Leitfaden durch das Studium und als Lenkung des Lernverhaltens. Nur wenn formativen und summativen Prüfungen gleich viel Bedeutung beigemessen wird, werden die wahrgenommenen Kosten und Nutzen vergleichbar sein und das Testbemühen ebenfalls. Somit kann der Fokus der Studierenden auf das kontinuierliche Lernen gelenkt werden, weg vom Bulimielernen, denn es ist anzunehmen, dass Studierende, welche ihr Handeln auf das bloße Bestehen von MC-Prüfungen ausrichten, den Wert von formativen Prüfungen überhaupt nicht erkennen können.

Nicht-bestehensrelevante Prüfungen sind eine gute Möglichkeit zu lernen, unter welchen Bedingungen Prüfungen für das Lernen funktionieren und wie diese effektiv in die bestehenden Curricula eingebettet werden können. Dazu sollte in weiteren Studien das Ausmaß der Einzelmaßnahmen und deren Wechselwirkung untersucht werden. Dies ist eine große Herausforderung, da die Untersuchung realer Bedingungen in der medizinischen Ausbildung erschwert wird durch die vielen, häufig unkontrollierbaren Bedingungen [40].


Interessenkonflikt

Die Autor*innen erklären, dass sie keinen Interessenkonflikt im Zusammenhang mit diesem Artikel haben.


Literatur

1.
Schuwirth LW, van der Vleuten CP. Programmatic assessment: From assessment of learning to assessment for learning. Med Teach. 2011;33(6):478-485. DOI: 10.3109/0142159X.2011.565828 Externer Link
2.
Schuwirth LW, van der Vleuten CP. The use of progress testing. Perspect Med Educ. 2012;1(1):24-30. DOI: 10.1007/s40037-012-0007-2 Externer Link
3.
Berkhout JJ, Helmich E, Teunissen PW, van der Vleuten CP, Jaarsma AD. Context matters when striving to promote active and lifelong learning in medical education. Med Educ. 2018;52(1):34-44. DOI: 10.1111/medu.13463 Externer Link
4.
van der Vleuten CP. The assessment of professional competence: Developments, research and practical implications. Adv Health Sci Educ Theory Pract. 1996;1(1):41-67. DOI: 10.1007/BF00596229 Externer Link
5.
Wade L, Harrison C, Hollands J. Student perceptions of the progress test in two settings and the implications for test deployment. Adv Health Sci Educ Theory Pract. 2012;17(4):573-583. DOI: 10.1007/s10459-011-9334-z Externer Link
6.
Cobb KA, Brown G, Jaarsma DA, Hammond RA. The educational impact of assessment: a comparison of DOPS and MCQs. Med Teach. 2013;35(11):e1598-e1607. DOI: 10.3109/0142159X.2013.803061 Externer Link
7.
van Berkel HJ, Nuy HJ, Geerlings T. The influence of progress tests and block tests on study behaviour. Instruct Sci. 1995;22(4):317-333. DOI: 10.1007/BF00891784 Externer Link
8.
Heeneman S, Schut S, Donkers J, van der Vleuten CP, Muijtjens A. Embedding of the progress test in an assessment program designed according to the principles of programmatic assessment. Med Teach. 2017;39(1):44-52. DOI: 10.1080/0142159X.2016.1230183 Externer Link
9.
Wigfield A, Eccles JS. Expectancy-value theory of achievement motivation. Contemp Educ Psychol. 2000;25(1):68-81. DOI: 10.1006/ceps.1999.1015 Externer Link
10.
Gast L. "Kein Ort. Nirgends?" Das Subjekt der Erkenntnis und die Idee der Universität. Einige Gedanken aus psychoanalytischer Perspektive. Psychol Gesellschaftskritik. 2010;33/34(4/1):153-171.
11.
Zeigarnik BV. Das Behalten erledigter und unerledigter Handlungen. Psychol Forsch. 1927;9:1-85.
12.
Albano MG, Cavallo F, Hoogenboom R, Magni F, Majoor G, Manenti F, Schuwirth L, Stiegler I, van der Vleuten C. An international comparison of knowledge levels of medical students: the Maastricht Progress Test. Med Educ. 1996;30(4):239-45. DOI: 10.1111/j.1365-2923.1996.tb00824.x Externer Link
13.
van der Vleuten CP, Verwijnen GM, Wijnen WH. Fifteen years of experience with progress testing in a problem-based learning curriculum. Med Teach. 1996;18(2):103-109. DOI: 10.3109/01421599609034142 Externer Link
14.
Nouns ZM, Georg W. Progress testing in German-speaking countries. Med Teach. 2010;32(6):467-470. DOI: 10.3109/0142159X.2010.485656 Externer Link
15.
Osterberg K, Kölbel S, Brauns, K. Der Progress Test Medizin: Erfahrungen an der Charité Berlin. GMS Z Med Ausbild. 2006;23(3):Doc46. Zugänglich unter/available from: https://www.egms.de/static/de/journals/zma/2006-23/zma000265.shtml Externer Link
16.
Ryan RM, Deci EL. Intrinsic and extrinsic motivations: Classic definitions and new directions. Cont Educ Psychol. 2000;25:54-67. DOI: 10.1006/ceps.1999.1020 Externer Link
17.
Hackman JR, Oldham GR. Motivation through the design of work: Test of a theory. Organ Behav Hum Perform. 1976;16(2):250-279. DOI: 10.1016/0030-5073(76)90016-7 Externer Link
18.
Kulik JA, Kulik CLC. Timing of feedback and verbal learning. Rev Educ Res. 1988;58(1):79-97. DOI: 10.3102/00346543058001079 Externer Link
19.
Tuten TL, Galesic M, Bosnjak M. Effects of immediate versus delayed notification of prize draw results and announced survey duration on response behavior in web surveys: An experiment. Soc Sci Comput Rev. 2004;22(3):377-384. DOI: 10.1177/0894439304265640 Externer Link
20.
Irons A. Enhancing learning through formative assessment and feedback. London: Routledge Taylor & Francis Group; 2008. DOI: 10.4324/9780203934333 Externer Link
21.
Nicol D, Macfarlane-Dick D. Formative assessment and self-regulated learning: a model and seven principles of good feedback practice. Stud High Educ. 2006;31(2):199-218. DOI: 10.1080/03075070600572090 Externer Link
22.
Smyth K. The benefits of students learning about critical evaluation rather than being summatively judged. Ass Eval High Educ. 2004;29(3):369-377. DOI: 10.1080/0260293042000197609 Externer Link
23.
Schüttpelz-Brauns K, Kadmon M, Kiessling C, Karay Y, Gestmann M, Kämmer JE. Identifying low test-taking effort during low-stakes tests with the new Test-taking Effort Short Scale (TESS) - Development and Psychometrics. BMC Med Educ. 2018;18(1):101. DOI: 10.1186/s12909-018-1196-0 Externer Link
24.
Brauns K. Identifikation von Musterkreuzern beim Progress Test Medizin. [Dissertation]. Berlin: Humboldt-Universität zu Berlin; 2007.
25.
Cohen J. Statistical power analysis for the behavioral sciences. Hillsdale: Erlbaum; 1988.
26.
Leonhart R. Effektgrößenberechnung bei Interventionsstudien. Reha. 2004;43:241-246. DOI: 10.1055/s-2004-828293 Externer Link
27.
Mayring P. Qualitative Inhaltsanalyse - Grundlagen und Techniken. 11. Auflage. Weinheim, Basel: Beltz Verlag; 2008.
28.
Karay Y, Schauber SK, Stosch C, Schuettpelz-Brauns K. Can computer-based assessment enhance the acceptance of formative multiple choice exams? A utility analysis. Med Teach. 2012;34:292-296. DOI: 10.3109/0142159X.2012.652707 Externer Link
29.
Flake JK, Barron KE, Hulleman C, McCoach BD, Welsh ME. Measuring cost: The forgotten component of expectancy-value theory. Contemp Educ Psychol. 2015;41:232-244. DOI: 10.1016/j.cedpsych.2015.03.002 Externer Link
30.
Blake J, Norman GR, Keane DR, Mueller B, Cunnington J, Didyk N. Introducing progress testing in McMaster University's problem-based medical curriculum: Psychometric properties and effect on learning. Acad Med. 1996;71(9):1002-1007. DOI: 10.1097/00001888-199609000-00016 Externer Link
31.
Aarts R, Steidel K, Manuel BAF, Driessen EW. Progress testing resource-poor countries: A case from Mozambique. Med Teach. 2010;32(6):461-463. DOI: 10.3109/0142159X.2010.486059 Externer Link
32.
Given K, Hannigan A, McGrath D. Red, yellow and green: What does it mean? How the progress test informs and supports student progress. Med Teach. 2016;38(10):1025-1032. DOI: 10.3109/0142159X.2016.1147533 Externer Link
33.
Yielder J, Wearn A, Chen Y, Henning M, Weller J, Lillis S, Mogol V, Bagg W. A qualitative exploration of student perceptions of the impact of progress tests on learning and emotional wellbeing. BMC Med Educ. 2017;17(1):148. DOI: 10.1186/s12909-017-0984-2 Externer Link
34.
Nouns ZM, Schauber S, Witt C, Kingreen H, Schüttpelz-Brauns K. Development of knowledge in basic medical sciences during undergraduate medical education – A comparison of a traditional and a problem-based curriculum. Med Educ. 2012;46(12):1206-1214. DOI: 10.1111/medu.12047 Externer Link
35.
Coelho C, Zahra D, Ali K, Tredwin C. To accept or decline academic remediation: What difference does it make? Med Teach. 2019;41(7):824-829. DOI: 10.1080/0142159X.2019.1585789 Externer Link
36.
Lillis S, Yielder J, Mogol V, O'Connor B, Bacal K, Booth R, Bagg W. Progress testing for medical students at the University of Auckland: Results from the first year of assessments. J Med Educ Curr Dev. 2014;1:41-45. DOI: 10.4137/JMECD.S20094 Externer Link
37.
Norman G, Neville A, Blake J, Mueller B. Assessment steers learning down the right road: impact of progress testing on licensing examination performance. Med Teach. 2010;32(6):496-499. DOI: 10.3109/0142159X.2010.486063 Externer Link
38.
Kastenmeier AS, Redlich PN, Fihn C, Treat R, Chou R, Homel A, Lewis BD. Individual learning plans foster self-directed learning skills and contribute to improved educational outcomes in the surgery clerkship. Am J Surg. 2018;216(1):160-166. DOI: 10.1016/j.amjsurg.2018.01.023 Externer Link
39.
Schuwirth LW, van der Vleuten CP. Current assessment in medical education: Programmatic assessment. J Appl Test Technol. 2019;20(S2):2-10.
40.
Ringsted C, Hodges B, Scherpbier A. 'The research compass': An introduction to research in medical education: AMEE Guide No. 56, Med Teach. 2011;33(9):695-709. DOI: 10.3109/0142159X.2011.595436 Externer Link