gms | German Medical Science

GMS Journal for Medical Education

Gesellschaft für Medizinische Ausbildung (GMA)

ISSN 2366-5017

Erfassung kompetenzrelevanten Wissens im studentischen kompetenzorientierten Progresstest

Artikel Progresstest

Suche in Medline nach

  • corresponding author Andreas Möltner - Medizinische Fakultät Heidelberg, Kompetenzzentrum für Prüfungen in der Medizin Baden-Württemberg, Heidelberg, Deutschland
  • Stefan Wagener - Medizinische Fakultät Heidelberg, Kompetenzzentrum für Prüfungen in der Medizin Baden-Württemberg, Heidelberg, Deutschland
  • Mirka Burkert - Medizinische Fakultät Heidelberg, Kompetenzzentrum für Prüfungen in der Medizin Baden-Württemberg, Heidelberg, Deutschland

GMS J Med Educ 2020;37(1):Doc6

doi: 10.3205/zma001299, urn:nbn:de:0183-zma0012993

Dieses ist die deutsche Version des Artikels.
Die englische Version finden Sie unter: http://www.egms.de/en/journals/zma/2020-37/zma001299.shtml

Eingereicht: 4. Februar 2019
Überarbeitet: 1. August 2019
Angenommen: 14. Oktober 2019
Veröffentlicht: 17. Februar 2020

© 2020 Möltner et al.
Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung). Lizenz-Angaben siehe http://creativecommons.org/licenses/by/4.0/.


Zusammenfassung

Hintergrund: Seit dem Jahr 2013 wird an einer Reihe medizinischer Fakultäten ein studentischer kompetenzorientierter Progresstest (SKPT) durchgeführt. Die Erstellung der Fragen erfolgt auf Basis eines zweidimensionalen Blueprints, dessen eine Achse aus den auf dem Kompetenzmodell des NKLM basierenden fünf Kompetenzbereichen „Kommunikative Kompetenz“ (KO), „Klinisch-praktische Kompetenz“ (KP) „Klinisch-theoretische Kompetenz“ (KT), „Wissenschaftskompetenz“ (WI) und „Professionelle Handlungskompetenz“ (PH) besteht. Die Rückmeldung an die teilnehmenden Studierenden erfolgt u. a. differenziert nach diesen Bereichen. Ziel der Studie ist, zu prüfen, ob

1.
die nach Kompetenzbereichen differenzierten Ergebnisse eine hinreichende Messgenauigkeit aufweisen und
2.
ob die Ergebnisse zu verschiedenen Bereichen auch unterschiedliche Informationen enthalten.

Methoden: Untersucht wurden die SKPTs der Jahre 2013 bis 2017 mit zusammen 3027 Teilnehmern. Die Messgenauigkeit wurde mit dem Koeffizient glb und dem Standardmessfehler bestimmt, zum Nachweis der Differenziertheit der Kompetenzbereiche wurde eine Diskriminanzanalyse der Hauptkomponenten eingesetzt.

Ergebnisse: Die Reliabilität der Kompetenzbereiche war in allen Progresstests über 0.8, Ausnahmen hiervon waren in zwei der Tests KO und PH mit einer Reliabilität von 0.7–0.8. Die Ergebnisse aller Bereiche unterschieden sich hinsichtlich ihres Informationsgehalts jeweils vom Gesamt der anderen Bereiche, gleiches gilt mit Ausnahme von KP und KT für sämtliche paarweisen Vergleiche.

Diskussion: Die nach Kompetenzbereichen differenzierte Rückmeldung der Leistungen im SKPT erfüllt im Wesentlichen die Anforderungen an Messzuverlässigkeit und Eigenständigkeit. Eine Verbesserung der Messgüte bei den Bereichen KO und PH sowie eine bessere Differenzierung der Bereiche KP und KT ist wünschenswert.

Schlüsselwörter: Progresstest, Reliabilität, Diskriminanzvalidität


1. Hintergrund

Eine kompetenzbasierte medizinische Ausbildung („competency based medical education“ – CBME) ist insbesondere in den letzten 20 Jahren in den Fokus des Interesses der Curriculumsentwicklung an den medizinischen Fakultäten und der Gesundheitspolitik gerückt [3], [26]. Konsequenterweise muss sich dies auch in den Leistungserfassungen widerspiegeln [5]. Dies hat zu einer wahren Flut an Veröffentlichungen zum Thema kompetenzbasierten Prüfens geführt (man vergleiche hierzu die kritische Diskussion in [11]), wobei insbesondere praktische und arbeitsplatzbasierte Verfahren zur Erfassung von Kommunikationskompetenz, Handlungskompetenz u. ä. im Zentrum stehen. Weniger Aufmerksamkeit haben Prüfungen mittels traditioneller Multiple-Choice-Aufgaben in diesem Zusammenhang erfahren, da – ausgehend von Kompetenzen als primär handlungsbezogen – der reinen Erfassung von Wissen eine geringere Bedeutung zugesprochen wird. Dennoch ist Wissen eine wesentliche Voraussetzung kompetenter Handlungen, welches mittels „kompetenzorientierter Wissenstests“ [23] erfasst werden kann. Hierfür bieten MC-Fragen nach wie vor erhebliche Vorteile: Auf Grund der im Allgemeinen kurzen Bearbeitungszeit einer Aufgabe kann in einer Prüfung eine hohe Zahl von Fragen gestellt werden, die damit – relativ zum Zeitaufwand – eine deutlich bessere Abdeckung und Repräsentativität für den zu prüfenden Lehrinhalt erlaubt als aufwändig zu korrigierende offene schriftliche Frageformate oder praktische Prüfungsformen. Zudem sind Objektivität und eine hohe Reliabilität leichter zu erreichen als etwa mit arbeitsplatzbasierten Prüfungen, bei denen die Gefahr besteht, dass ihre augenscheinlich höhere Validität durch ungenügende Standardisierung zunichte gemacht wird.

Im Rahmen des vom BMBF geförderten Verbund-Projekts „Medical Education Research – Lehrforschung im Netz BW“ (MERLIN, http://www.merlin-bw.de/) wurde im Jahr 2013 vom Kompetenzzentrum für Prüfungen in der Medizin/Baden-Württemberg ein „studentischer kompetenzorientierter Progresstest“ (SKPT) konzipiert.

Progresstests sind in der medizinischen Ausbildung anerkannte und eingesetzte Verfahren, um den Lernfortschritt im Verlauf des Studiums abzubilden [28]. Dazu wird Studierenden aller Ausbildungsstufen (Studienjahre) derselbe Test vorgelegt. Bei hinreichender Sicherung der Äquivalenz der Tests (gleiche Schwierigkeit) in aufeinanderfolgenden Jahren, kann für den Studierenden sein Lernfortschritt im Laufe seiner Ausbildung abgebildet und entsprechendes Feedback gegeben werden. Progresstests werden auch in Deutschland an verschiedenen Fakultäten durchgeführt [18] und haben Progresstests haben vornehmlich zwei Funktionen: Einerseits geben sie Studierenden ein fortlaufendes Feedback über ihren individuellen Wissensstand im Studium, andererseits bieten sie für die Fakultäten die Möglichkeit, Curricula zu monitoren, Leistungsfortschritte in unterschiedlichen Kohorten zu beobachten und verschieden gestalteten Curricula zu vergleichen [24], [34].

Die Aufgabenzusammenstellung des SKPT beruht auf einem zweidimensionalen Blueprint, dessen eine Achse aus den inhaltlich in acht Gruppen zusammengefassten Fächern der Approbationsordnung und dessen andere Achse aus den in fünf Kompetenzbereiche gruppierten Einzelkompetenzen des Nationalen kompetenzbasierten Lernzielkatalogs Medizin (NKLM) [4] besteht. Der Blueprint wurde von drei interfakultären und interdisziplinären Expertengruppen gebildet, die die Aufgabe hatten, die Gebiete des NKLM in Clustern von „Kompetenzbereichen“ zusammenzustellen sowie für die Leistungsnachweise der ÄAppO „Fächergruppen“ zu bilden, wobei diese Gruppen jeweils vorklinische und klinische Fächer möglichst ausgewogen enthalten sollten (siehe Tabelle 1 [Tab. 1] und Tabelle 2 [Tab. 2]).

Eine Besonderheit dieses Progresstests ist, dass die Aufgaben von Studierenden erstellt werden, die hierfür in mehrfach jährlich stattfindenden Workshops geschult werden. Die teilnehmenden Studierenden erstellen dabei anhand der im NKLM definierten Kompetenzen Fragen mit Bezug zu den Fächergruppen, um die Zellen des Blueprints in Tabelle 2 [Tab. 2] zu füllen. Die Zahl der vorhandenen Fragen je Zelle wird fortlaufend dokumentiert, so dass insbesondere gegen Ende des Prozesses der Aufgabenerstellung gezielt nur noch Fragen für nicht gefüllte Zellen formuliert werden müssen. Für eine detaillierte Darstellung sei auf [33] verwiesen.

Der Progresstest wird (seit 2015 in Kooperation mit dem Institut für Kommunikations- und Prüfungsforschung gGmbH) jährlich im November/Dezember durchgeführt. Teilnehmen können alle Studierenden der Humanmedizin aus Medizinischen Fakultäten, an denen der SKPT angeboten wird, im Jahr 2017 waren dies 16 Medizinische Fakultäten: Dresden, Erlangen-Nürnberg, Freiburg, Gießen, Hannover, Heidelberg, Homburg, Krems (A), Leipzig, Magdeburg, Mannheim, Marburg, LMU München, Tübingen, Ulm und Witten/Herdecke. Mit Ausnahme der Karl-Landsteiner-Privatuniversität in Krems war die Teilnahme freiwillig.

Der Test besteht aus 120 MC-Fragen des Typs A (eine korrekte Antwort aus vier oder fünf Antwortoptionen) mit der zusätzlichen Antwortoption „weiß nicht“ sowie 10 Situational-Judgement-Aufgaben (SJT) zur Erfassung sozialer Kompetenzen [20]. Ausnahme hiervon ist der erste Progresstest 2013 mit 144 Typ A-Aufgaben, jedoch ohne SJT.

Die „weiß nicht“-Option wird in Progresstests wie auch in anderen formativen Tests häufig eingesetzt, um es den Teilnehmern zu ermöglichen, explizit ihr Wissensdefizit zu dokumentieren und das Raten unter den verfügbaren Antwortoptionen vermeiden zu können [13], [22].

Beispiel einer Frage aus dem Kompetenzbereich „Klinisch-theoretische Kompetenz“ (KT) im SKPT 2017:

Sie behandeln auf Ihrer pädiatrischen Station ein zwölfjähriges Kind mit Lungenentzündung, das schon häufig wegen Atemwegsbeschwerden und -infektionen in Behandlung war. Bei einer Ultraschalluntersuchung stellen Sie zudem einen Situs inversus, also eine gespiegelte Organausrichtung, fest. Daher senden Sie im Rahmen einer Bronchoskopie eine Biopsie in die Histologie.

Welche Diagnose erwarten Sie sich von der histologischen Untersuchung?

1.
Defekt der Zell-Zell-Kontakte
2.
Defekt der Kinozilien
3.
Ausbildung eines falschen Epithels
4.
Fehlen von Oberflächendifferenzierungen
5.
Defekt der Basalmembran
6.
Weiß nicht

Die korrekte Antwort lautet hier B. Weitere Beispiele sind als Anhang 1 [Anh. 1] angefügt, sämtliche Fragen der SKPTs mit Erläuterungen finden sich auf der öffentlich zugänglichen Internetseite

https://www.komp-pt.de/fragen-aus-dem-progresstest/.

Nach der Durchführung erhalten alle teilnehmenden Studierenden eine nach Fächergruppen und Kompetenzbereichen differenzierte Rückmeldung über ihre erbrachten Leistungen (erreichte Punktzahlen). Die Rückmeldung erfolgt absolut (kriteriumsbezogen), relativ im Vergleich zu den teilnehmenden Studierenden desselben Jahrgangs (normbezogen) sowie – bei mehrfacher Teilnahme – longitudinal zur Darstellung des Leistungszuwachses (Progress) im Vergleich zu den früheren Ergebnissen (ipsativ).

Ziel der Studie: Es soll geprüft werden, ob

1.
die nach Kompetenzbereichen differenzierten Leistungserfassungen jeweils eine hinreichende Messgenauigkeit aufweisen sowie
2.
durch die unterschiedlichen Aufgaben der Kompetenzbereiche empirisch voneinander unterschiedene Aufgabengruppen gebildet werden.

Beides ist insbesondere für die Nützlichkeit der Rückmeldungen an die teilnehmenden Studierenden von Bedeutung:

1.
Rückmeldungen sind nur dann brauchbar, wenn die zu beurteilenden Leistungen zuverlässig erfasst sind.
2.
Differenzierte Rückmeldungen machen nur dann Sinn, wenn die verschiedenen Einzelresultate auch Unterschiedliches beinhalten, also nicht redundant sind.

In der Terminologie von Campbell und Fiske [1] handelt es sich bei der Fragestellung (2) um den Nachweis der „Diskriminanzvalidität“ (auch „diskriminative Validität“). Der Begriff der „Validität“ war in den letzten 30 Jahren Gegenstand intensiver Diskussionen. Von vielen Autoren wird die Verwendung der unterschiedlichen Validitätsbegriffe (z. B. prädiktive, konvergente, diskriminative ... Validität) kritisch gesehen (eine eingehende Darstellung hierzu findet sich in [17]). In der vorliegenden Studie soll er dennoch in seiner „klassischen“ Bedeutung Verwendung finden: Die den Kompetenzbereichen zugeordneten Aufgaben bilden „Skalen“, welche unterschiedliche Leistungen messen (vgl. die Diskussion in [6]). Diese „Skalen“ sollten sich damit auch in den Antworten der Testteilnehmerinnen und -teilnehmer widerspiegeln, im Wesentlichen sollten Aufgaben des gleichen Bereichs ähnlich gut (oder schlecht) beantwortet werden.


2. Methoden

2.1. Datenerhebung

Die Durchführung des SKPT in den Jahren 2013-2017 erfolgte einmal jährlich. In den beiden ersten Jahren wurde der Test an den jeweiligen Fakultäten in Papierform durchgeführt, seit 2015 steht er online zur Verfügung.

Die Ankündigung und Anmeldung der Studierenden sowie die Durchführung des Progresstests vor Ort erfolgte selbständig seitens der beteiligten medizinischen Fakultäten. Die übergeordnete Koordination lag beim „Kompetenzzentrum für Prüfungen in der Medizin/Baden-Württemberg“ an der Medizinischen Fakultät Heidelberg. Genauere Details zur Durchführung finden sich in [33], [29], [30], [31], [32].

Der SKPT ist als formativer Test mit freiwilliger Teilnahme konzipiert. In der Fakultät in Krems ist der Test verpflichtend. Da sich in verschiedenen (hier nicht dargestellten) Analysen gezeigt hat, dass diese Studierendengruppe sich deutlich von den freiwilligen Teilnehmern aus den anderen Fakultäten unterscheidet, wurde diese Gruppe in den nachfolgenden Analysen nicht mit einbezogen. Weiteres Einschlusskriterium war die Zahl der beantworteten Aufgaben. In der vorliegenden Studie wurden nur die Teilnehmer berücksichtigt, die mindestens 100 der 120 Aufgaben bearbeitet haben, d.h. die eine der vier oder fünf Antwortoptionen oder „weiß nicht“ angegeben haben (siehe Tabelle 3 [Tab. 3]). Aus den beiden ersten SKPTs im Papierformat der Jahre 2013 und 2014 wurden nur vollständige Datensätze einbezogen. Eine Aufteilung der Teilnehmer nach Studienjahr findet sich in Tabelle 4 [Tab. 4]. Die 10 Situational-Judgement-Aufgaben der Jahre 2014-2017 waren nicht Gegenstand der Studie.

Die Teilnehmer am SKPT willigten vor Durchführung des Tests ein, dass ihre Daten in pseudoymisierter Form zur Qualitätssicherung und für wissenschaftliche Zwecke verwendet werden dürfen.

2.2. Statistische Analysen
2.2.1. Bewertung der Aufgaben

Die nach dem Blueprint erstellten Aufgaben waren vom Typ A mit der zusätzliche Option „weiß nicht“. Bei Wahl der zutreffenden Antwort, wurde ein Punkt vergeben. Für die hier dargestellte Analyse wurden falsche Antworten und „weiß nicht“ sowie fehlende Antworten gleich behandelt und 0 Punkte vergeben (für alternative Bewertungsschemata, in denen „weiß nicht“ und Falschantworten unterschiedlich behandelt werden, s. [22]). Nach Durchführung des Tests erfolgte auf Grundlage von Teilnehmerkommentaren und der statistischen Auswertung eine zweite Begutachtung der Aufgaben (Post-Review). Stellte sich dabei heraus, dass bei einer Aufgabe mehrere Antworten zutreffend waren, erhielten die Teilnehmerinnen und Teilnehmer einen Punkt, wenn eine der korrekten Antworten gewählt wurde. Zwischen drei und acht Aufgaben in den SKPTs der Jahre 2013-2017 mussten nach dem Post-Review als fehlerhaft ausgeschlossen werden (siehe Tabelle 3 [Tab. 3]).

2.2.2. Reliabilität und Messgenauigkeit

Zur Abschätzung der Reliabilität der Kompetenzbereiche wird die „greatest lower bound to reliability“ (glb) verwendet [7], [25]. Diese ist die algebraisch optimale Abschätzung der Reliabilität auch bei nicht-homogenen Skalen (in diesen Fällen liefert Cronbachs α als Maß der internen Konsistenz eine Unterschätzung der Reliabilität).

Die Reliabilität ist ein auf die Teilnehmerpopulation bezogenes relatives Maß der Messgenauigkeit, als absolutes Maß der Messgenauigkeit dient der Standardmessfehler, welcher sich aus der Reliabilität und der Standardabweichung der Skalenwerte der Teilnehmer errechnet [9].

Für den Vergleich mit Studierenden aus dem gleichen Studienjahr ist zusätzlich die Reliabilität bezogen auf diese Teilpopulationen von Relevanz. Hier sind gegenüber der Gesamtreliabilität niedrigere Werte zu erwarten, da (unter der Annahme annähernd gleicher Messfehler) die Varianz der Zahl der korrekten Antworten innerhalb der Teilnehmer des gleichen Studienjahrs niedriger als die aller Teilnehmer über die Studienjahre hinweg ist (vgl. hierzu [33]).

2.2.3. Abgrenzung der Kompetenzbereiche („Diskriminanzvalidität“)

Die Prüfung der Frage, ob die verschiedenen Kompetenzbereiche auch empirisch Unterschiedliches bezeichnen, gestaltet sich auf Grund des Konstruktionsprinzips des Progresstests etwas komplex: Die einzelnen Aufgaben sind nicht nur jeweils einem Kompetenzbereich sondern auch einem Fach oder einer Fachgruppe zugeordnet. Damit überlagern sich schon durch die Testkonstruktion bedingt die durch die beiden Achsen des Blueprint definierten Konstrukte („construct overlap“, nähere Erläuterungen hierzu finden sich z. B. in [35]). Daher ist nicht davon auszugehen, dass sich die Kompetenzbereiche mit faktoren-oder clusteranalytischen Verfahren direkt in den Daten abzeichnen (man vergleiche hierzu die faktoranalytische Untersuchung zur Validität und Reliabilität von Kompetenzkonstrukten in [12]).

Als methodischer Ansatz wurde deshalb das Verfahren der linearen Diskriminanzanalyse nach Fisher gewählt. Die Objekte sind in diesem Fall die einzelnen Aufgaben mit dem Kompetenzbereich als Gruppierungsvariable. Die erreichten Punktzahlen der teilnehmenden Personen bei den Aufgaben („Lösungsmuster“) sind die Prädiktoren. Dabei stellt sich das Problem, dass mehr Personen teilgenommen haben als Aufgaben vorhanden sind. Analog zum Vorgehen bei einer Hauptkomponentenregression wurde deshalb eine Datenreduktion durch die Bestimmung von Hauptkomponenten vorgenommen. Die linearen Diskriminanzanalysen wurden danach mit einer verminderten Zahl von Hauptkomponenten durchgeführt. Diese „Diskriminanzanalyse der Hauptkomponenten“ („Discriminant analysis of principal components„’, DAPC) wird aus ähnlichen Gründen z. B. im Bereich genetischer Analysen eingesetzt, bei der die Zahl der Prädiktoren die der zu klassifizierenden Objekte übersteigt ([8], vgl. auch Anmerkung 2).

Der erste Schritt der Auswertung (Bestimmung der Hauptkomponenten) beinhaltet keine Verteilungsannahmen. Die Extraktion der Hauptkomponenten dient zur Reduktion der Originaldaten auf wenige Komponenten in den Antwortmustern, die die Daten nach dem Kleinst-Quadrate-Kriterium bestmöglich approximieren. Die lineare Diskriminanzanalyse nach Fisher ist ein Spezialfall der linearen Diskriminanzanalyse, bei der die a priori-Gruppengrößen als gleich angenommen werden. In diesem Spezialfall wird keine Normalverteilungsannahme für die Daten getroffen. Die Bestimmung der p-Werte für die Gruppenvergleiche (s. u.) erfolgt mittels t-Tests, die zwar im Prinzip auf Normalverteilungsannahmen beruhen, jedoch bekanntlich robust gegenüber deren Verletzung sind (eine nicht-parametrische Testung mittels eines Randomisierungstests wurde ebenfalls durchgeführt, deren Ergebnisse sind substantiell mit den hier dargestellten t-Tests identisch und werden deshalb aus Gründen der Überschaubarkeit hier nicht berichtet).

Eine aus der Faktorenanalyse bekannte und allgemein nicht zufriedenstellend zu beantwortende Frage ist die nach der Bestimmung der Zahl der zu verwendenden Hauptkomponenten. Für die hier untersuchten Progresstests ergab sich weder aus dem Scree-Test [21] oder dem Verfahren von Onatski [19] über die Jahre ein konsistenter Wert, weshalb zehn Hauptkomponenten, also doppelt so viele Komponenten wie Kompetenzbereiche, extrahiert wurden (die nachfolgend berichteten Ergebnisse sind wenig sensitiv gegenüber der Zahl der extrahierten Komponenten, es ergeben sich nahezu identische Resultate bei Analysen mit mehr als sechs Komponenten).

Zur Beantwortung der Frage, ob die einzelnen Kompetenzbereiche sich vom Gesamt aller anderen Bereiche abheben, wurde eine Analyse „one against the rest“ sowie eine paarweise Klassifikation aller Kompetenzbereiche gegeneinander („one against one“) durchgeführt [10], [27]. Signifikanztestungen erfolgten jeweils durch Kombination der einzelnen p-Werte aus den fünf Progresstests der Jahre 2013–2017 mittels der Methode von Fisher („Fisher’s combined probability test“). Als Signifikanzniveau wurde α=0.05 gewählt.


3. Ergebnisse

3.1. Reliabilität und Messgenauigkeit

In Tabelle 5 [Tab. 5] sind Aufgabenzahlen, Reliabilitätskoeffizienten glb und zugehörige Standardmessfehler sem aufgeführt, eine graphische Darstellung von glb und sem über die Jahre hinweg findet sich in Abbildung 1 [Abb. 1].

„Klinisch-praktische Kompetenz“ (KP) und „Klinisch-theoretische Kompetenz“ (KT) werden annähernd stabil mit einer hohen Reliabilität (über 0.90) erfasst (man beachte dabei, dass die Zahl der Aufgaben in diesen beiden Kompetenzbereichen höher ist als in den anderen Kompetenzbereichen, s. Blueprint). Die „Wissenschaftskompetenz“ (WI) ist mit einer Reliabilität von etwa 0.80-0.85 ebenfalls über die Zeit hinweg stabil erhoben. Bei der „Professionellen Handlungskompetenz“ (PH) und der „Kommunikativen Kompetenz“ (KO) ist in den beiden letzten Jahren ein Abfall unter 0.80 festzustellen, am deutlichsten bei der „Kommunikativen Kompetenz“ (KO) mit einer Reliabilität von 0.73 im Progresstest 2017 (siehe Abbildung 1 [Abb. 1], linke Abbildung).

Bei den Standardmessfehlern (siehe Abbildung 1 [Abb. 1], rechte Abbildung) ist eine deutliche Verringerung mit dem Jahr 2014 sichtbar, die auf die geringere Zahl der Aufgaben gegenüber dem SKPT 2013 zurückzuführen ist. Danach bleiben die Standardmessfehler für alle Kompetenzbereiche seit 2015 jeweils nahezu gleich. Auch hier sind die unterschiedlichen Zahlen von Aufgaben in den Kompetenzbereichen zu berücksichtigen, längere Skalen haben auch einen absolut größeren Standardmessfehler. Diese Reihenfolge bildet sich auch in der Abbildung ab, „Klinisch-praktische Kompetenz“ (KP) und „Klinisch-theoretische Kompetenz“ (KT) sind die längsten Skalen (im Blueprint jeweils 30 Aufgaben), die „Wissenschaftskompetenz“ (WI) ist mit lediglich 18 Aufgaben die kürzeste Skala.

In Tabelle 6 [Tab. 6] sind je Studienjahr und Kompetenzbereich die Mediane der Reliabilitäten in den Teilpopulationen mit gleicher Studiendauer aufgeführt. Zusätzlich zeigt Abbildung 2 [Abb. 2] die Verteilungen dieser jeweils 30 Einzelreliabilitäten getrennt für die Kompetenzbereiche. Während für die Kompetenzbereiche klinisch-praktische, klinisch-theoretische und Wissenschaftskompetenz (KP, KT bzw. WI) die Messzuverlässigkeiten in der Mehrzahl die Reliabilitäten über 0.7 liegen (KP 83%, WI 80%, KT 90%), sind diese Anteile bei der kommunikativen Kompetenz (KO) mit 37% und professionellem Handeln (PH) mit 47% deutlich niedriger. Insbesondere gibt es bei diesen einzelne SKPTs und Studienjahre, für die niedrige Reliabilitäten unter 0.4 zu konstatieren sind (siehe Abbildung 2 [Abb. 2]). Insbesondere scheinen in der Gruppe des 6. Studienjahres gehäuft niedrige Messzuverlässigkeiten aufzutreten (Anteile der Reliabilitäten über 0.7 für die Studienjahre 1-5: KO 44%, KP 84%, WI 84%, PH 56%, KT 96%, siehe Tabelle 6 [Tab. 6]).

3.2. Abgrenzung der Kompetenzbereiche („Diskriminanzvalidität“)
3.2.1. Abgrenzung der Kompetenzbereiche gegenüber jeweils allen anderen Bereichen

In Abbildung 3 [Abb. 3] und Abbildung 4 [Abb. 4] sind als Beispiele für die Progresstests der Jahre 2013 und 2017 die Ergebnisse der Zwei-Klassen-Diskriminanzanalysen eines Kompetenzbereichs jeweils gegenüber allen anderen Kompetenzbereichen dargestellt (die Ergebnisse der Jahre 2014 bis 2016 sind diesen sehr ähnlich). Auf der Ordinate sind die Werte der Diskriminanzfunktion der Einzelaufgaben als Boxplot abgetragen. Deutliche Überlagerungen der Boxplots zweier Kompetenzbereiche weisen auf Konstruktüberlappung bei den Aufgaben hin, bei deutlich separierten Boxen sind die Aufgabengruppen des zugehörigen Kompetenzbereichs von den anderen Aufgaben abzugrenzen.

So bilden die Aufgaben zur „Wissenschaftskompetenz“ (WI) in allen Jahren ein deutlich abgegrenztes Cluster, wer eine Aufgabe aus diesem Kompetenzbereich gelöst hat, hat auch mit höherer Wahrscheinlichkeit andere Aufgaben des Bereichs korrekt beantwortet (siehe Abbildung 3 [Abb. 3], Punkt c und Abbildung 4 [Abb. 4], Punkt c). Hingegen ist bei der „Klinisch-praktischen Kompetenz“ (KP) und „Klinisch-theoretischen Kompetenz“ (KT) eine deutliche Konstruktüberlappung festzustellen (siehe Abbildung 3 [Abb. 3], Punkte b, e und Abbildung 4 [Abb. 4], Punkte b, e).

Zur inferenzstatistischen Testung, ob sich die einzelnen Kompetenzbereiche vom Gesamt aller anderen Bereiche unterscheiden, wurden die einzelnen p-Werte der Jahre 2013–2017 mit dem Gesamttest nach Fisher kombiniert (man beachte, dass die einzelnen p-Werte nicht zu einer Signifikanztestung verwendet werden). Für alle fünf Bereiche ergeben sich signifikante Werte (siehe Tabelle 7 [Tab. 7]).

3.2.2. Paarweise Abgrenzung der Kompetenzbereiche

Exemplarisch für die insgesamt 10 möglichen Paarvergleiche sind in Abbildung 5 [Abb. 5] die Werte der Diskriminanzfunktion der Aufgaben für den Vergleich der „Klinisch-praktischen Kompetenz“ (KP) mit der „Klinisch-theoretischen Kompetenz“ (KT) sowie in Abbildung 6 [Abb. 6] die der „Wissenschaftskompetenz“ (WI) mit der „Klinisch-theoretischen Kompetenz“ (KT) dargestellt.

Die aus den Einzelwerten der verschiedenen Durchgänge des SKPT kombinierten Signifikanzwerte aller Paarvergleiche sind in Tabelle 8 [Tab. 8] aufgeführt. Mit Ausnahme des klinisch-praktischen (KP) und des klinisch-theoretischen Kompetenzbereichs (KT) sind alle Paarvergleiche signifikant.

Die Signifikanzen bleiben auch nach Bonferroni-Holm-Adjustierung der zehn Tests erhalten:Hierzu werden die einzelnen p-Werte der Tests ihrer Größe nach aufsteigend angeordnet (p[1]≤p[2]≤,…≤p[10]). Als signifikant gelten genau die p [k] , bei denen für alle i≤k die Ungleichungen p[i]≤α/(11 – i) erfüllt sind. Ist nur für ein einziges kleineres p[i] die Ungleichung nicht erfüllt, kann kein größeres p[k] noch als signifikant gelten.

Bei acht der Tests ist p<0.001, somit sind diese wegen p[1]≤0.05/10, p[2]≤0.05/9, … p[8]≤0.05/3 signifikant, weiter ist p[9]=0.002≤0.05/2=0.025 ebenfalls signifikant. Lediglich der dem Vergleich der Kompetenzbereiche KP und KT zugeordnete p-Wert p[10]=0.091 erfüllt nicht die Bedingung p[10]=0.05/1.


4. Zusammenfassung und Diskussion

Die Kompetenzbereiche „Klinisch-praktische Kompetenz“ (KP), „Klinisch-theoretische Kompetenz“ (KT) und „Wissenschaftskompetenz“ (WI) wurden mit den fünf SKPTs über die Jahre hinweg reliabel erfasst (Reliabilität über 0.80) Nicht ganz so zufriedenstellend sind die Aufgaben zu den Bereichen „Kommunikative Kompetenz“ (KO) und „Professionelle Handlungskompetenz“ (PH) mit Reliabilitäten noch über 0.73. Die Aufgaben zu den verschiedenen Kompetenzbereichen repräsentieren auch empirisch unterschiedliche Bereiche. Eine Ausnahme bilden die Aufgabengruppen zum klinisch-praktischen und klinisch-theoretischen Kompetenzbereich, für die keine Abgrenzung voneinander empirisch nachzuweisen ist (p=0.091).

Die Messzuverlässigkeiten innerhalb der Jahrgangskohorten weisen, von wenigen Ausnahmen abgesehen, für die Bereiche klinisch-praktische, klinisch-theoretische und Wissenschaftskompetenz (KP, KT, WI) zufriedenstellende Werte auf. Einschränkungen sind wie oben bei den Bereichen Kommunikation und professionellem Handeln (KO, PH) festzustellen, bei denen die Reliabilitäten doch häufig 0.7 nicht erreicht. Dabei muss jedoch berücksichtigt werden, dass diese Bereiche lediglich mit 22 bzw. 20 Aufgaben abgedeckt werden, was auch bei gut vorbereiteten summativen Fachprüfungen an den Fakultäten im Allgemeinen nicht ausreicht, mit Fragen des Typs A eine hinreichend hohe Reliabilität zu erreichen.

Damit ist gezeigt, dass in kompetenzorientierten Wissenstests die Erstellung von Aufgaben zur Erfassung von handlungsrelevantem Wissen auch bei begrenzter Zahl von Aufgaben möglich ist und – in der Terminologie von Cronbach und Meehl [2] – die im Blueprint intendierten unterschiedlichen Konstrukte für die Kompetenzbereiche abbilden.

Ausnahme hiervon sind der klinisch-praktische und der klinisch-theoretische Kompetenzbereich (KP/KT), die sich zwar signifikant von den anderen Kompetenzbereichen, nicht aber untereinander unterscheiden. Die Tatsache, dass die beiden Bereiche nicht voneinander abzugrenzen sind, kann auf Grund des verwendeten Verfahrens der Diskriminanzanalyse, das explizit ein „construct overlap“ erlaubt, nicht als Erklärung dienen. Grund für die Nichtseparierbarkeit könnte eine zu wenig eindeutige Vorgabe für die Klassierung der Aufgaben in die beiden Bereiche sein. Eine alternative Erklärungsmöglichkeit bestünde darin, dass diese im Sinn einer fachlichen Kompetenz stärker inhaltlich zusammenhängen und dass bei den teilnehmenden Studierenden die Kenntnisse in beiden Bereichen zum großen Teil zeitlich parallel erworben werden. Dies würde dazu führen, dass trotz semantischer Verschiedenheit der beiden Bereiche, kein empirischer Unterschied bei den Lösungsmustern nachweisbar ist: wer bei den Aufgaben eines Bereichs gute Kenntnisse besitzt, besitzt sie auch bei denen des anderen.

Methodisch hat sich die Diskriminanzanalyse der Hauptkomponenten (DAPC) als geeignet erwiesen, die zugrundeliegende Struktur der Achse „Kompetenzbereiche“ des Blueprints empirisch nachzuzeichnen.

Als Konsequenz aus den Ergebnissen sollte für zukünftige Progresstests eine Verbesserung der Messzuverlässigkeit der Kompetenzbereiche „kommunikative“ (KO) und „professionelle Handlungskompetenz“ (PH) angestrebt werden. Dies könnte etwa mit einer Erhöhung der zugehörigen Zahl von Aufgaben erreicht werden. Um den Umfang des SKPT nicht zu vergrößern, wäre eine Verminderung der Aufgabenzahl für den „klinisch-praktischen“ (KP) und „klinisch-theoretischen“ (KT) Bereich denkbar. Die inhaltliche Abgrenzung dieser beiden Bereiche sollte ebenfalls geprüft werden. Lässt sich auch hier keine empirische Trennung erreichen, könnten diese für die Rückmeldung an die teilnehmenden Studierenden auch zusammengefasst werden.


Anmerkungen

1.
Teile des Inhalts der Studie für die Progresstests 2013 und 2014 wurden auf der Tagung der GMA 2014 in Hamburg und der RIME 2015 in München berichtet [14], [15].
2.
Eine Originalquelle zur Diskriminanzanalyse von Hauptkomponenten ist den Autoren nicht bekannt, die älteste von uns gefundene Erwähnung findet sich in einer Arbeit zur Verteilung großer Säugetiere in einem Nationalpark in Tansania [16].

Förderung

Die Arbeit entstand im Rahmen des vom Bundesministerium für Bildung und Forschung geförderten Projekts MERLIN II (01PL17011C).


Interessenkonflikt

Die Autoren erklären, dass sie keine Interessenkonflikte im Zusammenhang mit diesem Artikel haben.


Literatur

1.
Campbell DT, Fiske DW. Convergent and discriminant validation by the multitrait-multimethod matrix. Psychol Bull. 1959;56(2):81-105. DOI: 10.1037/h0046016 Externer Link
2.
Cronbach LJ, Meehl P E. Construct validity in psychological tests. Psychol Bull. 1955;52(4):281-302. DOI: 10.1037/h0040957 Externer Link
3.
Frank JR, Snell LS, Cate OT, Holmboe ES, Carraccio C, Swing SR, Harris P, Glasgow NJ, Campbell C, Dath D, Harden RM, Iobst W, Long DM, Mungroo R, Richardson DL, Sherbino J, Silver I, Taber S, Talbot M, Harris KA. Competency-based medical education: theory to practice. Med Teach. 2010;32(8):638-645. DOI: 10.3109/0142159X.2010.501190 Externer Link
4.
Hahn EG, Fischer MR. Nationaler Kompetenzbasierter Lernzielkatalog Medizin (NKLM) für Deutschland: Zusammenarbeit der Gesellschaft für Medizinische Ausbildung (GMA) und des Medizinischen Fakultätentages (MFT). GMS Z Med Ausbild. 2009;26(3):Doc35. DOI: 10.3205/zma000627 Externer Link
5.
Holmboe ES, Sherbino J, Long DM, Swing SR, Frank JR.The role of assessment in competency based medical education. Med Teach. 2010;32(8):676-682. DOI: 10.3109/0142159X.2010.500704 Externer Link
6.
Hughes DJ. Psychometric validity: Establishing the accuracy and appropriateness of psychometric measures. In: Irwing P, Booth T,Hughes DJ, editors. Wiley handbook of psychometric testing: A multidisciplinary approach to survey, scale, and test development. Hoboken, NJ: Wiley; 2018. DOI: 10.1002/9781118489772.ch24 Externer Link
7.
Jackson, P, Agunwamba, C. Lower bounds for the reliability of the total score on a test composed of non-homogeneous items I: Algebraic lower bounds. Psychomet. 1977;42(4):567-578. DOI: 10.1007/BF02295979 Externer Link
8.
Jombart T, Devillard S, Balloux F. Discriminant analysis of principal components: a new method for the analysis of genetically structured populations. BMC Gen. 2010;11:94. DOI: 10.1186/1471-2156-11-94 Externer Link
9.
Lord FM, Novick MR. Statistical theories of mental test scores. Reading, Mass.: Addison-Welsey; 1968.
10.
Lotte F, Bougrain L, Cichocki A, Clerc M, Congedo M, Rakotomamonjy A, Yger F. A Review of Classification Algorithms for EEG-based Brain-Computer Interfaces: A 10-year Update. J Neural Eng. 2018;15(3):031005. DOI: 10.1088/1741-2552/aab2f2 Externer Link
11.
Lurie, SJ. History and practice of competency-based assessment. Med Educ. 2012;46(1):49-57. DOI: 10.1111/j.1365-2923.2011.04142.x Externer Link
12.
McGill DA, van der Vleuten CP, Clarke MJ. A critical evaluation of the validity and the reliability of global competency constructs for supervisor assessment of junior medical trainees. Adv Health Sci Educ Theory Pract. 2013;18(4):701-725. DOI: 10.1007/s10459-012-9410-z Externer Link
13.
McHarg J, Bradley P, Chamberlain S, Ricketts C, Searle J, McLachlan JC. Assessment of progress tests. Med Educ. 2005;39(2):221-227. DOI: 10.1111/j.1365-2929.2004.02060.x Externer Link
14.
Möltner A, Wagener S, Jünger J. Empirische Struktur des kompetenzbasierten studentischen Progresstests: Reliabilität und diskriminante Validität von Kompetenzbereichen. In: Jahrestagung der Gesellschaft für Medizinische Ausbildung (GMA). Hamburg, 25.-27.09.2014. Düsseldorf: German Medical Science GMS Publishing House; 2014. DocV443. DOI: 10.3205/14gma308 Externer Link
15.
Möltner A, Wagener S, Timbil S, Gornostayeva M, Jünger J. Empirical Structure of a Competency-Based Progress Test. In: 4th Research in Medical Education (RIME) Symposium 2015. München, 19.-21.03.2015. Düsseldorf: German Medical Science GMS Publishing House; 2015. DocS1B3. DOI: 10.3205/15rime14 Externer Link
16.
Morton-Griffiths M. The numbers and distribution of large mammaly in Ruaha National Park, Tanzania. E Afr Wildl J. 1975;13:121-140. DOI: 10.1111/j.1365-2028.1975.tb00127.x Externer Link
17.
Newton PE, Shaw SD. Validity in educational and psychological assessment. Los Angeles: Sage; 2014. DOI: 10.4135/9781446288856 Externer Link
18.
Nouns ZM, Georg W. Progress testing in German speaking countries. Med Teach. 2010;32(6):467-470. DOI: 10.3109/0142159X.2010.485656 Externer Link
19.
Onatski A. Testing hypotheses about the number of factors in large factor models. Econometr. 2009;77(5):1447-1479. DOI: 10.3982/ECTA6964 Externer Link
20.
Patterson F, Zibarras L, & Ashworth V. Situational judgement tests in medical education and training: Research, theory and practice: AMEE Guide No. 100. Med Teach. 2016;38(1):3-17. DOI: 10.3109/0142159X.2015.1072619 Externer Link
21.
Raîche G, Walls TA, Magis D, Riopel M, Blais JG. Non-graphical solutions for Cattell's scree test. Methodol. 2013;9(1):23-29. DOI: 10.1027/1614-2241/a000051 Externer Link
22.
Ravesloot CJ, Van der Schaaf MF, Muijtjens AMM, Haaring C, Kruitwagen CL, Beek FJ, Bakker J, Van Schaik JP, Ten Cate TJ. The don't know option in progress testing. Adv Health Sci Educ. 2015;20(5):1325-1338. DOI: 10.1007/s10459-015-9604-2 Externer Link
23.
Schindler C, Bauer J, Strasser A, Schlomske-Bodenstein N,Seidel T, Prenzel M. Prüfungen als Indikator für den Studienerfolg. In: Berthold C, Jorzik B, Meyer-Guckel V, editors. Handbuch Studienerfolg. Essen: Edition Stifterverband; 2015. p.62-79.
24.
Schuwirth LW, van der Vleuten CP. The use of progress testing. Perspect Med Educ. 2012;1(1):24-30. DOI: 10.1007/s40037-012-0007-2 Externer Link
25.
Sijtsma K. On the use, the misuse, and the very limited usefulness of Cronbach's alpha. Psychometrika. 2009;74(1):107-120. DOI: 10.1007/s11336-008-9101-0 Externer Link
26.
Steinhaeuser J, Chenot JF, Roos M, Ledig T, Joos S. Competence-based curriculum development for general practice in Germany: a stepwise peer-based approach instead of reinventing the wheel. BMC Res Notes. 2013;6(1):314. DOI: 10.1186/1756-0500-6-314 Externer Link
27.
Tax DM, Duin RP. Using two-class classifiers for multiclass classification. In: Proceedings of the 16th International Conference on Pattern Recognitions. Vol. 2; 2002 Aug 11-15; Quebec, Kanada. IEEE Press; 2002. p.124-127. DOI:10.1109/ICPR.2002.1048253 Externer Link
28.
Van der Vleuten CP, Verwijnen GM, Wijnen WH. Fifteen years of experience with progress testing in a problem-based learning curriculum. Med Teach. 1996;18(2):103-109. DOI: 10.3109/01421599609034142 Externer Link
29.
Wagener S, Fleig A, Möltner A. Warum sind im studentischen kompetenzorientierten Progresstest in jedem Studienjahr etwa 25% derAntworten falsch? In: Gemeinsame Jahrestagung der Gesellschaft für Medizinische Ausbildung (GMA) und des Arbeitskreises zur Weiterentwicklung der Lehre in der Zahnmedizin (AKWLZ). Münster, 20.-23.09.2017. Düsseldorf: German Medical Science GMS Publishing House; 2017. Doc157. DOI: 10.3205/17gma157 Externer Link
30.
Wagener S, Gaitzsch E, Brass K, Heid J, Herrmann L, Günther J, Ney S, Müller A, Dikmen HO, Zimmermann K, Yilmaz OK, Wittstock F, Alhalabi O, Park J, Harapan BN, Kollmeier B, Ronellenfitsch L, Mayer J, Baumann T, Daunert L, Brüstle P, Mohr D, Schüttpelz-Brauns K, Van der Beken A, Jünger J, Möltner A. Videofragen im studentischen kompetenzorientierten Progresstest. In: Gemeinsame Jahrestagung der Gesellschaft für Medizinische Ausbildung (GMA) und des Arbeitskreises zur Weiterentwicklung der Lehre in der Zahnmedizin (AKWLZ). Münster, 20.-23.09.2017. Düsseldorf: German Medical Science GMS Publishing House; 2017. Doc110. DOI: 10.3205/17gma110 Externer Link
31.
Wagener S, Möltner A, Fleig A, Feistner L, Heid J, Brass K, Holz T, Weber M, Pflaum P, Rogg D, Kellermann F, Berg L, Breithaupt MH, Dehmel L, Grad A, Xiang Jin J, Hai-Ning Lu K, Müller A, Rinawi T, Shang V, Zimmermann K, Alhalabi O, Park J, Grupp M, Klauth A, Lepper A, Lichnock Z, Mayer J, Hollmann A, Meuth C, Siegel F, Peitz N, Brüstle P, Mohr D, Schüttpelz-Brauns K, Würth G, Jünger J, Burkert M. "Was will ich prüfen?" - Erweiterung des Blueprints im studentischen kompetenzorientierten Progresstest. In: Jahrestagung der Gesellschaft für Medizinische Ausbildung (GMA). Wien, 19.-22.09.2018. Düsseldorf: German Medical Science GMS Publishing House; 2018. Doc19.5. DOI: 10.3205/18gma338 Externer Link
32.
Wagener S, Möltner A, Timbil S, Fleig A, Feistner L, Heid J, Brass K, Burkert M. "Da bin ich mir sicher" -Confidence rating im studentischen kompetenzorientierten Progresstest [Bericht über Forschungsergebnisse]. In: Jahrestagung der Gesellschaft für Medizinische Ausbildung (GMA). Wien, 19.-22.09.2018. Düsseldorf: German Medical Science GMS Publishing House; 2018. Doc15.2. DOI: 10.3205/18gma067 Externer Link
33.
Wagener S, Möltner A, Timbil S, Gornostayeva M, Schultz JH, Brüstle P, Mohr D, Van der Beken A, Better J, Fries M, Gottschalk M, Günther J, Herrmann L, Kreisel C, Moczko T, Illg C, Jassowicz A, Müller A, Niesert M, Strübing F, Jünger J. Development of a competencybased formative progress test with student-generated MCQs: Results from a multi-centre pilot study. GMS Z Med Ausbild. 2015;32(4):Doc46. DOI: 10.3205/zma000988 Externer Link
34.
Wrigley W, van der Vleuten CP, Freeman A, Muijtjens A. A systemic framework for the progress test: strengths, constraints and issues: AMEE Guide No. 71. Med Teach. 2012;34(9):683-697. DOI: 10.3109/0142159X.2012.704437 Externer Link
35.
Zmud RW, Sampson JP, Reardon RC, Lenz JG, Byrd TA. Confounding Effects of Construct Overlap: An Example from IS User Satisfaction Theory. Inform Technol People. 1994;7(2):29-45. DOI: 10.1108/09593849410074061 Externer Link