gms | German Medical Science

GMS Journal for Medical Education

Gesellschaft für Medizinische Ausbildung (GMA)

ISSN 2366-5017

Der Fragebogen "D-RECT-German": Adaptation und testtheoretische Güte eines Instruments zur Evaluation der klinischen Weiterbildung

Artikel Ärztliche Fort- und Weiterbildung

Suche in Medline nach

  • corresponding author Peter Iblher - Universität zu Lübeck, Klinik für Anästhesiologie , Lübeck, Deutschland; Universität Witten/Herdecke, Institut für Didaktik und Bildungsforschung im Gesundheitswesen (IDBG), Witten, Deutschland
  • M. Zupanic - Universität Witten/Herdecke, Institut für Didaktik und Bildungsforschung im Gesundheitswesen (IDBG), Witten, Deutschland; Universität Witten/Herdecke, Studiendekanat Humanmedizin, Witten, Deutschland
  • T. Ostermann - Universität Witten/Herdecke, Department für Psychologie, Lehrstuhl für Statistik und Methodenlehre, Witten, Deutschland; Universität Witten/Herdecke, Institut für Integrative Medizin, Witten, Deutschland

GMS Z Med Ausbild 2015;32(5):Doc55

doi: 10.3205/zma000997, urn:nbn:de:0183-zma0009971

Dieses ist die deutsche Version des Artikels.
Die englische Version finden Sie unter: http://www.egms.de/en/journals/zma/2015-32/zma000997.shtml

Eingereicht: 17. August 2014
Überarbeitet: 15. September 2015
Angenommen: 13. Oktober 2015
Veröffentlicht: 16. November 2015

© 2015 Iblher et al.
Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung). Lizenz-Angaben siehe http://creativecommons.org/licenses/by/4.0/.


Zusammenfassung

Zielsetzung: In der Arbeitsgruppe von Boor et al. [1] wurde der Fragebogen D-RECT (Dutch Residency Educational Climate Test) zur Erfassung des Lernklimas in der ärztlichen Weiterbildung entwickelt und validiert. Die deutschsprachige Version (D-RECT-German) wird in der vorliegenden Studie testtheoretisch überprüft.

Fragestellung: Ist eine Replikation der Ergebnisse aus der Originalarbeit von Boor et al. als Beleg der Validität des D-RECT möglich?

Methodik: Die Befragung erfolgte onlinebasiert mit dem Fragebogen D-RECT-German. Mit Item- und Reliabilitätsanalysen wurden die Kennwerte der 50 Items in 11 Subskalen sowie die interne Konsistenz (Cronbach’s α) ermittelt. Die Validitätsprüfung erfolgte mit einer konfirmatorischen Faktorenanalyse unter Verwendung eines Maximum likelihood basierten Strukturgleichungsmodells.

Ergebnisse: Die Itemanalysen dieser Replikationsstudie mit 255 WBA an 17 deutschen Krankenhäusern ergaben für die Items heterogene Trennschärfen, auch die interne Konsistenz der Subskalen zeigte variable Werte für Cronbach’s α zwischen 0.57 und 0.85. In der konfirmatorischen Faktorenanalyse wiesen 6 Items standardisierte Regressionskoeffizienten <0.5 auf die vorgegebenen Dimensionen auf, von denen zwei im Konstrukt „Einstellung der betreuenden Fachärzte“ zu finden waren. Die Korrelationen der Faktoren untereinander wies mit Korrelationen von über 0.7 starke Interdependenzen zwischen den Faktoren „Supervision“, „Coaching“ und „Einstellung der betreuenden Fachärzte“ auf.

Schlussfolgerungen: In der Replikationsstudie mit dem D-RECT-German für den deutschsprachigen Raum zeigten sich strukturelle Unterschiede hinsichtlich der faktoriellen Validität, so dass weitere Validierungsstudien für den internationalen Vergleich notwendig sind.

Schlüsselwörter: D-RECT, Lernklima, ärztliche Weiterbildung, WBA, Validierung, Replikationsstudie


1. Einleitung

1.1. Einführung

Das Medizinstudium unterliegt in den letzten Jahren einem erheblichen Wandel. Deutliche Anstrengungen wurden unternommen, die Ausbildung zukünftiger Ärztinnen und Ärzte durch medizindidaktische Projekte zu verbessern. Diese Bestrebungen finden ihren Ausdruck auch in der veränderten Wahrnehmung des Stellenwerts einer exzellenten Lehre, die sich in verschiedenen Förderinitiativen manifestiert [2]. Die Erlangung der Approbation als Abschluss dieses Ausbildungsabschnittes stellt die erste Grundlage zur Weiterqualifizierung der Absolventen dar. Es gilt nun ihre erworbenen Fähigkeiten und Kenntnisse als Ärztin/ Arzt in Weiterbildung (WBA) weiter ausbauen mit dem Ziel, einen spezifischen Facharzttitel zu erwerben. Die Ansprüche hinsichtlich der Überprüfung von klinischer Kompetenz und Lernperformance, die mittlerweile selbstverständlich für die medizinstudentische Ausbildung formuliert werden und im Konsens als Notwendigkeit anerkannt sind [3], [4], wären auch für die ärztliche Weiterbildung zu fordern. Die gründliche und umfassende ärztliche Weiterbildung als Grundlage einer guten Ausbildung wird zu Recht formuliert (http://www.bundesaerztekammer.de/downloads/20130628-MWBO_V6.pdf, zitiert am 16.04.2015) und sollte überprüft werden, um den einzelnen Ausbildern die Interpretation des Status quo zu ermöglichen, konsekutiv adäquate Veränderungen umzusetzen und diese entsprechend wieder zu überprüfen. Dabei stellt das Lernklima mit seinen verschiedenen Facetten die zentrale Grundlage einer effektiven Ausbildung dar [5]. Wünschenswert wäre hier ein flexibles, etabliertes und verlässliches Messinstrument, das relevante Kompetenzbereiche des Lernklimas abbildet, die Stärken und Schwächen der institutionellen Weiterbildungskonzepte offenlegt und darüber hinaus auch im Rahmen von Lehrforschungsprojekten einsetzbar wäre.

1.2. Der Fragebogen D-RECT zur Evaluation des Lernklimas in der Weiterbildung

Mit Hilfe von qualitativen Untersuchungen zur Etablierung eines optimalen Lernklimas in der ärztlichen Weiterbildung extrahierte die Arbeitsgruppe von Boor et al. drei entscheidende interagierende Domänen:

1.
Arbeitsumfeld,
2.
Fortbildung und
3.
Bedürfnisse der WBA.

Im Rahmen dieses theoretischen Konstruktes wurde ein Messinstrument des Lernklimas in der ärztlichen Weiterbildung auf der Grundlage von elf Kategorien entwickelt (Dutch Residency Educational Climate Test/ D-RECT) (7) (siehe Anhang 1 [Anh. 1]). Die Autoren schlossen, dass die weitere Testung und Validierung des Fragebogens für einen Gebrauch im internationalen Setting wünschenswert wäre. Eine Überprüfung der faktoriellen Validität des finalen Fragebogens sei bisher noch nicht erfolgt. Der Fragebogen wurde zur Publikation aus dem Niederländischen ins Englische übersetzt.

Die vorliegende Arbeit untersucht als Replikationsstudie die Anwendbarkeit des Fragebogen D-RECT im deutschsprachigen Raum mit folgender Fragestellung:

1.3. Fragestellung
1.
Testtheoretische Überprüfung einer deutschsprachigen Version des D-RECT (D-RECT-German) zur Überprüfung des Lernklimas mittels Item- und Reliabilitätsanalysen zur Ermittlung der internen Konsistenz (Cronbach’s α).
2.
Überprüfung der faktoriellen Validität des Fragebogens D-RECT-German mittels konfirmatorischer Faktorenanalyse.

2. Material und Methoden

Die Studie wurde der Ethik-Kommission der Universität Witten/Herdecke vorgestellt, von dort bestanden keinerlei ethische Bedenken gegen die Durchführung. Alle Befragten wurden im Vorwege informiert und hatten die Möglichkeit, die Teilnahme an dieser Studie zu verweigern. Die Einwilligung erfolgte durch konkludentes Handeln.

2.1. Fragebogen D-RECT

Der Fragebogen D-RECT besteht aus 50 Items in 11 Subskalen (siehe Anhang 1 [Anh. 1]). Die Bewertung erfolgt auf einer fünf-stufigen Likert Skala (1=trifft nicht zu – 5=trifft voll zu). Der englisch publizierte Original-Fragebogen D-RECT wurde durch Muttersprachler zunächst aus dem Englischen ins Deutsche, und dann ins Englische zurück übersetzt. Weiterhin wurden als Kontrollvariablen Alter, Geschlecht, Fachgebiet, Name der Klinik und Weiterbildungsjahr erfragt. Die Befragung erfolgte onlinebasiert (Lime Survey) nach Kliniken und Standorten. Alle erhobenen Daten wurden anonymisiert ausgewertet.

2.2. Testtheoretische Überprüfung des D-RECT-German

Zur Ermittlung der Itemkennwerte wurden Analysen zu Mittelwert (M), Standardabweichung (SD) und Trennschärfe nach Pearson (rit) durchgeführt. Der Trennschärfekoeffizient ist dabei nach Lienert die Korrelation der Aufgabenbeantwortung mit dem Summenwert der Skala und Kennwert dafür, in welchem Ausmaß die Differenzierung der Personen durch das Item mit derjenigen durch die Skala als Ganzes übereinstimmt [6]. Dabei gelten Trennschärfen zwischen 0.4 und 0.7 als gut, von 0.2-0.4 als akzeptabel, von 0.1-0.2 als marginal und Werte unter 0.1 als schlecht [7]. Zur Bestimmung der Skalenkennwerte und -interkorrelationen wurden Mittelwerte (M), Standardabweichungen (SD), Homogenitätskoeffizienten (Cronbach’s α) und korrigierte Inter-Skalen-Korrelationen (r, nach Pearson) berechnet. Für Gruppenvergleichstestungen der Reliabilität kann dabei ein Cronbach’s α ab 0.7 als ausreichend, ab 0.8 als gut bezeichnet werden [8]. Weiterhin wurden die Voraussetzungen für eine Faktorenanalyse mittels Kaiser-Meyer-Olkin (KMO-) und Bartlett’s Test geprüft. Bei gegebenen Voraussetzungen wurde eine konfirmatorische Faktorenanalyse durchgeführt.

Um die Stärke der Beziehungen zwischen den Items und den Konstrukten zu prüfen, wurde das Modell für die vorgegebenen Faktoren mit Hilfe eines Strukturgleichungsmodells simultan geschätzt. Die Modelltestungen wurden mit AMOS 20 und R durchgeführt, wobei die Schätzungen auf der Maximum-Likelihood Methode beruhen. Als Parameter für die Modellvalidität wurden neben dem Chi-Quadrat Wert die für den Skalenfit der konfirmatorischen Faktorenanalyse üblichen inkrementellen Fit-Maße Comparative Fit Index (CFI), Tucker Lewis Index (TLI) und Root Mean Square Error of Aproximation (RMSEA) berechnet. Ein signifikanter Chi²-Test deutet dabei auf einen schlechten Modell-Fit hin. Für CFI und TLI weisen Werte >0.90 auf einen guten Modell-Fit hin, während ein RMSEA>0.08 auf einen zu hohen Anteil ungeklärter Varianz hindeutet. Zusammenhänge zwischen den Items und den vorgegebenen Dimensionen wurden durch standardisierte Regressionskoeffizienten rs beschrieben, wobei Werte <0.5 als nicht ausreichend definiert wurden. Die Korrelationen der Dimensionen untereinander wurden auf Basis der geschätzten Kovarianzmatrix durch Korrelationskoeffizienten bestimmt. Korrelationen >0.7 wiesen dabei auf eine nicht vorhandene Unabhängigkeit der Faktoren untereinander hin. Mit Hilfe der R-Prozedur modindices wurden abschließend mögliche Fehlspezifikationen des Modells identifiziert.

Aufgrund der geringen Stichprobengröße wurden keine weiteren Analysen wie z. B. eine Mehrebenenanalyse durchgeführt.


3. Ergebnisse

Die Stichprobe setzte sich zusammen aus 255 WBA (weiblich: n=129/50.6%; männlich: n=126/49.4%) an 17 deutschen Krankenhäusern (siehe Tabelle 1 [Tab. 1]) aus vier Fachgebieten (siehe Tabelle 2 [Tab. 2]). Das durchschnittliche Alter der Probanden betrug 32±6 Jahre. Die Aufteilung nach Weiterbildungsjahren ist in Tabelle 3 [Tab. 3] ersichtlich.

Die Ergebnisse der Itemanalysen sind in Anhang 1 [Anh. 1] dargestellt. Die größte Zustimmung mit Mittelwerten über 4.0 fanden Item 3 („Mir ist klar, wen ich um Hilfe bitten muss, falls ich professionelle Unterstützung benötige.“; M: 4.3±0.9), Item 35 („Wenn ich einen Facharzt brauche, kann ich jederzeit einen kontaktieren.“; M: 4.4±0.8) und Item 36 („Wenn ich mich mit einem Facharzt beraten muss, finde ich diese zugänglich.“; M: 4.2±0.8). Den Items 10 („Meine betreuenden Fachärzte beobachten mich ab und zu bei der Anamnese.“; M: 1.4±0.8), Item 13 („Mein Feedback wird durch Beobachtungsformulare strukturiert.“; M: 1.1±0.6), Item 14 („Beobachtungsformulare werden regelmäßig benutzt, um meine Fortschritte zu bewerten.“ ; M: 1.1±0.6), Item 44 („Die Beurteilungen dieser Rotation sind hilfreiche Unterhaltungen über meine Leistung.“ ; M: 1.6±1.4), Item 45 („Meine Zukunftspläne werden während der Beurteilungen besprochen.“; M: 1.7±1.5) und Item 46 („Die Beiträge der verschiedenen betreuenden Fachärzte werden während der Beurteilung zur Kenntnis genommen.“; M: 1.3±1.3) wurde am wenigsten zugestimmt mit Mittelwerten unter 2.0. Die Trennschärfen der Items lagen in keinem Fall unterhalb des kritischen Werts von 0.2, sondern ausnahmslos in einem akzeptablen bis guten Bereich (siehe Anhang 1 [Anh. 1]).

Die Ergebnisse der Skalenanalysen sind in Anhang 1 [Anh. 1] dargestellt. Die größte Zustimmung der WBA erfolgte in der Subskala „Patientenübergabe“ mit einem Mittelwert von 4.1±0.9. Die geringste Zustimmung wurde in der Subskala „Feedback“ (1.5±0.5) und Subskala „Rolle des Fachbereichs-Ausbilders“ (1.7±1.1) ersichtlich. Es zeigte sich für alle Subskalen eine kritische bis befriedigende interne Konsistenz mit Werten von Cronbach’s α zwischen 0.57 und 0.85.

Die Überprüfung der Faktorenstruktur des D-RECT durch die konfirmatorische Faktorenanalyse wies auf einen nur unzureichenden Model-Fit hin. Der Chi-Quadrat Wert war mit 2383,576 hochsignifikant (p<0.001) was für eine ungenügende Modellgüte hinweist. Auch die inkrementellen Fit-Maße CFI und TLI erreichten mit Werten von 0.768 und 0.746 nicht annähernd den Bereich eines guten aproximativen Modell-Fits. Nur hinsichtlich des absoluten Modell-Fits kann mit einem RMSEA von 0.068 von einer hinreichend guten Datenpassung durch die postulierte Faktorenstruktur ausgegangen werden.

Die Zusammenhänge zwischen den Items und den vorgegebenen Dimensionen zeigten im gewählten Strukturgleichungsmodell mit Werten zwischen 0.225 und 0.957 eine deutliche Heterogenität, wobei 6 Items standardisierte Regressionskoeffizienten <0.5 auf die vorgegebenen Dimensionen aufwiesen, von denen zwei im Konstrukt „Einstellung der betreuenden Fachärzte“ zu finden waren. Zufriedenstellende Ladungen konnten für die Dimensionen „Supervision“ (rs zwischen 0.570 und 0.720), „Teamwork“ (rs zwischen 0.598 und 0.716), „Professionelle Beziehung“ (rs zwischen 0.596 und 0.700), „Formale Ausbildung“ (rs zwischen 0.557 und 0.842), „Rolle des Ausbilders“ (rs zwischen 0.531 und 0.817) und „Patientenübergabe“ (rs zwischen 0.596 und 0.780) erzielt werden. Jeweils eine Ladung unter 0.5 wurde in den Dimensionen „Coaching“ (CB7: rs=0.416), „Feedback“ (FB1: rs=0.225), „Zusammenarbeit der WBA“ (ZW3: rs=0.441), und „Fähigkeitsadaptierte Arbeit“ (FW3: rs=0.294) gefunden. Zwei Ladungen unter 0.5 wurden in der Dimension „Einstellung der betreuenden Fachärzte“ gefunden (EB3: rs=0.470 und EB8: rs=0.359) (siehe Tabelle 4 [Tab. 4]). Dieser Befund wird auch durch die Analyse der Fehlspezifikation des Modells bestätigt. Auch hier lädt das Item FB1 auf sieben unterschiedliche Dimensionen und ist für die deutsche Version als kritisch zu betrachten.

Die Korrelationsanalyse zwischen den vorgegebenen Dimensionen zeigte mit einer Ausnahme („Teamwork“ vs. „Rolle Ausbilder“ r=-0.025) bei allen Skalen positive Korrelationen, wobei die Subskala „Coaching & Beurteilung“ mit den Skalen „Einstellung der betreuenden Fachärzte“ (r=0.788) und „Feedback“ (r=0.752) die höchste gemeinsame Korrelation zeigten. Auch die Skalen „Einstellung der betreuenden Fachärzte “ und „Fähigkeitsadaptierte Arbeit der WBA“ zeigten mit einer Korrelation von r=0.602 eine kritische Größe. Alle anderen Skalen lagen mit Werten unter 0.6 in einer akzeptablen Diskriminierung. Die Subskala 11 („Einstellung der betreuenden Fachärzte“) wies dabei mit fast allen anderen Subskalen die jeweils höchste Korrelation auf (siehe Tabelle 5 [Tab. 5]).


4. Diskussion

Die Ergebnisse dieser Replikationsstudie ergaben für alle Items akzeptable bis gute Trennschärfen, die interne Konsistenz der Subskalen zeigte Werte für Cronbach’s α zwischen 0.57 und 0.85. Allerdings zeigte die konfirmatorische Faktorenanalyse deutliche Schwächen im Konstrukt auf, die darauf hindeuten, dass das geprüfte Modell eine sehr schlechte Passung zu den Daten hat. Die folgende Interpretation der Ergebnisse sollte daher unter diesem Gesichtspunkt betrachtet werden.

Im Vergleich zu der Stichprobe in der Ursprungsstudie von Boor et al. wurden in dieser Replikationsstudie zwar weniger WBA rekrutiert (255 WBA vs. 600 WBA), es wurden aber auch hier mindestens fünf WBA pro Item eingeschlossen, so dass die Stichprobe als groß genug für eine Faktorenanalyse gelten kann und den Voraussetzungen der Studie von Boor entspricht [1]. Während sich das Stichprobenkollektiv von Boor et al. aus 26 Fachdisziplinen rekrutierte, wurden hier WBA aus den Fächern Anästhesiologie, Innere Medizin, Kinderchirurgie und Allgemeinmedizin eingeschlossen (siehe Tabelle 2 [Tab. 2]). Hinsichtlich der Itemanalysen finden sich bis auf etwa gleiche Werte in Subskala 4. „Teamwork“ nahezu durchgehend niedrigere Werte für die Replikationsstudie (siehe Anhang [Anh. 1]). Dabei sind die niedrigsten Werte in der Subskala 3. „Feedback“ (Item 13 & 14) durchaus dadurch zu erklären, dass in den eingeschlossenen Krankenhäusern keine standardisierten Beobachtungsformulare (z. B. Mini CEX) etabliert verwendet wurden. Niedrige Werte (<2) finden sich sonst in Item 10 („Meine betreuenden Fachärzte beobachten mich ab und zu bei der Anamnese.“) und nahezu in allen Items der Subskala 10 „Rolle des Fachbereich-Ausbilders“ (Item 42-46). Bei Boor et al. zeigten sich im Gegensatz zu dieser Studie bis auf Item 10 keine Mittelwerte unterhalb von 3.0. Auch in der Studie von van Vendeloo und Mitarbeitern im Rahmen der orthopädischen Weiterbildung zeigte sich in dem Gesamtergebnis des D-RECT ein Mittelwert von 3.8±0.4 [9]. Generell bewerteten also die niederländischen Stichproben das Lernklima auf Gesamtskalenniveau in ihrer Weiterbildung besser als die deutsche Stichprobe. Dabei muss bedacht werden, dass wegen der Unterschiede im Studienkollektiv ein fachspezifischer Effekt in der Mittelwertbildung nicht auszuschließen ist und zu fragen wäre, ob Weiterbildungen in den unterschiedlichen Disziplinen prinzipiell vergleichbar sind. Trotzdem wäre kritisch zu hinterfragen, ob die Weiterbildungsbedingungen in Deutschland möglicherweise einfach schlechter sind. Generell müsste hier interpretatorisch neben einem möglichen Selection-Bias auch der Einfluss von länderspezifischen Unterschieden in der Weiterbildung bedacht werden.

Hinsichtlich der internen Konsistenz als Kenngröße für die Reliabilität zeigen sich für die vorliegende Replikationsstudie im Vergleich zur Studie von Boor et al. in fünf Subskalen niedrigere Werte, in zwei Subskalen in etwa gleiche Werte und höhere Werte in vier Subskalen. Bis auf die Subskalen „Supervision“, „Feedback“, „Zusammenarbeit der WBA“ und „Fähigkeitsadaptierte Arbeit der WBA“, die knapp unterhalb von 0.6 liegen, erfüllen alle Subskalen der aktuellen Studie die Erfordernisse für Gruppenvergleiche, die ein Cronbach’s α von mindestens 0.7 als ausreichend ansehen [8]. Dabei zeigen alle Subskalen mit sechs bis acht Items gute Koeffizienten über 0.8, während alle weiteren Subskalen die Grenze von 0.7 verfehlten [6].

Hinsichtlich der Trennschärfen zeigten nahezu alle Items mindestens Werte über 0.3, so dass postuliert werden kann, dass diese zwischen Teilnehmern mit niedriger, d. h. ungünstiger Bewertung und hoher, d. h. guter Bewertung des Lernklimas trennen.

In der konfirmatorischen Faktorenanalyse wies die elf-faktorielle Analyse nach Boor et al. deutliche Schwächen auf. Die Analyse der Ladungsgewichte sowie der Subskalen untereinander weisen darauf hin, dass der Originalfragebogen und der D-RECT-German zumindest partiell eine andere Struktur aufweisen. Insbesondere die Skalen „Supervision“, „Einstellung der betreuenden Fachärzte“ und „Coaching“ zeigten mit hohen Korrelationen deutliche Interdependenzen auf. Auch in den Itemladungen sind die Skalen „Einstellung der betreuenden Fachärzte“ und „Coaching“ als kritisch zu hinterfragen. Eine hier nicht berichtete explorative schiefwinklige Faktorenanalyse bestätigte die Inkonsistenz in den Faktoren. Dies wäre zunächst dahingehend zu interpretieren, dass für die internationale Version des Fragebogens D-RECT keine hinreichenden Belege für die Validität des Instruments bestehen. Die Verwendung des Fragebogens im deutschsprachigen Raum wäre daher nur nach stabiler Replikation der Ergebnisse in Folgeuntersuchungen möglich. Eine internationale Vergleichbarkeit, wie von Boor et al. diskutiert, erscheint aufgrund der derzeit vorliegenden Ergebnisse jedoch nicht gegeben. Weitere Validierungsstudien des Originalfragebogens sind dafür unbedingt notwendig, damit der D-RECT den Anforderungen als ein valides Evaluationsinstrument gerecht wird. Einschränkend könnten hier für internationale Vergleiche lediglich die Gesamtwerte des Fragebogens herangezogen werden, ein Vergleich auf Subskalenniveau wäre nur partiell gegeben. Niederländische Folgestudien untersuchten im Sinne einer externen Validierung Zusammenhänge zwischen dem D-RECT und anderen Skalen. So wurden in einer aktuellen niederländischen Studie von Lombarts et al. Korrelationen zwischen dem Fragebogen D-RECT zum Lernklima und dem SETQ-Instrument (modifizierter SFDP26-Fragebogen) zur Lehrqualität betrachtet [10], hier fanden sich signifikante positive Korrelationen zwischen den Gesamtwerten der beiden Skalen, sowie der Lehrqualität und den D-RECT Subskalen 2. „Coaching und Beurteilung“, 7. Fähigkeitsadaptierte Arbeit der WBA“ und 9. „Formale Ausbildung“. Die Arbeitsgruppe von van Vendeloo und Mitarbeitern zeigte in einem orthopädischen Weiterbildungskollektiv, dass hohe Gesamtwerte des D-RECT assoziiert waren mit besser Lebensqualität, höherer Zufriedenheit hinsichtlich der work-life balance, weniger Symptomen der emotionalen Erschöpfung und weniger Zeichen der Depersonalisation [9]. Diese Ergebnisse sind interessant, letztendlich aber noch nicht hinreichend. Sie könnten aber nach Klärung der Validität des D-RECT Bestandteil weiterer Forschungsfragen im Bereich der ärztlichen Weiterbildung sein.

Limitationen

Auch wenn in der aktuellen Studie die durch Boor definierten Kriterien zum Einschluss einer Mindestzahl an Probanden pro Item eingehalten wurden, so gibt es Unterschiede hinsichtlich der rekrutierten Fachbereiche. Hier wären Untersuchungen zu einzelnen Fachdisziplinen hilfreich, um mögliche fachspezifische Unterschiede sicher auszuschließen. Aufgrund der geringen Stichprobengröße wurde jedoch auf entsprechende Mehrebenenanalysen verzichtet. Grundsätzlich ist ein Selection-Bias in beiden Studien nicht auszuschließen, da die Teilnahme freiwillig war. Auch der Einfluss möglicher länderspezifischen Unterschiede in der Weiterbildung sollte bedacht werden, der im vorliegenden Studiendesign methodisch nicht abzugrenzen ist.


5. Schlussfolgerung

In dieser Studie wurde die deutschsprachige Replikation des originären Fragebogens D-RECT zur Evaluation der ärztlichen Weiterbildung mittels Reliabilitätsanalysen und konfirmatorischer Faktorenanalyse untersucht. Es zeigten sich strukturelle Unterschiede hinsichtlich der faktoriellen Validität, so dass weitere Validierungsstudien notwendig sind. Der D-RECT-German könnte für den deutschsprachigen Raum möglicherweise ein hilfreiches Instrument zur Evaluation der ärztlichen Weiterbildung sein, dies setzt aber zum jetzigen Zeitpunkt noch Folgeuntersuchungen hinsichtlich der Testgütekriterien voraus, beispielsweise auch fachspezifische Replikationsstudien. Für internationale Vergleiche der beiden Fragebögen wären derzeit nur unter Vorbehalt die Gesamtskalenwerte heranzuziehen, bis weitere Validierungsstudien abgeschlossen sind.


6. Danksagung

Die Autoren danken allen Weiterbildungsassistenten und Weiterbildungsbeauftragten, die sich an dieser Studie beteiligt haben, insbesondere Frau Dr. Klarke Boor, Amsterdam, Niederlanden für ihre Unterstützung und Herrn Professor Martin R. Fischer, LMU München, Deutschland für wichtige Impulse bei der Umsetzung dieser Forschungsarbeit.


Interessenkonflikt

Die Autoren erklären, dass sie keine Interessenkonflikte im Zusammenhang mit diesem Artikel haben.


Literatur

1.
Boor K, Van Der Vleuten C, Teunissen P, Scherpbier A, Scheele F. Development and analysis of D-RECT, an instrument measuring residents' learning climate. Med Teach. 2011;33(10):820-827. DOI: 10.3109/0142159X.2010.541533 Externer Link
2.
Diehn T, Niebuhr C. Wettbewerb exzellente Lehre. In: Krull W, Lorentz B, Schlüter A (Hrsg). Lehre neu denken- Die Zukunft des akademischen Lehrens & Lernens. Essen: Stifterverband-Verwaltungsgesellschaft für Wissenschaftspflege mbH; 2010.
3.
Epstein RM. Assessment in medical education. N Engl J Med. 2007;356(4):387-396. DOI: 10.1056/NEJMra054784 Externer Link
4.
Wass V, Van der Vleuten C, Shatzer J, Jones R. Assessment of clinical competence. Lancet. 2001;357(9260):945-949. DOI: 10.1016/S0140-6736(00)04221-5 Externer Link
5.
Rotem A, Bloomfield L, Southon G. The clinical learning environment. Isr J Med Sci. 1996;32(9):705-710.
6.
Lienert GA, Raatz U. Berechnung von Schwierigkeitsindex, Trennschärfenkoeffizient und Aufgabeninterkorrelation. In: Lienert GA, Raatz U (Hrsg). Testaufbau und Testanalyse. Weinheim: Beltz, Psychologie-Verl.-Union; 1994. S.73-113.
7.
Moosbruger H, Kelava A. Deskriptiv statistische Evaluation von Items (Itemanalyse) und Testwertverteilungen. In:Testtheorie und Fragebogenkonstruktion. Berlin, Heidelberg: Spinger-Verlag; 2012. S.75-102.
8.
Bortz J, Döring N. Hypothesengewinnung und Theoriebildung. In: Bortz JD, Döring N (Hrsg). Forschungsmethoden und Evaluation für Human- und Sozialwissenschaftler. Berlin, Heidelberg, New York, Tokio: Springer; 2006. S.355-396. DOI: 10.1007/978-3-540-33306-7_6 Externer Link
9.
van Vendeloo SN, Brand PL, Verheyen CC. Burnout and quality of life among orthopaedic trainees in a modern educational programme: importance of the learning climate. Bone Joint J. 2014;96-B(8):1133-1138. DOI: 10.1302/0301-620X.96B8.33609 Externer Link
10.
Lombarts KM, Heineman MJ, Scherpbier AJ, Arah OA. Effect of the learning climate of residency programs on faculty's teaching performance as evaluated by residents. PloS one. 2014;9(1):e86512. DOI: 10.1371/journal.pone.0086512 Externer Link
11.
Genn JM. AMEE Medical Education Guide No. 23 (Part 2): Curriculum, environment, climate, quality and change in medical education - a unifying perspective. Med Teach. 2001;23(5):445-454.
12.
Roff S, McAleer S. What is educational climate? Med Teach. 2001;23(4):333-334. DOI: 10.1080/01421590120063312 Externer Link
13.
Streiner DL. Figuring out factors: the use and misuse of factor analysis. Can J Psych Rev. 1994;39(3):135-140.