gms | German Medical Science

GMS Journal for Medical Education

Gesellschaft für Medizinische Ausbildung (GMA)

ISSN 2366-5017

Statistikverständnis und wissenschaftliches Denken & Argumentieren bei praktizierenden Ärzt*innen

Artikel Statistikverständnis

  • author Felicitas M. Schmidt - Klinikum der Universität München, LMU München, Institut für Didaktik und Ausbildungsforschung in der Medizin, München, Deutschland
  • author Jan M. Zottmann - Klinikum der Universität München, LMU München, Institut für Didaktik und Ausbildungsforschung in der Medizin, München, Deutschland
  • author Maximilian Sailer - Universität Passau, Lehrstuhl für Erziehungswissenschaft, Passau, Deutschland
  • author Martin R. Fischer - Klinikum der Universität München, LMU München, Institut für Didaktik und Ausbildungsforschung in der Medizin, München, Deutschland
  • corresponding author Markus Berndt - Klinikum der Universität München, LMU München, Institut für Didaktik und Ausbildungsforschung in der Medizin, München, Deutschland; Walden University, Richard W. Riley College of Education and Leadership, Minneapolis, USA

GMS J Med Educ 2021;38(4):Doc77

doi: 10.3205/zma001473, urn:nbn:de:0183-zma0014734

Dieses ist die deutsche Version des Artikels.
Die englische Version finden Sie unter: http://www.egms.de/en/journals/zma/2021-38/zma001473.shtml

Eingereicht: 27. April 2020
Überarbeitet: 5. Dezember 2020
Angenommen: 25. Januar 2021
Veröffentlicht: 15. April 2021

© 2021 Schmidt et al.
Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung). Lizenz-Angaben siehe http://creativecommons.org/licenses/by/4.0/.


Zusammenfassung

Ziel: Statistikverständnis (SV) von ÄrztInnen, d. h. die Fähigkeit statistische Zahlen im wissenschaftlichen Kontext zu verwenden und zu interpretieren, ist eine wichtige Voraussetzung für Risikoabschätzung und -kommunikation. Statistikverständnis bildet in Verbindung mit der Fähigkeit zum wissenschaftlichen Denken und Argumentieren (WDA) die Grundlage für eine evidenzbasierte medizinische Praxis. Mehrere Studien legen nahe, dass beide Fähigkeiten bei Medizinstudierenden nicht ausreichend entwickelt sind. Ziel der vorliegenden Studie war die Untersuchung dieser Fähigkeiten bei praktizierenden ÄrztInnen und wie diese Fähigkeiten erworben wurden.

Methoden: Die Daten von N=71 ÄrztInnen wurden online und in Papierform erhoben. Statistikverständnis wurde anhand von Multiple-Choice-Fragen gemessen, die WDA-Aktivitäten Evidenzen bewerten und Schlussfolgerungen ziehen anhand eines Entscheidungsszenarios.

Ergebnisse: Die Studienergebnisse zeigten bei ÄrztInnen ein mittleres Niveau im SV (M=17.58, SD=6.92, max. 30 Pkt.) und WDA (Evidenzen bewerten: M=7.75, SD=1.85, max. 10 Pkt.; Schlussfolgerungen ziehen: M=37.20, SD=5.35, max. 60 Pkt.). Die Entwicklung entsprechender Fähigkeiten durch autodidaktische Lernaktivitäten (M=4.78, SD=1.13, Spannweite 1–6) wurde signifikant häufiger angegeben als während der formalen medizinischen Ausbildung (M=2.31, SD=1.46), t(71)=-9.915, p<.001 oder durch außercurriculäre Aktivitäten (M=3.34, SD=1.87), t(71)=4.673, p<.001. Die aktive Beteiligung an Forschung schien eine entscheidende Rolle zu spielen: Die Anzahl der Veröffentlichungen und die Zeit der Tätigkeit in der Forschung korrelierten signifikant mit dem SV, r(71)=.355, p=.002; respektive r(71)=.280, p=.018. WDA-Fähigkeiten wurden vorhergesagt durch die Art der medizinischen Doktorarbeit, β=-.380, p=.016, sowie durch die Tätigkeit in der Forschung, β=3.355, p=.008.

Schlussfolgerung: Das aktive Mitwirken an Forschungsaktivitäten scheint ein sehr wichtiger Faktor für die Entwicklung sowohl des SV als auch des WDA zu sein. Dies spricht für die Implementierung einer systematischen Förderung dieser Fähigkeiten in die formale medizinische Ausbildung.

Schlüsselwörter: evidenzbasierte Praxis, wissenschaftliches Denken und Argumentieren, Statistikverständnis, medizinische Ausbildung, postgraduale medizinische Weiterbildung


1. Wissenschaftlicher Hintergrund

Wissenschaftliche Argumentationsfähigkeiten gelten in Anlehnung an die moderne Definition evidenzbasierter Medizin nach Sackett et al. (1997) zusammen mit ärztlichem Fachwissen als essenziell für die bestmögliche Entscheidungsfindung im Interesse von PatientInnen [1], [2], [3]. Für die Beurteilung von Risiken und Wahrscheinlichkeiten und deren Anwendung für PatientInnen ist ein grundlegendes Verständnis von Statistik und die Fähigkeit Evidenzen zu bewerten erforderlich. Bei Statistikverständnis (SV, engl. statistical literacy) handelt es sich nicht nur um die Fähigkeit statistische Informationen zu verstehen, sondern diese auch in die Entscheidungsfindung einfließen zu lassen [4]. Hierzu gehört, Statistiken als Evidenzgrundlage der wissenschaftlichen Argumentation kritisch reflektieren zu können [5]. Statistikverständnis basiert auf einem entsprechenden Zahlenverständnis und dem Beherrschen mathematischer Operationen [6] und umfasst die Fähigkeit, statistische Zahlen im wissenschaftlichen Kontext zu verwenden und zu interpretieren [7], [8], [9], sowie die Fähigkeit, statistische Zahlen zu erklären und kritisch zu bewerten [10], [11] (Arbeitsdefinition für die vorliegende Studie). Zudem ist SV eng mit Fähigkeiten zum wissenschaftlichen Denken und Argumentieren (WDA, engl. scientific reasoning and argumentation) verbunden und schafft so die Grundlage für eine evidenzbasierte Entscheidungsfindung [12], [13].

Ausgehend vom Rahmenkonzept von Fischer et al. (2014) kann WDA als die Kompetenz definiert werden, wissenschaftliche Arbeitsmethoden und die damit verbundenen Ergebnisse zu verstehen und bei der Problemlösung anzuwenden [14], [15]. Wissenschaftliches Denken und Argumentieren kann anhand von acht epistemischen Aktivitäten beschrieben werden. Der Schwerpunkt dieser Studie liegt auf den beiden Aktivitäten Evidenzen bewerten (EB, engl. evidence evaluation) und Schlussfolgerungen ziehen (SZ, engl. drawing conclusions).

Verschiedene Studien legen nahe, dass WDA und SV eng miteinander verknüpft sind, wobei SV laut Anderson et al. (2013) zum Bewerten wissenschaftlicher Evidenz erforderlich ist [16]. Gemäß Franklin et al. (2005) umfasst SV selbst auch WDA-Fähigkeiten [17].

Jedoch wurde bei ÄrztInnen ein weit verbreitetes Defizit hinsichtlich statistischer Kenntnisse beobachtet [4], [18]. In ähnlicher Weise sind WDA-Fähigkeiten wie EB und SZ, die für eine evidenzbasierte Praxis [19] erforderlich sind [4], [7], unterentwickelt.

In einer Studie von Anderson et al. (2014) beantworteten 52 % der teilnehmenden ÄrztInnen nur zwei (oder weniger) von vier Fragen zu statistischen Konzepten richtig [7]. Dies steht im Einklang mit den Ergebnissen von Windish et al. (2007), laut denen nur 40% der AssistenzärztInnen biostatistische Konzepte angemessen verstehen [20]. Zu ähnlichen Ergebnissen kamen Gigerenzer und Wegwarth (2008), denen zufolge 33% der GynäkologInnen den Nutzen des Mammografie-Screenings nicht kannten und 79% den positiven prädiktiven Wert nicht interpretieren konnten [21]. Gigerenzer et al. (2008) fassten verschiedene Studien zum Konzept des positiven prädiktiven Werts und seiner Abhängigkeit von der Prävalenz zusammen und fanden heraus, dass 50% der Teilnehmenden nicht an die Möglichkeit falsch positiver HIV-Testergebnisse glauben. Sie fanden außerdem heraus, dass nur zwei von 20 UrologInnen ausreichende Kenntnisse über die Zuverlässigkeit eines PSA-Tests haben. In der Folge existiert eine Vielzahl von Messinstrumenten zur Erhebung des SV [18], [22], [23], die sich in der Regel auf eine der drei Ebenen von Watson (1997) konzentrieren oder nur für einen bestimmten Kontext konzipiert sind [7], [22]. Insgesamt ist das SV von ÄrztInnen nicht unterdurchschnittlich ausgeprägt [7]. Es kann als vergleichbar mit anderen akademischen Stichproben [18], [24] angesehen werden und war dem SV von AssistenzärztInnen in der Forschungsausbildung [20] oder von Medizinstudierenden [25] nachweislich überlegen. Die wenigen Studien, in denen das SV von Medizinstudierenden untersucht wurde, stützen das Untersuchungsergebnis der diesbezüglichen Überlegenheit von ÄrztInnen [26]. Berndt et al. (2021) verglichen Medizinstudierende mit Studierenden der Sozial- und Wirtschaftswissenschaften und fanden heraus, dass Medizinstudierende in ihren ersten Studienjahren im Vergleich zu Studierenden der Sozialwissenschaften besser und auf vergleichbarem Niveau wie Studierende der Wirtschaftswissenschaften abschnitten [27]. In dieser Studie wurde nicht nur SV erhoben, sondern auch die beiden oben genannten WDA-Aktivitäten EB und SZ. Weitere mögliche Zusammenhänge zwischen SV und WDA wurden mit dem Medical Data Interpretation Test [22] untersucht, bei dem teilnehmende ÄrztInnen insgesamt besser als Teilnehmende mit anderen postgradualen Abschlüssen abschnitten (89 von 100 Punkten). Johnson et al. (2014) untersuchten das Zahlenverständnis von Medizinstudierenden und AssistenzärztInnen und stellten fest, dass Studierende mit schlechtem Zahlenverständnis die Risiken verschiedener Behandlungsalternativen häufiger falsch einschätzen, wobei das Vertrauen in die eigene Behandlungsempfehlung während des Medizinstudiums zunahm [25].

Zusammenfassend lässt sich sagen, dass SV und WDA bei Medizinstudierenden unterentwickelt, bei ÄrztInnen jedoch besser entwickelt zu sein scheinen. Die Entwicklung von SV und WDA muss aber nicht unbedingt innerhalb der formalen Ausbildung erfolgen, und es stellt sich die Frage, wie, wo, und wann diese Entwicklung stattfindet. Die vorliegende Studie soll einen Beitrag zur Diskussion leisten, wann und wie SV und WDA im lebenslangen Lernen von ÄrztInnen am besten gefördert werden können. Hierzu wurde ein Testinstrument eingesetzt, das verschiedene SV- und WDA-Aspekte umfasst. Ziel der Studie war es, weitere Erkenntnisse über diese Fähigkeiten bei ÄrztInnen zu gewinnen und demografische Faktoren und Lerngelegenheiten zu identifizieren, die möglicherweise mit der Entwicklung dieser Fähigkeiten in Zusammenhang stehen. Unsere explorativen Forschungsfragen lauteten:

FF1. Statistikverständnis und WDA

a. In welchem Umfang sind SV und WDA bei ÄrztInnen entwickelt?
b. In welchem Ausmaß sagt der SV-Score die WDA-Fähigkeiten von ÄrztInnen voraus?

FF2. Entwicklung von SV und WDA

a. Wie, wo, und wann entwickeln ÄrztInnen SV und WDA?
b. Welche demografischen Faktoren stehen mit der Entwicklung von SV und WDA in Zusammenhang?

2. Methoden

2.1. Design und Stichprobe

Unsere Studie folgte einem quasi-experimentellen, kausal-vergleichenden Design mit zwei abhängigen Variablen: SV und WDA. Wir schlossen deutschsprachige ÄrztInnen (N=71; 31 Frauen, 34 Männer, 6 k.A.) aus verschiedenen Arbeitsumfeldern und Orten in unsere Studie ein: Klinik (n=44), ambulante Versorgung (n=3), Forschung (n=8), Studienprogramm (n=2) und Verwaltung (n=2), (n=12 k.A.). Eine medizinische Dissertation, eine wissenschaftliche Arbeit als optionaler Teil des Medizinstudiums (nicht äquivalent mit einer PhD-Arbeit), wurde von 58 Teilnehmenden abgeschlossen und von 9 als aktuell laufend angegeben. Trotz unserer relativ kleinen Stichprobengröße sehen wir diese hinsichtlich der wissenschaftlichen Erfahrung für repräsentativ, da medizinische Dissertationen in Deutschland sehr verbreitet sind. Das Durchschnittsalter der Teilnehmenden betrug 40 Jahre (SD=9.59, Spannweite=26–65) (siehe Tabelle 1 [Tab. 1]).

2.2. Testinstrument

Für die Messung von SV und WDA haben wir ein Instrument verwendet, das zuvor im Rahmen einer Studie von Berndt et al. (2021) entwickelt wurde [27]. Das Testinstrument kombiniert Multiple-Choice-Fragen zur Erhebung des SV mit einem Entscheidungsszenario [28] zur Erhebung der WDA-Aktivitäten EB und SZ der Teilnehmenden. Für die vorliegende Studie wurden Items zu relevanten demografischen Faktoren hinzugefügt und mit zehn Medizinstudierenden der LMU München pilotiert.

2.2.1. Demografie

Demografische und biografische Parameter der Teilnehmenden wurden mit besonderem Interesse an ihrem beruflichen Werdegang und ihrem Arbeitsumfeld (Klinik, ambulante Versorgung, Forschung) erfasst. Die aus einer Studie von Epstein et al. [29] adaptierten Items waren Multiple-Choice-Fragen. Teilweise bestand hierbei die Möglichkeit, zusätzlichen Freitext einzugeben. Fünf Multiple-Choice-Fragen bezogen sich auf die medizinische Dissertation, drei Fragen auf den beruflichen Werdegang, zwei Fragen auf die bisherigen Veröffentlichungen (Art der Autorenschaft, Anzahl der Veröffentlichungen), und drei Fragen auf das aktuelle Stellenprofil.

2.2.2. Statistikverständnis

Das SV wurde mit Multiple-Choice-Items gemessen, die auf validierten Instrumenten [7], [18], [23] basierten. Auf diese Weise konnte ein breites Spektrum ausgewertet werden, von grundlegenden Zahlenverständnis bis hin zum Rechnen mit bedingten Wahrscheinlichkeiten und dem Umgang mit statistischen Konzepten. Doppelte Items und reine Faktenwissensfragen wurden herausgenommen, sodass letztendlich alle drei von Watson (1997) beschriebenen Ebenen abgedeckt wurden. Zusätzlich wurden alle Items nach Schwierigkeit gewichtet [11]. Die interne Konsistenz des SV-Tests betrug in unserer Stichprobe bei einer maximalen Punktzahl von 30 Punkten .82 (Cronbachs α). Alle Items waren in einem medizinischen Kontext formuliert, wobei zur richtigen Beantwortung kein medizinisches Fachwissen erforderlich war.

2.2.3. Wissenschaftliches Denken und Argumentieren

Die Erhebung der WDA-Fähigkeiten konzentrierte sich auf die beiden epistemischen Aktivitäten EB und SZ in einem Entscheidungsszenario im medizinischen Kontext (Allgemeinmedizin, ambulante Versorgung). Hierbei gab es zwei separate Scores für EB und SZ (Cronbachs α betrug für EB-Items .87 und für SZ-Items .74). Für den EB-Score mussten die Teilnehmenden vier kurze Artikel (Evidenzen) [30], [31], [32] auf einer sechs Punkte umfassenden Likert-Skala gemäß den QUEST-Kriterien [33] hinsichtlich ihrer wissenschaftlichen Qualität, Evidenzstärke, und Relevanz für die vorliegende Situation bewerten, darunter eine authentische pharmazeutische Broschüre, in der für ein pflanzliches Arzneimittel geworben wird.

Anschließend bewerteten die Teilnehmenden die Überzeugungskraft (Likert 1-6) von 20 Argumenten, die im Vorfeld von den Autoren aus den präsentierten Evidenzen extrahiert wurden, und vergaben eine Einschätzung der Argumentstärke von 1 (sehr schwach) bis 4 (sehr stark). Bei 13 Teilnehmenden fehlten bis zu fünf Bewertungen der insgesamt 20 Argumente. Um diese Datensätze weiterhin verwenden zu können, wurden die Werte aus dem Durchschnitt der jeweiligen Bewertungen durch Imputation ergänzt. Aus den durch die Teilnehmenden vorgenommenen Bewertungen der wissenschaftlichen Qualität wurde mit einer unabhängigen Bewertung der wissenschaftlichen Qualität seitens der Autoren ein Übereinstimmungsmaß für EB und SZ errechnet. Dieses bewegte sich für EB zwischen 0–10 (EB-Score) und für SZ zwischen 0–60 (SZ-Score), wobei Null auf keine Übereinstimmung hinwies.

2.3. Ablauf

Die Studie wurde von den Teilnehmenden entweder online mit LamaPoll [https://www.lamapoll.de/], einem für Mobilgeräte optimierten Umfrage-Tools, oder auf Papierfragebögen ausgefüllt (Rücklaufquote online 16.5% und Papierfragebögen 66.7%). Die durchschnittliche Dauer betrug etwa 45 Minuten. Die Einladung der Teilnehmenden erfolgte über Mailinglisten und persönliche Kontakte.

2.4. Statistische Analysen

Statistische Analysen erfolgten mit IBM SPSS 25. Für die Primäranalyse wurden deskriptive und Häufigkeitsdaten berechnet und für die interne Konsistenz Cronbachs Alpha. Es erfolgten umfangreiche Ausreißeranalysen. Weiterhin wurden alle für die statistischen Analysen erforderlichen Voraussetzungen wie Normalverteilung und Homoskedastizität geprüft. T-Tests, einfaktorielle Varianzanalysen, und lineare Regressionsmodelle wurden verwendet, um Unterschiede zu berechnen und den Zusammenhang zwischen demografischen Faktoren und SV und WDA zu beurteilen. Wahrscheinlichkeitswerte kleiner als .05 wurden als signifikant angesehen. In verbaler Sprache vorliegende Daten (Freitext im Abschnitt zur Demografie) wurden von zwei der Autoren einer separaten thematischen Analyse unterzogen, um häufig vorkommende Themen zu extrahieren.


3. Ergebnisse

Wir schlossen 71 ausgefüllte Fragebögen ein (siehe Tabelle 1 [Tab. 1]). Der gesamte Datensatz wurde auf univariate Ausreißer geprüft. Schiefe und Wölbung lagen bei allen Variablen innerhalb der ±2 Spannweite [34]. Sofern folgend nicht anders angegeben, waren die Voraussetzungen für t-Tests und Varianzanalysen erfüllt.

3.1. Statistikverständnis und WDA

Der durchschnittliche SV-Score der 71 teilnehmenden ÄrztInnen lag bei M=17.58, SD=6.92 (59%), mit einer Spannweite von 5 bis 30 bei 30 erreichbaren Punkten. Die ÄrztInnen bewerteten die vier Evidenzen im Durchschnitt übereinstimmend mit der Bewertung der Autoren, EB-Score: M=7.75, SD=1.85 (77%). Die Bewertungen für die Qualität der Argumente entsprachen der jeweiligen Bewertung der Autoren, SZ-Score: M=37.20, SD=5.35 (62%). Zwischen SV und SZ bestand eine signifikante, inverse Korrelation, r(71)=-.272, p=.022. Eine Korrelation zwischen SV und EB, r(71)=.198, p=.098 und zwischen EE und DC, r(71)=.138, p=.256 wurde jedoch nicht gefunden.

3.2. Entwicklung von Fähigkeiten

Wir untersuchten, wie, wo, und wann ÄrztInnen wissenschaftliche Fähigkeiten entwickelten (siehe Abbildung 1 [Abb. 1]). Signifikant mehr Teilnehmende gaben an, wissenschaftliche Fähigkeiten autodidaktisch (M=4.78, SD=1.13, Likert-Skala von 1 bis 6) versus während des Studiums (M=2.31, SD=1.46, Likert-Skala von 1 bis 6), t(71)=-9.915, p<.001 oder bei außercurriculären Aktivitäten (M=3.34, SD=1.87, Likert-Skala von 1 bis 6), t(71)=4.673, p<.001 erworben zu haben. In einem Freitextfeld ergänzten die Teilnehmenden verschiedene weitere Lerngelegenheiten, z. B. Massive Open Online Courses, Hochschulkurse, Seminare, und Lernen durch Peer-Reviews und Peer-Feedback (siehe Abbildung 2 [Abb. 2]).

Eine abgeschlossene oder in Arbeit befindliche medizinische Doktorarbeit zeigte keine Auswirkungen auf SV, EB, oder SZ. Diese Ergebnisse müssen jedoch mit Vorsicht interpretiert werden, da in unserer Stichprobe, bei der nur vier Teilnehmende keine medizinische Dissertation vorzuweisen hatten, die Voraussetzungen für eine Varianzanalyse nicht erfüllt waren. Die Förderung des kritischen Hinterfragens von Studienergebnissen anderer Forscher bei der Vorbereitung der eigenen medizinischen Doktorarbeit zeigte eine positive Korrelation mit dem SV, r(71)=.271, p=.033.

Bezüglich der postgradualen Phase zeigte eine einfaktorielle Varianzanalyse einen Haupteffekt der Forschungserfahrung, F(1,70)=12.737, p=.001, partielles η2=.156 und einen Haupteffekt der Art der Autorenschaft in Veröffentlichungen, F(5,71)=3.886, p=.004, partielles η2=.230.

Die Zeit der Tätigkeit in der Forschung korrelierte signifikant mit besserem SV, r(71)=.28, p=.018. Dasselbe galt für die Anzahl der Veröffentlichungen, r(71)=.36, p=.002.

Hinsichtlich des WDA ergaben lineare Regressionsmodelle, dass der entsprechende EB-Score um β=.314±.150, p=.041 anstieg, wenn der Likert-Wert der inhaltlichen Unterstützung durch den Doktorvater bzw. die Doktormutter um einen Punkt anstieg. Zusätzlich korrelierte die Art der medizinischen Dissertation (experimentell, klinisch, empirisch, statistisch, oder Literaturstudie) mit dem EB-Score, wobei ein experimentelles und klinisches Design positiv mit dem EB-Score in Zusammenhang stand, β=-.380±.154, p=.016, R2=.187, F(1,59)=4.353, p=.041. Der SZ-Score war höher, wenn die Teilnehmenden angaben, bereits in der Forschung gearbeitet zu haben, β=3.355±1.229, p=.008, R2=.314, F(1,68)=7.448, p=.008.


4. Diskussion

4.1. Forschungsfrage 1: Statistikverständnis und WDA

Wir fanden bei ÄrztInnen einen durchschnittlichen SV-Score (59%), einen relativ hohen EB-Score (77%) und einen mittleren SZ-Score (62%). Der SV-Score gab keinen Aufschluss über die WDA-Fähigkeiten von ÄrztInnen.

Durch den Fokus auf SV und nicht auf die Kombination von grundlegenden Zahlenverständnis und SV [27] differenzierte unser Testinstrument gut und es konnten keine Deckeneffekte, wie sie in anderen akademischen Stichproben beobachtet wurden [7], [35], nachgewiesen werden. Ein Vergleich mit anderen Studien, die das SV von ÄrztInnen beurteilen, ist nicht einfach, da jeder Test einen unterschiedlichen SV-Bereich abdeckt. Schmidt et al. (2017) untersuchten bei PathologInnen das Wissen zu 18 verschiedenen statistischen Tests und fanden ein relativ niedriges SV [36]. Anderson et al. (2014) erstellten keinen Gesamtscore, sondern unterschieden zwischen Fakten-, Konzept- und Relationsfragen und ermittelten unterschiedliche Niveaus von SV [7]. Eine Studie mit AssistenzärztInnen in Griechenland konzentrierte sich ebenfalls auf Wissensfragen und berichtete ein relativ niedriges SV-Niveau [26]. Die EB- und SZ-Scores der deutschen Medizinstudierenden, die wir zuvor mit einem ähnlichen Instrument untersucht hatten [27], lagen fast auf dem gleichen Niveau wie die Scores der ÄrztInnen in der vorliegenden Studie. Riegelman und Hoveland (2012) fanden heraus, dass AssistenzärztInnen Probleme hatten, wenn kritische Reflexion zu Forschungsinhalten erforderlich war [37], während die ÄrztInnen in unserer Studie mittlere bis hohe WDA-Fähigkeiten zeigten.

Zwischen EB- und SV-Scores bestand keine Korrelation. Zwischen SZ und SV fanden wir eine inverse Korrelation. In kontextuellen Rahmenmodellen wurde SV als Voraussetzung für WDA angesehen [38]. In einer niederländischen, auf die Allgemeinbevölkerung bezogenen Studie, zeigten die Teilnehmenden mit höherem Zahlenverständnis besseres WDA, das sich aus einer stärkeren Abwägung von Vor- und Nachteilen bei der Entscheidungsfindung und genaueren Bewertung der eigenen Einschätzungen ergab [39]. Da die Informationen der vier Evidenzen in unserer Studie nicht vorwiegend numerisch oder statistisch dargestellt wurden, war von der fehlenden Verknüpfung zwischen EB und SV auszugehen, jedoch nicht von der gegensätzlichen Beziehung von SZ und SV. Künftige Forschung könnte statistische Informationen in Entscheidungsszenarien inkludieren, um diesen Zusammenhang bei praktizierenden ÄrztInnen genauer zu analysieren.

4.2. Forschungsfrage 2: Entwicklung von SV und WDA

Wir untersuchten, wie, wo, und wann ÄrztInnen SV und WDA-Fähigkeiten entwickelten. Sie gaben an, wissenschaftliche Fähigkeiten meist autodidaktisch, in Universitätsseminaren außerhalb des Medizinstudiums, oder in außercurriculären Aktivitäten erworben zu haben.

Besseres SV korrelierte mit der Förderung der kritischen Reflexion von Studienergebnissen während der medizinischen Promotion, Arbeit in der Forschung oder mit früherer Forschungserfahrung, sowie mit der Anzahl von Veröffentlichungen und der Art der Autorenschaft. Unsere Ergebnisse stehen im Einklang mit den Ergebnissen von Schmidt et al. (2017), denen zufolge andere Weiterqualifikationen oder absolvierte Statistikkurse über das Medizinstudium hinaus, positiv mit dem SV korrelierten. Eine Studie mit ÄrztInnen, AssistenzärztInnen und Medizinstudierenden im Praktischen Jahr in Thailand zeigte wenig überraschend, dass ein kürzlich absolviertes Statistikseminar zu höheren SV-Scores führte [40]. Zusatzkurse lassen sich allerdings oft nur schwer in die medizinische Ausbildung integrieren. Eine Studie zeigte, dass 37% der amerikanischen AssistenzärztInnen im Bereich Gynäkologie und Geburtshilfe keine formale Statistikausbildung erhalten [16], während eine andere Studie mit AssistenzärztInnen im Bereich Neurologie eine mangelnde Akzeptanz hinsichtlich statistikbezogener Fortbildungsmaßnahmen beobachtete [41].

In der vorliegenden Studie fand sich ein Zusammenhang zwischen besserem EB-Score und entsprechender Verantwortungserfahrung für ein Forschungsprojekt (z.B. die medizinische Doktorarbeit) mit experimentellem oder klinischem Design sowie wenn eine gute inhaltliche Unterstützung durch den Doktorvater bzw. die Doktormutter bestanden hatte. Diese Erkenntnis deckt sich mit dem subjektiven Eindruck deutscher promovierter Medizinabsolventen, die ihre wissenschaftlichen Fähigkeiten höher einschätzen als noch an der Promotion arbeitende AbsolventInnen [29]. Die Teilnehmenden der Studie von Epstein et al. (2018) fühlten sich jedoch für eigene Forschungstätigkeiten nicht sicher genug. Dies erscheint besonders wichtig, da vorhandene Forschungserfahrung in der vorliegenden Studie und bei Schmidt et al. (2017) mit einem höheren SV und SZ-Score korrelierte. Darüber hinaus fanden Epstein et al. (2018) heraus, dass Medizinabsolventen ihre wissenschaftlichen Fähigkeiten nach dem Medizinstudium selbst als relativ gering einstufen. In den USA waren nur 68,1% der Medizinstudierenden in ihrem letzten Jahr während des Medizinstudiums an Forschungsprojekten beteiligt, und nur 42% waren Autoren bzw. Koautoren einer zur Veröffentlichung eingereichten Arbeit. Es erscheint wichtig, dass Medizinstudierende während der Promotion in weitere Forschungsprojekte und die anschließende Veröffentlichung der Ergebnisse eingebunden werden, da dies langfristig ihr SV und WDA verbessern könnte.

4.3. Stärken und Grenzen

Diese Studie baute auf einem innovativen Ansatz der Autoren zur Messung von SV und WDA bei Universitätsstudierenden [27] auf. Der integrative Ansatz der Messung des SV erlaubte eine bessere Beschreibung der realen Fähigkeiten. Allerdings besteht hier der Nachteil einer eingeschränkten Vergleichbarkeit mit früheren Forschungsarbeiten. Da die Teilnehmendengruppe der praktizierenden ÄrztInnen nicht leicht zu rekrutieren war, hielten wir die Stichprobengröße von N=71 für zufriedenstellend. Obwohl die Generalisierbarkeit potenziell begrenzt ist, ist unsere Stichprobe repräsentativ für den deutschsprachigen Raum, in dessen medizinischen Ausbildungssystem eine große Anzahl medizinischer Doktortitel erworben wird. Die zusätzliche Berücksichtigung zahlreicher demografischer Variablen lieferte Aufschluss darüber, wie, wo, und wann wissenschaftliche Fähigkeiten erworben wurden und ermöglichte die Identifikation potenzieller einflussnehmender Faktoren.

Aufgrund des breiten Altersspektrums unserer Stichprobe ist davon auszugehen, dass die Teilnehmenden unterschiedliche Lernerfahrungen in der formalen medizinischen Ausbildung gemacht haben und je nach Studienort auch in reformierten Medizinstudiengängen studiert haben. Dies könnte sich auf die Entwicklung der untersuchten Fähigkeiten ausgewirkt haben und weitere individuelle Unterschiede begünstigen. In unserer Studie wurden keine Daten über spezifische Studienprogramme, Seminare und die zugehörigen Beschreibungen erhoben, in denen die ÄrztInnen möglicherweise ihre Fähigkeiten erworben haben. Dies ist dem Umstand geschuldet, dass das in dieser Studie verwendete Testmaterial im Feedback von 11 teilnehmenden ÄrztInnen bereits als sehr umfangreich und zeitaufwendig bewertet wurde.


5. Schlussfolgerung

Wir untersuchten SV und WDA bei deutschsprachigen ÄrztInnen und nahmen in diesem Zusammenhang eine eingehende Analyse demografischer Variablen vor. Die aktive Beteiligung an Forschung spielt offenbar eine wichtige Rolle bei der Entwicklung dieser Fähigkeiten und könnte als Konsequenz eine Verbesserung der evidenzbasierten Praxis nach sich ziehen. Da die meisten Teilnehmenden angaben diese Fähigkeiten postgradual und autodidaktisch erworben zu haben, plädieren wir dafür, den Erwerb dieser Fähigkeiten im Rahmen des Medizinstudiums zu formalisieren und zu intensivieren. Die Lehrpläne der medizinischen Ausbildung sollten mehr statistisches Training beinhalten und darauf abzielen, Studierende häufiger in aktive Forschung einzubeziehen, z. B. durch das Angebot von forschendem Lernen [42], bei dem die Studierenden eigenständig Forschungsprojekte durchführen und für alle Phasen des Forschungsprozesses in vollem Umfang verantwortlich sind.


Förderung

Diese Arbeit wurde vom Bundesministerium für Bildung und Forschung (BMBF, Förderkennzeichen 01PB14004C) und durch ein internes Förderprogramm des Fördervereins WiFoMed der Medizinischen Fakultät der LMU München unterstützt.


Danksagung

Die Autor*innen bedanken sich außerdem bei Wolfgang Gaissmaier für seine wertvollen Anmerkungen und Anregungen zur vorliegenden Studie.


Interessenkonflikt

Die Autor*innen erklären, dass sie keinen Interessenkonflikt im Zusammenhang mit diesem Artikel haben.


Literatur

1.
Reyna VF, Nelson WL, Han PK, Dieckmann NF. How numeracy influences risk comprehension and medical decision making. Psychol Bull. 2009;135(6):943-973. DOI: 10.1037/a0017327 Externer Link
2.
Nelson W, Reyna VF, Fagerlin A, Lipkus I, Peters E. Clinical implications of numeracy: theory and practice. Ann Behav Med. 2008;35(3):261-274. DOI: 10.1007/s12160-008-9037-8 Externer Link
3.
Sackett DL, Rosenberg WM, Gray JA, Haynes RB, Richardson WS. Was ist Evidenz-basierte Medizin und was nicht? Münch Med Wochenschr. 1997;139(44):28-29. DOI: 10.1055/b-0036-140841 Externer Link
4.
Gigerenzer G, Gaissmaier W, Kurz-Milcke E, Schwartz LM, Woloshin S. Helping Doctors and Patients Make Sense of Health Statistics. Psychol Sci Public Interest. 2008;8(2):53-96. DOI: 10.1111/j.1539-6053.2008.00033.x Externer Link
5.
Shield M. Statistical literacy: thinking critically about statistics. Significance. 1999;1(1):15-20.
6.
Peters E. Beyond Comprehension: The Role of Numeracy in Judgments and Decisions. Curr Dir Psychol Sci. 2012;21(1):31-35. DOI: 10.1177/0963721411429960 Externer Link
7.
Anderson BL, Gigerenzer G, Parker S, Schulkin J. Statistical literacy in obstetricians and gynecologists. J Healthc Qual. 2014;36(1):5-17. DOI: 10.1111/j.1945-1474.2011.00194.x Externer Link
8.
Walker HM. Statistical literacy on the social science. Am Stat. 1951;5(1):6-12. DOI: 10.1080/00031305.1951.10481912 Externer Link
9.
Wallman KK. Enhancing statistical literacy: enriching our society. J Am Statl Ass. 1993;88(421):1-8. DOI: 10.1080/01621459.1993.10594283 Externer Link
10.
Ben-Zvi D, Garfield J. Statistical literacy, reasoning, and thinking: Goals, definitions, and challenges. In: Ben-Zvi D, Garfield J, editors. The challenge of developing statistical literacy, reasoning and thinking. Dordrecht, The Netherlands: Kluwer; 2004. p.3-25. DOI: 10.1007/1-4020-2278-6 Externer Link
11.
Watson JM. Assessing Statistical Thinking Using the Media. In: Gal I, Garfield JB, editors. The Assessment Challenge in Statistics Education. Amsterdam: IOS Press and The International Statistical Institute; 1997. p.107-121.
12.
Sedlmeier P, Gigerenzer G. Teaching Bayesian Reasoning in Less Than Two Hours. J Exp Psychol Gen. 2001;130(3):380-400. DOI: 10.1037/0096-3445.130.3.380 Externer Link
13.
Fischer F, Kollar I, Ufer S, Sodian B, Hussmann H, Pekrun R, Neuhaus B, Dorner B, Pankofer S, Fischer M, Strijbos JW, Heene M, Eberle J. Scientific Reasoning and Argumentation: Advancing an Interdisciplinary Research Agenda in Education. Front Learn Res. 2014;2(3):28-45. DOI: 10.14786/flr.v2i2.96 Externer Link
14.
Hetmanek A, Engelmann K, Opitz A, Fischer F. Beyond intelligence and domain knowledge: Scientific reasoning and argumentation as a set of cross-domain skills. In: Fischer F, Chinn CA, Engelmann K, Osborne J, editors. Scientific reasoning and argumentation: The roles of domain-specific and domain-general knowledge. New York: Routledge; 2018. p.203-226.
15.
Rudolph JL, Horibe S. What do we mean by science education for civic engagement? J Res Sci Teach. 2016;53(6):805-820. DOI: 10.1002/tea.21303 Externer Link
16.
Anderson BL, Williams S, Schulkin J. Statistical literacy of obstetrics-gynecology residents. J Grad Med Educ. 2013;5(2):272-275. DOI: 10.4300/JGME-D-12-00161.1 Externer Link
17.
Franklin C, Kader G, Mewborn D, Moreno J, Peck, R, Perry M, Schaeffler R. Guidelines for Assessment and Instruction in Statistics Education (GAISE) report: A Pre-K-12 curriculum framework. Alexandria: VA: American Statistical Association; 2005.
18.
Lipkus IM, Samsa G, Rimer BK. General performance on a numeracy scale among highly educated samples. Med Decis Making. 2001;21(1):37-44. DOI: 10.1177/0272989X0102100105 Externer Link
19.
Monahan J. Statistical literacy: A prerequisite for evidence-based medicine. Los Angeles, CA: SAGE Publications Sage; 2007.
20.
Windish DM, Huot SJ, Green ML. Medicine residents' understanding of the biostatistics and results in the medical literature. JAMA. 2007;298(9):1010-1022. DOI: 10.1001/jama.298.9.1010 Externer Link
21.
Gigerenzer G, Wegwarth O. Risikoabschätzung in der Medizin am Beispiel der Krebsfrüherkennung. Z Evid Fortbild Qual Gesundheitswes. 2008;102(9):513-519. DOI: 10.1016/j.zefq.2008.09.008 Externer Link
22.
Schwartz LM, Woloshin S, Welch HG. Can patients interpret health information? An assessment of the medical data interpretation test. Med Decis Making. 2005;25(3):290-300. DOI: 10.1177/0272989X05276860 Externer Link
23.
Cokely ET, Galesic M, Schulz E, Ghazal S, Garcia-Retamero R. Measuring Risk Literacy: The Berlin Numeracy Test. Judgment Dec Making. 2012;7(1):25-47. DOI: 10.1037/t45862-000 Externer Link
24.
Okamoto M, Kyutoku Y, Sawada M, Clowney L, Watanabe E, Dan I, Kawamoto K. Health numeracy in Japan: measures of basic numeracy account for framing bias in a highly numerate population. BMC Med Inform Decis Mak. 2012;12:104. DOI: 10.1186/1472-6947-12-104 Externer Link
25.
Johnson TV, Abbasi A, Schoenberg ED, Kellum R, Speake LD, Spiker C, Foust A, Kreps A, Ritenour CW, Brawleya OW, Master VA. Numeracy among trainees: are we preparing physicians for evidence-based medicine? J Surg Educ. 2014;71(2):211-215. DOI: 10.1016/j.jsurg.2013.07.013 Externer Link
26.
Msaouel P, Kappos T, Tasoulis A, Apostolopoulos AP, Lekkas I, Tripodaki ES, Keramaris NC. Assessment of cognitive biases and biostatistics knowledge of medical residents: a multicenter, cross-sectional questionnaire study. Med Educ Online. 2014;19:23646. DOI: 10.3402/meo.v19.23646 Externer Link
27.
Berndt M, Schmidt FM, Sailer M, Fischer F, Fischer MR, Zottmann JM. Investigating Statistical Literacy and Scientific Reasoning & Argumentation in Medical-, Social Sciences-, and Economics Students. Lern Individual Diff. 2021;86:101963. DOI: 10.1016/j.lindif.2020.101963 Externer Link
28.
Trempler K, Hetmanek A, Wecker C, Kiesewetter J, Wermelt M, Fischer F, Fischer M, Gräsel C. Nutzung von Evidenz im Bildungsbereich - Validierung eines Instruments zur Erfassung von Kompetenzen der Informationsauswahl und der Bewertung von Studien. Z Pädagogik. 2015;61:144-166.
29.
Epstein N, Huber J, Gartmeier M, Berberat P, Reimer M, Fischer M. Investigating on the acquisition of scientific competencies during medical studies and the medical doctoral thesis. GMS J Med Educ. 2018;35(2):Doc20. DOI: 10.3205/zma001167 Externer Link
30.
Simon D. Chronische Herzinsuffizienz. Apothek Umschau. 2016. Zugänglich unter/available from: http://www.apotheken.de/gesundheit-heute-news/article/chronische-herzinsuffizienz/ Externer Link
31.
Neue Empfehlungen zum Einsatz von Weißdornpräparaten bei Herzinsuffizienz. Ärzteblatt.de. 2017. Zugänglich unter/available from: https://www.aerzteblatt.de/fachgebiete/kardiologie/news?nid=72259 Externer Link
32.
Meissner T. Weißdorn: Effekt auf das Endothel im Fokus. ÄrzteZeitung. 2017.
33.
Harden M, Grant J, Buckley G, Hart R. BEME guide no. 1: best evidence medical education. Med Teach. 1999;21(6):553-526. DOI: 10.1080/01421599978960 Externer Link
34.
Tabachnick BG, Fidell LS. Using multivariate statistics. 4th ed. Needham Heights, MA: Allyn & Bacon; 2001.
35.
Hanoch Y, Miron-Shatz T, Cole H, Himmelstein M, Federman AD. Choice, numeracy and physician-in-training performance: The case of Medicare part D. Health Psychol. 2010;29:454-459. DOI: 10.1037/a0019881 Externer Link
36.
Schmidt RL, Chute DJ, Colbert-Getz JM, Firpo-Betancourt A, James DS, Karp JK, Miller DC, Milner DA Jr, Smock KJ, Sutton AT, Walker BS, White KL, Wilson AR, Wojcik EM, Yared MA, Factor RE. Statistical Literacy Among Academic Pathologists: A Survey Study to Gauge Knowledge of Frequently Used Statistical Tests Among Trainees and Faculty. Arch Pathol Lab Med. 2017;141(2):279-287. DOI: 10.5858/arpa.2016-0200-OA Externer Link
37.
Riegelman RK, Hovland K. Scientific Thinking and Integrative Reasoning Skills (STIRS): Essential outcomes for medical education and for liberal education. Peer Rev. 2012;14(4):10.
38.
Watson JM, Callingham R. Statistical literacy: A complex hierarchical construct. Stat Educ Res J. 2003;2(2):3-46.
39.
Ghazal S, Cokely ET, Garcia-Retamero R. Predicting biases in very highly educated samples: Numeracy and metacognition. Judgment Dec Making. 2014;9(1):15-34.
40.
Laopaiboon M, Lumbiganon P, Walter SD. Doctors' statistical literacy: a survey at Srinagarind Hospital, Khon Kaen University. J Med Ass Thailand. 1997;80(2):130-137.
41.
Leira E, Granner M, Torner J, Callison R, Adams H. Education research: the challenge of incorporating formal research methodology training in a neurology residency. Neurology. 2008;70(20):e79-e84. DOI: 10.1212/01.wnl.0000312281.64033.36 Externer Link
42.
Mieg H, editor. Inquiry-Based Learning - Undergraduate Research. Cham: Springer Nature; 2019. DOI: 10.1007/978-3-030-14223-0 Externer Link