gms | German Medical Science

GMS Journal for Medical Education

Gesellschaft für Medizinische Ausbildung (GMA)

ISSN 2366-5017

Replikation – Das hässliche Entlein der Wissenschaft?

Leitartikel

Suche in Medline nach

  • corresponding author Götz Fabry - Albert-Ludwig-Universität Freiburg, Abt. für Med. Psychologie, Freiburg/Brg., Deutschland; GMS Zeitschrift für Medizinische Ausbildung, stellv. Schriftleiter, Erlangen, Deutschland
  • author Martin R. Fischer - Klinikum der Ludwig-Maximilians-Universität München, Institut für Didaktik und Ausbildungsforschung in der Medizin, München, Deutschland; GMS Zeitschrift für Medizinische Ausbildung, Schriftleiter, Erlangen, Deutschland

GMS Z Med Ausbild 2015;32(5):Doc57

doi: 10.3205/zma000999, urn:nbn:de:0183-zma0009993

Dieses ist die deutsche Version des Artikels.
Die englische Version finden Sie unter: http://www.egms.de/en/journals/zma/2015-32/zma000999.shtml

Eingereicht: 28. Oktober 2015
Überarbeitet: 30. Oktober 2015
Angenommen: 30. Oktober 2015
Veröffentlicht: 16. November 2015

© 2015 Fabry et al.
Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung). Lizenz-Angaben siehe http://creativecommons.org/licenses/by/4.0/.


Leitartikel

Im August dieses Jahres erschien in „Science“ der vielbeachtete Artikel eines Autorenkollektivs, in dem gezeigt wurde, dass sich die Befunde vieler Studien aus dem Bereich der Psychologie nicht replizieren lassen [1]. Mit großem methodischen Aufwand hatten die Autoren der Open Science Collaboration, der 270 Wissenschaftler aus aller Welt angehören, aus drei der führenden psychologischen Fachzeitschriften 100 aktuelle experimentelle Studien ausgewählt und von jeweils ausgewiesenen Forschungsgruppen replizieren lassen. In den Replikationsstudien wurden jeweils Material und Instrumente aus den Originalstudien verwendet, außerdem wurden auch deren Autoren in die Vorbereitung mit einbezogen. Die Ergebnisse sind ernüchternd: Während in 97% der Originalstudien statistisch signifikante Ergebnisse gefunden wurden, war das nur in 36% der Replikationsstudien der Fall. Außerdem waren die replizierten Effektstärken nur etwa halb so groß wie die in den Erstveröffentlichungen und selbst wenn die Originaldaten mit den replizierten Daten gemeinsam ausgewertet wurden, konnten nur noch in 68% der Fälle signifikante Ergebnisse festgestellt werden.

Was bedeuten diese Erkenntnisse? Zunächst einmal ist das Problem an sich bereits seit langem bekannt und betrifft nicht nur die Psychologie. So gibt es im Bereich der biomedizinischen Forschung gerade in den letzten Jahren eine teilweise sehr pointiert geführte Debatte darüber, dass zu viel „Forschungsmüll“ produziert wird [2]. Tatsächlich lassen sich auch hier viele, selbst hochrangig publizierte Erkenntnisse nicht reproduzieren: Die Rate der Nicht-Replizierbarkeit im biomedizinischen Bereich liegt Schätzungen zufolge sogar noch höher als in der Psychologie, nämlich bei 75–90% und auch vielzitierte Studien bilden hiervon keine Ausnahme [3].

Replikation in der Bildungsforschung

Vor diesem Hintergrund ist stark zu vermuten, dass auch die Medizinische Ausbildungsforschung von diesem Problem betroffen ist. Genaue Erkenntnisse liegen in Ermangelung entsprechender Studien dazu nicht vor, allerdings gibt es einige Indizien, die dafür sprechen, dass auch hier dringender Handlungsbedarf besteht. So erschien kürzlich im Educational Researcher, dem Organ der American Educational Research Association (AERA) eine Arbeit, die untersuchte, wie häufig und mit welchen Ergebnissen Replikationsstudien im Bereich der Educational Sciences veröffentlicht werden [4]. Eine Analyse aller Artikel, die in einem 5-Jahreszeitraum in den 100 am höchsten gerankten Zeitschriften dieses Bereichs erschienen waren ergab, dass nur 0,13% (221 von 164 589) der Publikationen Replikationsstudien sind. Immerhin zwei Drittel dieser Studien erbrachten dasselbe Ergebnis wie die ursprünglichen Arbeiten. Dieser vergleichsweise hohe Anteil relativiert sich allerdings insofern, als die Hälfte der replizierten Studien von denselben Autoren veröffentlicht worden waren, die auch die Erstpublikation verantworteten. Wurden nur die Studien analysiert, in denen es keine Überlappung der Autorenschaft gab, dann reduzierte sich der Anteil erfolgreicher Replikationen auf etwa die Hälfte. Berücksichtigt man das jeweils unterschiedliche Vorgehen dann zeigt sich hier somit in etwa dasselbe Bild wie auch in der aktuellen Veröffentlichung zu den psychologischen Studien, was angesichts der nahen Verwandtschaft der beiden Bereiche nicht weiter verwunderlich ist. Darüber hinaus liefert auch die psychologische Replikationsstudie noch weitere Hinweise darauf, dass in der medizinischen Ausbildungsforschung vermutlich auch nicht alles Gold ist, was glänzt. Dort zeigte sich nämlich, dass erfolgreiche Replikationen wahrscheinlicher waren, wenn das Signifikanzniveau (p) kleiner war (also strenger als .05) und die Effektstärken größer. Beides sind Bedingungen, die wir in Studien der medizinischen Ausbildungsforschung leider eher selten finden [5]. Weniger erfolgreich replizieren ließen sich außerdem Studien, in denen komplexe Prozeduren verwendet wurden, die wiederum in der Ausbildungsforschung häufiger anzutreffen sind [6].

Angesichts dieser Befunde liegt die beunruhigende Vermutung nahe, dass viele Erkenntnisse der medizinischen Ausbildungsforschung einer genaueren Überprüfung nicht standhalten würden. Brauchen wir also mehr Replikationsstudien in der Medizinischen Ausbildungsforschung? Warum gibt es davon bisher so wenige und was muss sich ändern [7]?

Replikation ist mehr als die Wiederholung von bereits Bekanntem

Manch einer mag sich hier vielleicht an die letzten Reviewer-Kommentare erinnern, in denen das eingereichte Manuskript dafür kritisiert wurde, dass es leider zu wenig interessant sei, weil es lediglich bereits Bekanntes wiederhole. Wie verträgt sich eine solche Kritik mit der Forderung nach mehr Replikationsstudien? Um diese Fragen zu beantworten ist es notwendig, sich genauer mit Funktion und Charakteristika von Replikationen auseinanderzusetzen.

Ganz allgemein dienen Replikationsstudien dazu, wissenschaftliche Erkenntnisse zu verifizieren. Wie Schmidt [8] in einem lesenswerten Übersichtsartikel zu Replikationen in den Sozialwissenschaften dargestellt hat, lassen sich dabei im Detail die folgenden Funktionen unterscheiden: Die Kontrolle von Stichproben- und Zufallsfehlern (z.B. durch eine verzerrte Probandenauswahl), von schlechter interner Validität (z.B. durch Störvariablen, Regression zur Mitte, Testing-Effekte etc.) sowie von Fälschungen. Außerdem können Replikationsstudien dazu dienen, die Generalisierbarkeit der Ergebnisse einer Studie auf andere bzw. größere Populationen zu überprüfen oder die der Ursprungsstudie zugrundeliegenden Hypothesen zu testen. Solche spezifisch funktionellen Überlegungen sind deshalb wichtig, weil sich das Forschungsdesign nach dem Zweck der Replikationsstudie bestimmt [8]. Dazu muss man sich vor Augen führen, dass eine erfolgreiche Replikationsstudie nicht einfach ein „Klon“ der Originalstudie sein kann. Zum einen wäre das gerade in personenbezogenen Studien, wie sie für die medizinische Ausbildungsforschung (oder psychologische und sozialwissenschaftliche Studien ganz allgemein) typisch sind, überhaupt nicht möglich, da weder Probanden noch Versuchsleiter zu zwei verschiedenen Zeitpunkten vollkommen identisch sein können. Zum anderen wäre die identische Kopie einer Studie aber auch gar nicht sinnvoll, da ein wesentlicher Aspekt der Verifikation von Forschungsergebnissen ja häufig gerade darin besteht, sie zu einem anderen Zeitpunkt, an einem anderen Ort von einer anderen Person wiederholen zu können, um Belege für die Übertragbarkeit und Verallgemeinerbarkeit der gefundenen Effekte zu liefern. Daher ist es entscheidend, genau zu reflektieren, welche Aspekte bei einer Replikationsstudie identisch bleiben und welche verändert werden müssen, um aussagekräftige und interpretierbare Ergebnisse zu erhalten. Geht es beispielsweise darum, auf Stichproben- und Zufallseffekte zu kontrollieren, dann müssen möglichst viele Variablen und Kontextbedingungen mit denen der ursprünglichen Studie übereinstimmen, während die Stichprobe verändert wird. In der Praxis ist das typischerweise dann der Fall, wenn derselbe Wissenschaftler eine Befragung oder ein Experiment an einer anderen oder größeren Stichprobe wiederholt. Wird eine Replikationsstudie dagegen durchgeführt, weil Zweifel an der internen Validität der Ursprungsstudie bestehen, dann muss die eigentliche Intervention bzw. das Messverfahren bei der Replikation möglichst identisch sein während alle anderen Kontextvariablen verändert werden können. Das geschieht in der Regel dann, wenn eine Studie von einem anderen Wissenschaftler mit anderen Probanden an einem anderen Ort unter anderen Umständen wiederholt wird. Alle Studien, bei denen entweder die Überprüfung von Zufallseffekten, interner Validität, Fälschung oder die Frage der Generalisierbarkeit im Vordergrund stehen, kann man daher auch als direkte Replikationen bezeichnen, weil sie jeweils bestimmte Aspekte der ursprünglichen Versuchs- bzw. Studienbedingungen möglichst genau wiederholen [8].

Anders dagegen verhält es sich, wenn die Überprüfung von Hypothesen Ziel der Replikation ist. Hier geht es nämlich gerade darum, eine alternative experimentelle Umsetzung oder ein anderes methodisches Vorgehen zu finden, um zusätzliche Evidenz zu dem in Frage stehenden Konstrukt zu produzieren. Solche Studien kann man daher als konzeptuelle Replikationen bezeichnen [8]. Sie sind deshalb besonders relevant, weil sie zur Theoriebildung und zum besseren Verständnis von Konstrukten und Konzepten beitragen [9]. Ein Nachteil dieser Studien besteht allerdings darin, dass bei einem Scheitern der Replikation keine Rückschlüsse darüber möglich sind, ob dies auf Schwächen oder Verzerrungen in der ursprünglichen Studie zurückgeführt werden kann, denn diese lassen sich nur mittels einer direkten Replikation aufdecken [8].

Eine sinnvolle Wiederholung von bereits anderswo beschriebenen Erkenntnissen zeichnet sich somit vor allem dadurch aus, dass die Replikation bereits a priori das Ziel der Studie ist und damit auch genaue Überlegungen angestellt worden sind, welche Funktion vor dem Hintergrund der jeweiligen konzeptuellen Aspekte und der bereits vorliegenden Daten sinnvoll ist.

Entlein oder Schwan?

Ist die Replikation also das hässliche Entlein der Wissenschaft, das neben Studien, die gänzlich neue Erkenntnisse versprechen, ziemlich grau aussieht und grau bleibt? Aus Sicht des einzelnen Forschers muss man diese Frage wohl bejahen, jedenfalls sind Replikationsstudien im Hinblick auf Publikationsmöglichkeiten und Zitierhäufigkeit maximal unattraktiv. So zeigte sich in der bereits zitierten Übersichtsarbeit zu den Educational Sciences, das 43 der 100 untersuchten Top-Journals keine einzige Replikationsstudie veröffentlich hatten. Außerdem wurden die ursprünglichen Studien durchschnittlich 31 Mal, die Replikationsstudien dagegen nur fünf Mal zitiert (4). Selbst wenn man berücksichtigt, dass dabei auch eine Rolle spielen mag, dass die Replikationsstudien später als die Primärarbeiten erschienen sind, bleibt dennoch ein großer Unterschied bestehen.

Völlig anders sieht die Bewertung von Replikationen dagegen aus Sicht der Scientific Community aus. Schon der Aufbau eines Artikels erinnert uns daran, dass die Wiederholbarkeit eines der definierenden Kernprinzipien von Wissenschaft ist. Gute wissenschaftliche Publikationen stellen Hintergrund, Methoden und Ergebnisse so transparent dar, dass andere Wissenschaftler sie nicht nur in sensu sondern – zumindest prinzipiell – auch in vivo nachvollziehen können (ob dieser Anspruch immer eingelöst wird, sei dahingestellt vgl. [10]). Aktuelle Entwicklungen in der Wissenschaft gehen noch darüber hinaus, insofern nicht mehr nur die Publikationen öffentlich zugänglich sind, sondern auch die Primärdaten, weil diese in entsprechenden Repositorien verfügbar gemacht werden. Damit sind sie jederzeit unabhängigen Überprüfungen zugänglich. Auch für Publikationen in der ZMA ist dies möglich, weil wir über unsere Plattfom GMS Mitglied bei Dryad, einem internationalen Forschungsdatenspeicher sind (nähere Informationen dazu bei [11]). Vor diesem Hintergrund sind Replikationsstudien somit der Prüfstein, an dem sich entscheidet, ob die hehren Prinzipien der Wissenschaft einer konkreten Realitätsprüfung standhalten.

Während Innovationen zeigen, was möglich ist, zeigen Replikationen was wahrscheinlich oder gültig ist. Wissenschaftlicher Fortschritt kann nur aus beidem entstehen. Wir sollten also nicht mehr lange damit warten, aus dem Replikationsentlein einen Schwan zu machen – auch in der Medizinischen Ausbildungsforschung. Dafür muss sich allerdings auch das Anreizsystem zur Publikation von gut begründeten Replikationsstudien ändern. Die GMS Zeitschrift für Medizinische Ausbildung wird dazu ihren Beitrag leisten und solchen Replikationsstudien ein Forum bieten.


Interessenkonflikt

Die Autoren erklären, dass sie keine Interessenkonflikte im Zusammenhang mit diesem Artikel haben.


Literatur

1.
Open Science Collaboration. PSYCHOLOGY. Estimating the reproducibility of psychological science. Science. 2015;349(6251):aac4716. DOI: 10.1126/science.aac4716 Externer Link
2.
Chalmers I, Glasziou P. Avoidable waste in the production and reporting of research evidence. Lancet. 2009;374(9683):86-89. DOI: 10.1016/S0140-6736(09)60329-9 Externer Link
3.
Begley CG, Ioannidis JP. Reproducibility in science. Improving the standard for basic and preclinical research. Circ Res. 2015;116(1):116-126. DOI: 10.1161/CIRCRESAHA.114.303819 Externer Link
4.
Makel MC, Plucker JA. Facts are more important than novelty: Replication in the educational sciences. Educ Res. 2014;20(10):1-13. DOI: 10.3102/0013189x14545513 Externer Link
5.
Cook DA, Hatala R. Got power? A systematic review of sample size adequacy in health professions education research. Adv Health Sci Educ Theory Pract. 2015;20(1):73-83. DOI: 10.1007/s10459-014-9509-5 Externer Link
6.
Norman G. RCT= Results confounded and trivial: the perils of grand educational experiments. Med Educ. 2003;37(7):582-584. DOI: 10.1046/j.1365-2923.2003.01586.x Externer Link
7.
Artino AR Jr. Why don't we conduct replication studies in medical education? Med Educ. 2013;47(7):746-747. DOI: 10.1111/medu.12204 Externer Link
8.
Schmidt S. Shall we really do it again? The powerful concept of replication is neglected in the social sciences. Rev Gen Psychol. 2009;13(2):90-100. DOI: 10.1037/a0015108 Externer Link
9.
Bordage G. Conceptual frameworks to illuminate and magnify. Med Educ. 2009;43(4):312-319. DOI: 10.1111/j.1365-2923.2009.03295.x Externer Link
10.
Cook DA, Beckman TJ, Bordage G. Quality of reporting of experimental studies in medical education: A systematic review. Med Educ. 2007;41(8):737-745. DOI: 10.1111/j.1365-2923.2007.02777.x Externer Link
11.
Arning U. GMS publishes your research findings – and makes the related research data available through Dryad. GMS Z Med Ausbild. 2015;32(3):Doc34. DOI: 10.3205/zma000976 Externer Link