gms | German Medical Science

4. Symposium Health Technology Assessment
Bewertung medizinischer Verfahren

Deutsche Agentur für HTA des DIMDI – DAHTA@DIMDI

13. bis 14.11.2003, Krefeld

Randomisierte Studien – einzig anerkannte Qualität in der Patienten-orientierten Forschung?

Vortrag

Suche in Medline nach

  • corresponding author Regina Kunz - Gemeinsamer Bundesausschuss, Stabstelle Methodik, Siegburg

Deutsche Agentur für Health Technology Assessment des Deutschen Instituts für Medizinische Dokumentation und Information. 4. Symposium Health Technology Assessment - Bewertung medizinischer Verfahren. Krefeld, 13.-14.11.2003. Düsseldorf, Köln: German Medical Science; 2004. Doc03hta02

Die elektronische Version dieses Artikels ist vollständig und ist verfügbar unter: http://www.egms.de/de/meetings/hta2003/03hta02.shtml

Veröffentlicht: 29. April 2004

© 2004 Kunz.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielf&aauml;ltigt, verbreitet und &oauml;ffentlich zug&aauml;nglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Gliederung

Text

Einleitung

Die Frage, ob randomisierte Studien die einzig anerkannte Qualität in der Patienten-orientierten Forschung darstellen ist provokant formuliert und könnte suggerieren, dass es in der klinischen Patienten-orientierten Forschung nur ein einziges optimales Design gibt. Jeder, der sich mit Studienmethodik ein wenig auseinandergesetzt hat, weiß, dass jede Methodik ihre Stärken und Schwächen hat und eine pauschale Zuordnung in „gute" und „schlechte" Studien der komplexen Sachlage nicht gerecht wird. Die Beurteilung der methodischen Qualität muss sich immer an der Fragestellung der Studie orientieren. So mag das Fall-Kontroll-Design für die Bewertung von seltenen Nebenwirkungen am besten geeignet sein, während sich die Prognose einer Erkrankung am besten in Kohortenstudien erfassen lässt.

Randomisierte Studien: Vorteile und Grenzen

Maßnahmen und Technologien, die einer sorgfältigen Überprüfung von Wirksamkeit und Nutzen unterzogen werden müssen, fallen nicht nur im ärztlichen Bereich an, sondern auch in anderen nicht-ärztlichen Gesundheitsberufen wie der Pflege, der Physio- oder der Ergotherapie. Bei der Bewertung von Interventionen mit einem experimentellen Design kommt der Randomisierung eine besondere Rolle zu, während diese methodische Technik bei anderen wichtigen Fragestellungen wie z.B. der Genauigkeit eines diagnostischen Verfahrens, der Prognose oder der Ätiologie (Krankheitsursache) einer Erkrankung nur eine untergeordnete oder gar keine Rolle spielt. Weshalb wird der Randomisierung eine so große Bedeutung beigemessen? Die Logik der Randomisierung ist es, dass - eine ausreichend große Stichprobe vorausgesetzt - beide Untersuchungsgruppen in allen bekannten, aber insbesondere allen unbekannten Risikofaktoren und prognostischen Parametern vergleichbar sind. Dies wird durch eine zufällige - d.h. randomisierte - Zuordnung der Patienten in eine der beiden Gruppen erreicht. Erzielen die beiden Behandlungsarme unterschiedliche Ergebnisse, so lassen sich diese mit großer Wahrscheinlichkeit auf die Intervention zurückführen.

Grenzen und Einschränkungen

Auch wenn die randomisierte Studie das ideale Design für die sorgfältige und aussagekräftige Bewertung von Interventionen darstellt, so müssen sich Ersteller von HTA-Berichten und Entscheidungsträger der Tatsache stellen, dass es eine Vielzahl von Gründen gibt, weshalb für bestimmte Fragestellungen entweder keine hochwertigen oder sogar überhaupt keine randomisierte kontrollierte Studien (RCT, randomised controlled trial) zur Entscheidungsfindung zur Verfügung stehen: Ethische Überlegungen verbieten die Durchführung einer Studie; es fehlen regulierende Vorschriften, die einen Nutzennachweis z.B. auch für Medizinprodukte einfordern; klinisch wichtige Fragen sind für die Untersuchung durch die Industrie ökonomisch häufig uninteressant. Bei Krankheiten mit niedriger Prävalenz oder Inzidenz sind randomisierte Studien oft nur sehr schwer durchführbar, während bestimmte Bereiche der Gesundheitsversorgung wie Pflege oder Physiotherapie erst auf eine sehr junge Forschungstradition zurückblicken. Bei sich rasch entwickelnden Technologien, wie z.B. den Stents in der Kardiologie mit unterschiedlichen Typen oder Beschichtungen, hinkt die Bewertung durch RCT den Entwicklungen so sehr hinterher, dass bei Studienabschluss die evaluierte Technologie bereits überholt ist.

Bieten also nicht-randomisierte Studien für die skizzierten Probleme die Lösung, wie von manchen Forschern (und diversen Interessensgruppen) propagiert, und wenn ja, zu welchem Preis? Betrachtet man das kleine Einmaleins der Studienmethodik, so finden sich in klinischen Studien im Wesentlichen vier Quellen für systematische Fehler: Selektionsbias, Durchführungsbias (performance bias), Verlustbias (attrition bias) und Messungsbias (measurement bias). RCT und nicht-randomisierte kontrollierte Studien sind diesen Fehlerquellen in gleicher Weise ausgesetzt, lediglich das Potenzial für Selektionsbias ist in den randomisierten Studien durch das zufällige Zuordnungsverfahren deutlich herabgesetzt (aber nicht komplett aufgehoben) [1].

Randomisierte versus nicht-randomisierte Studien - empirische Untersuchungen

In den letzten Jahren wurden eine Vielzahl von Studien durchgeführt, um den behaupteten Nutzen der Randomisierung auf den Selektionsbias empirisch zu erfassen und die Auswirkungen auf die Effektschätzung zu beschreiben

Ken Schulz untersuchte als einer der ersten die Frage, wie sich eine unzureichende resp. unklare Randomisierung verglichen mit einer korrekt durchgeführten verdeckten Randomisierung auf die Effektschätzung auswirkt. Er zeigte an einem empirischen Datensatz von 33 Meta-Analysen mit 250 Primärstudien aus der Schwangerschafts- und Perinatalmedizin eine Überschätzung des Behandlungseffekts um 40 Prozent bei unzureichender Randomisierung (Ratio of Odds Ratio: 0,59; 95% KI: 0,48-0,73) und um 33 Prozent bei unklarer Randomisierung (Ratio of Odds Ratio: 0,67: 95% KI: 0,6-0,75) [2].

Anhand einer Stichprobe von 32 Vergleichen aus systematischen Übersichten mit mehr als 3000 Primärstudien stellten wir in unseren eigenen Arbeiten die Ergebnisse von randomisierten und nicht-randomisierten Studien aus allen Bereichen der Gesundheitsversorgung gegenüber. In diesen Vergleichen zeigte sich, dass randomisierte und nicht-randomisierte Studien grundsätzlich auch ähnliche Effekte finden können, dies aber eher die Ausnahme war. Bei ca. 60 Prozent der Vergleiche wurden die Ergebnisse nicht-randomisierter Studien überschätzt, bei ca. 25 Prozent unterschätzt. In wenigen Vergleichen zeigte sich sogar eine Effektumkehr, d.h. in den nicht-randomisierten Studien wurden positive Effekte gefunden, während in den randomisierten Studien für den Patienten nachteilige Effekte nachgewiesen wurden [3].

Zu ähnlichen Ergebnissen kamen die methodischen HTA-Berichte von Britton [4] und MacLehose [5], die in einigen, aber nicht in allen der untersuchten Vergleiche signifikante Unterschiede fanden. Dabei betonen beide, dass die Unterschiede in Studien mit ansonsten vergleichbarer Qualität weniger häufig und weniger stark ausgeprägt waren. Ioannidis [6] publizierte die umfassendste Untersuchung, in die auch die relevanten Studien anderer Arbeiten einbezogen wurden. Auch er verglich die Ergebnisse von RCT und Nicht-RCT aus 45 Meta-Analysen mit über 400 Primärstudien (einschließlich Kohortenstudien, Fall-Kontroll-Studien und Querschnittsstudien) und kam zu dem Ergebnis, dass sich z.T. erhebliche Diskrepanzen finden lassen, die nicht durch Zufall erklärbar sind. Allerdings sind die Widersprüche in Studien mit prospektivem Design weniger häufig und weniger ausgeprägt. Zusammenfassend lässt sich sagen, dass sich die Ergebnisse von RCT und Nicht-RCT unterscheiden können, dies aber nicht immer tun. Dabei sind allerdings Richtung und Ausmaß der Effektverzerrung unvorhersagbar. Allerdings scheint die sonstige methodische Qualität der Studienplanung und -durchführung eine nicht unerhebliche Rolle zu spielen.

Qualitätsbeurteilung jenseits der Randomisierung

Wenn sich die methodische Qualität von Studienplanung und -durchführung bei nicht-randomisierten Studien so erheblich auf eine korrekte Effekterfassung auswirken, lässt sich Studienqualität auch quantitativ erfassen? Eine systematische Übersichtsarbeit zum Thema Qualitätsmessung identifizierte die bemerkenswerte Anzahl von 194 Checklisten und Qualitätsskalen, die zur Qualitätsbewertung von Studien entwickelt und eingesetzt worden sind [7]. Allerdings erfüllten nur Bruchteile der gefundenen Instrumente die Anforderungen an interne Validität und noch weniger berücksichtigten auch spezifische Domänen für Nicht-RCT. Nur sechs Messinstrumente schienen schließlich für eine aussagekräftige und umfassende Bewertung von Nicht-RCT im Rahmen von systematischen Übersichten geeignet [Tab. 1].

Lassen sich mit Checklisten und Qualitätsskalen die aufgezeigten Probleme lösen? Juni [8] untersuchte die Auswirkung von Qualitätsscores auf die Effektgröße, in dem er 25 unterschiedliche Checklisten und Scores auf ein und dieselbe Meta-Analyse mit 17 RCT über die Auswirkung einer prophylaktischen Gabe von niedermolekularem Heparin auf die postoperative Thromboserate bei chirurgischen Patienten anwandte. Je nach verwendetem Score änderten sich der geschätzte Gesamteffekt und seine Ergebnisse. Die Einschätzung reichte von „hochwertige Studien demonstrieren einen Wirksamkeitsnachweis, der sich in niederwertigen Studien nicht findet" bis zum entgegen gesetzten Ergebnis, bei dem niederwertige Studien einen Effekt hatten, der in hochwertigen Studien nicht nachweisbar war. Die Studie belegt, wie sensibel die Ergebnisschätzung auf die Auswahl des Instruments reagieren kann und mahnt zu einem vorsichtigen und differenzierten Umgang mit Qualitätsscores und Skalen, um Fehleinschätzung in der Effektbewertung zu vermeiden.

Praktische Überlegungen zum Einschluss von nicht-randomisierten Studien

Neben theoretisch-methodischen Überlegungen zum Einschluss von nicht-randomisierten Studien in systematischen Übersichtsarbeiten, gibt es auch praktische Betrachtungen. Es ist selbstverständlich, dass für die Identifikation und den Einschluss von Nicht-RCT die gleichen Kriterien und Ansprüche gelten wie bei RCT. Allerdings ist eine systematische und umfassende Literatursuche wegen unscharfer Verschlagwortung und vager Klassifikation selbst in so großen und gut gepflegten Datenbanken wie PubMed mit einem erheblichen Mehraufwand verbunden. Obwohl keine empirischen Studien vorliegen, muss man davon ausgehen, dass das Risiko für Publikationsbias bei nicht-randomisierten Studien größer ist als bei randomisierten Studien. Auch ist die aufgefundene Zahl an potentiell relevanten Studien bei methodisch schwächeren Designs, die gesichtet und ausgewertet werden müssen, in der Regel höher als bei einer Begrenzung auf RCT. Angesichts überall vorherrschender knapper Ressourcen sowie der geringeren Glaubwürdigkeit und Aussagekraft der Ergebnisse stellt sich die Frage, inwieweit ein Ergebnis mit schwacher Aussagekraft, das dadurch schwierig zu interpretieren ist, den Mehraufwand rechtfertigt.

Zusammenfassung

Es gibt gute Gründe, weshalb zu bestimmten Technologien und Verfahren nur wenige oder keine randomisierten Studien publiziert sind. Allerdings wird dadurch eine zuverlässige Bewertung erschwert. Es gibt ausreichend empirische Evidenz, die belegt, dass man in nicht-randomisierten Studien mit erheblichen Verzerrungen von Effekten rechnen muss. Diese methodische Schwäche kann durch eine sorgfältige Bewertung der Gesamtmethodik nicht kompensiert werden. An der Überprüfung der Wirksamkeit und des Nutzens neuer Verfahren mit einem randomisierten Design führt kein Weg vorbei.


Literatur

1.
Khan KS, Kunz R, Kleijnen J, Antes G. Systematische Übersichten und Meta-Analysen. Berlin Heidelberg: Springer-Verlag, 2004.
2.
Schulz KF, Chalmers I, Hayes RJ, Altman DG. Empirical evidence of bias. Dimensions of methodological quality associated with estimates of treatment effects in controlled trials. JAMA 1995; 273: 408-12.
3.
Kunz R, Vist G, Oxman AD. Randomisation to protect against selection bias in healthcare trials (Cochrane Methodology Review). In: The Cochrane Library, Issue 4, 2003, Chichester, UK.
4.
Britton A, McKee M, Black N, McPherson K, Sanderson C, Bain C. Choosing between randomised and non-randomised studies: a systematic review. Health Technol Assess 1998; 2: 1-124.
5.
Maclehose RR, Reeves BC, Harvey IM, Sheldon TA, Russell IT, Black AM. A systematic review of comparisons of effect sizes derived from randomised and non-randomised studies. Health Technol Assess 2000; 4: 1-154.
6.
Ioannidis JP, Haidich AB, Pappa M, Pantazis N, Kokori SI, Tektonidou MG et al.. Comparison of evidence of treatment effects in randomized and nonrandomized studies. JAMA 2001; 286: 821-30.
7.
Deeks JJ, Dinnes J, D'Amico R, Sowden AJ, Sakarovitch C, Song F et al.. Evaluating non-randomised intervention studies. Health Technol Assess 2003; 7: 1-173.
8.
Juni P, Witschi A, Bloch R, Egger M. The hazards of scoring the quality of clinical trials for meta-analysis. JAMA 1999; 282: 1054-60.