gms | German Medical Science

49. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (gmds)
19. Jahrestagung der Schweizerischen Gesellschaft für Medizinische Informatik (SGMI)
Jahrestagung 2004 des Arbeitskreises Medizinische Informatik (ÖAKMI)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie
Schweizerische Gesellschaft für Medizinische Informatik (SGMI)

26. bis 30.09.2004, Innsbruck/Tirol

Über den Tod durch Fünf-Prozent-Formalismus und die (Ir-)Relevanz der Nullhypothese

Meeting Abstract (gmds2004)

Suche in Medline nach

  • corresponding author presenting/speaker Götz Gelbrich - Koordinierungszentrum für Klinische Studien, Leipzig, Deutschland

Kooperative Versorgung - Vernetzte Forschung - Ubiquitäre Information. 49. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (gmds), 19. Jahrestagung der Schweizerischen Gesellschaft für Medizinische Informatik (SGMI) und Jahrestagung 2004 des Arbeitskreises Medizinische Informatik (ÖAKMI) der Österreichischen Computer Gesellschaft (OCG) und der Österreichischen Gesellschaft für Biomedizinische Technik (ÖGBMT). Innsbruck, 26.-30.09.2004. Düsseldorf, Köln: German Medical Science; 2004. Doc04gmds132

Die elektronische Version dieses Artikels ist vollständig und ist verfügbar unter: http://www.egms.de/de/meetings/gmds2004/04gmds132.shtml

Veröffentlicht: 14. September 2004

© 2004 Gelbrich.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielf&aauml;ltigt, verbreitet und &oauml;ffentlich zug&aauml;nglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Gliederung

Text

Hintergrund

Sollen zwei etablierte Therapien für dieselbe Indikation in einer randomisierten klinischen Studie hinsichtlich ihrer Wirksamkeit verglichen werden, so wird man üblicherweise die Nullhypothese, welche die gleiche Wirksamkeit postuliert, einem Signifikanztest unterziehen. Wird berichtet, daß ein Signifikanzniveau von 5% „gewählt" und die Fallzahl so kalkuliert wurde, daß die Power zur signifikanten Darstellung eines gewissen Unterschieds 80% oder 90% erreicht, so wird kaum jemand den Grund für dieses Tun hinterfragen. Der Konvention hinsichtlich der Fehlerraten statistischer Testentscheidungen zu folgen ist bequem, aber nicht wissenschaftlich begründet.

Sind zwei Therapien gleichwertig, so entsteht für die Patientenpopulation kein Schaden, wenn eine der Therapien aufgrund der irrtümlichen Ablehnung der Nullhypothese zum Standard erklärt wird. Es erscheint aus der Sicht der Patienten nicht vernünftig, wenn ausgerechnet auf die Kontrolle des Risikos, einen solchen Irrtum zu begehen, größter Wert gelegt wird.

Methoden und Ergebnisse

Ausgangspunkt ist das Szenario einer großen Therapieoptimierungsstudie, wie man sie heute etwa im onkologischen oder kardiologischen Bereich oft antreffen kann. Auf dem Prüfstand steht die Strategie, im Falle der signifikanten Überlegenheit einer Therapie (auf dem klassischen 5%-Niveau) diese zum Leitlinienstandard zu erheben, bei insignifikantem Ergebnis dagegen mangels Evidenz für keine der verfügbaren Therapiealternativen eine Präferenz auszusprechen. Als Zielkriterium für die Güte der Strategie dient der erwartete Nutzen, den die Patientenpopulation durch die Studie erfährt (z.B. Überlebensgewinn durch Etablierung der überlegenen Therapie). Die Modellrechnungen untersuchen die Konsequenzen der Verschiebung des Typ-I-Fehlerniveaus und berücksichtigen verschiedene Situationen (konkurrierende etablierte Therapien, innovative Therapie vs. alter Standard).

Dabei zeigt sich, daß die der Konvention folgende Entscheidung auf dem 5%-Niveau stark suboptimal ist und im entsprechenden klinischen Kontext zum Verzicht auf die Rettung tausender Patientenleben jährlich führt. Weniger konservative Strategien, die häufiger zu einer Richtungsentscheidung zugunsten einer Therapie führen, sind auf lange Sicht überlegen mit Blick auf das erklärte Ziel, das Beste für die Patienten zu tun.

Diskussion

Während für den wissenschaftlichen Erkenntnisgewinn vor allem Effektschätzer relevant sind, sind Hypothesentests eher zur Unterstützung von Entscheidungen sinnvoll. Inwiefern die aus dem Test resultierende Empfehlung optimal zur Entscheidungsfindung beiträgt, hängt maßgeblich von der Wahl der Fehlerniveaus ab. Diese sollten daher nicht starren Konventionen folgen, sondern begründet werden wie jedes andere Designelement einer klinischen Studie auch.

Hierbei ergeben sich eine Reihe von Einwänden, die das Festhalten an Konventionen als sicherere Lösung erscheinen lassen. Insbesondere größere Typ-I-Fehlerniveaus führen zu Entscheidungen mit weniger Evidenz, was dem Ziel, evidenzbasiert zu therapieren, zu widersprechen scheint. Außerdem erhöhen progressive Strategien die Varianz in den Entscheidungen und damit auch die Häufigkeit der Revision von Entscheidungen aufgrund neuer Ergebnisse, was mit Blick auf Therapieleitlinien nicht erstrebenswert erscheint. Weiterhin stellt sich heraus, daß zur „Optimierung" der Fehlerniveaus bayesianische Elemente notwendig sind; dies könnte zu der Befürchtung führen, mit verschiedenen Prior-Annahmen in der Beliebigkeit zu enden. Im Vortrag diskutiere ich, wie man diesen Problemen begegnen bzw. sie adäquat verarbeiten kann.