Artikel
Über den Tod durch Fünf-Prozent-Formalismus und die (Ir-)Relevanz der Nullhypothese
Suche in Medline nach
Autoren
Veröffentlicht: | 14. September 2004 |
---|
Gliederung
Text
Hintergrund
Sollen zwei etablierte Therapien für dieselbe Indikation in einer randomisierten klinischen Studie hinsichtlich ihrer Wirksamkeit verglichen werden, so wird man üblicherweise die Nullhypothese, welche die gleiche Wirksamkeit postuliert, einem Signifikanztest unterziehen. Wird berichtet, daß ein Signifikanzniveau von 5% „gewählt" und die Fallzahl so kalkuliert wurde, daß die Power zur signifikanten Darstellung eines gewissen Unterschieds 80% oder 90% erreicht, so wird kaum jemand den Grund für dieses Tun hinterfragen. Der Konvention hinsichtlich der Fehlerraten statistischer Testentscheidungen zu folgen ist bequem, aber nicht wissenschaftlich begründet.
Sind zwei Therapien gleichwertig, so entsteht für die Patientenpopulation kein Schaden, wenn eine der Therapien aufgrund der irrtümlichen Ablehnung der Nullhypothese zum Standard erklärt wird. Es erscheint aus der Sicht der Patienten nicht vernünftig, wenn ausgerechnet auf die Kontrolle des Risikos, einen solchen Irrtum zu begehen, größter Wert gelegt wird.
Methoden und Ergebnisse
Ausgangspunkt ist das Szenario einer großen Therapieoptimierungsstudie, wie man sie heute etwa im onkologischen oder kardiologischen Bereich oft antreffen kann. Auf dem Prüfstand steht die Strategie, im Falle der signifikanten Überlegenheit einer Therapie (auf dem klassischen 5%-Niveau) diese zum Leitlinienstandard zu erheben, bei insignifikantem Ergebnis dagegen mangels Evidenz für keine der verfügbaren Therapiealternativen eine Präferenz auszusprechen. Als Zielkriterium für die Güte der Strategie dient der erwartete Nutzen, den die Patientenpopulation durch die Studie erfährt (z.B. Überlebensgewinn durch Etablierung der überlegenen Therapie). Die Modellrechnungen untersuchen die Konsequenzen der Verschiebung des Typ-I-Fehlerniveaus und berücksichtigen verschiedene Situationen (konkurrierende etablierte Therapien, innovative Therapie vs. alter Standard).
Dabei zeigt sich, daß die der Konvention folgende Entscheidung auf dem 5%-Niveau stark suboptimal ist und im entsprechenden klinischen Kontext zum Verzicht auf die Rettung tausender Patientenleben jährlich führt. Weniger konservative Strategien, die häufiger zu einer Richtungsentscheidung zugunsten einer Therapie führen, sind auf lange Sicht überlegen mit Blick auf das erklärte Ziel, das Beste für die Patienten zu tun.
Diskussion
Während für den wissenschaftlichen Erkenntnisgewinn vor allem Effektschätzer relevant sind, sind Hypothesentests eher zur Unterstützung von Entscheidungen sinnvoll. Inwiefern die aus dem Test resultierende Empfehlung optimal zur Entscheidungsfindung beiträgt, hängt maßgeblich von der Wahl der Fehlerniveaus ab. Diese sollten daher nicht starren Konventionen folgen, sondern begründet werden wie jedes andere Designelement einer klinischen Studie auch.
Hierbei ergeben sich eine Reihe von Einwänden, die das Festhalten an Konventionen als sicherere Lösung erscheinen lassen. Insbesondere größere Typ-I-Fehlerniveaus führen zu Entscheidungen mit weniger Evidenz, was dem Ziel, evidenzbasiert zu therapieren, zu widersprechen scheint. Außerdem erhöhen progressive Strategien die Varianz in den Entscheidungen und damit auch die Häufigkeit der Revision von Entscheidungen aufgrund neuer Ergebnisse, was mit Blick auf Therapieleitlinien nicht erstrebenswert erscheint. Weiterhin stellt sich heraus, daß zur „Optimierung" der Fehlerniveaus bayesianische Elemente notwendig sind; dies könnte zu der Befürchtung führen, mit verschiedenen Prior-Annahmen in der Beliebigkeit zu enden. Im Vortrag diskutiere ich, wie man diesen Problemen begegnen bzw. sie adäquat verarbeiten kann.