gms | German Medical Science

53. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V. (GMDS)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie

15. bis 18.09.2008, Stuttgart

Frequentistische und Bayesianische Analyse von Überlebenszeiten in klinischen Studien – Wie wirkt sich die Nutzung von Vorwissen auf die Power aus?

Meeting Abstract

Suche in Medline nach

  • Joachim Gerß - Universität Münster, Münster, Deutschland

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie. 53. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (gmds). Stuttgart, 15.-19.09.2008. Düsseldorf: German Medical Science GMS Publishing House; 2008. DocP-24

Die elektronische Version dieses Artikels ist vollständig und ist verfügbar unter: http://www.egms.de/de/meetings/gmds2008/08gmds086.shtml

Veröffentlicht: 10. September 2008

© 2008 Gerß.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielf&aauml;ltigt, verbreitet und &oauml;ffentlich zug&aauml;nglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Gliederung

Text

Einleitung und Fragestellung

Klinische Studien stellen ein Anwendungsgebiet der Biometrie dar, in dem heute fast ausschließlich Methoden der frequentistischen Statistik eingesetzt werden. Die entsprechenden Gütekriterien haben sich als Standard etabliert und sind behördlich anerkannt. In den letzten Jahren werden jedoch in stärkerem Ausmaß die Vorteile alternativer Ansätze erkannt und diskutiert. So wurden sowohl von US-amerikanischer als auch von europäischer Seite Initiaven zur Effizienzsteigerung der medizinischen Forschung gestartet, die Critical Path Initiative der U.S. Food and Drug Administration (FDA) sowie die europäische Innovative Medicines Initiative. Im Rahmen dieser Initiativen werden Bayes-Verfahren als möglicher Ansatz angesehen, der zumindest ergänzend zu klassischen Verfahren eingesetzt werden kann. Dies wird hauptsächlich damit begründet, dass es im Rahmen des Bayes-Ansatzes möglich ist, zusätzliches Vorwissen in die Auswertung der Studiendaten einzubringen. Daraus ergibt sich die naheliegende Hoffnung, bei gleichem Aufwand die Aussagekraft der Ergebnisse zu steigern bzw. andererseits bei gleicher Aussagekraft den erforderlichen Aufwand zu reduzieren, etwa in Form einer geringeren Anzahl rekrutierter Patienten. Inwieweit lassen sich derartige intuitive Überlegungen mit Fakten belegen? Um dieser Frage nachzugehen, werden im Rahmen eines univariaten Cox-Regressionsmodells zur Analyse von Überlebenszeiten der frequentistische Ansatz sowie ein entsprechender Bayes-Ansatz vorgestellt und hinsichtlich klassischer Gütekriterien wie der Power miteinander verglichen.

Material und Methoden

Als grundlegende Problemsituation wird der Vergleich zweier Patientengruppen hinsichtlich der Überlebenszeit behandelt. Ein einseitiger Signifikanztest soll die Frage klären, ob eine der beiden Patientengruppen über eine günstigere Prognose verfügt als die Referenzgruppe. Der frequentistische Ansatz zur Datenauswertung im Rahmen eines univariaten Cox-Modells verläuft standardmäßig und liefert neben dem Ergebnis des Signifikanztests eine Intervallschätzung des Hazard Ratios.

Um einen entsprechenden Bayes-Ansatz herzuleiten, nutzt man die zentrale Tatsache, dass der Schätzer des Hazard Ratios bei gegebener Anzahl eingetretener Ereignisse n erwartungstreu und approximativ normalverteilt ist mit der Varianz 4/n [1], [2]. Auf der Grundlage dieses Resultats lässt sich ein zweistufiges Bayes-Modell entwickeln, dass mit einer unterstellten A-priori-Verteilung des Hazard Ratios nach Hinzuziehung der empirischen Daten eine A-posteriori-Verteilung liefert. Aus der A-Posteriori-Verteilung ergibt sich dann direkt ein so genanntes Credible-Intervall, das ein direktes Bayesianisches Gegenstück zum klassischen Konfidenzintervall darstellt. Ein Gegenstück zum Signifikanztest ergibt sich ebenfalls aus der A-Posteriori-Verteilung. Man sieht dazu den „Bayesianischen Test“ als signifikant an, falls 95% der A-Posteriori-Wahrscheinlichkeitsmasse des Hazard- Ratios jenseits des neutralen Wertes 1 liegt [3].

Ergebnisse

Wie zu erwarten zeigt sich beim Vergleich des frequentistischen Signifikanztests mit dessen Bayesianischer Variante, dass die zusätzliche Nutzung von Vorwissen zu einer Steigerung der Power führt. Übertragen auf eine Aussage zur notwendigen Fallzahl kann dies unter realistischen Annahmen bedeuten, dass zur Gewährleistung einer bestimmten Power nur etwa halb so viele Patienten in eine Studie eingeschlossen werden müssen.

Auf der anderen Seite zeigen die Powerfunktionen beider Ansätze jedoch, dass der Powergewinn des Bayes-Ansatzes auf Kosten einer vergrößerten Wahrscheinlichkeit eines Fehlers 1. Art geschieht. Dies kann natürlich gerade in konfirmativen Auswertungen nicht akzeptiert werden, in denen die Kontrolle des Fehlers 1. Art als elementares Gütekriterium gilt. Aber auch in dem Fall, dass man die Anhebung des Fehlers 1. Art akzeptieren würde (etwa in explorativen Auswertungen), muss der obige Powergewinn in jedem Fall dementsprechend relativiert werden. Dies kann geschehen, indem man das Signifikanzniveau des klassischen Tests anpasst, so dass es dem vergrößerten Fehler 1. Art des Bayes-Tests entspricht. Dabei zeigt sich ein erstaunliches Resultat, dass nämlich in diesem Fall beide Powerfunktionen identisch sind. In der Schlussfolgerung gilt damit, dass der Bayes-Ansatz keinerlei echten Gewinn im Vergleich zum klassischen Ansatz mit sich bringt. Zwar resultiert aus der Nutzung von Vorwissen eine gesteigerte Power, den gleichen Powergewinn kann allerdings der klassische Ansatz leisten, wenn nur das Signifikanzniveau entsprechend angepasst wird.

Diskussion

Beim dem obigen Vergleich des frequentistischen mit dem Bayes-Ansatz ergibt sich trotz Nutzung von zusätzlicher Information keine echte Überlegenheit des Bayes-Ansatzes. Bei diesem Resultat ist allerdings zu berücksichtigen, welche Art Kriterien als Vergleichsmaßstab verwendet wurden. Der Fehler 1. Art und die Power sind klassische Konzepte. Der frequentistische Signifikanztest ist unmitelbar auf die Optimierung dieser Konzepte zugeschnitten, womit ein relativ gutes Abschneiden natürlich zu erwarten ist. Das schlechtere Abschneiden des Bayes-Ansatzes ist möglicherweise dadurch zu erklären, dass der Bayes-Ansatz eben nicht auf der Grundlage klassischer, sondern alternativer Gütekriterien hergeleitet wird. Unter diesem Blickwinkel ist es intuitiv nachvollziehbar und nicht verwunderlich, dass der Bayes-Ansatz seine Vorteile einbüßt, wenn er mit den „falschen“ Gütekriterien beurteilt wird. Sollte der Vergleich beider Verfahren also mit anderen als den klassischen Gütekriterien erfolgen? Dem ist entgegenzuhalten, dass die klassischen Kriterien sich in der Vergangenheit in der wissenschaftlichen Forschung bewährt haben und etabliert sind. Diese Tatsache rechtfertigt es, von einem neuartigen Verfahren tatsächlich zu fordern, dass es sich nach klassischen Kriterien an den Standardverfahren messen muss und ggf. gegenüber diesen durchsetzt. So bleibt als Fazit die Feststellung, dass das vorgestellte Bayes-Verfahren zumindest in konfirmativen Auswertungen nicht als vorteilhaft gegenüber dem frequentistischen Ansatz anzusehen ist.


Literatur

1.
Schoenfeld DA. The asymptotic properties of nonparametric tests for comparing survival distributions. Biometrika 1981; 68: 316-9.
2.
Schoenfeld DA. Sample-size formula for the proportional-hazards regression model. Biometrics 1983; 39: 499-503.
3.
Spiegelhalter DJ, Abrams KR, Myles JP. Bayesian Approaches to Clinical Trials and Health-Care Evaluation. New York: Wiley; 2004.