gms | German Medical Science

53. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V. (GMDS)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie

15. bis 18.09.2008, Stuttgart

Multiples Testen bei Subgruppenanalysen in klinischen Studien

Meeting Abstract

Suche in Medline nach

  • Walter Lehmacher - Uni Köln, Koeln, Deutschland
  • Martin Hellmich - Uni Köln, Koeln, Deutschland

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie. 53. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (gmds). Stuttgart, 15.-19.09.2008. Düsseldorf: German Medical Science GMS Publishing House; 2008. DocMBIO4-3

Die elektronische Version dieses Artikels ist vollständig und ist verfügbar unter: http://www.egms.de/de/meetings/gmds2008/08gmds066.shtml

Veröffentlicht: 10. September 2008

© 2008 Lehmacher et al.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielf&aauml;ltigt, verbreitet und &oauml;ffentlich zug&aauml;nglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Gliederung

Text

Einleitung und Fragestellung

Subgruppenanalysen werden häufig in klinischen Studien angewandt, um Subgruppen von Patienten zu identifizieren, die von der Behandlung profitieren oder nicht, die besonders gut oder schlecht profitieren bzw. generell unterschiedliche Effekte zeigen. Üblicherweise werden Subgruppenanalysen nur deskriptiv bzw. explorativ durchgeführt und dann auch entsprechend zurückhaltend interpretiert. Es herrscht Übereinstimmung, dass nur präspezifizierte Subgruppenanalysen inferenzstatistisch bzw. konfirmatorisch interpretiert werden dürfen [8]. Tatsächlich werden nur selten konfirmatorische Subgruppenanalysen durchgeführt, und es scheint oft unklar, welche (multiplen) Fehlerwahrscheinlichkeiten dabei kontrolliert werden. Deshalb sollen hier Prozeduren zusammengestellt und diskutiert werden, die das multiple Signifikanzniveau einhalten.

Multiple Testprozeduren

In praktisch allen multiplen Testsituationen kommen multiple Testprozeduren zur Anwendung, die auf dem Abschlusstest-Prinzip beruhen; Sonderformen dieses generellen Prinzips sind dann auch entsprechende an die besondere Situation angepasste Bonferroni-Holm-Verfahren oder a-priori-geordnete Tests. Bei 2 oder 3 Subgruppen ergeben sich einfache Abschlusstest-Prozeduren, die jeweils die Gesamt-Population oder alle entsprechenden Teil-Populationen samt deren Vereinigungen zum Niveau α testen und dann die Testentscheidungen nach dem Abschlusstest-Prinzip treffen. H0 bezeichne dabei die Global-Hypothese und Hk die k-te Elementar-Hypothese bzgl. des Fehlens des jeweiligen Effektes in der k-ten Subgruppe. Die Schemata der Abschlusstest-Prozeduren für 2 und 3 Subgruppen sind in den Abbildungen 1 [Abb. 1] und 2 [Abb. 2] angegeben.

Statt eines vollständigen Abschlusstests können auch direkt nach dem signifikanten Global-Test die Elementartests mit den Holm-Schranken α/2, α/2 und α (für K = 3 Subgruppen) getestet werden; vgl. Abbildung 3 [Abb. 3]. Mit diesen Prozeduren können ohne α-Adjustierung des Overall-Tests nach einem signifikanten Overall-Test dann evtl. neben dem Overall-Effekt auch für einzelne Subgruppen Effekte zusätzlich abgesichert werden.

Viele Autoren stehen auf dem Standpunkt, Subgruppenauswertungen seien nur sinnvoll bzw. notwendig, wenn in den Subgruppen unterschiedliche Effekte vorliegen; ein entsprechender Interaktionstest solle deshalb den Subgruppen-Tests vorgeschaltet werden. Auch dieser kann in diese Prozedur eingebettet werden; vgl. Abbildung 4 [Abb. 4].

Ein solcher Interaktionstest hat allerdings den Nachteil, dass er nur eine geringe Trennschärfe hat; deshalb wird dann auch vorgeschlagen, ihn auf einem erhöhten Signifkanzniveau von z. B. α = 0,10 durchzuführen, was dann allerdings zu mehr falsch positiven Entscheidungen führt. Er ist aber in aller Regel auch kein Äquivalenztest und somit nicht nützlich, Interaktionen auszuschließen, da er wegen seiner geringen Power ein sehr hohes Risiko falsch negativer Entscheidungen hat. Es ist auch zu überlegen, entsprechende Interaktionstests auf qualitative Wechselwirkungen anzuwenden. Nach einem negativen Interaktionstest dürfen in den Abschlusstest-Prozeduren keine weiteren Einzeltests bzgl. der Subgruppen durchgeführt werden.

Bei der Auswertung von Crossover-Studien wurde schon vor längerem die Anwendung eines solchen Vortestes auf Residual-(Wechselwirkungs-) Effekt als höchst problematisch abgelehnt; vgl. dazu [7].

Diese Problematik zwingt dazu, bei der Planung konfirmatorischer Subgruppenanalysen die Ziele genauer zu definieren; will man möglichst nur „erfolgreiche“ Subgruppen identifizieren, ist ein Interaktionstest sehr störend, da er nur eine weitere Hürde in der Abschlusstest-Prozedur aufbaut; will man Unterschiede in den Effekten erkennen, kann er natürlich sehr nützlich sein. Weitere Ansätze zu Abschlusstest-Prozeduren finden sich in [9].

Diskussion

Konfirmatorische Subgruppenanalysen sind zwar prinzipiell durchführbar; sie müssen aber stets im a priori Prüfplan festgelegt sein, a posteriori durchgeführte Subgruppenanalysen dürfen nur explorativ interpretiert werden; vgl. die Beispiele in [1], [2]. Auch die gelegentlich geäußerte bzw. ungenau formulierte Ansicht, nach einem Overall-Test dürfe stets ein Interaktionstest durchgeführt werden [3], ist nur dann korrekt, wenn diese Prozedur im Prüfplan präspezifiziert wird.

Eine solche konfirmatorische Subgruppenanalyse benötigt sehr hohe Fallzahlen; aus diesem Grunde werden sie faktisch auch kaum durchgeführt. Dies gilt selbst für prinzipiell als konfirmatorisch vorgeschriebene Gender-Subgruppenanalysen.

Einen Ausweg bieten adaptive Designs, in denen die oben skizzierten multiplen Abschlusstest-Prozeduren mit adaptiv-gruppensequentiellen Verfahren verknüpft werden; vgl. [4], [5] und [6]. Hierbei können dann im Laufe der Studie die Fallzahlen der Subgruppen so stark adaptiert werden, wie sie notwendig sind, um relevante Effekte zu erkennen bzw. auch auszuschließen.


Literatur

1.
Bhatt DL et al for the CHARISMA Investigators. Clopidogrel and Aspirin versus Aspirin Alone for the Prevention of Atherothrombotic Events. N Engl J Med 2006; 354: 1706-17.
2.
CAPRIE Steering Committee. A Randomised, Blinded Trial of Clopidogrel versus Aspirin in Patients at Risk of Ischaemic Events (CAPRIE). Lancet 1996; 348: 1329–39.
3.
Grouin JM, Coste M, Lewis J. Subgroup Analyses In Randomized Clinical Trials: Statistical and Regulatory Issues. J Biopharm Stat 2005; 15: 869–82.
4.
Hellmich M. Monitoring Clinical Trials with Multiple Arms. Biometrics 2001; 57: 892-8.
5.
Kieser M, Bauer P, Lehmacher W. Inference on Multiple Endpoints in Clinical Trials with Adaptive Interim Analyses. Biom J 1999; 41: 261-77.
6.
Lehmacher W, Kieser M, Hothorn L. Sequential and Multiple Testing for Dose-Response Analysis. Drug Inf J 2000; 34: 591–97.
7.
Lehmacher W. Analysis of the Crossover Design in the Presence of Residual Effects. Statist Med 1991; 10: 891-9.
8.
Rothwell PM. Subgroup Analysis in Randomised Controlled Trials: Importance, Indications, and Interpretation. Lancet 2005; 365: 176-86.
9.
Song Y, Chi GYH. A Method for Testing a Prespecified Subgroup in Clinical Trials. Statist Med 2007; 26: 3535–49.