gms | German Medical Science

Gesundheit – gemeinsam. Kooperationstagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (GMDS), Deutschen Gesellschaft für Sozialmedizin und Prävention (DGSMP), Deutschen Gesellschaft für Epidemiologie (DGEpi), Deutschen Gesellschaft für Medizinische Soziologie (DGMS) und der Deutschen Gesellschaft für Public Health (DGPH)

08.09. - 13.09.2024, Dresden

Kriterien der Modellwahl bei Schätzung des heterogenen Behandlungseffekts in der Überlebenszeitanalyse

Meeting Abstract

  • Wolfgang Galetzka - Institut für Medizinische Informatik, Biometrie und Epidemiologie, Universitätsklinikum Essen, Essen, Germany
  • Bernd Kowall - Institut für Medizinische Informatik, Biometrie und Epidemiologie, Universitätsklinikum Essen, Essen, Germany
  • Eva-Maria Hüßler - Institut für Medizinische Informatik, Biometrie und Epidemiologie, Universitätsklinikum Essen, Essen, Germany
  • Andreas Stang - Institut für Medizinische Informatik, Biometrie und Epidemiologie, Universitätsklinikum Essen, Essen, Germany

Gesundheit – gemeinsam. Kooperationstagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (GMDS), Deutschen Gesellschaft für Sozialmedizin und Prävention (DGSMP), Deutschen Gesellschaft für Epidemiologie (DGEpi), Deutschen Gesellschaft für Medizinische Soziologie (DGMS) und der Deutschen Gesellschaft für Public Health (DGPH). Dresden, 08.-13.09.2024. Düsseldorf: German Medical Science GMS Publishing House; 2024. DocAbstr. 1034

doi: 10.3205/24gmds110, urn:nbn:de:0183-24gmds1102

Published: September 6, 2024

© 2024 Galetzka et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License. See license information at http://creativecommons.org/licenses/by/4.0/.


Outline

Text

Einleitung: Der Effekt einer medizinischen Intervention ist im Allgemeinen nicht für alle Mitglieder eines Patientenkollektivs identisch, sondern heterogen. Sind die Standardbedingungen für kausale Inferenz gegeben, so ist es möglich, mithilfe von prädiktiven Methoden des maschinellen Lernens für jedes Mitglied einer Patientengruppe einen Behandlungseffekt abhängig von seinen klinischen Baseline-Charakteristika zu schätzen. Für die Schätzung stehen allerdings eine Vielzahl möglicher prädiktiver Methoden zur Auswahl, für welche selbst wiederum Hyperparameter ausgewählt werden müssen. Intuitiv liegt es nahe, die Methode mit den Hyperparametern zu wählen, deren Prädiktion auf einem vorgehaltenen Testdatensatz am besten ist – allerdings gibt es auch zur Evaluation prädiktiver Modelle in der Überlebenszeitanalyse mehrere mögliche Kriterien, etwa den Konkordanz-Index [1] oder den integrierten Brier Score [2]. Bisherige Arbeiten zum heterogenen Behandlungseffekt in der Überlebenszeitanalyse vergleichen die Leistungsfähigkeit verschiedener prädiktiver Methoden zur Schätzung des heterogenen Behandlungseffekts [3] oder Strategien zur Schätzung des heterogenen Effekts anhand eines gegebenen prädiktiven Modells [4], doch gehen sie nicht auf das Thema der Methodenwahl, der Hyperparameterwahl oder Kriterien hierzu ein.

Fragestellung: Welches der Kriterien (Konkordanz-Index, integrierter Brier Score, integrierte Log-Binomale Likelihood) eignet sich zur Modellwahl bei Schätzung des heterogenen Behandlungseffektes bezüglichen welchen Effektmaßes (Hazard-Ratio, Restricted-Mean Survival Time, Mediane Überlebenszeit, Überlebenszeit nach fest gewählter Zeit t) am besten?

Methodik: Die Fragestellung wurde anhand von simulierten Daten untersucht. In einem ersten Schritt wurden die klinischen Baseline-Charakteristika und anhand dieser die Endpunkte mittels der Weibull-Verteilung simuliert. Hierbei wurden verschiedene Szenarien berücksichtigt, unter anderem proportionale und nicht-proportionale Hazards, verschiedene Zensurraten, verschiedene Datensatzgrößen und verschiedene Formen der Abhängigkeit der Ereignisrate von Intervention und Baseline-Charakteristika.

Mittels fünffacher Kreuzvalidierung wurden die simulierten Datensätze in Trainings- und Testmengen unterteilt. Die Trainingsmengen dienten dazu, eine Vielzahl von Modellen zur Prädiktion des beobachteten Endpunkts zu trainieren, darunter penalisierte Cox-Regressionen mit Interaktionstermen, Random Survival Forests und Neural Networks, wobei jeweils verschiedene Hyperparameter verwendet wurden. Diese Modelle wurden anhand der in der Fragestellung aufgelisteten unterschiedlichen Kriterien auf dem Testdatensatz evaluiert.

Für jedes Kriterium wurde jeweils das diesbezüglich auf den Testdaten beste Modell ausgewählt, um zu untersuchen, inwieweit sich die aus ihnen berechneten heterogenen Behandlungseffekte von den tatsächlichen auf dem Testdatensatz unterscheiden. Dies wurde für alle in der Fragestellung genannten Effektmaße durchgeführt, als Maß für die Genauigkeit des Schätzers hierfür wurde die Quadratwurzel des mittleren quadratischen Fehlers genutzt.

Ergebnisse: Vorläufige Ergebnisse deuten darauf hin, dass es bei der Modellauswahl anhand des integrierten Brier-Scores oder des integrierten Log-Binomialen Likelihoods zu erheblich geringeren Abweichungen bei Schätzung des Effektmaßes kommt als bei der Auswahl anhand der Konkordanz. Der integrierte Brier-Score und die integrierte Log-Binomiale Likelihood führen zu sehr ähnlichen Resultaten. Dies gilt unabhängig von den gewählten Simulationseinstellungen, dem gewählten Effektmaß oder der verwendeten prädiktiven Methode.

Schlussfolgerung: Der Konkordanz-Index ist weit verbreitet und interpretierbar, dennoch eignen sich der integrierte Brier-Score und die integrierte Log-Binomiale Likelihood besser für die Modellauswahl zur Bestimmung heterogener Behandlungseffekte.

Die Autoren geben an, dass kein Interessenkonflikt besteht.

Die Autoren geben an, dass kein Ethikvotum erforderlich ist.


Literatur

1.
Uno H, Cai T, Pencina MJ, D'Agostino RB, Wei LJ. On the C-statistics for evaluating overall adequacy of risk prediction procedures with censored survival data. Stat Med. 2011 May 10;30(10):1105-17.
2.
Graf E, Schmoor C, Sauerbrei W, Schumacher M. Assessment and comparison of prognostic classification schemes for survival data. Stat Med. 1999 Sep 15-30;18(17-18):2529-45.
3.
Hu L, Ji J, Li F. Estimating heterogeneous survival treatment effect in observational data using machine learning. Stat Med. 2021 Sep 20;40(21):4691-4713.
4.
Xu Y, Ignatiadis N, Sverdrup E, Fleming S, Wager S, Shah N. Treatment Heterogeneity with Survival Outcomes. In: Zubizarreta JR, Stuart EA, Small DS, Rosenbaum PR, editors. Handbook of Matching and Weighting Adjustments for Causal Inference. New York: Chapman and Hall/CRC; 2023 p. 445-482.