gms | German Medical Science

51. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V. (gmds)

10. - 14.09.2006, Leipzig

Überlebenszeitanalyse mit Hilfe generalisierter linearer und additiver Modelle

Meeting Abstract

Suche in Medline nach

  • Ulrich Gehrmann - Institut für Qualität und Wirtschaftlichkeit im Gesundheitswesen, Köln

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (gmds). 51. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie. Leipzig, 10.-14.09.2006. Düsseldorf, Köln: German Medical Science; 2006. Doc06gmds429

Die elektronische Version dieses Artikels ist vollständig und ist verfügbar unter: http://www.egms.de/de/meetings/gmds2006/06gmds151.shtml

Veröffentlicht: 1. September 2006

© 2006 Gehrmann.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielf&aauml;ltigt, verbreitet und &oauml;ffentlich zug&aauml;nglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Gliederung

Text

Einleitung und Fragestellung

Die parametrischen Überlebenszeitmodelle (z.B. Exponential- oder Weibullverteilung) haben den Vorteil leichter Interpretierbarkeit, setzen jedoch bezüglich der Form der Verteilung oft zuviel voraus. Bei der nonparametrischen Kaplan-Meier-Analyse gibt es diese Voraussetzungen nicht. Sie ist jedoch nicht auf eine Maßzahl wie z.B. die Hazardrate reduzierbar, was ihre Interpretierbarkeit erschwert. Darüber hinaus kann der Einfluss von Kovariablen in ihr nicht modelliert werden. Letzteres ist im semiparametrischen Cox-Modell möglich. Es liefert jedoch keine direkte Schätzung der Überlebenszeit-Funktion, wenngleich indirekte Methoden dazu entwickelt wurden. In diesem Beitrag wird nun ein weiterer Ansatz vorgestellt, welcher die beschriebenen Nachteile vermeiden bzw. mildern soll.

Material und Methoden

Gegeben seien Überlebenszeitdaten mit beliebig vielen Einflussgrößen, wobei sowohl fixe als auch zufällige Effekte möglich sind. Ziele der Analyse sollen sein:

  • Selektion von Kovariablen mit signifikantem Einfluss auf die Überlebenszeit (Hazardrate)
  • Bestimmung der Größe des Einflusses dieser Kovariablen
  • Bei metrischen Kovariablen Bestimmung der Form ihres Einflusses
  • Schätzung der Überlebensfunktion bei gegebenen Kovariablen

Grundlage ist das Piecewise Exponential Model, welches von stückweise konstanten Hazardraten ausgeht [2]. Die Länge der Intervalle mit konstanten Hazardraten (somit der Grad der Parametrisierung) ist dabei frei wählbar. Durch geeignetes Aufbereiten der Daten kann dann das Poissonmodell mit Offset zur Schätzung herangezogen werden [5]. Dieses ist ein Spezialfall generalisierter linearer (GLM) bzw. additiver (GAM) Modelle, auf die statistische Standardsoftware angewendet werden kann. Gängige Kriterien zur Variablen-Selektion können verwendet werden, so z.B. Akaikes Informations-Kriterium (AIC). Die Einflüsse der Kovariablen können sowohl linear (GLM) als auch nicht-linear (GAM) geschätzt werden. In den GAMs wird der lineare Prädiktor als Summe von glatten Funktionen, die sich wiederum additiv aus so genannten Basisfunktionen (z.B. kubischen B-Splines) zusammensetzen, geschätzt. Die GAMs haben wenig Modellvoraussetzungen, sind aber schwieriger zu interpretieren als die GLMs. Daher bietet sich eine zweistufige Vorgehensweise an: Zunächst wird die Form der Einflüsse explorativ über GAMs ermittelt. Dann wird daraus ein stückweises GLM erstellt, welches eine überschaubare Anzahl von Kenngrößen liefert und somit leichter interpretierbar und übertragbar auf andere Daten ist.

Angewendet wurden diese Verfahren im Rahmen einer Diplomarbeit und eines Discussion Papers der LMU München, in Zusammenarbeit mit dem Sylvia Lawry Centre for MS Research [3]. Zielgröße war hier die Zeit bis zum Ereignis „Eintritt in die progrediente Phase der multiplen Sklerose“. Dieses Ereignis wurde nach einem vorgegebenen Algorithmus bestimmt, der den Zeitverlauf der Expanded Disability Status Scale (EDSS) auswertet. Die EDSS beschreibt auf einer Skala von 0 bis 10 den Schweregrad der MS-Erkrankung. Der untersuchte Datensatz bestand aus 26 Studien, aus denen die Patienten (857) selektiert wurden, die sich nach Angaben der Ärzte bei Studienbeginn noch nicht in der progredienten Phase befanden. Die längste Beobachtungsdauer lag bei etwa 5 Jahren. Die wichtigsten erhobenen Kovariablen waren die EDSS-Verlaufswerte, Geschlecht, Anzahl der Krankheitsschübe im letzten Jahr bzw. den letzten zwei Jahren vor Studieneintritt, Alter und Krankheitsdauer bei Studieneintritt, Alter bei Krankheitsbeginn als Kandidaten für fixe Effekte, sowie die Einzelstudien als mögliche zufällige Effekte. Für GAMs mit ausschließlich fixen Effekten hatte sich S-Plus als geeignete Software herausgestellt [6], für GLMs mit fixen und/oder zufälligen Effekten SAS, Prozedur NLMIXED [4]. Dabei wurde jeweils die Maximum-Likelihood-Methode zur Berechnung verwendet. Für GAMs mit gemischten Effekten kamen Bayes-Modelle mit Markov Chain Monte Carlo Methoden zur Anwendung, die mit BayesX [1] berechnet wurden.

Anhand dieses Beispiels sieht man die Möglichkeiten der beschriebenen Methode, die Entwicklung der Hazardrate simultan mit den Kovariableneinflüssen untersuchen zu können: Bei Beschränkung auf Modelle mit ausschließlich fixen Effekten stellte sich heraus, dass die Hazardrate über die Zeit nahezu konstant war. Daher wurde hier auf ein reines Exponentialmodell übergegangen. In diesem ergaben sich die Start-EDSS und die Anzahl der Krankheitsschübe im letzten Jahr vor Studieneintritt als signifikante Einflussgrößen. Bei Aufnahme von zufälligen Studieneffekten in das Modell zeigte sich ein leicht fallender Zeiteinfluss auf die Hazardrate. Signifikante Einflussgrößen konnten in diesem Fall nicht festgestellt werden. Die nahezu konstante Hazardrate erklärt sich durch die Kürze der Studien (überwiegend bis zu 2 Jahren) im Vergleich zur Gesamtdauer von MS-Erkrankungen (mehrere Jahrzehnte). Ein signifikanter Anstieg ist somit erst nach längerer Zeit zu erwarten. Der leicht fallende Zeiteinfluss im zweiten Modell ist eher als ein Bereinigungseffekt zu verstehen: Es gab offenbar Patienten, die sich bereits zu Anfang der Studie in der progredienten Phase befanden, ohne dass dies festgestellt worden war. Diese erreichten dann in der Studie frühzeitig das definierte Ereignis und fielen aus der weiteren Betrachtung heraus, so dass die Hazardrate beim verbleibenden Kollektiv fiel.

Diskussion

Das verwendete Piecewise Exponential Model stellt einen Kompromiss zwischen parametrischer (exponential) und nonparametrischer (piecewise) Modellierung der Zielgröße dar. Im Gegensatz zum Cox-Modell liefert es eine direkte Schätzung der Überlebensfunktion bei gegebenen Kovariablen. Es bietet flexible Möglichkeiten der parametrischen (GLM) oder nonparametrischen (GAM) Bestimmung der Kovariableneinflüsse. Daher ist es für konfirmatorische Zwecke von untergeordneter Bedeutung, eignet sich aber gut für die explorative Analyse.


Literatur

1.
Brezger A, Kneib T, Lang S. BayesX Version 0.9 Documentation. München: Institut für Statistik der Ludwig-Maximilians-Universität, 2002.
2.
Fahrmeir L, Tutz G. Multivariate Statistical Modelling Based on Generalized Linear Models. 2nd ed. New York: Springer; 2001. p. 385-395
3.
Gehrmann U, Hellriegel B, Neiss A, Fahrmeir L. Analysis of the time to sustained progression in Multiple Sclerosis using generalised linear and additive models. Sonderforschungsbereich 386 der Ludwig-Maxinilians-Universität München, 2003.
4.
SAS OnlineDoc Version 8. SAS Institute Inc., 2000.
5.
Tutz G. Die Analyse kategorialer Daten. München: Oldenbourg; 2000. p. 255-256.
6.
Venables WN, Ripley BD. Modern Applied Statistics with S-PLUS. 2nd ed. New York: Springer; 1997.