gms | German Medical Science

50. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (gmds)
12. Jahrestagung der Deutschen Arbeitsgemeinschaft für Epidemiologie (dae)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie
Deutsche Arbeitsgemeinschaft für Epidemiologie

12. bis 15.09.2005, Freiburg im Breisgau

Entwicklung und Validierung logistischer Prognosemodelle anhand vordefinierter SAS-Makros

Meeting Abstract

Search Medline for

  • Rainer Muche - Universität Ulm, Ulm
  • Christina Ring - Universität Ulm, Ulm
  • Christoph Ziegler - Boehringer Ingelheim Pharma GmbH&Co KG, Biberach/Riss

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie. Deutsche Arbeitsgemeinschaft für Epidemiologie. 50. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (gmds), 12. Jahrestagung der Deutschen Arbeitsgemeinschaft für Epidemiologie. Freiburg im Breisgau, 12.-15.09.2005. Düsseldorf, Köln: German Medical Science; 2005. Doc05gmds130

The electronic version of this article is the complete one and can be found online at: http://www.egms.de/en/meetings/gmds2005/05gmds292.shtml

Published: September 8, 2005

© 2005 Muche et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution License (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.en). You are free: to Share – to copy, distribute and transmit the work, provided the original author and source are credited.


Outline

Text

Einleitung und Fragestellung

Prognosen zum Krankheitsverlauf oder zum Schweregrad multipler Schädigungen bestimmen die medizinischen Therapie- und Diagnostikentscheidungen direkt oder indirekt. Neben der subjektiven Einschätzung des Arztes können mathematische Modelle für Prognosezwecke entwickelt und validiert werden. Prognosemodelle werden vielfach als verallgemeinerte lineare Regressionsmodelle formuliert. In der Praxis ist die betrachtete Zielgröße häufig dichotom, so dass multiple logistische Regressionsmodelle zum Einsatz kommen [3]. Im folgenden werden SAS-Makros beschrieben, die für eine Modellierung basierend auf logistischen Regressionsmodellen entwickelt wurden [4], [5]. Die Untersuchung der Prognosemöglichkeiten erfolgt in drei Schritten: Modellentwicklung, Bestimmung der Prognosegüte und Modellvalidierung [2].

Vorgehen

Bei der Modellentwicklung sind verschiedene Untersuchungen des Datensatzes vor der eigentlichen Modellierung notwendig.

Z.B. ist die Anzahl und Struktur der fehlenden Werte zu beschreiben, da üblicherweise bei der Modellierung mit der logistischen Regression “nur” der Complete Case-Ansatz berücksichtigt wird [1]. Parallel sollten die einzelnen Variablen deskriptiv bezüglich ihrer Modellvoraussetzungen (z.B. monotone Risikobeziehung) untersucht werden. Dazu werden für diskrete Variablen die Häufigkeiten und für stetige Variablen die Kenngrößen, darüber hinaus Häufigkeiten eingeteilt nach Quintilen bestimmt.

Zur Untersuchung von möglichen Selektionseffekten durch fehlende Werte kann es sinnvoll sein, diese mit Imputatonsmethoden zu ersetzen. Dies kann in einem speziellen Makro durchgeführt werden. Zur Zusammenführung von Ergebnissen der Multiplen Imputation kann ein weiteres Makro anschließend genutzt werden.

Bezüglich der Einflussgrößen, die in die Modellierung aufgenommen werden, ist deren Zusammenhangsstruktur (Multikollinearität) zu berücksichtigen. Hoch korrelierte Variablen können Probleme bei der Modellierung, speziell bei der Variablenselektion erzeugen. Für die Kollinearitätsprüfung steht ebenfalls ein Makro zur Verfügung.

Darüber hinaus gibt es auch Beobachtungen, die einen großen Einfluss auf die Schätzung der Regressionskoeffizienten haben. Diese zu identifizieren, um sie zumindest genauer zu betrachten, ist möglich.

In eine multiple logistische Regression sollten die Variablen einbezogen werden, die univariat zumindest einen geringen Einfluss zeigen. Im entsprechenden Makro werden die Variablen einzeln modelliert (univariate Regression) und für die stetigen Merkmale univariat eine Untersuchung zum Zusammenhang anhand von fraktionalen Polynomen durchgeführt.

Die eigentliche Modellierung anhand der multiplen logistischen Regression wird erst anschließend durchgeführt. Für den Fall einer Quasi-Complete-Separation der Daten wurde ein Makro von Heinze zur Korrektur der ML-Schätzungen der Regressionskoeffizienten integriert. Das Modellierungsmakro erzeugt neben dem Modelloutput auch die wesentlichen Datensätze für die weitere Modelluntersuchung, z.B. der Goodness-of-Fit.

Die Prognosegüte wird anschließend anhand einer ROC-Analyse durchgeführt. Das Makro stellt ROC-Kurven (inkl. Konfidenzbänder nach Hilgers) und die wichtigsten Prognosegütemaße zur Verfügung.

Für die Modellvalidierung zur Abschätzung eines Bias der Überschätzung der Prognosegüte werden Makros für eine externe Validierung, Data-Splitting, Kreuzvalidierung (incl. k-Fold-CV, adjusted CV, Jack-Knife), Bootstrap (inkl. simple B., enhanced B., Mean Model) und Shrinkage (inkl. heuristisch, global, parameterwise) vorgehalten, die im wesentlichen zur Abarbeitung die Makros der multiplen logistischen Regression und ROC-Analyse benötigen.

Diskussion

Insgesamt ist somit ein Werkzeug vorhanden, mit dem die Entwicklung und Validierung eines logistischen Prognosemodells ohne größeren Aufwand ermöglicht wird, so dass speziell die Modellvalidierung in Zukunft zu jeder Prognosebetrachtung herangezogen werden kann und sollte. Die Makros stehen auf http://www.uni-ulm.de/uni/fak/medizin/biodok/v2004/prognosemakros.htm zum Download zur Verfügung, die Nutzung und Hintergrundinformationen werden in [4] beschrieben.


Literatur

1.
Allison PD. Logistic regression using the SAS system. SAS Institute Books by Users, Cary NC; 1999
2.
Harrell FE. Regression modeling strategies. New York: Springer; 2001
3.
Hosmer DW, Lemeshow S. Applied logistic regression (2nd Ed.). J. New York: Wiley & Sons; 2000
4.
Muche, R., Ring, C., Ziegler C. Entwicklung und Validierung von Prognosemodellen auf Basis der logistischen Regression. Shaker Verlag, Aachen; 2005
5.
Ziegler C. Ein SAS-Makro-Paket zur Entwicklung und Validierung von Prognosemodellen auf Basis der logistischen Regression. Ulm: Diplomarbeit FH Ulm; 2003