gms | German Medical Science

GMDS 2014: 59. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V. (GMDS)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie

07. - 10.09.2014, Göttingen

Methoden der Variablenselektion

Meeting Abstract

Search Medline for

  • A. Zapf - Universitätsmedizin Göttingen, Göttingen

GMDS 2014. 59. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (GMDS). Göttingen, 07.-10.09.2014. Düsseldorf: German Medical Science GMS Publishing House; 2014. DocAbstr. 62

doi: 10.3205/14gmds275, urn:nbn:de:0183-14gmds2752

Published: September 4, 2014

© 2014 Zapf.
This is an Open Access article distributed under the terms of the Creative Commons Attribution License (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.en). You are free: to Share – to copy, distribute and transmit the work, provided the original author and source are credited.


Outline

Text

Jede statistische Modellbildung setzt eine geeignete Variablenselektion voraus. Statistiker haben zumeist unzählige Möglichkeiten, Variablen auszuwählen und diese miteinander zu kombinieren. Allerdings besteht kein Konsens dahingehend, welcher Weg dazu am besten geeignet ist. Einfache Modelle laufen Gefahr, wegen fehlender relevanter Prädiktoren invalide Ergebnisse zu liefern (Under-Fitting). Komplexe Modelle können statistisch ineffizient, schwer interpretierbar und kaum replizierbar sein (Over-Fitting).

Entscheidend für die Vorgehensweise bei der Variablenauswahl ist die Zielsetzung, unter denen das Modell gebildet wird. So ist ein großer Unterschied, ob das Ziel ein kausales Modell ist, oder eine Prognose. Bei einem kausalen Modell ist eine genaue Analyse der angenommenen Ursache-Wirkungs-Beziehungen zwischen allen Kandidatenvariablen erforderlich. Dagegen liegt bei der Prognose der Fokus auf möglichst guten Vorhersage ohne Bezug zu Ursache-Wirkungs-Beziehungen. Die Kunst ist eine geeignete Abwägung zwischen Einfachheit und Komplexität. Am Ende sollte ein statistisches Modell stehen, das den zu untersuchenden Zusammenhang so einfach wie möglich und so komplex wie nötig parametrisiert. Daher wurden zahlreiche Techniken vorgeschlagen, um Variablen so zu selektieren, dass die Verzerrung und Varianz minimiert und die Prognosegüte maximiert wird.

Lernziele: Dieser Workshop vermittelt einen Überblick über grundlegende und fortgeschrittene statistische Verfahren zur Variablenselektion mit dem Fokus auf Regressionsmodellen, z.B. Stepwise Regression, Change-in-estimate-Verfahren, Kreuzvalidierung, kriteriumsbasierte Selektion, Shrinkage-Verfahren, Penalized regression, Kausale Graphen (Directed Acyclic Graphs/DAGs), Data Mining Techniken. Die Teilnehmer erhalten einen angewandten Überblick zu Vor- und Nachteile verschiedener Techniken und lernen, eine geeignete Auswahl unter Berücksichtigung der Forschungsfragestellung zu treffen.

Methodik: Inhalte werden in zwei Formaten präsentiert. Erstens konzeptuelle Einführung zu Techniken und deren Anwendungsvoraussetzungen. Zweitens Anwendungsbeispiele mit Fokus auf die praktische Umsetzung in gängigen Statistikprogrammen (Fokus: SAS, Stata, R).


Literatur

1.
Fahrmeir L, Kneib T, Lang S. Regression Modelle, Methoden und Anwendungen. 2. Auflage. Berlin Heidelberg: Springer-Verlag; 2009.
2.
Greenland S. Invited commentary: variable selection versus shrinkage in the control of multiple confounders. Am J Epidemiol. 2008; 167(5): 523-9. discussion 30-1.
3.
Harrell FE Jr. Regression modelling strategies. New York: Springer-Verlag; 2001.
4.
Kreienbrock L, Pigeot I, Ahrens W. Epidemiologische Methoden. 5. Auflage. Berlin Heidelberg: Springer-Verlag; 2012.
5.
Miller, AJ. Subset selection in regression. 2. Auflage. Boca Raton, Florida: Chapman & Hall/CRC; 2002.