gms | German Medical Science

GMDS 2012: 57. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V. (GMDS)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie

16. - 20.09.2012, Braunschweig

Ergebnisse von multiplen Regressionsanalysen in verschiedenen Modellsituationen

Meeting Abstract

Search Medline for

  • Iris Zöllner - Landesgesundheitsamt Baden-Württemberg, RP Stuttgart, Deutschland
  • Julian Schmidberger - Hochschule Ulm, Deutschland

GMDS 2012. 57. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (GMDS). Braunschweig, 16.-20.09.2012. Düsseldorf: German Medical Science GMS Publishing House; 2012. Doc12gmds158

DOI: 10.3205/12gmds158, URN: urn:nbn:de:0183-12gmds1585

Published: September 13, 2012

© 2012 Zöllner et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution License (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.en). You are free: to Share – to copy, distribute and transmit the work, provided the original author and source are credited.


Outline

Text

Einleitung: Multiple Regressionsanalysen werden häufig in wissenschaftlichen Untersuchungen eingesetzt, um Zusammenhänge zwischen mehreren Variablen anhand von Regressionskoeffi-zienten darzustellen. Bei epidemiologische Fragestellungen z.B. zu Zusammenhängen zwischen Körpermaßen (Gewicht, Größe, BMI, Taillenumfang) und gesundheitsrelevanten Parametern wird häufig davon ausgegangen, dass sich die Einflüsse einzelner Variablen auf die jeweilige Zielgröße – soweit vorhanden – mit Hilfe von multiplen Regressionsanalysen anhand der ermittelten Regressionskoeffizienten gegeneinander abgrenzen lassen. Hintergrund der vorgestellten Untersuchung sind entsprechende Fragen aus einem umweltmedizinischen Projekt in Baden-Württemberg, bei dem in mehreren Querschnittsstudien die Einflüsse verschiedener Faktoren auf gesundheitliche Zielgrößen wie Laborparameter aus dem Biomonitoring oder Lungenfunktionsparameter mit Hilfe multipler linearer Regressionsmodelle analysiert wurden.

Methoden: In dieser Simulationsstudie wurden unterschiedliche Modellsituationen betrachtet, um die Frage zu untersuchen, ob und wie per Simulation generierte Zusammenhänge zwischen zufällig erzeugten Einfluss- und Zielgrößen in verschiedenen Modellsituationen bei „Auswertung“ in multiplen Regressionsanalysen mit Hilfe der Prozedur PROC REG von SAS in den Ergebnissen entsprechend widergespiegelt werden. Insbesondere unter Bedingungen der Kollinearität zwischen Einflussgrößen sollte anhand von konkreten Zufallsmodellen geklärt werden, ob und in welchem Umfang mögliche Einflussfaktoren und Zusammenhänge unerkannt bleiben können oder nur unzutreffend in den Ergebnissen abgebildet werden. Geben die berechneten Regressionskoeffizienten die in der Simulation zur Erzeugung der „Modelldaten“ verwendeten Werte im wesentlichen wieder? Die generierten Modelldaten lassen sich zwei Situationsgruppen zuordnen:

  • Modellsituationen, in denen die Werte der „Einflussvariablen“ unabhängig voneinander erzeugt wurden,
  • Modellsituationen, in denen die Werte der „Einflussvariablen“ nicht unabhängig voneinander erzeugt wurden.

Bei der Auswertung der zufällig erzeugten Modelldaten unter Verwendung der Prozedur PROC REG in SAS wurden die vom Programm ermittelten Regressionskoeffizienten mit den bei der Generierung der „Modelldaten“ verwendeten Werten verglichen.

Ergebnisse: Vergleicht man die in den verschiedenen Modellsituationen ermittelten Regressionskoeffizienten mit den in der Simulation verwendeten Werten für die einzelnen Einflussgrößen, so zeigt sich in den meisten der betrachteten Modellsituationen, in denen die Einflussgrößen unabhängig voneinander erzeugt waren, eine gute Übereinstimmung zwischen den in der Simulation eingesetzten und den geschätzten Koeffizienten. In den Situationen, in denen Einflussgrößen nicht unabhängig voneinander erzeugt waren, kam es jedoch wegen der komplexeren Korrelationsstrukturen auch zu Abweichungen der ermittelten Regressionskoeffizienten von den für die Generierung der Modelldaten verwendeten Werten, so dass bei Vorliegen von Kollinearität die ermittelten Regressionkoeffizienten nicht notwendigerweise die tatsächlichen Zusammenhänge widerspiegeln müssen und deshalb mit entsprechender Vorsicht zu interpretieren sind.

Schlussfolgerungen: Auf Grund der oben beschriebenen Ergebnisse empfiehlt es sich, bei multiplen Regressi-onsanalysen die in einer Untersuchung erhobenen potentiellen Einflussfaktoren zunächst auf Korrelationen untereinander zu untersuchen, um dann bei der Auswahl der für die Regressionsanalyse zu verwendenden Einflussvariablen Multikollinearität möglichst zu vermeiden. Multiple Regressionsanalysen, in denen mehrere untereinander stark korrelierte Einflussvariablen gleichzeitig berücksichtigt werden, bergen das Risiko, zu irreführenden Regressionskoeffizienten und Ergebnissen zu führen.