gms | German Medical Science

50. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (gmds)
12. Jahrestagung der Deutschen Arbeitsgemeinschaft für Epidemiologie (dae)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie
Deutsche Arbeitsgemeinschaft für Epidemiologie

12. bis 15.09.2005, Freiburg im Breisgau

Multiple Imputation von fehlenden Werten in epidemiologischen Beobachtungsstudien am Beispiel der Niedersächsischen Lungenstudie NiLS

Meeting Abstract

  • Anja Kühnlein - LMU, München
  • Anja Schulze - LMU, München
  • Vera Ehrenstein - LMU, München
  • Christian Heumann - LMU, München
  • Leonhard Held - LMU, München
  • Dennis Nowak - LMU, München
  • Katja Radon - LMU, München

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie. Deutsche Arbeitsgemeinschaft für Epidemiologie. 50. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (gmds), 12. Jahrestagung der Deutschen Arbeitsgemeinschaft für Epidemiologie. Freiburg im Breisgau, 12.-15.09.2005. Düsseldorf, Köln: German Medical Science; 2005. Doc05gmds079

Die elektronische Version dieses Artikels ist vollständig und ist verfügbar unter: http://www.egms.de/de/meetings/gmds2005/05gmds074.shtml

Veröffentlicht: 8. September 2005

© 2005 Kühnlein et al.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielfältigt, verbreitet und öffentlich zugänglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Gliederung

Text

Einleitung und Fragestellung

Ein häufig vorkommendes Problem in epidemiologischen Studien ist das Auftreten unvollständig beobachteter Fälle aufgrund von unvollständigen Fragebogenangaben. Eine andere Möglichkeit sind medizinische Untersuchungen, die nur an einer Teilpopulation durchgeführt werden können.

Multiple Imputation ist eine Methode, mit der man solche Datensätze vervollständigen kann und mit der die Unsicherheit der aufgefüllten Werte berücksichtigt werden kann, so dass diese Methode zu statistisch gültigen Schätzungen führt [1], [2]. Hierbei wird der Datensatz mehrmals (etwa 5-10 Mal) vollständig aufgefüllt, um die Abweichungen der einzelnen vervollständigten Datensätze voneinander berücksichtigen zu können. Die einzelnen Analyse-Ergebnisse werden dazu zu einem durchschnittlichen Endergebnis kombiniert. Problematisch ist bislang die zuverlässige Imputation kategorialer bzw. binärer Variablen.

Ziel der hier vorgestellten Arbeit war die Entwicklung eines geeigneten Verfahrens zur Multiplen Imputation im Rahmen der NiLS-Studie [3]. Dieses Verfahren sollte mit anderen Methoden im Umgang mit fehlenden Werten verglichen werden.

Material und Methoden

Im Rahmen von NiLS nahmen 6937 Probanden im Alter zwischen 18 und 44 Jahren aus ländlichen Gemeinden Niedersachsens an einer Querschnittsuntersuchung teil (Fragebogenrücklauf 68%). Zusätzlich wurde eine a-priori ausgewählte randomisierte Stichprobe zu klinischen Untersuchungen (spezifisches IgE, Lungenfunktionsuntersuchung, bronchiale Provokation) eingeladen, an diesen nahmen 2812 Personen teil. Der Anteil der fehlenden Werte lag für einzelne Items des Fragebogens bei 0,5 bis maximal 10%. Aufgrund der Durchführung der klinischen Untersuchungen in einer Stichprobe ergaben sich hier fehlende Werte für 55 bis 68% der Probanden.

Die zur Imputation der fehlenden Werte in diesem Datensatz programmierte Methode basiert auf einer sequentiellen Regressions-Imputation. Sie wurde mit Hilfe der statistischen Software R umgesetzt [4]. Bei diesem Verfahren wird nacheinander jede unvollständige Variable mit Hilfe eines logistischen Regressionsmodells auf die vollständigen bzw. bereits imputierten Variablen regressiert. Daraus ergibt sich jeweils eine Vorhersagewahrscheinlichkeit, mit der 0- oder 1-Werte aus einer Bernoulli-Verteilung gezogen werden. Mit diesen gezogenen Werten werden die fehlenden Daten aufgefüllt.

Die Ergebnisse der Methode der Sequentiellen Regressions-Imputation wurden mit zwei Standardmethoden im Umgang mit fehlenden Werten verglichen. Hierbei handelte es sich um die Complete-case Analyse, bei der nur alle vollständigen Fälle analysiert werden sowie um die Analyse mit Fehlend-Kategorie, bei der die fehlenden Werte eine eigene Ausprägungs-Kategorie erhalten.

Die für diesen Vergleich verwendeten Zielgrößen waren die Fragebogenangabe allergische Rhinitis, giemende Atemgeräusche sowie der klinische Parameter Sensibilisierung gegenüber ubiquitären Allergenen (SX-1). Als Prädiktoren diente die selbstberichtete Geruchsbelästigung in der Wohnumgebung. Als mögliche Confounder wurden Alter, Geschlecht, Rauchen, Ex-Rauchen, Passivrauchexposition jetzt und in der Kindheit, Bildung, allergische Erkrankungen in der Familie und Anzahl der Geschwister berücksichtigt. In den Analysen berücksichtigt wurden nur Probanden mit beruflichem oder privatem Kontakt zur Landwirtschaft (n=3228).

Ergebnisse

Die Ergebnisse der drei angewendeten Analyseverfahren sind in der Tabelle 1 [Tab. 1] gegenüber gestellt. Während sich die Complete-Case Analyse kaum von den Ergebnissen der Multiplen Imputation unterschied, wichen die Ergebnisse der Analyse mit Fehlend-Kategorie oft stark von denen der anderen beiden Methoden ab.

Diskussion

Das verwendete Verfahren zur Multiplen Imputation für binäre Daten liefert plausible Ergebnisse. Werden Verfahren zur Multiplen Imputation nicht eingesetzt, sollte die Complete-case Analyse der Verwendung von Fehlend-Kategorien vorgezogen werden. Diese liefert zuverlässige Ergebnisse so lange der Anteil fehlender Werte gering ist.

Die Anwendung von Multipler Imputation setzt voraus, dass die Daten missing at random (MAR) sind, d.h., die Wahrscheinlichkeit für das Fehlen der Daten hängt zwar von den beobachteten Werten des Datensatzes ab, nicht aber von den fehlenden Werten. Die MAR-Annahme lässt sich in der Praxis allerdings nicht rechnerisch belegen.

Eine weitere Überprüfung, bis zu welchem Ausmaß an fehlenden Werten in einem Datensatz Ergebnisse von Multiplen Imputations-Verfahren robust sind, ist wünschenswert. Dies könnte mit Hilfe von Simulations-Studien geschehen.

Bei der Methode der Sequentiellen Regressions-Imputation müsste zudem überprüft werden, wie robust die Methode gegenüber Änderungen der Reihenfolge bei der Imputation der Variablen ist.

Danksagung

Wir danken allen Teilnehmern sowie dem Untersuchungsteam. Mit Unterstützung durch das Niedersächsische Ministerium für Soziales, Frauen, Familie und Gesundheit und die Europäische Union.


Literatur

1.
Little, R.J.A., Rubin, D.B. (2002), Statistical Analysis with Missing Data, New Jersey: John Wiley.
2.
Schafer, Joseph L. (1997), Analysis of Incomplete Multivariate Data, NewYork: Chapman\&Hall.
3.
Radon K, Schulze A, van Strien R, Ehrenstein V, Praml G, Nowak D, et al. Atemwegsgesundheit und Allergiestatus bei jungen Erwachsenen in ländlichen Regionen Niedersachsens. Abschlussbericht. 2004 http://aumento.web.med.uni-muenchen.de/nils/
4.
Computing R development Core Team. R Foundation for Statistical Analysis. R: A language and environment for statistical computing. URL http://www.R-project.org