gms | German Medical Science

MAINZ//2011: 56. GMDS-Jahrestagung und 6. DGEpi-Jahrestagung

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V.
Deutsche Gesellschaft für Epidemiologie e. V.

26. - 29.09.2011 in Mainz

Analyse von Imputationsmethoden für finite Gauß-Mischverteilungen

Meeting Abstract

Suche in Medline nach

  • Sylvia Zebrowski - Kompetenzzentrum für Klinische Studien, Universität Bremen, Bremen
  • Jürgen Timm - Kompetenzzentrum für Klinische Studien, Universität Bremen, Bremen

Mainz//2011. 56. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (gmds), 6. Jahrestagung der Deutschen Gesellschaft für Epidemiologie (DGEpi). Mainz, 26.-29.09.2011. Düsseldorf: German Medical Science GMS Publishing House; 2011. Doc11gmds066

DOI: 10.3205/11gmds066, URN: urn:nbn:de:0183-11gmds0661

Veröffentlicht: 20. September 2011

© 2011 Zebrowski et al.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielfältigt, verbreitet und öffentlich zugänglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Gliederung

Text

Hintergrund: In der klinischen Forschung stehen dem Anwender oft nur unvollständige Datensätze zur Verfügung, die aus unterschiedlichen Gründen, wie z.B. Datenverlust, unbeantwortete Fragen oder unbrauchbare Laborwerte, entstehen können. Aufgrund solcher Fehlwerte besteht ein Informationsverlust, der die Verwendung vieler statistischer Methoden nicht mehr möglich macht. In solchen Fällen gilt es, die Fehlwerte durch plausible Imputationswerte zu ersetzen. Eine weitere Schwierigkeit, die sich in der Praxis der klinischen Forschung ergibt, ist die Verteilung der Zielvariablen. Die Daten können nur selten mit einer üblichen Verteilung wie z.B. der Normalverteilung approximiert werden. Vielmehr kommt es vor, dass die gezogene Stichprobe nicht aus einer, sondern aus mehreren Subpopulationen besteht. Die Heterogenitäten zwischen den Subpopulationen können mit finiten Mischverteilungen modelliert werden, dessen Parameterschätzung am häufigsten durch den EM-Algorithmus erfolgt, vgl. [1]. Diese beiden Themengebiete werden in einem Forschungsprojekt der Universität Bremen vereint, indem Imputationsmethoden für finite Mischverteilungen analysiert werden.

Methoden: Während einfache und zum größten Teil veraltete Imputationsmethoden in fast allen statistischen Softwareprodukten enthalten sind, werden weiterentwickelte Imputationsmethoden wie z.B. die multiple Imputation (vgl. [2]) vergleichsweise wenig angewendet. Simulierte Szenarien von Fehlwerten in Gauß-Mischverteilungen mit Berücksichtigung von Fehlwertmechanismen und unterschiedlichen Fehlwertraten sollen hierbei mit verschiedenen multiplen Imputationsstrategien ersetzt und untersucht werden. Für die Analyse der vervollständigten Datensätze werden die Parameterschätzer der Gauß-Mischverteilung mittels EM-Algorithmus ausgewertet, um anschließend eine Aussage im Vergleich zu den Originalparametern treffen zu können.

Ergebnisse: Aus Gründen der Übersichtlichkeit soll hier nur der Spezialfall einer Mischung zweier bivariater Normalverteilungen vorgestellt werden. Die Resultate der Simulationsstudie zeigten nicht nur gegenüber einfachen Imputationsmethoden sondern auch zwischen den multiplen Imputationsstrategien Vor- und Nachteile in Bezug auf die Erhaltung der eigentlichen Parameter der mischverteilten Daten. Neben Standardmethoden wurden in Anlehnung an die Arbeit von [3] auch die flexiblen Eigenschaften einer finiten Mischverteilung in die Imputationsmethode mit einbezogen, wobei besonders positiv die Imputation mittels Datenaugmentation und Predictive Mean Matching aufgefallen ist.

Schlussfolgerungen: Die bisherigen Überlegungen und Ergebnisse in der Literatur bilden die Grundlage und Motivation für eine detaillierte Analyse von Imputationsmethoden in Bezug auf die Subgruppen einer Gauß-Mischverteilung, die bislang so noch nicht durchgeführt wurde. Sowohl die Imputation als auch die Analyse soll dabei unter Berücksichtigung der Subpopulationen, des Fehlwertmechanismus und der Fehlwertrate erfolgen und dabei plausible Imputationswerte liefern sowie die Verteilung der Subpopulationen und den Zusammenhängen zu den Kovariablen besser wiedergeben als bisherige Standardmethoden.


Literatur

1.
McLachlan GJ, Peel D. Finite mixture models. Wiley-Interscience; 2000.
2.
Rubin DB. Multiple imputation for nonresponse in sample surveys. New York: Wiley; 1987.
3.
Di Zio M, Guarnera U. On Multiple Imputation Through Finite Gaussian Mixture Models. Data Analysis, Machine Learning and Applications. Springer; 2008. p. 111-118.