gms | German Medical Science

MAINZ//2011: 56. GMDS-Jahrestagung und 6. DGEpi-Jahrestagung

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V.
Deutsche Gesellschaft für Epidemiologie e. V.

26. - 29.09.2011 in Mainz

Algorithmus zur Methodenwahl bei Missing Data in epidemiologischen Studien – ein Gesamtkonzept

Meeting Abstract

Search Medline for

  • Hatice Uenal - Institut für Epidemiologie und Medizinische Biometrie – Universität Ulm, Ulm
  • Jean-Baptist du Prel - Institut für Epidemiologie und Medizinische Biometrie – Universität Ulm, Ulm

Mainz//2011. 56. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (gmds), 6. Jahrestagung der Deutschen Gesellschaft für Epidemiologie (DGEpi). Mainz, 26.-29.09.2011. Düsseldorf: German Medical Science GMS Publishing House; 2011. Doc11gmds392

doi: 10.3205/11gmds392, urn:nbn:de:0183-11gmds3929

Published: September 20, 2011

© 2011 Uenal et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution License (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.en). You are free: to Share – to copy, distribute and transmit the work, provided the original author and source are credited.


Outline

Text

Einleitung/Hintergrund: Fehlende Werte („missings“) sind in epidemiologischen Studien nahezu unvermeidbar. Sie entstehen schon alleine bei Probandenverlust im Verlauf von Langzeituntersuchungen. Die Handhabung von Missings wird hingegen in epidemiologischen Publikationen selten erwähnt oder die Methodik wird nicht ausreichend beschrieben. Meist werden nur einzelne Verfahren zur Ersetzung von Missings genannt. Ein Gesamtkonzept fehlt. Auch gängige Statistikprogramme decken nur ein Teil aller möglichen Verfahren ab. Fehlende Werte können bei Ignorierung oder inadäquater Handhabung zu ernsthaften Verzerrungen von Studienergebnissen führen. Sie sind eine alltägliche Herausforderung mit der sich WissenschaftlerInnen auseinandersetzen müssen. Anliegen dieses Beitrages ist es eine problemorientierte Entscheidungshilfe zu Anwendung gängiger Verfahren der Ersetzung von Missing Data anhand eines Algorithmus zu geben.

Material und Methoden: Anhand einer selektiven Literaturrecherche zu gängigen Ersetzungsverfahren und durch Überprüfen dieser Methoden an eigenen Datensätzen wurde ein Entscheidungsbaum für die Wahl möglichst praktikabler Verfahren zur Handhabung von Missings als schnelle Entscheidungshilfe entwickelt.

Ergebnisse: Aufgrund von bestimmten Mustern oder Tests zu fehlenden Werten muss zunächst eine Entscheidung darüber fallen, ob es sich um MCAR (vollständig zufällig fehlende Werte), um MAR (zufällig fehlende Werte), oder um NMAR (nicht zufällig fehlende Werte) handelt, da sich das weitere Prozedere dann unterscheidet. Für MCAR kann, falls nicht zu viele Werte fehlen, das gängige Verfahren der Complete case-Analyse gerechtfertigt sein, da die vollständigen Fälle dann eine Zufallsstichprobe der Grundgesamtheit sind. Ungeeignet ist diese Methode für NMAR, da sich vollständige und unvollständige Beobachtungeinheiten systematisch unterscheiden. Für diesen Fall bietet sich ein inferenzstatistisches Verfahren zur Ersetzung der Missings an. Schwieriger gestaltet sich die Entscheidungsfindung für MAR bzw. MCAR mit zahlreichen Missings. Hier muss in Abhängigkeit vom Skalenniveau und von vermuteten Verteilungen die geeignete Methode gewählt werden (z.B. „Weighting“, Imputationsverfahren, Bootstrapverfahren).

Diskussion/Schlussfolgerungen: Schwierigkeiten bei der Ersetzung von Missings können immer dann auftreten, wenn der Anteil der fehlenden Werte für ein Merkmal groß ist. Es stellt sich dann die Frage, ob die Ersetzung von fehlenden Werten weniger wahrscheinlich gelingt. Sehr wahrscheinlich würde eine Complete case-Analyse aber dann durch Verlust zahlreicher Beobachtungseinheiten und damit verlorenen Merkmalsausprägungen auch für andere Variablen zur systematischen Verzerrung der Studienergebnisse führen. Nicht jedes Imputationsverfahren ist für alle Situationen geeignet. In diesem Beitrag wollen wir daher eine systematische Entscheidungshilfe für unterschiedliche Problemstellungen im Zusammenhang mit fehlenden Daten muster- und variablenbasiert anbieten und diskutieren.