Article
Imputation als Umgang mit fehlenden Werten: Ein Beispiel aus der Nephrologie
Search Medline for
Authors
Published: | September 13, 2012 |
---|
Outline
Text
Einleitung und Fragestellung: Die elektronischen Patienten- und Gesundheitsakten einiger Krankenhäuser erlauben die sekundäre Datenanalyse interessanter Fragestellungen. Da die Daten nicht primär für diese Fragestellungen erhoben wurden, liegen nicht alle Prädiktoren für alle Patienten vor. Trifft dies für eine große Zahl an Prädiktoren zu, so liegt oft nur für eine Minderheit der Patienten ein vollständiger Datensatz vor. Um auch die Information der unvollständigen Datensätze zu analysieren, kann eine Multiple Imputation (MI) angewendet werden. Die Auswirkungen einer solchen MI werden anhand einer Cox Analyse bei Dialysepatienten untersucht.
Material und Methoden: Die Daten wurden im QiN Programm des KfH gesammelt und für die Analyse aufgearbeitet. Insgesamt werden 30 Prädiktoren von 16.183 Patienten analysiert. Bei 26 dieser Prädiktoren kommt es zu fehlenden Werten. Bei 10428 Patienten fehlen im Mittel drei aber mindestens ein Prädiktor. Für Prädiktoren wird mit Hilfe der sas Prozeduren PROC MI und PROC MIANALYZE eine MI durchgeführt. Dabei wird auf die Imputationsprozedur von Rubin (1987 [1]) zurückgegriffen. Diese weist einem fehlenden Wert einen Satz möglicher Werte zu, um die Unsicherheiten der MI zu reflektieren.
Ergebnisse: Durch die MI war es möglich alle 16.183 Patienten in die Analyse mit einzubeziehen. Dabei wurden für einzelne Prädiktoren nicht mehr als 20% der Werte imputiert. Ein Cox Modell wurde mit imputierten Daten gerechnet und dem Cox Modell basierend auf vollständigen Daten gegenübergestellt. Dabei wurden wenige Veränderungen bei den geschätzten Effektgrößen festgestellt. Die geschätzten Standardfehler der Effekte waren jedoch deutlich geringer. Dabei werden sechs weitere Effektschätzer als signifikant eingestuft.
Diskussion: Die MI ist eine Möglichkeit nicht vollständige Datensätze in die Analyse mit einzubeziehen. Die Ergebnisse der Analyse mit vollständigen Datensätzen werden bestätigt. Durch die höhere Fallzahl ist es jedoch möglich, die Parameterschätzer genauer zu bestimmen.