gms | German Medical Science

MAINZ//2011: 56. GMDS-Jahrestagung und 6. DGEpi-Jahrestagung

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V.
Deutsche Gesellschaft für Epidemiologie e. V.

26. - 29.09.2011 in Mainz

Imputation von fehlenden Werten des Tumorstadiums in epidemiologischen Registern

Meeting Abstract

Search Medline for

  • Nora Eisemann - Institut für Krebsepidemiologie, Lübeck
  • Annika Waldmann - Institut für klinische Epidemiologie e.V. , Universität Lübeck, Lübeck
  • Alexander Katalinic - Institut für Krebsepidemiologie und Institut für klinische Epidemiologie e.V. , Universität Lübeck, Lübeck

Mainz//2011. 56. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (gmds), 6. Jahrestagung der Deutschen Gesellschaft für Epidemiologie (DGEpi). Mainz, 26.-29.09.2011. Düsseldorf: German Medical Science GMS Publishing House; 2011. Doc11gmds065

DOI: 10.3205/11gmds065, URN: urn:nbn:de:0183-11gmds0658

Published: September 20, 2011

© 2011 Eisemann et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution License (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.en). You are free: to Share – to copy, distribute and transmit the work, provided the original author and source are credited.


Outline

Text

Einleitung: Fehlende Werte im Tumorstadium sind ein verbreitetes Problem in epidemiologischen Krebsregistern. Bei der Evaluation von Früherkennungsprogrammen (z.B. Mammographie-Screening) ist es wichtig, dass fehlende Stadienangaben angemessen berücksichtigt werden, um verzerrte Ergebnisse zu vermeiden. Unsere Studie untersucht daher drei Varianten der multiplen Imputation zur Analyse der stadienspezifischen Inzidenzraten bei Hautkrebs (Malignes Melanom) und weiblichem Brustkrebs.

Material und Methoden: Aus dem epidemiologischen Krebsregister Schleswig-Holstein wurden ein Datensatz zum malignen Melanom (ICD10: C43) und zu Brustkrebs (ICD10: C50) mit Diagnose zwischen 2000 und 2008 gezogen. Die Fälle, für die alle Daten zum Tumorstadium vorhanden waren, wurden als Basis für Datensätze mit simulierten fehlenden Werten verwendet. Die fehlenden Werte im Tumorstadium (sowohl T-Stadium als auch UICC-Stadium) wurden mit multipler Imputation mit „chained equations“ behandelt. Als Imputationsmodelle wurden polytome Regression, Predictive mean matching, Random forests und proportionales Sampling verwendet. Anschließend wurden die individuellen Stadienvorhersagen, die stadienspezifischen Fallzahlen und die stadienspezifischen Kaplan-Meier-Survivalkurven mit den entsprechenden wahren Werten verglichen.

Ergebnisse: Das T-Stadium war in 39% der Hautkrebsfälle und in 6% der Brustkrebsfälle nicht bekannt. Das UICC-Stadium konnte aufgrund mindestens einer fehlenden TNM-Angabe in 69% bzw. 20% der Fälle nicht berechnet werden.

Als potentielle Imputationsvariablen standen u.a. Alter, Geschlecht, Überlebenszeit, Vitalstatus, T-Stadium, N-Stadium, M-Stadium und Grading zur Verfügung.

Multiple Imputation mit polytomer Regression als Imputationsmodell führt zu Ergebnissen, die den wahren Werten sehr nahe kommen. Predictive mean matching als Imputationsmodell erzielt bei kürzerer Rechenzeit nahezu ebenso gute Ergebnisse. Random forest oder proportionales Sampling führen häufiger zu verzerrten oder ungenauen Schätzungen.

Für das maligne Melanom fehlen zu viele Werte, als dass plausible UICC-Stadien-spezifische Auswertungen möglich wären.

Diskussion: Multiple Imputation ist eine geeignete Methode für den Umgang mit fehlenden Werten im Tumorstadium in epidemiologischen Krebsregistern. Die Anwendung ist besonders wichtig, wenn sich die tatsächliche Stadienverteilung bei unbekanntem Stadium nicht ermitteln lässt und auch nicht identisch mit der beobachteten Stadienverteilung ist. Auch wenn sich mittels multipler Imputation meist keine völlig unverzerrte Schätzung erstellen lässt, ist die Berechnung wichtiger Maßzahlen in ausreichender Güte möglich, solange sich der Anteil fehlender Werte im Rahmen hält.