gms | German Medical Science

GMDS 2014: 59. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V. (GMDS)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie

07. - 10.09.2014, Göttingen

Zentrales Datenmanagement im Leipziger Forschungszentrum für Zivilisationserkrankungen: Überblick über Prozesse und Methoden

Meeting Abstract

  • F. Girlich - LIFE Forschungszentrum für Zivilisationserkrankungen, Universität Leipzig, Leipzig; IMISE – Institut für Medizinische Informatik, Statistik und Epidemiologie, Universität Leipzig, Leipzig
  • R. Stein - LIFE Forschungszentrum für Zivilisationserkrankungen, Universität Leipzig, Leipzig; IMISE – Institut für Medizinische Informatik, Statistik und Epidemiologie, Universität Leipzig, Leipzig
  • S. Henger - LIFE Forschungszentrum für Zivilisationserkrankungen, Universität Leipzig, Leipzig; IMISE – Institut für Medizinische Informatik, Statistik und Epidemiologie, Universität Leipzig, Leipzig
  • A. Uciteli - LIFE Forschungszentrum für Zivilisationserkrankungen, Universität Leipzig, Leipzig; IMISE – Institut für Medizinische Informatik, Statistik und Epidemiologie, Universität Leipzig, Leipzig
  • C. Engel - LIFE Forschungszentrum für Zivilisationserkrankungen, Universität Leipzig, Leipzig; IMISE – Institut für Medizinische Informatik, Statistik und Epidemiologie, Universität Leipzig, Leipzig
  • M. Löffler - LIFE Forschungszentrum für Zivilisationserkrankungen, Universität Leipzig, Leipzig; IMISE – Institut für Medizinische Informatik, Statistik und Epidemiologie, Universität Leipzig, Leipzig; Interdisziplinäres Zentrum für Bioinformatik, Universität Leipzig, Leipzig
  • T. Kirsten - LIFE Forschungszentrum für Zivilisationserkrankungen, Universität Leipzig, Leipzig; Interdisziplinäres Zentrum für Bioinformatik, Universität Leipzig, Leipzig

GMDS 2014. 59. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (GMDS). Göttingen, 07.-10.09.2014. Düsseldorf: German Medical Science GMS Publishing House; 2014. DocAbstr. 350

doi: 10.3205/14gmds226, urn:nbn:de:0183-14gmds2262

Veröffentlicht: 4. September 2014

© 2014 Girlich et al.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielfältigt, verbreitet und öffentlich zugänglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Gliederung

Text

Einleitung und Fragestellung: Das "Leipziger Forschungszentrum für Zivilisationserkrankungen“ (LIFE) ist eine große epidemiologische Studie, die sich der Erforschung von Ursachen wichtiger Volkskrankheiten widmet. Im Zentrum der LIFE-Forschung stehen: Gefäßerkrankungen und Herzinfarkt, Diabetes mellitus und Adipositas, Depression, Demenz, Entzündungen der Bauchspeicheldrüse, Kopf- und Halstumore sowie Allergien und Stoffwechselstörungen. Bis Ende 2014 werden 26.500 Leipziger – Kinder und Erwachsene – klinisch und bioanalytisch untersucht sowie zu ihren persönlichen Lebensbedingungen befragt. Ziel von LIFE ist es, das Zusammenspiel von genetischen Anlagen, Stoffwechsel, Umweltbedingungen und individuellem Lebensstil an einem Standort anhand repräsentativer Stichproben zu ergründen. Als organisatorisches Bindeglied zwischen IT, den verschiedenen Forschungsgruppen sowie der Bioinformatik/Biometrie ist das LIFE-Datenmanagement für die Prozesse Datenerhebung, Harmonisierung und Qualitätskontrolle sowie Datenbereitstellung zuständig. Diese sind durch entsprechende SOPs fundiert und werden von einer Reihe von Software-Applikationen unterstützt, die größtenteils Eigenentwicklungen der -eigenen IT-Gruppe sind.

Material und Methoden: Der gesamte Datenerfassungsprozess in LIFE ist als Datenquellprozess (DQP) formalisiert. Jeder Prozess, der Daten einmalig oder in unablässiger Folge einer bestimmten unveränderlichen Art erzeugt, wird unter einer eindeutigen DQP-Nummer verwaltet. Dem Datenmanagement obliegt die Generierung und Verwaltung der DQP-Nummern.

Für die Datenerfassung in den Ambulanzen (Untersuchungen, Interviews, Fragebögen, Tests) werden die frei verfügbare Software LimeSurvey (Online-Dateneingabe) sowie das kommerzielle System TeleForm (Scan ausgefüllter Papierformulare) eingesetzt. Das Datenmanagement unterstützt bei der Erstellung und Verifizierung der Eingabemasken und Formulare und aktiviert diese für den Produktivbetrieb.

Vor dem Import in die zentrale Forschungsdatenbank werden im Zuge der Datenharmonisierung die aufgenommenen Daten bzgl. ihrer Struktur vereinheitlicht. Strukturelle Differenzen bezüglich eines Erhebungsinstruments ergeben sich aus der fortwährenden Anpassung der Eingabemasken. Bspw. können Fragen/Items neu hinzukommen, verändert werden oder wegfallen. Dieses inhaltliche Zusammenführen von Fragen bzw. Items und Fragencodes aus unterschiedlichen Versionsständen eines Instruments wird als Mapping bezeichnet. Darüber hinaus können in diesem Prozess Aliase für Tabellen und Variablen vergeben werden, um die Auswertung der Daten zu erleichtern.

Für die Qualitätskontrolle stehen verschiedenste tabellarische Reports bereit, die sowohl unvollständige Datensätze, Duplikate als auch Inkonsistenzen bezüglich des Formates und der verwendeten Code-Listen aufzeigen. Zusätzlich steht eine Software-Applikation zur Verfügung, die das Monitoring der Daten hinsichtlich der Kuration von Transformationsfehlern unterstützt.

Der Zugang zu Daten und Proben in LIFE wird über Projektvereinbarungen (PV) geregelt. Jedes LIFE-Mitglied ist berechtigt, einen PV-Antrag einzureichen, der anschließend einem internen Review unterzogen wird. Daten und Proben werden unter ihrer jeweiligen DQP-ID beim Datenmanagement angefordert. Zur Generierung der Datenbank-Abfragen der vom Antragsteller spezifizierten DQPs wird der eigens entwickelte Query-Generator verwendet, der als Plugin für den Ontologie-Editor Protégé implementiert ist. Die Datenabfrage ist sowohl DQP- als auch variablenspezifisch möglich. Neben den Daten im xls oder csv Format erhält der Antragsteller elektronisch erzeugte annotierte CRFs der angeforderten DQPs.

Schließlich unterstützt das LIFE Datenmanagement die Konstruktion abgeleiteter Daten, sogenannter Derivate. Diese Daten werden nach einem festgelegten Algorithmus aus den Rohdaten berechnet und unter einer neuen DQP in die Forschungsdatenbank importiert.

Ergebnisse: Bislang werden mehr als 450 (43) Instrumente in LimeSurvey (Teleform) produktiv genutzt, die in mehr als 875 (160) Versionen vorliegen. Für die Erfassung von Daten apparativer Untersuchungen sind mehr als 35 DQPs im Einsatz. Für die Analyse im angeschlossenen Direktlabor wurden mehr als 70 DQPs für verschiedene Parametergruppen definiert. Über 40 DQPs für Derivate sind umgesetzt. Alle Daten dieser DQPs stehen für Auswertungen zur Verfügung. Die Datenkontrolle wird kohortenspezifisch und kontinuierlich durchgeführt, um eine hohe Datenqualität für die Auswertungen zu gewährleisten. Das Mapping neuer Versionen von Lime Survey und TeleForm Instrumenten erfolgt regelmäßig, um die Verfügbarkeit aller Datensätze sicherzustellen. Die Überführung von Daten aus weiteren apparativen Untersuchungen u.a. externen Datenquellen in die Forschungsdatenbank wird aktuell zum Abschluss gebracht. Zum jetzigen Zeitpunkt wurden mehr als 110 Auswertungsprojekte (PVs) aktiviert, für die Daten bereitgestellt wurden.

Diskussion: Das Datenmanagement ist als zentrale Schnittstelle zwischen Ambulanzen, IT und beteiligten Wissenschaftlern in LIFE etabliert und ist für alle Kohorten und Projektgruppen in LIFE zuständig. Das zentrale Datenmanagement ermöglicht somit eine kohortenübergreifende Standardisierung der Datenerhebung und Qualitätskontrolle. Durch die Umsetzung eines übergreifenden Harmonisierungskonzepts wird gewährleistet, dass alle Daten in der Forschungsdatenbank in einer einheitlichen Struktur abgelegt werden. Die Herausgabe von Forschungsdaten über das Datenmanagement trägt im LIFE Verbund zu einer effektiven und transparenten Forschungsarbeit bei.

Alle Prozesse im Datenmanagement unterliegen einer laufenden Überprüfung und werden ggf. an sich ändernde Rahmenbedingungen angepasst.