gms | German Medical Science

63. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V. (GMDS)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie

02. - 06.09.2018, Osnabrück

Automatisierte Datenbereinigung und Standardisierung der Prozesskommunikation zur Erhöhung der Transparenz der Datenkuration in einer Kohortenstudie

Meeting Abstract

  • André Werner - Universitätsmedizin Greifswald, Greifswald, Deutschland
  • Kristin Henselin - Institut für Community Medicine, Universitätsmedizin Greifswald, Greifswald, Deutschland
  • Susanne Westphal - Institut für Community Medicine, Universitätsmedizin Greifswald, Greifswald, Deutschland
  • Carolin Zimak - Institut für Community Medicine, Universitätsmedizin Greifswald, Greifswald, Deutschland
  • Jörg Henke - Institut für Community Medicine, Universitätsmedizin Greifswald, Greifswald, Deutschland
  • Janka Schössow - Institut für Community Medicine, Universitätsmedizin Greifswald, Greifswald, Deutschland
  • Carsten Oliver Schmidt - Universität Greifswald, Greifswald, Deutschland

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie. 63. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (GMDS). Osnabrück, 02.-06.09.2018. Düsseldorf: German Medical Science GMS Publishing House; 2018. DocAbstr. 274

doi: 10.3205/18gmds014, urn:nbn:de:0183-18gmds0143

Published: August 27, 2018

© 2018 Werner et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License. See license information at http://creativecommons.org/licenses/by/4.0/.


Outline

Text

Einleitung: Bevölkerungsbezogene Kohortenstudien in den Gesundheitswissenschaften zeichnen sich durch eine hohe Komplexität und große Datenmengen aus. Ein Beispiel sind die SHIP-Studien [1]. Bei insgesamt 8728 Probanden wurden in dutzenden Untersuchungen pro Erhebungswelle bis mehr als 7.000 Variablen an räumlich voneinander getrennten Orten erhoben. Dies stellt in multidisziplinären Teams hohe Anforderungen an ein effizientes, regelmäßiges und zeitnahes Management von Datenauffälligkeiten und deren Bereinigung. Bei unstrukturierten Kommunikations- und Datenmanipulationsprozessen kann die Transparenz der erreichten Datenqualität und damit die Nachhaltigkeit der Studie relevant eingeschränkt werden.

Stand der Forschung: Während in Kohortenstudien eine Erfassung von Daten mittels eCRF mit einem begleitenden zentralisierten Datenmanagement gängige Praxis ist, gilt das nicht in gleichem Maße für automatisierte Prozesse der Datenkuration. Vor diesem Hintergrund wird ein modular aufgebautes Datenbereinigungskonzept mit begleitendem Frontend für die formalisierte Erfassung der Kommunikation zwischen Prozessbeteiligten zum Umgang mit Datenauffälligkeiten beschrieben.

Konzept: Die Datenerfassung in SHIP erfolgt größtenteils über eCRFs mit einem PostgreSQL Backend. Das zentralisierte Datenmanagement wurde komplementiert durch ein in SAS programmiertes, automatisiertes Prozedere, das alle relevanten Teilschritte einer Datenbereinigung umfasst [2]. Dieses löste eine vormals quartalsweise durchgeführte manuelle Datenkorrektur ab. Die begleitende Kommunikation wird über ein ACCESS Frontend mit vorgeschalteter, individueller Benachrichtigung via Email beim Auftreten von Prüffällen abgebildet. Untersucher und Qualitätsverantwortliche sind dadurch in der Lage, Prüffälle Online zu bewerten. Dabei werden standardisierte Bewertungsoptionen vorgegeben, um Gründe für Verfahrensentscheidungen transparent und vollständig zu dokumentieren.

Implementierung: Die modular aufgebaute Sammlung von SAS Makros besteht aus den folgenden Funktionen:

  • Metadaten: Metadaten für die Datenbeschreibung werden bereitgestellt
  • Dataexport: Auslesen der Studiendaten aus PostgreSQL
  • Reference: Vollständigkeitskontrolle durch Abgleich mit einer Referenzdatei
  • Checklist: Detektion und Weiterleitung von Prüffällen über das ACCESS Frontend
  • Correction: Ergebnisse der Prüffallkontrolle per ACCESS Frontend werden zur Datenkorrektur verwendet
  • Jumps: Setzen erlaubter Sprüngen
  • Access Frontend
  • TRAFOVARS: Berechnung neuer Variablen sowie Kontrollvariablen für die Qualitätssicherung
  • Statistics: Erstellung deskriptiver Statistiken
  • Consent: Aktualisierung von Teilnahmestatus und Einverständnissen
  • Dataimport: Ablage bereinigter Daten in PostgreSQL und ins FILESYSTEM zur weiteren Verarbeitung
  • Datatransfer: Uuml;bergabe bereinigter Studiendaten

Wegen der langen Laufzeit von ca. 3h wird der Bereinigungsprozess nur nachts ausgeführt. Somit stehen tagesaktuelle aufbereitete Studiendaten zur Verfügung. Prüffälle, wie z.B. unplausible oder fehlende Werte, werden Untersuchern sowie Qualitätsverantwortlichen per Korrekturmaske (MS ACCESS) automatisch zur Verfügung gestellt. Korrekturvorschläge werden im Zuge der Bereinigung automatisch ausgelesen sowie in die Daten eingepflegt. Sofern sich eine Fehlersystematik aufzeigt, können in der MS ACCESS Maske Standardregeln hinterlegt werden.

Lessons Learned: Trotz initial kritischer Meinungen zur Umsetzbarkeit zeigte sich, dass die große Mehrheit von Datenauffälligkeiten mit Standardregeln bearbeitet werden kann. Dennoch bleiben im Einzelfall manuelle Prüfungen unabdingbar, deren Ablauf in einem Regelwerk abbildbar ist. Die Umstellung der Datenaufbereitung auf ein automatisiertes Prozedere bedingt eine wesentlich höhere Verfügbarkeit bereinigter Daten bei einem erheblich reduzierten Ressourcenbedarf für die Pflege und Weiterentwicklung.

Diskussion: Die komplette Formalisierung der Kommunikationen und Entscheidungen zum Umgang mit Datenauffälligkeiten ermöglicht eine deutlich höhere Transparenz, da nicht nur die Datenkorrekturen selbst, sondern auch deren Begründungen dokumentiert sind. Dies erhöht die Transparenz und Nachhaltigkeit der SHIP-Studien. Die Modularität bedingt eine Portabilität auf andere Studien.

Die Autoren geben an, dass kein Interessenkonflikt besteht.

Die Autoren geben an, dass kein Ethikvotum erforderlich ist.


Literatur

1.
Völzke H, Alte D, Schmidt CO, Radke D, Lorbeer R, Friedrich N, Aumann N, Lau K, Piontek M, Born G, Havemann C, Ittermann T, Schipf S, Haring R, Baumeister SE, Wallaschofski H, Nauck M, Frick S, Arnold A, Jünger M, Mayerle J, Kraft M, Lerch MM, Dörr M, Reffelmann T, Empen K, Felix SB, Obst A, Koch B, Gläser S, Ewert R, Fietze I, Penzel T, Dören M, Rathmann W, Haerting J, Hannemann M, Röpcke J, Schminke U, Jürgens C, Tost F, Rettig R, Kors JA, Ungerer S, Hegenscheid K, Kühn JP, Kühn J, Hosten N, Puls R, Henke J, Gloger O, Teumer A, Homuth G, Völker U, Schwahn C, Holtfreter B, Polzer I, Kohlmann T, Grabe HJ, Rosskopf D, Kroemer HK, Kocher T, Biffar R, John U, Hoffmann W. Cohort profile: the study of health in Pomerania. Int J Epidemiol. 2011 Apr;40(2):294-307. DOI: 10.1093/ije/dyp394 External link
2.
Werner A, Maiwald S, Henselin K, Westphal S, Henke J, Alte D, Völzke H, Schmidt CO. Modular automatisierte Datenbereinigung in einer großen Bevölkerungsstudie. In: JF Chenot, R Minkenberg, Hrsg. Proceedings der 20. Konferenz der SAS®-Anwender in Forschung und Entwicklung (KSFE). Aachen: Shaker Verlag; 2016. S. 279-84.