gms | German Medical Science

66. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V. (GMDS), 12. Jahreskongress der Technologie- und Methodenplattform für die vernetzte medizinische Forschung e. V. (TMF)

26. - 30.09.2021, online

ODM-DQA-Reporter: Ein generischer Ansatz für einen Bericht zur Datenqualität von medizinischen Forschungsdaten im ODM-Standard

Meeting Abstract

  • Aysenur Süer - Institut für Medizinische Informatik, Westfälische Wilhelms-Universität Münster, Münster, Germany
  • Sarah Riepenhausen - Institut für Medizinische Informatik, Westfälische Wilhelms-Universität Münster, Münster, Germany
  • Michael Storck - Institut für Medizinische Informatik, Westfälische Wilhelms-Universität Münster, Münster, Germany
  • Leonard Greulich - Institut für Medizinische Informatik, Westfälische Wilhelms-Universität Münster, Münster, Germany
  • Claudia Zeidler - Klinik für Hautkrankheiten und Kompetenzzentrum chronischer Pruritus (KCP), Universitätsklinikum Münster, Münster, Germany
  • Sonja Ständer - Klinik für Hautkrankheiten und Kompetenzzentrum chronischer Pruritus (KCP), Universitätsklinikum Münster, Münster, Germany
  • Martin Dugas - Institut für Medizinische Informatik, Westfälische Wilhelms-Universität Münster, Münster, Germany

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie. 66. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V. (GMDS), 12. Jahreskongress der Technologie- und Methodenplattform für die vernetzte medizinische Forschung e.V. (TMF). sine loco [digital], 26.-30.09.2021. Düsseldorf: German Medical Science GMS Publishing House; 2021. DocAbstr. 143

doi: 10.3205/21gmds013, urn:nbn:de:0183-21gmds0139

Veröffentlicht: 24. September 2021

© 2021 Süer et al.
Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung). Lizenz-Angaben siehe http://creativecommons.org/licenses/by/4.0/.


Gliederung

Text

Einleitung: Die Sicherstellung einer hohen Datenqualität ist eine regulatorische Anforderung und mit hohem Aufwand und Kosten verbunden [1], [2]. Besonders bei multizentrischen Studien steigt der Aufwand stark [3]. Eine suboptimale Datenqualität kann falsche Forschungsergebnisse liefern und damit verbunden hohe Kosten nach sich ziehen [3].

Eine Vielzahl von unterschiedlichen Datenqualitätsindikatoren können zur Messung herangezogen werden [1], [2], [4]. Hierbei werden Vollständigkeit und Korrektheit am häufigsten untersucht [1]. Im Rahmen dieser Arbeit konzentrieren wir uns auf die Überprüfung der Vollständigkeit und syntaktischen Korrektheit von medizinischen Forschungsdaten im Operational Data Model (ODM) Standard. Ziel ist es, einen generischen Ansatz zur grundlegenden Beurteilung und kontinuierlichen Überwachung der Datenqualität mit einem standardisierten Bericht zu ermöglichen.

Methodik: Das Operational Data Model (ODM) des Clinical Data Interchange Standard Consortiums (CDISC) ist ein FDA-konformer, XML-basierter Standard zur Studiendefinition und -archivierung [5] und ermöglicht eine strukturierte Erfassung von medizinischen Forschungsdaten. Dieser Standard wird von elektronischen Datenerfassungssystemen wie x4T-EDC [6] und REDCap [7] als Import- und Exportformat akzeptiert.

Eine Reihe von Tools zur Datenqualitätsanalyse wie das auf OMOP Common Data Model basierende Achilles Heel [8] und PEDSnet Data-Quality-Analysis [9] wurden analysiert Daneben wurden generische, R-basierte Methoden [10] wie mosaicQA für epidemiologische Forschungszwecke [11] und MOQA [12] untersucht. Um valide Datenqualitätsberichte für unterschiedliche Studiendaten im ODM-Format erstellen zu können, wurde systematisch eine R-basierte generische Lösung entwickelt, der sogenannte ODM-DQA-Reporter. Dafür wurden zunächst spezifische R-Skripte zur Beurteilung von Testdaten unterschiedlicher Stichprobengrößen im ODM-Format entwickelt und anschließend durch Parametrisierung verallgemeinert. Das Einlesen der Daten wurde aus Performanzgründen in Java umgesetzt. Um die Einschränkung auf bestimmte Teile des Datensatzes (z. B. Formulare oder Probanden) zu ermöglichen, wurden Gruppierungsfunktionen implementiert. Die Ergebnisse werden in tabellarischer Form mit Inline-Charts visualisiert, um eine übersichtliche Darstellung auch bei großen Datensätzen zu ermöglichen. Ferner wurde die automatisierte Generierung eines Qualitätsberichtes realisiert. Zur Hervorhebung der Ergebnisse wurde die Ampeldarstellung genutzt. Als Nachweis für den generischen Ansatz wurde die Datenqualität von drei realen Datensätzen untersucht, die im Rahmen der Projekte „Translational Pruritus Research“ (N=639), „Registry for Primary Ciliary Dyskinesia“ (N=1475) und „Pruritus Research Database“ (N=10389) gesammelt wurden.

Ergebnisse: Der entwickelte generische Ansatz ermöglicht eine automatisierte Erstellung eines Datenqualitätsberichtes im Format PDF auf Basis des ODM Standards. Es können neben deskriptiven Statistiken zur Vollständigkeit und syntaktischen Korrektheit auch ein Metadatenwörterbuch und Grafiken zum Rekrutierungsverlauf in den Bericht integriert werden. Gruppierungsfunktionen ermöglichen die Einschränkung auf Teile des Datensatzes. Dies kann insbesondere bei multizentrischen Studien oder zur Überprüfung von Einschlusskriterien eingesetzt werden Ferner konnten die realen Datensätze erfolgreich analysiert und Berichte generiert werden.

Diskussion: Aktuell liegt der Fokus des ODM-DQA-Reporters auf den Datenqualitätsindikatoren Vollständigkeit und syntaktische Korrektheit. Die Ergebnisse werden mithilfe von leicht verständlichen deskriptiven Inline-Charts (z. B. Pie-Chart, Bar-Chart, Boxplot) in Tabellen visualisiert. Die Ampeldarstellung erleichtert den Überblick und hebt besondere Merkmale der Ergebnisse hervor. Die Einbindung weiterer Indikatoren wie Plausibilität und Konsistenz sind in Vorbereitung. Zukünftig wäre die Einbindung des ODM Data Analysis Tool [13] für die automatisierte Generierung von deskriptiven, univariaten Statistiken oder die Bereitstellung als REDCap-Plugin realisierbar. Zusätzliche kontextspezifische Datenqualitätskontrollen können unter Umständen notwendig sein.

Schlussfolgerung: Im Vergleich zu anderen generischen Lösungen ermöglicht dieser Ansatz eine kontextunabhängige Datenqualitätsbeurteilung sowie den Einsatz ohne zusätzlichen Programmieraufwand.

Die Autoren geben an, dass kein Interessenkonflikt besteht.

Die Autoren geben an, dass kein Ethikvotum erforderlich ist.


Literatur

1.
Weiskopf NG, Weng C. Methods and dimensions of electronic health record data quality assessment: enabling reuse for clinical research. J Am Med Inform Assoc. 2013 Jan 1;20(1):144-51. DOI: 10.1136/amiajnl-2011-000681 Externer Link
2.
Kahn MG, Brown JS, Chun AT, Davidson BN, Meeker D, Ryan PB, et al. Transparent reporting of data quality in distributed data networks. EGEMS (Wash DC). 2015 Mar 23;3(1):1052. DOI: 10.13063/2327-9214.1052 Externer Link
3.
Juárez D, Schmidt EE, Stahl-Toyota S, Ückert F, Lablans M. A Generic Method and Implementation to Evaluate and Improve Data Quality in Distributed Research Networks. Methods Inf Med. 2019 Sep;58(2-03):86-93. DOI: 10.1055/s-0039-1693685 Externer Link
4.
Weiskopf NG, Bakken S, Hripcsak G, Weng C. A Data Quality Assessment Guideline for Electronic Health Record Data Reuse. EGEMS (Wash DC). 2017 Sep 4;5(1):14. DOI: 10.5334/egems.218 Externer Link
5.
Clinical Data Interchange Standards Consortium. ODM-XML [Internet]. Austin, Texas, USA: Clinical Data Interchange Standards Consortium; 2010 [cited 2021 Apr 30]. Available from: https://www.cdisc.org/standards/data-exchange/odm Externer Link
6.
Bruland P, Forster C, Breil B, Ständer S, Dugas M, Fritz F. Does single-source create an added value? Evaluating the impact of introducing x4T into the clinical routine on workflow modifications, data quality and cost-benefit. Int J Med Inform. 2014 Dec;83(12):915-28. DOI: 10.1016/j.ijmedinf.2014.08.007 Externer Link
7.
Harris PA, Taylor R, Thielke R, Payne J, Gonzalez N, Conde JG. Research electronic data capture (REDCap) - a metadata-driven methodology and workflow process for providing translational research informatics support. J Biomed Inform. 2009 Apr;42(2):377-81. DOI: 10.1016/j.jbi.2008.08.010 Externer Link
8.
Huser V, DeFalco FJ, Schuemie M, Ryan PB, Shang N, Velez M, et al. Multisite Evaluation of a Data Quality Tool for Patient-Level Clinical Data Sets. EGEMS (Wash DC). 2016 Nov 30;4(1):1239. DOI: 10.13063/2327-9214.1239 Externer Link
9.
Khare R, Utidjian LH, Razzaghi H, Soucek V, Burrows E, Eckrich D, et al. Design and Refinement of a Data Quality Assessment Workflow for a Large Pediatric Research Network. EGEMS (Wash DC). 2019 Aug 1;7(1):36. DOI: 10.5334/egems.294 Externer Link
10.
R Foundation for Statistical Computing. R: A language and environment for statistical computing [Internet]. Vienna, Austria: R Core Team; 2021 [cited 2021 Apr 30]. Available from: https://www.R-project.org/ Externer Link
11.
Bialke M, Rau H, Schwaneberg T, Walk R, Bahls T, Hoffmann W. mosaicQA - A General Approach to Facilitate Basic Data Quality Assurance for Epidemiological Research. Methods Inf Med. 2017 May 29;56(7):e67-e73. DOI: 10.3414/ME16-01-0123 Externer Link
12.
Institut für Community Medicine, Abt. VC, Universitätsmedizin Greifswald. MOQA [Internet]. ToolPool Gesundheitsforschung, IT-Werkzeuge und Information. Berlin, Germany: TMF; 2015 Sep 18 [updated 2020 Apr 30, cited 2021 Apr 30]. Available from: https://www.toolpool-gesundheitsforschung.de/produkte/moqa Externer Link
13.
Brix TJ, Bruland P, Sarfraz S, Ernsting J, Neuhaus P, Storck M, et al. ODM Data Analysis-A tool for the automatic validation, monitoring and generation of generic descriptive statistics of patient data. PLoS One. 2018 Jun 22;13(6):e0199242. DOI: 10.1371/journal.pone.0199242 Externer Link