gms | German Medical Science

Datenqualitätsanalysen im Rahmen der MII-Projectathons

Meeting Abstract

Suche in Medline nach

  • Christian Draeger - Institut für Medizinische Informatik, Statistik und Epidemiologie, Universität Leipzig
  • Matthias Löbe - Institut für Medizinische Informatik, Statistik und Epidemiologie, Universität Leipzig

SMITH Science Day 2022. Aachen, 23.-23.11.2022. Düsseldorf: German Medical Science GMS Publishing House; 2023. DocP25

doi: 10.3205/22smith36, urn:nbn:de:0183-22smith366

Veröffentlicht: 31. Januar 2023

© 2023 Draeger et al.
Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung). Lizenz-Angaben siehe http://creativecommons.org/licenses/by/4.0/.


Gliederung

Text

Einleitung und Zielstellung: Ziel der Medizininformatik-Initiative (MII) ist es, Daten der Gesundheitsversorgung der Forschung zugänglich zu machen. Dazu werden Daten an den Datenintegrationszentren (DIZ) gesammelt und bereitgestellt. Um den Fortschritt dieser Bestrebungen zu evaluieren, werden regelmäßige Projectathons durchgeführt. Im Rahmen eines Projectathons gibt es zentrale und dezentrale Use Cases, die sich verschiedenen Forschungsfragen annehmen.

Bei der Sekundärnutzung von Versorgungsdaten kommt der Betrachtung der Datenqualität (DQ) eine besondere Bedeutung zu. Daten, die für die Versorgung von guter Qualität sind, sind nicht automatisch auch für jede Forschungsfrage in Qualität und Granularität geeignet. Die Datenqualität muss hier also jeweils mit Blick auf die spezifische Forschungsfrage des Use Cases neu evaluiert werden.

Ein Ziel der Arbeit der MII Taskforce Metadaten war es daher, die Teams der Projectathons durch die Erstellung von DQ-Skripten zu unterstützen. Am Ende sollten DQ-Reports für jeden Use Case bereitgestellt werden können, mit deren Hilfe Forschende eine erste Prüfung der Daten hingehend der Eignung zu Ihrer Forschungsfrage vornehmen können.

Methoden: Wegen der vielen beteiligten Standorte und Arbeitsgruppen innerhalb der MII bildete das Finden einer gemeinsamen Terminologie für DQ die Grundlage aller gemeinsamen Bestrebungen. Im Rahmen der MII wurde sich auf das Terminologie-Framework von Kahn et al. [1] geeinigt. Es teilt DQ in drei Ebenen: Conformance, Completeness und Plausibility, sowie zwei Kontexte: Verification und Validation ein. Zu jeder Ebene gehören weitere Sub-Ebenen sowie konkrete Definitionen.

Die Daten, die im Rahmen der Projectathons ausgeleitet werden sollten, liegen in den DIZen auf FHIR-Servern vor. Die MII definierte dazu eigene FHIR-Profile, den Kerndatensatz, welche die Form der Daten vorgeben. Da diese Profile zentral bereitgestellt werden, stellt die Überprüfung ihrer korrekten Anwendung am DIZ (FHIR Validation) eine Datenqualitätsprüfung der Conformance Verification und Validation nach Kahn [1] dar.

Darüber hinaus haben wir für alle weiteren Kahn-Definitionen erste Datenqualitätsindikatoren (DQIs) auf Basis der Elemente des Kerndatensatzes erstellt.

Im Rahmen der Projectathons konnten wir nur solche DQIs evaluieren, für die auch entsprechende Kerndatensatz-Elemente abgefragt wurden. Wir gingen jeweils vom „Catalogue of Items“ der Use Cases aus und implementierten Skripte zur Umsetzung der DQIs in R. Die Skripte zur Ausleitung der Daten aus den DIZen waren in R geschrieben, weshalb hier ein Anhängen der DQ-Skripte in R nahe lag. Dies ermöglichte das Erstellen der DQ-Reports auch in dezentralen Use Cases. Wir nutzten das R-Package dataquieR [2] zur Umsetzung der DQIs in R.

Mit dem „DataGauge“-Prozess [3] beschrieb Diaz-Garelli et al. DQ-Evaluation als iterativen Prozess. Analog dazu definierten wir unsere DQIs nicht direkt als dataquieR Metadaten, sondern hinterlegten diese zuerst in CEDAR, einem Metadaten Repository, das die Einbindung medizinischer Codes (über BioPortal) ermöglicht. Wir erstellten dazu CEDAR Templates, welche eine Referenzierung der Kerndatensatz-Elemente (per FHIR-Search/Path) ermöglichen. Durch diese Verknüpfung von Kerndatensatz, medizinischen Codes und DQIs ermöglichen wir eine Nachnutzung der DQIs, welche über die Iteration in nur einem Use Case hinausgeht. Nachfolgende Use Cases, die die selben Elemente des Kerndatensatzes benutzen, oder die gleichen ICD10-Codes abfragen, können auf den hier erstellten DQIs aufbauen. Wir sprechen daher von FAIR-DQIs.

Die Grafik [Abb. 1] zeigt diesen Prozess für den zentralen Use Case „Vorhofflimmern“ des 6. Projectathons im Detail.

Ergebnisse: Wir definierten eine formale Repräsentation von DQIs spezifisch für den verteilten Kontext der MII [4]. Für die Projectathons der MII erstellten wir ein Framework, das ein Erzeugen von DQ-Reports bei der Ausleitung der Daten an den DIZen ermöglicht. Dabei erstellten wir sowohl konkrete Implementationen der DQIs in R mit dataquieR, als auch wiederverwendbare FAIR-DQIs. Diese ermöglichen ein Nachnutzen unserer DQ-Bestrebungen, sowie einen Vergleich unserer Ergebnisse über spezifische Implementierungen hinaus.

Das hier skizzierte Verfahren wurde im 6. Projectathon praktisch angewendet. Leider konnten nur vier Datenintegrationszentren Datensätze für die zentrale Auswertung bereitstellen. Nur eine der Rückmeldungen hatte einen nichttrivialen Umfang, sodass das Datenqualitätsassessment keine ehrliche Einschätzung der Datenqualität der Patientendaten aus den DIZ der MII erlaubte.

Diskussion: Unsere Erfahrung in den Projectathons zeigt, dass sich die Anforderungen an die Daten nicht nur durch die Sekundärnutzung ändern, sondern sich auch von Use Case zu Use Case unterscheiden können. Für DQ-Analysen ist es daher schwierig, generelle Angaben zu einem Datensatz zu machen. Stattdessen sollte die Eignung eines Datensatzes zur Beantwortung einer Forschungsfrage von den Experten des Use Cases beurteilt werden. Um dies zu ermöglichen war es notwendig, DQIs nicht nur als Metadaten eines Tools zu abzubilden. Das Erstellen von FAIR-DQIs vor einer konkreten Implementierung ermöglicht das Teilen und Wiederverwenden der DQIs besonders in verteilten Kontexten, in denen nicht an jedem Standort die gleichen Tools genutzt werden, wie der MII.

FAIR-DQIs in CEDAR mit medizinischen Codes zu verknüpfen erwies sich dabei als besonders hilfreich. Leider ist die Referenz der Elemente des Kerndatensatzes dort nicht genauso einfach und setzt FHIR-Kenntnisse voraus.

Mit dem Kahn Framework gab es einen umfangreichen Anfang für mögliche DQIs. Leider ließen sich im Rahmen der Projectathons nur Teile davon umsetzen. Besonders die spannende Plausibility Validation blieb dabei offen. Die dafür notwendige Erstellung von Referenzverteilungen bzw. „Gold-Standards“ würde in besonderer Weise vom Datenschatz der MII profitieren. Wir hoffen, dahingehend einen Use Case im 7. Projectathon der MII einbringen zu können.


Literatur

1.
Kahn MG, Callahan TJ, Barnard J, Bauck AE, Brown J, Davidson BN, Estiri H, Goerg C, Holve E, Johnson SG, Liaw ST, Hamilton-Lopez M, Meeker D, Ong TC, Ryan P, Shang N, Weiskopf NG, Weng C, Zozus MN, Schilling L. A harmonized data quality assessment terminology and framework for the secondary use of electronic health record data. EGEMS (Wash DC). 2016 Sep 11;4(1):1244. DOI: 10.13063/2327-9214.1244 Externer Link
2.
Schmidt CO, Struckmann S, Enzenbach C, Reineke A, Stausberg J, Damerow S, Huebner M, Schmidt B, Sauerbrei W, Richter A. Facilitating harmonized data quality assessments. A data quality framework for observational health research data collections with software implementations in R. BMC Med Res Methodol. 2021 Apr 2;21(1):63. DOI: 10.1186/s12874-021-01252-7 Externer Link
3.
Diaz-Garelli JF, Bernstam EV, Lee M, Hwang KO, Rahbar MH, Johnson TR. DataGauge: A practical process for systematically designing and implementing quality assessments of repurposed clinical data. EGEMS (Wash DC). 2019 Jul 25;7(1):32. DOI: 10.5334/egems.286 Externer Link
4.
Tute E, Draeger C, Gierend K, Löbe M, Palm J, Schmidt CO. A glimpse at representing data quality rules for their collaborative governance in the Medical Informatics Initiative. 67. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (GMDS), 13. Jahreskongress der Technologie- und Methodenplattform für die vernetzte medizinische Forschung e.V. (TMF); 2022 Aug 21-25; online. Düsseldorf: German Medical Science GMS Publishing House; 2022. DOI: 10.3205/22GMDS018 Externer Link