gms | German Medical Science

63. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V. (GMDS)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie

02. - 06.09.2018, Osnabrück

Konvertierung von MIMIC-III-Daten zu FHIR

Meeting Abstract

  • Stefanie Ververs - Universität zu Lübeck, Lübeck, Deutschland
  • Hannes Ulrich - IT for Clinical Research, Universität zu Lübeck, Lübeck, Deutschland
  • Ann-Kristin Kock - Universität zu Lübeck, Lübeck, Deutschland
  • Josef Ingenerf - Universität zu Lübeck, Lübeck, Deutschland

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie. 63. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (GMDS). Osnabrück, 02.-06.09.2018. Düsseldorf: German Medical Science GMS Publishing House; 2018. DocAbstr. 256

doi: 10.3205/18gmds018, urn:nbn:de:0183-18gmds0183

Published: August 27, 2018

© 2018 Ververs et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License. See license information at http://creativecommons.org/licenses/by/4.0/.


Outline

Text

Einleitung: Die Medical Information Mart for Intensive Care (MIMIC-III) [1] ist eine für akademische Zwecke frei verfügbare Datenbank mit klinischen Patientendaten aus vorwiegend intensivmedizinischen Fällen und umfasst ca. 59000 Aufenthalte von ca. 46000 Patienten. Zu diesen Patienten sind über 330 Mio. Einträge zu Vitaldaten, 27 Mio. Laborergebnisse und 7 Mio. Verschreibungen dokumentiert.Aktuelle Forschungsarbeiten im eHealth Bereich fokussieren den Interoperabilitätsstandard HL7 FHIR, der den Austausch von Gesundheitsdaten ermöglicht und in Wissenschaft und Industrie zunehmende Verbreitung erfährt [2]. Ziel dieser Arbeit ist die Konvertierung der MIMIC-III-Daten in FHIR-Ressourcen und die Übertragung auf einen HAPI FHIR-Server. Die Datenbasis kann als Demonstrations- und Arbeitsgrundlage für weitere Forschungsarbeiten, z.B. für Verfahren des maschinellen Lernens, dienen. Aus diesem Grunde sollen Verfahren zum Einsatz kommen, mit denen neben einer strukturellen Konvertierung die Datenqualität verbessert wird.

Methoden: Die Konvertierung der MIMIC-III-Daten in Form einer PostgreSQL-Datenbank wurde als Java-Applikation unter Verwendung der HAPI FHIR-API [3] für Release 3 umgesetzt. Zur Bestimmung des Umfangs der Konvertierung wurden die MIMIC-Tabellen analysiert und die passenden FHIR-Ressourcen bestimmt. Ziel war es, so viele Informationen wie möglich in die zutreffenden FHIR-Ressourcen zu übertragen.

Die Konvertierung erfolgte patientenweise und resultierte in sogenannten Bundles, die dann über REST auf den FHIR-Server übertragen wurden. Der große Datenumfang, für einzelne Patienten wurden bis zu 775000 Beobachtungen dokumentiert, und die daraus resultierende hohe Anzahl von FHIR-Ressourcen führte zu langen Übertragungs- und Verarbeitungszeiten. Um die einzelnen Arbeitsschritte im Umfang zu begrenzen, wurden die Ressourcen-Bundle in kleinere Einheiten aufgeteilt. Zur weiteren Verbesserung der Performance wurden das Erstellen und das Übertragen der Ressourcen getrennt und mittels einer Message-Queue auf mehrere Threads verteilt.

Ziel war die konsequente Umsetzung von standardisierten Terminologien und die Vermeidung von Dopplungen in der Datenhaltung. Viele Daten sind in nicht oder nur teilweise standardisierten Formaten vorhanden, z.B. wurden die verordneten Medikamente mit dem National Drug Code (NDC) und/oder der Generic Sequence Number (GSN) referenziert. Solche Abweichungen konnten über die Verwendung des RxNorm-Identifier [4] geeinigt werden. Die verwendete RxNorm API bietet Suchoptionen für NDC als auch GSN und ermöglicht daraus eine einheitliche Kodierung.

Ergebnisse: Es wurde eine automatische Transformation der MIMIC-Daten aus der PostgreSQL-Datenbank zu FHIR-Ressourcen entwickelt. Abhängig von der Anzahl der Beobachtungen ist für die Transformation von 1000 Patienten auf einem Debian-Server mit bis zu 8 Kernen eine Verarbeitungszeit von ca. 40h zu erwarten. Im Moment werden auf dem HAPI Server 1000 Patienten-Ressourcen mit 1312 Encounters und ca. 9 Mio. Observations verwaltet.

Die größte Herausforderung lag in Größe und Umfang der Datenbank. Der Flaschenhals ist dabei in der Serververarbeitung der Ressourcen zu sehen. Aufgrund der langen Verarbeitungszeit kann der Datensatz nicht in absehbarer Zeit vollständig transformiert und übertragen werden.

Aus Datenschutzgründen [5] kann der Server nicht öffentlich zugänglich gemacht werden. Die erstellte Transformation findet sich unter https://github.com/itcr-uni-luebeck/mimic2fhir.

Diskussion: Die Qualität des resultierenden FHIR-Ressourcen-Datenstands ist neben der Qualität der MIMIC-Daten auch von der gewählten Interpretation der Daten (Konvertierung von Freitexten zu FHIR ValueSets sowie Zuordnung zu Attributen der FHIR-Ressourcen) abhängig.

Weitere Überlegungen fokussieren die Optimierung der Verarbeitung mit dem Ziel alle Daten vollständig in akzeptabler Zeit übertragen zu können.

Die Autoren geben an, dass kein Interessenkonflikt besteht.

Die Autoren geben an, dass kein Ethikvotum erforderlich ist.


Literatur

1.
Johnson AEW, Pollard TJ, Shen L, Lehman LH, Feng M, Ghassemi M, et al. MIMIC-III, a freely accessible critical care database. Scientific Data. 2016 May 24;3:160035.
2.
Kamann C, Ingenerf J. Transformation von Intensivdaten von der MIMIC-II Datenbank auf einen FHIR-Server. In: HEC 2016: Health - Exploring Complexity. Joint Conference of GMDS, DGEpi, IEA-EEF, EFMI, München, 2016.
3.
HAPI FHIR - The Open Source FHIR API for Java [Internet]. [cited 2018 Apr 9]. Available from: http://hapifhir.io/ External link
4.
Liu S, Wei Ma, Moore R, Ganesan V, Nelson S. RxNorm: prescription for electronic drug information exchange. IT Professional. 2005 Sep;7(5):17-23.
5.
Requesting access [Internet]. [cited 2018 Apr 9]. Available from: https://mimic.physionet.org/gettingstarted/access/ External link