gms | German Medical Science

Gesundheit – gemeinsam. Kooperationstagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (GMDS), Deutschen Gesellschaft für Sozialmedizin und Prävention (DGSMP), Deutschen Gesellschaft für Epidemiologie (DGEpi), Deutschen Gesellschaft für Medizinische Soziologie (DGMS) und der Deutschen Gesellschaft für Public Health (DGPH)

08.09. - 13.09.2024, Dresden

Datenintegration durch systematische Schemadekodierung für undokumentierte Anwendungssysteme ohne standardisierte Schnittstelle

Meeting Abstract

  • Marie Bommersheim - Institut für Medizinische Informatik, Universitätsklinikum Heidelberg, Heidelberg, Germany
  • Janina A Bittmann - Universität Heidelberg, Medizinische Fakultät Heidelberg / Universitätsklinikum Heidelberg, Medizinische Klinik (Krehl-Klinik), Innere Medizin IX – Abteilung für Klinische Pharmakologie und Pharmakoepidemiologie, Kooperationseinheit Klinische Pharmazie, Heidelberg, Germany
  • Hanna Seidling - Universität Heidelberg, Medizinische Fakultät Heidelberg / Universitätsklinikum Heidelberg, Medizinische Klinik (Krehl-Klinik), Innere Medizin IX – Abteilung für Klinische Pharmakologie und Pharmakoepidemiologie, Kooperationseinheit Klinische Pharmazie, Heidelberg, Germany
  • Martin Dugas - Institut für Medizinische Informatik, Universitätsklinikum Heidelberg, Heidelberg, Germany
  • Angela Merzweiler - Institut für Medizinische Informatik, Universitätsklinikum Heidelberg, Heidelberg, Germany

Gesundheit – gemeinsam. Kooperationstagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (GMDS), Deutschen Gesellschaft für Sozialmedizin und Prävention (DGSMP), Deutschen Gesellschaft für Epidemiologie (DGEpi), Deutschen Gesellschaft für Medizinische Soziologie (DGMS) und der Deutschen Gesellschaft für Public Health (DGPH). Dresden, 08.-13.09.2024. Düsseldorf: German Medical Science GMS Publishing House; 2024. DocAbstr. 356

doi: 10.3205/24gmds169, urn:nbn:de:0183-24gmds1697

Published: September 6, 2024

© 2024 Bommersheim et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License. See license information at http://creativecommons.org/licenses/by/4.0/.


Outline

Text

Einleitung: Das Medizinische Datenintegrationszentrum (MeDIC) des Universitätsklinikums Heidelberg (UKHD) führt Daten aus der medizinischen Versorgung zusammen, um sie für eine verbesserte Versorgung von Patienten bzw. für Forschungsmöglichkeiten zur Verfügung zu stellen [1]. Für die Entwicklung von Workflows zur Extraktion, Transformation und zum Laden (ETL) von Daten aus einer Quelle in ein Zielsystem ist das Verständnis von Struktur und Semantik des Quellsystems essenziell. Eine Herausforderung ist die fehlende Dokumentation bei zahlreichen Quellsystemen. Das UKHD hat beispielsweise insgesamt über 250 Quellsysteme. Gerade in Verbindung mit einer zunehmenden Größe und Komplexität der Datenbanken sowie Nichtverfügbarkeit der Datenbankentwickler wird das Verständnis von Datenbankschemata erschwert [2]. Unser Ziel ist daher die Entwicklung einer systematischen Vorgehensweise zur Integration von Daten aus Anwendungssystemen, die weder über eine Dokumentation noch eine standardisierte Schnittstelle verfügen.

Stand der Technik: Einige Methoden zur Schemadekodierung basieren beispielsweise auf statistischen Verfahren [3]. Albrecht und Kollegen [4] beschäftigen sich mit der Analyse von schwer lesbaren Attributbezeichnungen, die aus domänenspezifischen Abkürzungen bestehen. Dazu nutzen sie Informationen aus bestehenden ETL-Strecken. Ein für uns nutzbares Konzept zur Dekodierung von Quellsystemen haben wir nicht gefunden.

Konzept: Zur systematischen Entschlüsselung eines Quellsystems schlagen wir vor, Anwendungsfälle für dessen Einsatz zu definieren. Die Zusammenarbeit mit (medizinischen) Domänenexperten kann hierbei sicherstellen, dass es sich um typische Anwendungsfälle handelt, die einen Großteil möglicher Anwendungsszenarien abdecken. Darauf basierend können realistische Daten im Testsystem des Quellsystems eingegeben werden. ETL-Entwickler können anschließend prüfen, welche Quellsystem-Tabellen für die Anwendungsfälle relevant sind und welche Felder die eingegebenen Werte speichern. Mit zusätzlicher Identifikation von Kardinalitäten und Fremdschlüsselbeziehungen der Tabellen kann ein Konzept für die Orchestrierung des ETL-Prozesses erstellt werden. Beispielsweise kann ein Parent-Job die Ausführung von Child-Jobs, die eine oder mehrere Tabellen des Quellsystems in das Zielsystem übertragen, koordinieren. Der Parent-Job sollte Fremdschlüsselbeziehungen zwischen den Tabellen berücksichtigen, in dem er die Child-Jobs in entsprechender Reihenfolge aufruft, ihnen den Abfragezeitraum übergibt und ihre Rückgabewerte prüft.

Implementierung: Unser Konzept erprobten wir an der „Digitalen Kurve“ [5], die auf Normalstationen den Medikationsprozess unterstützt. Zusammen mit Apothekern erstellten wir 13 Anwendungsfälle, die Verordnungen für Infusionen, Perfusoren, Bedarfsmedikationen und Medikationen mit variabler Dosierung beinhalten. Diese Medikationsverordnungen legten wir im Testsystem an. Neben der Verordnungs-Tabelle identifizierten wir 23 weitere Tabellen mit Informationen zum Medikationsprozess. Von diesen beschrieben sieben das verordnete Medikament, eine die Verabreichungsraten, zwei die Häufigkeiten der Medikamentengabe und zwei die Medikationsverabreichungen. Fünf weitere Tabellen waren Lookup-Tabellen, die Codes ihren Klartexten zuordneten. Insgesamt konnten wir 28 Fremdschlüsselbeziehungen identifizieren.

Den ETL-Prozess implementierten wir mit Talend. Der Parent-Job berücksichtigt die Fremdschlüsselbeziehungen, sodass beispielsweise Medikationsverordnungen in der Datenbank vorhanden sein müssen, bevor zugehörige Verabreichungen dort abgelegt werden können.

Gewonnene Erkenntnisse: Mit dem vorgestellten Konzept konnte die Datenbank erfolgreich entschlüsselt werden. Medikationsdaten aus der „Digitalen Kurve“ sind nun im MeDIC verfügbar und können mit anderen Daten kombiniert werden. Die vorgestellte ETL-Strecke ruft täglich Medikationsdaten ab. Die Anzahl digital angelegter Verordnungen stieg im Rahmen der Ausrollung der „Digitalen Kurve“ von 118 im Jahr 2018 auf über 300.000 im Jahr 2023. Unser Konzept wird bei weiteren Datenbanken wiederverwendet. Durch standardisierte FHIR-Datenschnittstellen könnte der Datenextraktionsprozess deutlich vereinfacht werden.

Die Autoren geben an, dass kein Interessenkonflikt besteht.

Die Autoren geben an, dass kein Ethikvotum erforderlich ist.


Literatur

1.
Institut für Medizinische Informatik. Medizinisches Datenintegrationszentrum (MeDIC) [Internet]. 2024 [cited 2024 Jun 18]. Available from: https://www.klinikum.uni-heidelberg.de/kliniken-institute/institute/institut-fuer-medizinische-informatik/forschung/heidelberg-medic External link
2.
Miller R, Andritsos P. On Schema Discovery. IEEE Data Engineering Bulletin. 2003;26(3):39-44.
3.
Getoor L. Structure Discovery using Statistical Relational Learning. IEEE Data Engineering Bulletin. 2003;26(3):10-17.
4.
Albrecht A, Naumann F. Schema Decryption for Large Extract-Transform-Load Systems. In: Atzeni P, Cheung D, Ram S, editors. Conceptual Modeling. ER 2012. Berlin, Heidelberg: Springer; 2012. p. 116-125. DOI: 10.1007/978-3-642-34002-4_9 External link
5.
Cerner Health Services Deutschland GmbH. Das Cerner Ecosystem für das KIS i.s.h.med [Internet]. Version 2. Oktober 2020 [cited 2024 Apr 25]. Available from: https://www.cerner.com/de/-/media/cerner-media-germany/pdf-downloads/de_br_ecosystem_ishmed_okt_2020_v2.pdf?vs=1&hash=CAD229BE988418AD9F4B93295642576300B32F68 External link