gms | German Medical Science

GMDS 2012: 57. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V. (GMDS)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie

16. - 20.09.2012, Braunschweig

Informationsintegration mit i2b2 und Data-Marts in einem Integrierten Forschungs- und Behandlungszentrum

Meeting Abstract

  • Sebastian Stäubert - Institut für Medizinische Informatik, Statistik und Epidemiologie, Leipzig, Deutschland
  • Lars Voitel - Zentrum für klinische Studien, Leipzig, Deutschland
  • Matthias Löbe - Integriertes Forschungs- und Behandlungszentrum Sepsis und Sepsisfolgen, Leipzig, Deutschland
  • Florian Rißner - Integriertes Forschungs- und Behandlungszentrum Sepsis und Sepsisfolgen, Jena, Deutschland
  • Frank Meineke - Integriertes Forschungs- und Behandlungszentrum AdipositasErkrankungen, Leipzig, Deutschland

GMDS 2012. 57. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (GMDS). Braunschweig, 16.-20.09.2012. Düsseldorf: German Medical Science GMS Publishing House; 2012. Doc12gmds034

DOI: 10.3205/12gmds034, URN: urn:nbn:de:0183-12gmds0343

Published: September 13, 2012

© 2012 Stäubert et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution License (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.en). You are free: to Share – to copy, distribute and transmit the work, provided the original author and source are credited.


Outline

Text

Einleitung/Hintergrund: Die Integration von Forschungs- und Behandlungsdaten bildet einen Schwerpunkt bei der Entwicklung von interdisziplinären Strukturen für die Verknüpfung von klinischer Forschung und Grundlagenforschung [1]. Dazu gehört die Verarbeitung und Speicherung von Studien- und Behandlungsdaten sowie die Bereitstellung von Werkzeugen zur übergreifenden Recherche und Auswertung der Datenbestände für klinische Forscher und Mediziner.

Die Anreicherung von Studiendaten durch Informationen, die während der Behandlung der Patienten gewonnen werden, ermöglichen zudem weitergehende Auswertungen. So lassen sich beispielsweise im Integrierten Forschungs- und Behandlungszentrum (IFB) Sepsis und Sepsisfolgen [2] Untersuchungen zu Infektionsrisiken aus klinischen Studien im Zusammenhang mit den Bewegungsdaten im Krankenhaus auswerten.

Ziel ist es, die Informationen am richtigen Ort, zur richtigen Zeit und in der richtigen Form für Ärzte, klinische Forscher und Biometriker zur Verfügung zu stellen [3]. Dies soll durch Informationsintegration [4] in einer Forschungsdatenbankinfrastruktur (FDB) [5] realisiert werden.

Material/Methoden: Zur Überführung der relevanten Daten aus den heterogenen und verteilten Datenquellen wurden zunächst Skripte zum Extrahieren, Transformieren und Laden (ETL) programmiert. Um eine bessere Wartbarkeit und Automatisierbarkeit zu erzielen, wurden diese Skripte in einem nächsten Schritt mit Hilfe weiterer Transformationen (XSLT) verfeinert und mit der OpenSource Software „Talend Open Studio“ [6] implementiert.

Patienten- und Behandlungsdaten werden im Krankenhausinformationssystem des Universitätsklinikums Jena dokumentiert. Studien- und Registerdaten werden mit der Studiendatenmanagementsoftware OpenClinica [7] erhoben. Die Patienten-individuelle Verknüpfung der Exporte aus den beiden Datenquellen wird über eine ID-Management-Komponente unter Verwendung des TMF-PID-Generators [8], [9] realisiert. Die exportierten Daten werden in einen Data-Mart mit relationalem Datenbankschema und in ein Data-Warehouse (OpenSource Software i2b2 [10]) importiert.

Ergebnisse: Die ID-Management-Komponente liefert entsprechende Mappings, um die Daten aus den verteilten Datenquellen zusammenzuführen.

Die relationale Struktur des Data-Mart bietet eine verlustfreie Datenhaltung und eine im Vergleich weniger aufwendige Einbindung weiterer Datenquellen. Datenexporte für statistische Auswertungen sind leicht realisierbar, z.B. durch die direkte Anbindung von Analysewerkzeugen wie SPSS per ODBC. Das Retrieval verlangt jedoch Expertenwissen zur Datenbank-Struktur und SQL-Kenntnisse. Das OpenSource Data-Warehouse i2b2 bietet dagegen eine benutzerfreundliche, intuitive Benutzeroberfläche. Die Datenstruktur von i2b2 basiert auf dem Entity-Attribut-Value-Schema und erfordert umfangreichere Transformationen beim Importvorgang. Die Abbildung der Versorgungsdaten und der Studiendaten ist aufwendiger, da zunächst eine Ontologie erstellt werden muss. Über diese Ontologie sind dann jedoch übergreifende Abfragen ohne Kenntnis der einzelnen Datenquellen möglich. Die Abbildung mehrstufiger Abhängigkeiten und komplexer Datenitems ist jedoch problematisch, sodass der Rückgriff auf die Primärdaten bzw. den Data-Mart in Einzelfällen notwendig wird.

Diskussion/Ausblick: Die Komplexität der ETL-Jobs des Data-Marts ist geringer, da die relationalen Quellstrukturen weitestgehend beibehalten werden können. Die Anpassung an die i2b2-Datenstrukturen ist aufwendiger, bietet aber eine intuitive Benutzeroberfläche. Die Exportmöglichkeiten sind nach ersten Erfahrungen bei i2b2 eingeschränkter und im Data-Mart besser umsetzbar. Beide Speicherstrukturen haben je nach Anforderung Vor- und Nachteile, welche sich in der kombinierten Bereitstellung ergänzen. Die Integration weiterer Datenbestände, wie Laboruntersuchungen und Intensivmedizinische Dokumentation, ist in Vorbereitung. Verbesserungspotential bietet der Datamart durch Evaluation von Microsoft Access als Benutzerschnittstelle und i2b2 mit Erweiterung der Exportmechanismen über entsprechende Plugins.

Diese Arbeit wird vom Bundesministerium für Bildung und Forschung (BMBF) gefördert. FKZ:01EO1001 (IFB AdipositasErkrankungen), FKZ:01EO1002 (IFB Sepsis und Sepsisfolgen), FKZ:01KN1102 (Zentrum für klinische Studien Leipzig)


Literatur

1.
Webseiten des BMBF zu den IFBs [Internet]. Available from: http://www.gesundheitsforschung-bmbf.de/de/2067.php [cited 24.04.2012] External link
2.
Webseiten des Integrierten Forschungs- und Behandlungszentrums Sepsis und Sepsisfolgen – Center for Sepsis Control and Care (CSCC) [Internet]. Available from: http://www.cscc.uniklinikum-jena.de/CSCC-p-7.html [cited 24.04.2012] External link
3.
Winter A, Haux R, Ammenwerth E, Brigl B, Hellrung N, Jahn F. Health Information Systems. London, Dodrecht, Heidelberg, New York: Springer; 2011.
4.
Lenz R, Beyer M, Meiler C, Jablonski S, Kuhn KA. Informationsintegration in Gesundheitsversorgungsnetzen. Informatik-Spektrum. 2005;28:105-19.
5.
Meineke F, Stäubert S, Winter A, Löffler M. Forschungsdatenbank-Infrastuktur im IFB AdipositasErkrankungen. In: 56. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (gmds), 6. Jahrestagung der Deutschen Gesellschaft für Epidemiologie (DGEpi); 2011 Sep 26-29; Mainz, Deutschland. Doc11gmds441. DOI: 10.3205/11gmds441 External link
6.
Talend Open integration Solutions [Internet]. Available from: http://www.talend.com [cited 24.04.2012] External link
7.
OpenClinica – Open Source for Clinical Research [Internet]. Available from: http://www.openclinica.com [cited 24.04.2012] External link
8.
TMF – Technologie und Medthodenplattform für die vernetzte medizinische Forschung [Internet]. Available from: http://www.tmf-ev.de/Themen/Projekte/V015_01_PID_Generator.aspx [cited 24.04.2012] External link
9.
Faldum A, Pommerening K. An optimal code for patient identifiers. Comput Methods Programs Biomed. 2005;79(1):81-8. DOI: 10.1016/j.cmpb.2005.03.004 External link
10.
i2b2 – Informatics for integrating Biology and the bedside [Internet]. Available from: http://www.i2b2.org [cited 24.04.2012] External link
11.
Webseiten des BMBF zum Integrierten Forschungs- und Behandlungszentrum Sepsis und Sepsisfolgen – Center for Sepsis Control and Care (CSCC) [Internet]. Available from: http://www.gesundheitsforschung-bmbf.de/de/2067.php#CSCC [cited 24.04.2012] External link