gms | German Medical Science

GMDS 2015: 60. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V. (GMDS)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie

06.09. - 09.09.2015, Krefeld

Erschließung komplexer nephrologischer Daten – Erfahrungen bei der Transformation TBase nach i2b2

Meeting Abstract

  • Jan Christoph - Friedrich-Alexander-Universität Erlangen-Nürnberg, Erlangen, Deutschland
  • Christian Maier - Friedrich-Alexander-Universität Erlangen-Nürnberg, Erlangen, Deutschland
  • Danilo Schmidt - Charité - Universitätsmedizin Berlin, Med. Klinik m. Schw. Nephrologie, Berlin, Deutschland
  • Thomas Ganslandt - Medizinisches IK-Zentrum Universitätsklinikum Erlangen, Erlangen, Deutschland
  • Martin Sedlmayr - Friedrich-Alexander-Universität Erlangen-Nürnberg, Erlangen, Deutschland

GMDS 2015. 60. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (GMDS). Krefeld, 06.-09.09.2015. Düsseldorf: German Medical Science GMS Publishing House; 2015. DocAbstr. 165

doi: 10.3205/15gmds026, urn:nbn:de:0183-15gmds0265

Published: August 27, 2015

© 2015 Christoph et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License. See license information at http://creativecommons.org/licenses/by/4.0/.


Outline

Text

Einleitung: Die Nephrologie erhebt besonders im Zusammenhang mit Nierentransplantationen ein breites Spektrum an Daten. Neben der Anamnese und der Medikation sowie diversen Immun-, Labor- und Bilddaten bis hin zu genetischen Informationen werden vor allem die Transplantations-OP sowie das Monitoring des transplantierten Organs über die Folgezeit bis zum etwaigen Versagen desselben dokumentiert. Neben dem üblichen Patientenbezug der Daten sind viele Beziehungen und Abhängigkeiten zwischen den Merkmalen mit einem Dritten verknüpft, dem Spender.

TBase ist eine webbasierte elektronische Patientenakte speziell für die Nephrologie, in welchem die Dokumentation gleichzeitig zum Zwecke der klinischen Versorgung als auch für die Forschung erfolgt [1]. Das Datenbankschema ist dabei klassisch relational und normalisiert sowie die Nutzeroberfläche für den eingebenden Arzt in der Versorgung optimiert, wobei Auswertungen eine Kenntnis des Datenbankschemas sowie SQL-Kenntnissen erfordern und deswegen meist manuell durch die IT-Abteilung erfolgen.

Im Rahmen eines Anwendungsfalls des Smart Data Projekts Klinische Datenintelligenz [2] werden Nephrologen an der Charite in ihrer Forschung unterstützt, indem ihnen die Daten ihrer umfangreichen Forschungs- und Versorgungsdatenbank zugänglich gemacht werden, um eigene Analysen zu ermöglichen. Als dafür geeignete Forschungsplattform wurde u.a. wegen seiner Anwenderfreundlichkeit i2b2 [3] gewählt. Obwohl in zahlreichen Publikationen über den Einsatz von i2b2 ein Abschnitt über die Datenmodellierung bzw. Import enthalten ist [4], werden überwiegend einfache Datenmodelle importiert; d.h. die Quelldaten liegen entweder bereits im Entity-Attribute-Value Schema von i2b2 vor, sind normalisiert direkt in einer Tabelle darstellbar oder nur durch wenige Beziehungen verknüpft.

Da die Struktur der TBase-Datenbank eine sehr viel höhere Komplexität besitzt und der Datensatz der Charite zudem aufgrund seiner Größe von ca. 10 GB die Bearbeitungsgrenze frei verfügbarer Import-Werkzeuge wie z.B. den IDRT-Tools [5] überschritt, mussten zwei Fragen beantwortet werden: Wie kann das komplexe Datenmodell in das EAV-Schema von i2b2 transformiert werden, so dass möglichst kein Informationsverlust (z.B. in Bezug auf die Aufrechterhaltung von Beziehungen) auftritt? Und wie können die verfügbaren Werkzeuge in Hinblick auf den Umgang mit der Komplexität und mit der Datenmenge angepasst werden?

Material und Methoden: Zuerst wurden mit den Nephrologen und den Mitarbeitern, die bisher Analysen erstellen, anhand typischer Forschungsfragen (z.B. wie beeinflusst der Kreatinin-Wert das Transplantatüberleben) die dafür relevanten Tabellen und Datenfelder bestimmt.

Die dafür üblichen drei Ebenen zur Modellierung von Daten in i2b2 mit dem Patienten als erste Ebene, der Fallnummer als zweite Ebene sowie den Modifiern als dritte Ebene zur Bündelung von Datenelementen reichte wegen der Komplexität der Ausgangsdaten nicht aus, weshalb eine transplantationsbezogene Sicht gewählt wurde. Dazu mussten die in der TBase-Datenbank zahlreich vorhandenen Fremdschlüssel auf adäquate Weise nachgebildet werden, wofür u.a. in einem Staging-Schritt durch Joins mit Zeitstempel erweiterte Views erstellt und künstliche Fallnummern generiert wurden. Bei Fällen, in denen die Ausgangstabelle bereits in einer Art EAV-Schema vorlag, musste eine Sonderbehandlung erfolgen.

Für den Extraktions-, Transformations- und Lade-Prozess (ETL) von TBase nach i2b2 wurde Talend Open Studio benutzt. Es begann mit der Extraktion aus dem TBase-Quellsystem (eine MS-SQL-Datenbank) in CSV-Dateien, die nach diversen Aufbereitungen mittels angepasster und um neue Funktionalitäten erweiterter IDRT-Tools in die PostgreSQL-Datenbank von i2b2 transformiert und geladen wurden. Erweiterungen der IDRT-Tools waren schon alleine wegen der reinen Größe der jeweiligen Tabellen, wegen der vorhanden Freitexte in Blobs, der Speicherung der demographischen Faktendaten in die i2b2-Tabelle patient_dimension und vor allem zur Umsetzung der oben genannten Merkmals-Bündelung notwendig.

Zuletzt wurde die automatisch erzeugte Ontologie mit Hilfe des IDRT-Ontologie-Editors in eine für den Anwender effizient nutzbare Gestalt gebracht.

Ergebnisse: Die 10GB TBase-Quelldaten umfassten 35 Tabellen mit ca. 350 Merkmalen, 20 1:n sowie 5 m:n Beziehungen, in denen seit 15 Jahren im Routinebetrieb über 6.000 Patienten mit 4.000 Transplantationen, 60.000 Diagnosen und 9 Millionen Labordaten während 100.000 Visiten erfasst wurden. Davon waren 21 Tabellen mit ca. 200 Merkmalen für Forschungsfragen relevant, die inklusive der Freitext-Blobs in ein EAV-Schema transformiert und nach i2b2 importiert wurden. Zeitweise wurden wegen der clientseitigen Joins der IDRT-Tools über 50 GB an Arbeitsspeicher benötigt. Die PostgreSQL Datenbank von i2b2 belegt durch circa 20 GB, wobei der Großteil auf die ca. 100 Millionen Fakten der Observation_fact-Tabelle entfällt und der mit Faktor 2 größere Platzbedarf den Besonderheiten des EAV-Schemas geschuldet sind.

Diskussion: i2b2 stößt mit seinem Warehouse-orientierten Datenbankschema bei der Übernahme komplexer relationaler Datenbanken und Beziehungen an seine Grenzen. In unserem Fall konnten wir nicht alle Fremdschlüssel zwischen den ursprünglichen Tabellen von TBase in i2b2 erhalten, z.B. den Fall, dass ein Spender seine beiden Nieren an zwei unterschiedliche Patienten abgibt: damit gehen für manche Fragestellung notwendige Beziehungen verloren. Für die typischen Forschungs-Fragestellungen war durch die transplantationszentrierte Sicht, das Konzept der Modifier und die Ausnutzung sonst selten verwendeten Spalten in der i2b2 observation_fact Tabelle eine ausreichende Abbildung gewährleistet. Die Umsetzung der Modellierung durch den Import der Daten gelang mit den IDRT-Tools anfangs nur teilweise, da diese weder für Datensätze dieser Größe ausgelegt waren, noch Unterstützung für die Blobs und oder den PostgreSQL-Dialekt aufwiesen. Diese Problemstellen konnten aber aufgrund des open-source Charakters des IDRT-Projekts unter Einbeziehung des aktiven Entwickler-Teams gelöst werden. Weitere noch benötigte Funktionen wie die der Übernahme demographischer Daten in die patient_dimension Tabelle sowie die Nutzung der Zusatzspalten der observation_fact Tabelle mussten allerdings außerhalb der IDRT-Tools beim Import durch Eigenlösungen realisiert werden.

Aufgrund der vorliegenden Einverständniserklärungen der betroffenen Patienten und Spender sowie der Verwendung der Daten zum Forschen rein innerhalb der Charite lagen die Datenschutz-Anforderungen an die i2b2-Plattform nicht höher als die an TBase. Da TBase an mindestens acht Transplantationszentren in Deutschland zum Einsatz kommt, könnte die zentren-übergreifende Forschung durch einen harmonisierten Datensatz und Werkzeugen wie SHRINE ermöglicht werden. Ebenso hätte das für klinische Daten gleichfalls auf dem i2b2-Datenbankschema aufsetzende tranSMART einen Mehrwert in Bezug auf die Analyse-Möglichkeiten, sobald in diesem das Konzept der Modifier und das der temporalen Abfragen den Stand des heutigen i2b2 erreicht hat.

Für das Projekt Klinische Datenintelligenz war die Abbildung der TBase-Daten in i2b2 ein wichtiger Zwischenschritt, dem eine semantische Annotation und idealerweise der Aufbau eines Clinical Knowledge Graph folgen sollen.

Danksagung

Das Projekt Klinische Datenintelligenz wird vom Bundesministerium für Wirtschaft und Energie im Rahmen von Smart Data gefördert (01MT14001E).


Literatur

1.
Lindemann G, Fritsche L. Web-Based Patient Records-The Design of TBase2. New Aspects of High Technology in Medicine. 2000:409-414.
2.
Krompaß D, Esteban C, Tresp V, Sedlmayr M, Ganslandt T. Exploiting Latent Embeddings of Nominal Clinical Data for Predicting Hospital Readmission. KI-Künstliche Intelligenz. 2014:1-7.
3.
Murphy SN, Weber G, Mendis M, Gainer V, Chueh HC, Churchill S, Kohane I. Serving the enterprise and beyond with informatics for integrating biology and the bedside (i2b2). Journal of the American Medical Informatics Association. 2010; 17(2): 124-130.
4.
Oberländer M, Linnebacher M, König A, Bogoevska V, Brodersen C, Kaatz R; ColoNet consortium. The “North German Tumor Bank of Colorectal Cancer”: status report after the first 2 years of support by the German Cancer Aid Foundation. Langenbeck's Archives of Surgery. 2013;398(2):251-258.
5.
Ganslandt T, Sax U, Löbe M, Drepper J, Bauer C, Baum B, Prokosch HU, et al. Integrated Data Repository Toolkit: Werkzeuge zur Nachnutzung medizinischer Daten für die Forschung. In: GI-Jahrestagung 2012. p. 1252-1259.