gms | German Medical Science

GMDS 2015: 60. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V. (GMDS)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie

06.09. - 09.09.2015, Krefeld

Ein Ontologie-Generator für das klinische Data-Warehouse i2b2

Meeting Abstract

  • Daniel Firnkorn - Universität Heidelberg, Heidelberg, Deutschland
  • Christian Karmen - Universität Heidelberg, Heidelberg, Deutschland
  • Petra Knaup-Gregori - Universität Heidelberg, Heidelberg, Deutschland
  • Matthias Ganzinger - Universität Heidelberg, Heidelberg, Deutschland

GMDS 2015. 60. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (GMDS). Krefeld, 06.-09.09.2015. Düsseldorf: German Medical Science GMS Publishing House; 2015. DocAbstr. 270

doi: 10.3205/15gmds053, urn:nbn:de:0183-15gmds0531

Published: August 27, 2015

© 2015 Firnkorn et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License. See license information at http://creativecommons.org/licenses/by/4.0/.


Outline

Text

Einleitung: Um die vernetzte Forschung mit Daten aus verschiedenen Kliniken mit meist heterogenen Datenschemata zu ermöglichen, werden Data-Warehouse Systeme, wie zum Beispiel i2b2 [1], [2], zur zentralen Speicherung und Abfrage der klinischen Daten verwendet. Damit eine Abfrage erstellt werden kann, müssen im Fall von i2b2 zunächst Merkmale definiert und als Einträge in einer so genannten i2b2 Ontologie zur Verfügung stehen. Diese Einträge werden auch „Common Data Elements“ (CDEs) genannt und haben klinikübergreifende Gültigkeit. Auf die CDEs werden die klinikspezifischen „Source Data Elements“ (SDEs) abgebildet. Wir haben ein Importwerkzeug entwickelt, welches die automatische Generierung einer i2b2-Ontologie aus den CDEs unterstützt. Eine i2b2-Ontologie entspricht einer Baumstruktur in der sich die CDEs ausgehend von verschiedenen Wurzelknoten bis hin zu den jeweiligen Blattknoten hierarchisch aufgliedern. Die Erstellung solcher Baumstrukturen ist mit den bereitgestellten Werkzeugen von i2b2 eine zeitaufwändige Aufgabe, zumal die dokumentierten CDEs einzeln als Element in der Ontologie angelegt werden müssen. Eine Umstellung der Ontologie-Einträge ist nur möglich, indem bestehende CDEs gelöscht und unter einem anderen Knoten wieder neu angelegt werden. Der in dieser Arbeit beschriebene Ontologie-Generator für i2b2 (OGen:i) erlaubt die Definition der klinikübergreifenden CDEs und die automatische Generierung der i2b2 Ontologie sowie flexible Änderungen in einem Arbeitsschritt.

Material und Methoden: Für die Datenintegrationsprozesse sowie die automatische Generierung der i2b2 Ontologie mit Hilfe von OGen:i, verwendeten wir das frei verfügbare Werkzeug Talend Open Studio (TOS) [3]. Mit TOS wurden modulare Prozeduren entwickelt, mit deren Hilfe die i2b2 Ontologie aus den festgelegten CDEs generiert wird. Die TOS-Prozeduren verarbeiten ein Importwerkzeug. Dabei handelt es sich derzeit um ein Microsoft Excel Dokument, welches je eine Untertabelle für die CDEs und die SDEs von den beteiligten Institutionen enthält. Die CDEs werden iterativ unter Beteiligung der Fachexperten und unter Berücksichtigung der lokalen SDEs erstellt. Für jedes CDE extrahiert die entsprechende TOS Prozedur die notwendigen Informationen und schreibt sie in eine CSV-Datei. Dafür wurden die CDEs mit bestimmten Attributen ausgestattet, welche die Position jedes Eintrags innerhalb der Ontologie bestimmen. Die Attribute werden automatisch aus dem Importwerkzeug mittels OGen:i in die i2b2 spezifische Darstellung der Ontologie transformiert und zum Schluss über einen Bulk-Load Vorgang in i2b2 geladen. Das Importwerkzeug erfüllt demnach zwei Zwecke: (i) Dokumentation aller relevanten Parameter pro beteiligter Klinik und deren Abbildung auf die Zieldatenstruktur, (ii) Grundlage für die automatische Generierung der i2b2-Ontologie aus der definierten Zieldatenstruktur. Als Folge wird die Ontologie vollständig aus der CDE Untertabelle erzeugt und kann darin beliebig modifiziert und neu veröffentlicht werden. Es ist damit leicht möglich, Einträge innerhalb der Ontologie zu verschieben, indem die entsprechenden CDE-Einträge innerhalb des Importwerkzeuges an eine andere Stelle verschoben werden.

Ergebnisse: Die beschriebenen Attribute gliedern sich innerhalb des Importwerkzeuges in folgende Spalten:

  • Dataset: Beschreibung von Datensätzen als Wurzelknoten in der i2b2 Ontologie
  • Subfolder: Untergliederung eines Datensatzes in Zwischenknoten in der Ontologie
  • Labels: Merkmale, welche die Merkmalsausprägungen bzw. Blattknoten enthalten
  • Values: Merkmalsausprägungen bzw. Blattknoten in der i2b2 Ontologie
  • Data Types: Datentyp (integer, decimal, date, categorial, string) eines Merkmals
  • Units: Einheiten der numerischen Datentypen

Ein Beispiel aus der Praxis soll den Ontologie-Generierungsprozess mit Hilfe von OGen:i aus diesen Attributen verdeutlichen. Die folgenden beiden Einträge zu den CDEs sind in den entsprechenden Spalten des Importwerkzeugs enthalten:

  • Dataset -> “Diagnostik”; Subfolder -> “Laborwerte”; Labels -> “Abnahme”; Values -> “ja, nein”; Data Type -> “categorical”; Units -> “-“
  • Dataset -> “Diagnostik”; Subfolder -> “Laborwerte”; Labels -> “CEA”; Values -> “-”; Data Type -> “decimal”; Units -> “ng/ml“

Die i2b2 Ontologie würde für diese CDEs folgendermaßen aussehen:

1. Diagnostik

1.1. Laborwerte

1.1.1. Abnahme

1.1.1.1. ja

1.1.1.2. nein

1.1.2. CEA

1.1.2.1. CEA (Query)

Die Werte bei den Datentypen „integer“ bzw. „decimal“ werden als XML-BLOBs bezeichnet und werden erst beim Import der i2b2 Ontologie generiert. XML-BLOBs sind i2b2 spezifische Metadaten, um Abfragen auch mit numerischen Daten zu ermöglichen. Sie dienen somit als Platzhalter für numerische Daten, da bei der Erstellung der i2b2 Ontologie noch nicht bekannt ist, wie viele unterschiedliche Ausprägungen zu dem Laborwert CEA existieren. Deshalb wird der Eintrag „CEA (Query)“ in der Ontologie angelegt. Die zu Grunde liegenden Werte können bei einer entsprechenden Abfrage, also Query, mit Vergleichsoperatoren spezifiziert werden. Mit Hilfe dieser bereitgestellten Informationen können die notwendigen Schritte zur Generierung einer Ontologie für ein i2b2 Projekt ausgeführt werden. Somit kann OGen:i nahtlos in den ETL Prozess eines Projekts integriert werden und erlaubt so die Bereitstellung einer projektspezifischen Datenstruktur in i2b2 mit einem Klick.

Diskussion: Der wesentliche Vorteil von OGen:i besteht darin, dass alle Definitionen in einem einzigen Werkzeug enthalten sind, sodass die Projektdokumentation ohne zusätzlichen Aufwand immer auf dem neuesten Stand gehalten werden kann. Die Ontologie kann schrittweise erweitert werden und auf Basis des Importwerkzeugs jederzeit neu geniert werden. Dies verbessert die Wartbarkeit und Flexibilität, da keine zusätzlichen manuellen Schritte bei der Erstellung, Anpassung oder Veränderung einer (vorhandenen) i2b2-Ontologie anfallen. Eine Alternative zu dieser Vorgehensweise wäre die Implementierung einer Drag-and-Drop-Funktionalität innerhalb der i2b2 Workbench zur Umstrukturierung einzelner Knoten der Baumstruktur. Diese Änderungen wären jedoch unabhängig von der Projektdokumentation innerhalb des Importwerkzeugs. Dadurch müsste die Dokumentation der CDEs und die i2b2 Ontologie an zwei verschiedenen Stellen gepflegt werden. Die Softwarekomponenten Integrated Data Repository Toolkit (IDRT), sowie die OntoImportSuite [4] beinhalten ein Ontologie-Management-Tool einschließlich der Drag-and-Drop-Funktionalität innerhalb eines Ontologie-Editors. Sie vereinfachen ebenfalls die Erzeugung von CDEs und deren Umstrukturierung, bzw. Anpassung in i2b2. Unsere Vorgehensweise berücksichtigt an den Kliniken vorhandene Werkzeuge, wie zum Beispiel Excel, sodass jeder beteiligte einfach und mit geringem Aufwand in die Definition der CDEs mit einbezogen werden kann und dadurch implizit an der Erstellung der i2b2 Ontologie mitwirkt. OGen:i wird derzeit getestet und in verschiedenen Datenintegrationsprojekten in Heidelberg evaluiert. Als einen der nächsten Schritte planen wir die Unterstützung der Ontologie-Generierung durch die Entwicklung von Softwarekomponenten, welche den Benutzer durch den Erstellungsprozess führen.


Literatur

1.
Murphy SN, Mendis M, Hackett K, Kuttan R, Pan W, Phillips LC, et al. Architecture of the open-source clinical research chart from Informatics for Integrating Biology and the Bedside. AMIA Annu Symp Proc. 2007. 548–52.
2.
Ganslandt T, Mate S, Helbing K, Sax U, Prokosch HU. Unlocking Data for Clinical Research - The German i2b2 Experience. Applied clinical informatics. 2011; 2(1):116–27.
3.
Majchrzak TA, Jansen T, Kuchen H. Efficiency evaluation of open source ETL tools. In: the 2011 ACM Symposium. p. 287.
4.
Mate S, Köpcke F, Toddenroth D, Martin M, Prokosch H, Bürkle T, et al. Ontology-based data integration between clinical and research systems. PloS one. 2015; 10(1):e0116656.