gms | German Medical Science

GMDS 2013: 58. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V. (GMDS)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie

01. - 05.09.2013, Lübeck

Automatisierte Transformation biomedizinischer Daten in einen caBIG-Datendienst

Meeting Abstract

Suche in Medline nach

  • Matthias Ganzinger - Universität Heidelberg, Heidelberg, DE
  • Karsten Senghas - Universität Heidelberg, Heidelberg, DE
  • Petra Knaup-Gregori - Universität Heidelberg, Heidelberg, DE

GMDS 2013. 58. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (GMDS). Lübeck, 01.-05.09.2013. Düsseldorf: German Medical Science GMS Publishing House; 2013. DocAbstr.273

doi: 10.3205/13gmds146, urn:nbn:de:0183-13gmds1464

Veröffentlicht: 27. August 2013

© 2013 Ganzinger et al.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielfältigt, verbreitet und öffentlich zugänglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Gliederung

Text

Einleitung: In der biomedizinischen Forschung liegen Datensätze häufig als Dateien für Tabellenkalkulationsprogramme wie Microsoft Excel vor. Dies ist beispielsweise bei vorverarbeiteten Microarray-Datensätzen der Fall [1]. Es ist jedoch oft erforderlich, die Daten in spezialisierten Systemen bereitzustellen. Für einen Forschungsverbund wurde ein Werkzeug entwickelt, um Daten aus Excel-Dateien in einen Datendienst für das Cancer Biomedical Informatics Grid (caBIG) [2] zu transformieren. Hierzu wird das Software Development Kit des Cancer Common Ontologic Representation Environment (caCORE SDK) in einen automatisierten Prozess integriert. Die Validierung des Werkzeugs erfolgt am Beispiel eines Microarray Datensatzes aus dem DFG geförderten SFB/TRR77 „Leberkrebs – von der molekularen Pathogenese zur zielgerichteten Therapie“.

Methoden: Biomedizinische Daten in Tabellen sind häufig in Messwerte zu Proben und Metadaten zum Messverfahren unterteilt. Um die Daten in einen Datendienst zu überführen müssen diese beiden Komponenten aufgespalten und in ein entsprechendes Datenschema überführt werden. Das caCORE SDK [3] unterstützt bei der Erstellung eines Datendienstes indem dieser aus einem in der Unified Modeling Language (UML) formulierten Modell generiert wird. Gewöhnlich wird dieses Modell von Hand erstellt. Für einfach strukturierte Tabellen, wie sie bei der Auswertung von Microarray-Daten anfallen, kann auch das Modell automatisch generiert werden. Hierzu wird eine Anwendung bereitgestellt, welche die erforderlichen Schritte zur Erstellung eines Datendienstes mit den entsprechenden caCORE-Funktionen durchführt.

Ergebnisse: Um die Ausgangsdateien zu analysieren werden diese mit einem Browser in eine Webanwendung geladen. Ein Auszug der Daten wird dem Benutzer zur Prüfung der Struktur angezeigt. Im nächsten Schritt ordnet der Benutzer über die grafische Oberfläche die Zeilen und Spalten der Tabellen den beiden Klassen „Metadaten“ und „Messdaten“ zu. Aus diesen Informationen generiert das Werkzeug ein caCORE SDK-konformes Modell im XML Metadata Interchange (XMI)-Format [4] für den caCORE-Generator. Das Modell beinhaltet sowohl ein JAVA-Domänenmodell mit entsprechenden Relationen als auch ein korrespondierendes Datenmodell zur Persistierung der Daten in einer relationalen Datenbank. In der Folge wird der vom caBIG-Projekt für die modellgetriebene Entwicklung bereitgestellte caCORE-Generator aufgerufen. Es wird eine Webapplikation erzeugt, auf einem Tomcat Applicationserver bereitgestellt und die Verbindung getestet. Weiterhin wird ein modellkonformes Datenbank-Schema in Form einer Data Definition Language (DDL)-Datei generiert. Das Schema wird in die lokale MySQL-Datenbank eingespielt, so dass für den caCORE-Dienst eine dedizierte Datenbank bereit steht. Die Daten aus der ursprünglichen Tabelle werden transformiert und in die Datenbank geladen. Somit stehen die Daten der ursprünglichen Tabelle über die generierte Anwendung nun über eine Schnittstelle für Webbrowser bereitgestellt. Zur Einbindung in JAVA-Applikationen werden entsprechende Bibliotheken generiert, welche die Domänenklassen enthalten. Schließlich stehen die Daten zur Integration in einen caBIG-konformen Verbund bereit. Dabei stehen die von caCORE bereitgestellten Sicherheitsmechanismen zur Autorisierung und Authentisierung zur Verfügung.

Diskussion: Im Rahmen des Projektes konnte gezeigt werden, dass es für eine in der biomedizinischen Forschung etablierten Klasse von tabellarischen Datendateien möglich ist, caBIG-konforme Datendienste automatisiert zu erzeugen. Somit ist es möglich, solche Dienste ohne Programmierkenntnisse und auch ohne Kenntnisse der caCORE-spezifischen Modellierung zu erstellen. Die Dienste können in einen caBIG-konformen Verbund als Datendienste eingebunden werden. Im nächsten Schritt ist zu untersuchen, bei welchen Datenarten neben Microarray-Auswertungen das Verfahren angewandt werden kann.


Literatur

1.
Rayner TF, Rocca-Serra P, Spellman PT, Causton HC, Farne A, Holloway E, et al. A simple spreadsheet-based, MIAME-supportive format for microarray data: MAGE-TAB. BMC Bioinformatics. 2006; 7:489.
2.
Langella S, Oster S, Hastings S, Siebenlist F, Phillips J, Ervin D, et al. The Cancer Biomedical Informatics Grid (caBIG) Security Infrastructure. AMIA Annu Symp Proc. 2007:433–7.
3.
Komatsoulis GA, Warzel DB, Hartel FW, Shanbhag K, Chilukuri R, Fragoso G et al. caCORE version 3: Implementation of a model driven, service-oriented architecture for semantic interoperability. J Biomed Inform. 2008; 41(1):106–23.
4.
International Organization for Standardization. XML Metadata Interchange Specification; 2005. July 2005.