gms | German Medical Science

GMDS 2014: 59. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V. (GMDS)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie

07. - 10.09.2014, Göttingen

Integrierte Portalumgebung und verteilte Echtzeitsuche für medizinische Langzeitarchivierung

Meeting Abstract

Suche in Medline nach

  • O. Schmitt - Gesellschaft für wissenschaftliche Datenverarbeitung Göttingen, Göttingen
  • P. Weil - Universitätsmedizin Göttingen, Institut für Medizinische Informatik, Göttingen; Universitätsmedizin Göttingen, Institut für Molekularbiologie, Göttingen
  • P. Wieder - Gesellschaft für wissenschaftliche Datenverarbeitung Göttingen, Göttingen
  • S.Y. Nussbeck - Universitätsmedizin Göttingen, Institut für Medizinische Informatik, Göttingen

GMDS 2014. 59. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (GMDS). Göttingen, 07.-10.09.2014. Düsseldorf: German Medical Science GMS Publishing House; 2014. DocAbstr. 184

doi: 10.3205/14gmds014, urn:nbn:de:0183-14gmds0149

Veröffentlicht: 4. September 2014

© 2014 Schmitt et al.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielfältigt, verbreitet und öffentlich zugänglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Gliederung

Text

Einleitung und Fragestellung: Dokumentationssysteme zur Erfassung von Forschungs- und Metadaten im medizinischen Forschungsumfeld, wie sie beispielsweise in DFG-geförderten Sonderforschungsbereichen (SFB) zum Einsatz kommen, unterliegen der Herausforderung interdisziplinäre Arbeitsgruppen mit einer möglichst einheitlichen Forschungsdatenplattform zu versorgen [1]. Um ein einheitliches Forschungsdatenmanagement und eine Langzeitarchivierung zu ermöglichen, müssen Forschungsdaten aus verschiedenen Systemen integriert und einheitlich gespeichert werden. In Bezug auf einen web-basierten Zugriff, der Single-Sign-On unterstützt, Zugriffsberechtigungen und Policies über Systemgrenzen hinweg umsetzt und den Wissenschaftlern wertvolle Funktionen wie eine echtzeitfähige Suche in großen Datenmengen ermöglicht, ergeben sich zudem besondere Herausforderungen in Bezug auf die Datenmanagement-Middleware und die Integrationsplattformen. In einigen Forschungsverbünden wird als Datenmanagement Middleware die Common Data Storage Architecture (CDSTAR), die bei der Gesellschaft für wissenschaftliche Datenverarbeitung Göttingen (GWDG) zum Forschungsdatenmanagement entwickelt wurde, eingesetzt [2]. CDSTAR integriert dabei Big Data Technologien wie Object Storage für Datenspeicherung, Elasticsearch als verteilte Echtzeitsuche und Analyse-Plattform, sowie CouchDB als Map-Reduce-fähige NoSQL-Datenbank [3]. In diesem Kontext wird die Open-Source Variante von Liferay, eine von Gartner als „Leading“ eingestufte Portallösung zusammen mit CDSTAR, als ein geeignetes Infrastrukturkonzept für Integration und Repräsentation vorgeschlagen, das Konzepte und moderne Softwarestacks aus dem Bereich Big Data für den Einsatz in der medizinischen Forschung gangbar macht. Damit können Forschungsdatensätze in großen Bandbreite an Formaten nutzbar gemacht werden und es wird eine neue Qualität in Bezug auf Geschwindigkeit und Skalierbarkeit bei Suche und Recherche ermöglicht [4].

Material und Methoden: Für die Formulierung des Infrastrukturkonzepts, in der eine moderne Liferay Portal-Umgebung und eine echtzeitfähige Suche für den Einsatz in der medizinischen Forschung in einer heterogenen Systemumgebung mit verschiedenen Datenquellen genutzt wird, werden die Konzeption und technische Implementierung im disziplinübergreifenden Sonderforschungsbereich 1002 „Modulatorische Einheiten bei Herzinsuffizienz“ als Grundlage genommen [5]. Hierbei gilt es die in bereits anderen Forschungsprojekten mit GWDG-Beteiligung erprobten Architekturen, bestehend aus CDSTAR und Liferay Portal für die im SFB 1002 stattfindende Forschung zu adaptieren und in das Infrastrukturkonzept in Form einer qualitativen Abschätzung von Aufwänden und technisch-architektonische Herausforderungen zu formulieren. Als Ergebnis soll eine produktionsfähige Lösung für die Wissenschaftler im SFB 1002 entstehen. Diese soll es erlauben Forschungsdaten hochzuladen, mit Metadaten zu annotieren und in die Langzeitarchivierung zu überführen. Über eine echtzeitfähige verteilte Suche können dann Datensätze recherchiert werden. Eine Evaluation der Infrastruktur steht daher zum jetzigen Zeitpunkt noch aus.

Ergebnisse: Die bei der Konzeption und ersten technischen Umsetzung gemachten Erfahrungen im Einsatz der CDSTAR-Middleware in Verbindung mit Liferay zeigen bereits eine Eignung der Systeme für den medizinischen Forschungseinsatz. Betrachtet man die Aufwandschätzungen und den tatsächlich geleisteten Aufwand so zeigt sich, dass der Einsatz von Liferay den Implementierungsaufwand für den Web-Zugriff aus dem Browser im Vergleich zu bestehenden Web-Frameworks wie etwa Ruby-On-Rails senkt, da allgemeine Funktionen wie beispielsweise das Benutzer- und Rollenmanagement, Mehrsprachigkeit, Einbindung von Hilfefunktionen durch das eingebaute Wiki und die Verwaltung von Texten und Bildern mit einer Content-Management-Engine bereits durch den Funktionsumfang abgedeckt sind. Liferay-Portal bietet eine große Anzahl an Schnittstellen und Features, die eine große Bandbreite von Integrationspatterns ermöglichen. Betrachtet man die Software-Entwicklung in der Zusammenarbeit zwischen dem Infrastruktur-Projekt im SFB 1002 und der GWDG, so zeigt es sich als vorteilhaft, dass Liferay einen zusätzlichen Abstraktionslayer nutzt, um einzelnen Portalbestanteile in sog. Portlets und Plugins zu kapseln. Folglich ist es möglich Portalfunktionalität und fachspezifische Anwendungen parallel zu entwickeln und so Entwicklungszeiträume zu verkürzen und Abhängigkeiten zu vereinfachen. Für den Zugriff auf die Bitstreams und Metadaten bietet CDSTAR eine Representational State (REST) Schnittstelle an. Die Speicherung der Metadaten erfolgte sowohl in CDSTAR, als auch in der Suche mittels JSON-formatierter Schlüssel-Wert-Paare, die auf ein globales (relationales) Schema verzichten. Daher werden teilstrukturierte Schemas oder lokal definierten Metdatenschemata genutzt – eine Tatsache die für den SFB 1002 sehr hilfreich ist, bei dem eine IT-Unterstützung bereits während der Vereinbarung von Metdatenschemata erfolgen muss. Um aber dennoch eine gute Datenqualität und eine feingranulare Durchsuchbarkeit der Daten zu gewährleisten, wird im SFB für eine Auswahl an allgemeinen Bezeichnern ein kontrolliertes Vokabular verwendet. Elasticsearch kann alle weiteren nicht spezifizierten Felder automatisch erschließen, um einen konsistenten Suchindex aufzubauen. Diese Teilspezifikation von Metadatenschemata erlaubt es Aufwände für die technische Umsetzung abzusenken und dennoch gute Abfragequalität zu gewährleisten. Dies wurde bereit von der GWDG im Projekt der virtuellen Forschungsumgebung zur sozioökonomischen Berichterstattung (soeb) in der Praxis umgesetzt. Über die REST-Schnittstelle von CDSTAR wurde auch prototypisch das im SFB 1002 verwendete elektronische Laborbuch auf Basis von Talend Open Studio angebunden, um die darin enthaltenen Daten in die Langzeitarchivierung und Echtzeitsuche zu transportieren. Der Aufwand hierzu war ebenfalls gut kalkulierbar und Dank der Verwendung von Standardwerkzeugen zur Datenintegration im Rahmen einer Bachelorarbeit gut umsetzbar. CDSTAR arbeitet aufgrund eines durchgängig dokumentenbasierten Ansatzes simultan mit mehreren Versionen von Metadatenschemata zusammen und erlaubt es mittels Elasticsearch über 40 verschiedenen Datenformate, wie etwa PDF oder Microsoft Office direkt im Volltext zu durchsuchen. Die hieraus gewonnen Flexibilität in Bezug auf die Datenintegration erlaubt es die Policies und Datenmanagementpläne eines Forschungsverbundes umzusetzen. Zusätzlich lässt sich die gesamte Forschungsdatenplattform horizontal skalieren und wird bereits zum aktuellen Zeitpunkt in der GWDG Compute Cloud betrieben1. Der in CDSTAR angebundene EPIC Persistent Identifier-Services erzeugt einen dauerhaft gültigen Persistent Identifier (PID) für jeden Datensatz. Die Berechtigungen und Gruppenzugehörigkeiten der Benutzer werden direkt aus der Portal-Benutzerdatenbank über das Liferay LDAP-Plugin CDSTAR zu Verfügung gestellt.

Diskussion: Hinsichtlich der Eignung lässt sich das Langzeitarchivierungsinfrastrukturkonzept des SFBs 1002 wie folgt zusammenfassen: für die Realisierung mit Liferay lässt sich feststellen, dass Standardaufgaben sich rasch umsetzen lassen. Die Integration der fachspezifischen Anwendungen für die Langzeitdatenarchivierung lässt sich über SFB-spezifische Portlets umsetzen. Bei der vereitelten Echtzeitsuche ergibt sich bereits heute ein positives Bild. Die horizontale Skalierbarkeit von Elasticsearch und die einfache Handhabung der Suchinfrastruktur schaffen wichtige Grundlagen für einen reibungslosen Betrieb. Trotz des positiven Projektverlaufs anhand des Infrastrukturkonzepts mit Liferay und der GWDG Datenmanagement-Middleware CDSTAR bestehen Herausforderungen hinsichtlich der Erarbeitung von projektübergreifenden Metadatenschemata und eines kontrolliertem Vokabulars. Ebenfalls gilt es die technische Komplexität von Liferay Portal zu hinterfragen. Durch das gemeinsame SFB 1002 Projekt und den anderen Projekten mit GWDG-Beteiligung wird angestrebt, die Lösung als ein Teil der eScience-Infrastruktur am Göttinger Research Campus zu etablieren und die Portalkomponenten und CDSTAR langfristig zu unterstützen.

1 Ein Betrieb in einer privaten Cloud der GWDG ist möglich, da im SFB 1002 ausschließlich Maus- und Zellliniendaten gesammelt werden und sich daraus keine Schutzmaßnahmen gemäß Datenschutzgesetzgebung ergeben.


Literatur

1.
Engelhardt C. Forschungsdatenmanagement in DFG-Sonderforschungsbereichen: Teilprojekte Informationsinfrastruktur (INF-Projekte). LIBREAS. Library Ideas. 2013;(23). URN: urn:nbn:de:kobv:11-100212741 Externer Link
2.
Schmitt O, Siemon A, Schwardmann U, Hellkamp M. GWDG Object Storage and Search Solution for Research – Common Data Storage Architecture (CDSTAR) – GWDG Bericht 78. 1st rev. Göttingen: Gesellschaft für wissenschaftliche Datenverarbeitung; 2014. Abrufbar unter: http://www.gwdg.de/fileadmin/inhaltsbilder/Pdf/Publikationen/GWDG-Berichte/gwdg-bericht-78.pdf [zuletzt abgerufen am 31.01.2014] Externer Link
3.
Elasticsearch BV. Elasticsearch: Open Source Distributed Real Time Search & Analytics. Abrufbar unter: http://www.elasticsearch.org [zuletzt abgerufen am 21.03.2014] Externer Link
4.
Liferay Inc. Portal, Content, and Collaboration for the Enterprise. Abrufbar unter: http://www.liferay.com/products/liferay-portal/overview [zuletzt abgerufen am 21.03.2014] Externer Link
5.
Universitätsmedizin Göttingen. SFB 1002 Modulatorische Einheiten bei Herzinsuffizienz. Abrufbar unter: http://www.herzzentrum-goettingen.de/de/content/forschung/sfb1002.html [zuletzt abgerufen am 20.03.2014]. Externer Link