gms | German Medical Science

GMDS 2014: 59. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V. (GMDS)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie

07. - 10.09.2014, Göttingen

Elasticsearch in Forschungsinfrastrukturen – ein Tutorial über eine moderne Big Data Open Source Such- und Analyse-Plattform

Meeting Abstract

Suche in Medline nach

  • O. Schmitt - Gesellschaft für wissenschaftliche Datenverarbeitung mbH Göttingen, Göttingen

GMDS 2014. 59. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (GMDS). Göttingen, 07.-10.09.2014. Düsseldorf: German Medical Science GMS Publishing House; 2014. DocAbstr. 45

doi: 10.3205/14gmds269, urn:nbn:de:0183-14gmds2697

Veröffentlicht: 4. September 2014

© 2014 Schmitt.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielfältigt, verbreitet und öffentlich zugänglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Gliederung

Text

Lernziele:

  • Kennenlernen der opensource Lösung Elasticsearch für Such- und Analysebedarfe im Big Data Umfeld
  • Einführung in die Integration von Elasticsearch in Softwarelandschaften
  • Nutzung von Elasticsearch-Community-Tools zur Suche, Analyse und Erstellung von Daten-Dashboards
  • Einführung in den skalierbaren Betrieb von Elasticsearch

Bedarf nach rascher Durchsuchung von großen Datenmenengen: Die medizinische Informatik stellt WissenschaftlernInnen im medizinischen Umfeld Dokumentationssysteme, wie etwa elektronische Laborbücher oder Patientenregister, bereit. Diese legen Forschungs- sowie Metadaten in Datenbanken, Dateisystemen und Objektspeichern ab. Möchte man diese strukturierten und unstrukturierten Datenmengen effizient auf einer Plattform ablegen, um die Recherche und Analyse der Daten durch WissenschaftlerInnen zu unterstützen, so ergeben sich mit bisheriger Technik einige Herausforderungen in Bezug auf die Handhabung großer Datenmengen [1]. Standardmäßig werden hierbei Volltext-Indexe in SQL-Datenbanken genutzt. Diese sind jedoch an eine bestimmte Struktur der Daten, z.B. in Form eines ER-Modells oder eines XML-Schemas, fest gekoppelt. Daher erfordert die Integration weiterer Datenquellen die Anpassung von Schemas und oftmals die Konvertierung von Daten – beides Aufgaben, die Sachverstand, Aufwand und Zeit in Anspruch nehmen [2]. Mit dem Aufkommen von Smart- und Big Data sind nun neue Paradigmen und Technologien hinzugekommen, die eine schnelle Durchsuchbarkeit und Analyse zusammen mit einem Plus an Flexibilität und Erweiterbarkeit hinsichtlich der Verarbeitung großer Datenmengen erlauben [3]. Das Tutorial erläutert inhaltlich die Funktionsweise und den Betrieb der Open Source Big Data Such- und Analyseplattform „Elasticsearch“ [4] auf Grundlage der gesammelten Projekterfahrungen der Gesellschaft für wissenschaftlichen Datenverarbeitung Göttingen (GWDG). Dazu wird der Blickwinkel der medizinischen Forschung, die momentan am Göttinger Sonderforschungsbereich 1002 „Modulatorische Einheiten bei Herzinsuffizienz“ stattfindet, als Startpunkt genommen [5]. Des Weiteren werden auch die Erfahrungen aus weiteren Projekten mit GWDG-Beteiligung zur digitalen Forschungsinfrastruktur herangezogen, die ebenfalls Elasticsearch in ihrer technischen Realisierung verwenden.

Funktionen von Elasticsearch: Unter Einsatz der Big Data Paradigmen stellt Elasticsearch eine verteilte Such- und Analyseplattform für große Datenbeständen dar. Elasticsearch tritt hierbei mit ähnlichen Zielen wie das Projekt Apache Solr [6] an, verfügt aber über verschiedene Plugins und Schnittstellen zur Anbindung von Datenbanken, Dateien, Webservices und Diensten, die es erlauben, Daten für die Suche und Analyse rasch zugänglich zu machen. Dabei ist die Realisierung komplexer Suchanfragen mit Facettierung genauso möglich, wie die Datei-Volltextsuche in bekannten Dateiformaten, wie XML, JSON, CSV, PDF oder Microsoft Office Dokumenten. Elasticsearch folgt bei der Indexierung von Daten und Metadaten dem aus dem NoSQL-Bereich bekannten Ansatz JSON-formatierter Dokumente, der mittlerweile auch Eingang in medizinische Dokumentationssysteme gefunden hat [7]. Um Lasten zu verteilen und Aufgabenbearbeitung zu be-schleunigen, kann Elasticsearch, wie für eine Big Data Software üblich, jederzeit auf weitere Server flexibel skaliert werden [8]. Durch diese horizontale Skalierung lassen sich auch redundante Hochverfügbarkeitslösungen realisieren, die in der medizinischen Forschung benötigt werden. Dank einer Multi-Mandanten-Unterstützung kann eine einzige Elasticsearch-Installation eine Vielzahl an Forschungsprojekten mit Suchfunktionen versorgen, sodass Ausgaben für Hardware effizient genutzt werden können. Für einen erfolgreichen Einsatz muss Elasticsearch als eine weitere Datensenke in die Software-Architektur aufgenommen werden. Vor allem die Integration von Daten zur Durchsuchbarkeit von Datenbeständen über die Grenzen einzelner Datenquellen hinweg bedarf der bekannten Techniken zur Datenintegration, wie sie bereits in der medizinischen Informatik Anwendung finden [9].

Elasticsearch im Einsatz: Als Technologie-Partner, Kompetenz- und Rechenzentrum bringt die GWDG in zahlreichen Projekten ihre Expertise und Entwicklungskompetenz in IT-Forschungsinfrastrukturen ein. Folglich konnte Elasticsearch in verschiedenen Szenarien erfolgreich in Bestandssysteme und Neuimplementierungen eingebracht werden. Da Elasticsearch viele Eigenschaften mit NoSQL-Datenbanken und Object Storages teilt, wurde 2012 mit der Entwicklung einer integrierten Forschungsdatenplattform bei der GWDG begonnen, die den Namen Common Data Storage Architecture (CDSTAR) trägt [10]. Diese vereint Object Storage, Elasticsearch Suchmaschinen-Technologie und Map-Reduce-Backends wie Apache CouchDB zu einer Forschungsdaten-Plattform. Der Göttinger Sonderforschungsbereich 1002 „Modulatorische Einheiten bei Herzinsuffizienz“ möchte ein zentrales Datenrepository errichten, das u.a. ein elektronisches Laborbuch anbindet und die Langzeitarchivierung von Teilen der im SFB gesammelten Daten ermöglicht. Für dieses Datenrepository setzt der SFB 1002 ebenfalls auf die von der GWDG entwickelte Lösung CDSTAR mit Elasticsearch als Suchmaschine. Mit ersten Ergebnissen ist hierbei Ende des dritten Quartals 2014 zu rechnen. Einen Schritt weiter ist man bereits in einem IT-Infrastrukturprojekt für Geisteswisschaftler in Göttingen, das mehrere hunderttausend XML-Datensätze umfasst. Hierbei wurde eine bestehende XML-Datenbankbasierte Suchmaschine durch Elasticsearch abgelöst. Als Ergebnis konnte trotz gestiegenen Datenvolumens die Leistungsfähigkeit der Suchfunktionen um einen Faktor >15 gesteigert werden. Gleichzeitig konnten die Ausfallzeiten durch den Einsatz von Elasticsearch gesenkt werden. Unter Einsatz von GWDG CDSTAR wurde im Dezember 2013 eine virtuelle Forschungsumgebung (VFU) für die Sozialwissenschaft realisiert, die eine kollaborative Nutzung sozialwissenschaftlicher Mikrodaten über die gesamte wissenschaftliche Leistungskette unterstützt. Dies erlaubt den Wissenschaftlern eine feingranulare und schnelle Recherche von relevanten Studien- und Forschungsdaten in einer Liferay-basierten Portalumgebung [11]. Somit bestehen bereits belastbare Erfahrungen beim Betrieb von Elasticsearch und der Implementierung von Big Data Such- und Analysefunktionen im Bereich virtueller Forschungsinfrastrukturen. Diese Erfahrungen der GWDG werden hierzu als Grundlage für das Tutorial genommen.


Literatur

1.
Jacobs A. The pathologies of big data. Communications of ACM. 2009 Aug;52(8):36-44.
2.
Hamilton JR, Tapas KN. Microsoft SQL server full-text search. IEEE Data Eng. Bull. 2001;24(4):7-10.
3.
Ekanayake J, Pallickara S, Fox G. MapReduce for Data Intensive Scientific Analyses - IEEE Fourth International Conference on eScience, 2008 Dez 7-12, Indianapolis, USA. Los Alamitos: Conference Publishing Services; 2008 Dec. p. 277-284.
4.
Elasticsearch BV. Elasticseach – Open Source Distributed Real Time Search & Analytics. Available from: http://www.elasticsearch.org [zuletzt abgerufen am 31.01.2014]. Externer Link
5.
Universitätsmedizin Göttingen. SFB 1002 Modulatorische Einheiten bei Herzinsuffizienz. Available from: http://www.herzzentrum-goettingen.de/de/content/forschung/sfb1002.html [zuletzt abgerufen am 31.01.2014]. Externer Link
6.
Apache Foundation – Apache Lucene. Apache Solr. Available from http://lucene.apache.org/solr/ [zuletzt abgerufen am 31.01.2014]. Externer Link
7.
Schmitt O, Brüntrup R, Lablans M, Ückert F. Anwendung dokumentenbasierter Datenbanken in medizinischen Dokumentationssystemen – 56. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (gmds), 6. Jahrestagung der Deutschen Gesellschaft für Epidemiologie (DGEpi); Mainz, 26.–29. Sep 2011. Düsseldorf: German Medical Science GMS Publishing House; 2011. p. 48.3
8.
Kuc R, Rogozinski M. Mastering ElasticSearch. 1st rev. Birmingham: Packt Publishing; 2013.
9.
Winter A. Informationssysteme in der Medizin. Informatik – Forschung und Entwicklung. 2008 Mar;22(3):137-146.
10.
Schmitt O, Siemon A, Schwardmann U, Hellkamp M. GWDG Object Storage and Search Solution for Research Common Data Storage Architecture (CDSTAR) GWDG Bericht 78. 1st rev. Göttingen: Gesellschaft für wissenschaftliche Datenverarbeitung;2014. Available from: http://www.gwdg.de/fileadmin/inhaltsbilder/Pdf/Publikationen/GWDG-Berichte/gwdg-bericht-78.pdf [zuletzt abgerufen am 28.01.2014]. Externer Link
11.
Soziologisches Forschungsinstitut Göttingen (SOFI) e.V. an der Georg-August-Universität. Projekt Soziokonomische Berichterstattung Virtuelle Forschungsumgebung (VFU). Available from: http://www.soeb.de/vfu-soeb-3/ [zuletzt abgerufen am 31.01.2014]. Externer Link