gms | German Medical Science

GMDS 2013: 58. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V. (GMDS)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie

01. - 05.09.2013, Lübeck

Die massiv-parallele Ausführung statistischer Analysen mit Hilfe analytischer Datenbanken

Meeting Abstract

Suche in Medline nach

  • Sebastian Klenk - EXASOL AG, Nürnberg, DE
  • Peter Fritz - IDM Stiftung, Stuttgart, DE

GMDS 2013. 58. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (GMDS). Lübeck, 01.-05.09.2013. Düsseldorf: German Medical Science GMS Publishing House; 2013. DocAbstr.135

doi: 10.3205/13gmds112, urn:nbn:de:0183-13gmds1121

Veröffentlicht: 27. August 2013

© 2013 Klenk et al.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielfältigt, verbreitet und öffentlich zugänglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Gliederung

Text

Einleitung und Fragestellung: Die Menge an Daten die zu einem Krebspatienten erhoben werden steigt von Jahr zu Jahr. Einerseits liegt dies am fortschreitenden Erkenntnisgewinn in der Medizin. Andererseits aber auch an verbesserten Mess- und Dokumentationsmethoden die Daten mit höherer Auflösung liefern. Mit der Menge an Daten wächst der Wunsch nach Auswertung. Für kleine Datenmengen ist das noch einfach, wird aber für größere Datensätze und aufwendigere Statistiken zu einer echten Herausforderung. Daher ist es notwendig Mittel und Wege zu finden damit der Arzt schnell und unkompliziert statistische Auswertungen zu aktuellen Fällen durchführen kann und Wissenschaftler Einblicke in Patientenpopulationen erhalten die vorher nur mit sehr viel Aufwand zustande gekommen wären. Im Rahmen dieser Arbeit werden wir uns, am Beispiel einer analytischen Datenbank ansehen wie moderne Datenbanktechnologien die einfache, interaktive und fachgerechte Auswertung großer Datenmengen ermöglichen. Dabei werden wir uns besonders auf das Zusammenspiel der Statistikprogrammiersprache R [1] und der massivparallelen In-Memory Datenbank EXASolution von EXASOL [2] konzentrieren.

Material und Methoden: Bei modernen Datenbanken wird üblicherweise zwischen transaktionalen und analytischen Systemen unterschieden. Die Erstgenannten dienen hauptsächlich der Verwaltung von Daten. Sie finden in Systemen wie zum Beispiel Klinikinformationssystemen Anwendung. Im Gegensatz dazu sind analytische Datenbanken auf das Lesen und Analysieren von großen Datenmengen hin optimiert. Sie werden erfahrungsgemäß in Firmen zur Analyse von Verkaufs- oder Marktzahlen eingesetzt. Im medizinischen Alltag sind diese nur selten anzutreffen, da die Fragestellungen dort meist anspruchsvoller sind. In Unternehmen nimmt der Einsatz von sogenannten Predictive Analytics Methoden, also Methoden zur Vorhersage von Werten oder Ereignissen anhand historischer Daten, stetig zu. Das führt dazu, dass analytische Datenbanken einen Funktionsumfang aufweisen der den Ansprüchen medizinischer Forschung gerecht wird. Dies werden wir anhand eines Datensatzes aus der Tumordokumentation [3] demonstrieren.

Ergebnisse: Durch die Integration der Statistikprogrammiersprache R in den Kern der massiv-parallelen In-Memory-Datenbank EXASolution ist es möglich aufwändige statistische Auswertungen auf sehr großen Datenmengen durchzuführen. Massiv-parallel bedeutet, dass nicht nur ein einzelner Rechner an einer Datenbankabfrage arbeitet sondern mehrere in einem Rechnerverbund, einem sog. Cluster. Jeder der Rechner in einem Datenbank-Cluster übernimmt einen Teil der Arbeit. Dadurch können Datenbankabfragen wesentlich schneller beantwortet werden als wenn nur ein Rechner dafür zur Verfügung steht. Dieses Prinzip der Lastverteilung lässt sich auch auf statistische Berechnungen übertragen. Sollen zum Beispiel Überlebenszeiten von unterschiedlichen Patientengruppen miteinander verglichen werden, können die dazu notwendigen Berechnungen auf die Rechner eines Clusters verteilt werden. Jeder Rechner übernimmt dann die Berechnung, der ihm zugewiesenen Patientengruppen. Das stellt ein schnelleres Vorgehen dar, als wenn ein Computer die Arbeit für alle Patientengruppen übernimmt und die Berechnungen nacheinander durchführt. Dies geschieht für den Programmierer der statistischen Berechnungen vollkommen transparent; der Datenbank-Cluster erkennt welche Berechnungen sich verteilen lassen und verteilt sie, ohne manuelle Unterstützung des Statistikers, entsprechend auf die Rechner.

Diskussion: Die Integration der Statistikprogrammiersprache R mit der massiv-parallelen Datenbank ermöglicht die einfach Entwicklung und schnelle Ausführung komplexer statistischer Berechnungen auf sehr großen Datenmengen. Dies hat den Vorteil, dass (1) Statistiker mit den Werkzeugen arbeiten können die sie gewohnt sind und (2) sich nicht um die Problematik großer Datenmengen


Literatur

1.
R Core Team. R: A Language and Environment for Statistical Computing. Vienna, Austria. R Foundation for Statistical Computing; 2013, http://www.R-project.org Externer Link
2.
EXASOL [Internet]. Nürnberg: EXASOL AG. Available from: http://www.exasol.com/. Externer Link
3.
Trautmann CA. Retrospektive Datenanalyse anhand von Therapedaten zum Mammakarzinom des Onkologischen Schwerpunkts Stuttgart. Inaugural-Dissertation Universität Tübingen 2012.