gms | German Medical Science

GMDS 2014: 59. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V. (GMDS)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie

07. - 10.09.2014, Göttingen

Elsevier Versorgungsmanagement Assistent (EVA): Big-Data Analysen auf deutschen Gesundheitsdaten

Meeting Abstract

Suche in Medline nach

  • P. Hellwig - Elsevier - Health Risk Analytics, Berlin
  • A. Albrecht - bakdata, Berlin
  • O. Lodbrok - Elsevier GmbH, München

GMDS 2014. 59. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (GMDS). Göttingen, 07.-10.09.2014. Düsseldorf: German Medical Science GMS Publishing House; 2014. DocAbstr. 172

doi: 10.3205/14gmds139, urn:nbn:de:0183-14gmds1398

Veröffentlicht: 4. September 2014

© 2014 Hellwig et al.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielfältigt, verbreitet und öffentlich zugänglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Gliederung

Text

Dieser Beitrag stellt einen Teil des Elsevier Versorgungsmanagement Assistenten (EVA) vor [1], der Mitarbeiter von Krankenkassen daten- und statistikbasiert beim Vertragsmanagement unterstützt: Versorgungsangebote können bewertet, Selekivverträge operationalisiert und evaluiert, und Behandlungspfade in der Regelversorgung untersucht werden.

Einleitung und Fragestellung: Statistische Analysen von Daten im Gesundheitswesen sind von großem Nutzen und können einer Vielzahl von Zielen dienen, z.B. dabei helfen, Versorgungsangebote für Hochrisikopatienten zu verbessern. Aufgrund der großen Datenmengen stellen Analysen für individuelle Fragestellungen eine große Herausforderung in diesem Bereich dar: Klassische Datenbanklösungen bieten häufig nicht die gewünschten Antwortzeiten oder erlauben individuelle Analysen nur unter hohem administrativen Aufwand bzw. nur für einen Teil oder für voraggregierte Daten [2]. Zudem bieten Datenbanken kaum Funktionalität für komplexe statistische Analysen. In dem vorliegenden Beitrag geht es um die Frage, inwieweit der Einsatz von modernen Clustersystemen die Analyse von "Big Data" im Gesundheitswesen verbessern kann. EVA verwendet das leistungsfähige Clustersystem HPCC [3] und verarbeitet damit quartalsbezogene GKV-Routinedaten für mehrere Kalenderjahre, die eine Vielzahl patientenbezogener Informationen u.a. zu Diagnosen, Behandlungen sowie zur Arzneimittelversorgung beinhalten.

Material und Methoden: Für EVA wurde ein neues "Big Data" Konzept entwickelt, das auf dem Clustersystem HPCC aufsetzt. HPCC ist eine Super-Computer Plattform bestehend aus mehreren Rechnerknoten, die miteinander nach dem Master-Slave-Ansatz vernetzt sind. Das System ist Open Source und zeichnet sich durch eine gute Skalierbarkeit aus. Es erlaubt sowohl eine horizontale Skalierung mit kostengünstiger Standardhardware (scale out) als auch eine vertikale Skalierung (scale up) mit Hochleistungshardware. HPCC wurde speziell für die Analyse großer Datenmengen entwickelt und implementiert die Parallelverarbeitung großer Datenmengen auf mehreren Knoten eines HPCC-Clusters. Für die weitere Verbesserung der Anfrageverarbeitung erlaubt HPCC das optimierte Verteilen der Daten auf den Rechnerknoten und das Anlegen von Indexstrukturen auf den Daten. HPCC unterstützt das relationale Datenmodell und verfügt mit ECL über eine deklarative Anfragesprache. Darüberhinaus bietet HPCC umfangreiche Pakete für die statistische Datenanalyse und die Möglichkeit, Analyseergebnisse in populären Reportingsystemen, z.B. Excel, über JDBC/ODBC oder via CSV Export weiterverarbeiten und visualisieren zu können.

Ergebnisse: Für die Evaluation wurden in EVA typische Analyseanfragen formuliert und der Geschwindigkeitszuwachs mit verschiedenen HPCC Clusterkonfigurationen getestet. Als Testdaten dienten zufällig generierte ambulante Diagnosen für den Zeitraum von 2007 bis zum 2. Quartal 2013. Der Datensatz beinhaltet 675 Millionen Datensätze und entspricht damit ungefähr der zu erwartenden Diagnose-Menge von ca. 5% aller Versicherten der gesetzlichen Krankenkassen in Deutschland (ca. 3,5 Millionen Versicherte). Folgende zwei Analysen wurden als beispielhaft ausgewählt: Erstens, die Ermittlung aller Versicherten mit Rückenschmerz in 2011, und welche dieser Versicherten beim Orthopäden in Behandlung sind. Für eine zweite, komplexe Analyse wurden diese beiden Kriterien erweitert um die Frage, welche dieser Versicherten im Folgejahr eine dauerhafte psychiatrische Diagnose erhielten. Für die Evaluation wurden verschiedene HPCC-Cluster auf der Amazon Elastic Compute Cloud (EC2) [4] eingerichtet:

Für die vertikale Skalierung (scale up) wurden Rechnerknoten mit jeweils 8 CPUs und 68,4 GB Arbeitsspeicher und beschleunigtem Festplattenzugriff verwendet. Für ein HPCC-Cluster mit 1 Masterknoten und 2 Slaveknoten wurde jede Analyseanfragen in unter 8 Sekunden beantwortet. Für ein HPCC-Cluster mit 1 Masterknoten und 4 Slaveknoten wurde jede Analyseanfragen in unter 5 Sekunden beantwortet.

Für die horizontale Skalierung (scale out) wurden Rechnerknoten mit jeweils 4 CPUs, 7,5 GB Arbeitsspeicher und beschleunigtem Festplattenzugriff verwendet. Für ein HPCC-Cluster mit nur 2 Slaveknoten konnten aufgrund des zu kleinen Arbeitsspeichers keine Berechnungen durchgeführt werden. Für ein HPCC-Cluster mit 1 Masterknoten und 4 Slaveknoten wurde jede Analyseanfragen in unter 5 Sekunden beantwortet. Darüber hinaus wurde ein HPCC-Cluster mit 1 Masterknoten und 16 Slaveknoten ohne beschleunigtem Festplattenzugriff getestet. Jede Analyseanfrage wurde für diese Clusterkonfiguration in unter 4 Sekunden beantwortet.

Die Ergebnisse zeigen, dass eine Clusterkonfiguration mit Standardhardware bereits ab 4 Slaveknoten für unseren Anwendungsfall sehr gute Antwortzeiten gewährleistet und der Einsatz von Hochleistungshardware ab dieser Clustergröße zu keiner weiteren Verbesserung führt.

Diskussion und Schlussfolgerungen: Die Evaluation von HPCC für EVA zeigte, dass der Einsatz moderner Clustersysteme für die performante Analyse von "Big Data" im Gesundheitswesen einen wichtigen Beitrag leisten kann. Das für EVA evaluierte Clustersystem HPCC garantiert bereits für kleine Clustergrößen mit Standardhardware kurze Antwortzeiten, auch für komplexe Analyseanfragen. Zudem garantieren Clustersysteme durch die Möglichkeit der horizontalen Skalierbarkeit eine performante Verarbeitung der stetig wachsenden Datenmengen im Gesundheitswesen.


Literatur

1.
Elsevier Versorgungsmanagement Assistent [Internet]. [letzter Aufruf: 31.03.2014]. Verfügbar unter: http://www.elsevieranalytics.de/elsevier-versorgungsmanagement-assistent/ Externer Link
2.
Dean J, Ghemawat S. MapReduce: A Flexible Data Processing Tool. Communications of the ACM. 2010 Jan;53(1):72-77.
3.
The HPCC Systems Platform [Internet]. [letzter Aufruf: 31.03.2014]. Verfügbar unter: http://hpccsystems.com/download/free-community-edition Externer Link
4.
Amazon Elastic Compute Cloud (Amazon EC2) [Internet]. [letzter Aufruf: 31.03.2014]. Verfügbar unter: http://aws.amazon.com/de/ec2/ Externer Link