gms | German Medical Science

63. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V. (GMDS)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie

02. - 06.09.2018, Osnabrück

ConQuery – eine Open-Source Software zur einfachen und schnellen Analyse großer Datenbestände

Meeting Abstract

  • Jochen Walker - InGef - Institut für angewandte Gesundheitsforschung Berlin GmbH, Berlin, Deutschland
  • Manuel Hegner - bakdata GmbH, Berlin, Deutschland
  • Hannes Priehn - spectrumK GmbH, Berlin, Deutschland
  • Lennart Hickstein
  • Alexander Albrecht - bakdata GmbH, Berlin, Deutschland

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie. 63. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (GMDS). Osnabrück, 02.-06.09.2018. Düsseldorf: German Medical Science GMS Publishing House; 2018. DocAbstr. 270

doi: 10.3205/18gmds094, urn:nbn:de:0183-18gmds0948

Published: August 27, 2018

© 2018 Walker et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License. See license information at http://creativecommons.org/licenses/by/4.0/.


Outline

Text

Hintergrund: Die Analyse großer patientenbezogener Datenbestände (z.B. Leistungsdaten von Krankenkassen, Registerdaten) besitzt enormes Potenzial für eine fundierte Entscheidungsfindung. Der Zeit- und Ressourcenaufwand für derartige Auswertungen ist jedoch hoch und es bedarf fortgeschrittener analytischer Kenntnisse sowie einer engen Abstimmung zwischen Mitarbeitern, die die inhaltliche Bewertung der Ergebnisse vornehmen und Experten auf dem Gebiet der Analytik. Um einfacher und schneller zu datenbasierten Entscheidungen zu kommen, wurde von uns die webbasierte Softwarelösung EVA (http://www.ingef.de/gesundheitsforschung/self-service-analytics/) entwickelt und im Projekt „ConQuery“ (https://github.com/bakdata/conquery) Open-Source gestellt.

Ziel der Studie: Entwicklung einer Softwareplattform zur einfachen und schnellen Analyse patientenbezogener Datenbestände. Open-Source Stellung der Software zur Nutzung und Weiterentwicklung in weiteren Forschungsprojekten.

Vorgeschlagene Methode: In ConQuery können komplexe Anfragen und Analysen visuell über eine Weboberfläche mit Drag-and-Drop-Funktionen erstellt werden. Die Oberfläche ermöglicht den Anwendern komplexe Datenanalysen. ConQuery setzt auf einem selbst implementierten Datenbanksystem auf, das im Rahmen dieses Projekts für die performante Analyse von patientenbezogenen Datenbeständen (Versorgungsdaten) entwickelt wurde. In der ersten Projektphase wurde i2b2 (https://www.i2b2.org/) als mögliche Basis evaluiert . Dabei stellte sich heraus, dass große Datenmengen nicht performant abgefragt werden können. In der ersten Version wurde ConQuery mit PostgreSQL realisiert. Jedoch liegen die Stärken dieser Datenbanksysteme in der transaktionsorientierten Datenverarbeitung und weniger bei komplexen Analyseabfragen auf großen Datenmengen.

Daten werden in ConQuery pro Patient als Zeitreihe gespeichert. Eine Zeitreihe umfasst eine Folge von vielen Datenpunkten bestehend aus den Diagnosen, Therapien etc. der Patienten. Da sich die historischen Versorgungsdaten nicht ändern, können verschiedene Datenbanktechnologien genutzt und erweitert werden, die eine hohe Performance und geringe Antwortzeiten garantieren.

Beim Laden der Daten in die Datenbank werden hochoptimierte, verlustfreie Kompressionsverfahren verwendet, um möglichst viele Daten im Hauptspeicher zu halten und dort zu analysieren. Ein zeitaufwendiges Nachladen der Daten von der Festplatte entfällt. Auch werden Daten spaltenorientiert gespeichert und indexiert [1]. Dabei sind die implementierten Indexstrukturen gezielt für die Klassifikationssysteme der Versorgungsforschung (ICD, ATC, usw.) sowie für Zeitreihen optimiert.

Zusätzlich werden Daten beim Laden in die Datenbank voraggregiert, da Analysen auf Versorgungsdaten oft Aggregationsfunktionen über längere Zeiträume beinhalten, die durch vorberechnete Aggregate auf unveränderlichen Daten schneller abgerufen werden können [2].

Die implementierte Datenbank basiert auf einem verteilten Datenbanksystem, da performante Analysen auf großen Datenmengen einen hohen Grad an Parallelität voraussetzen. Analysen auf Versorgungsdaten sind CPU-intensiv und es sind viele Rechnerkerne nötig, um kurze Antwortzeiten zu garantieren [3]. Zur weiteren Verbesserung der Abfrageperformance werden die Daten horizontal partitioniert.

Diskussionspunkte: ConQuery ermöglicht es analytische Fragen einfach und performant zu beantworten und so eine schnelle Entscheidungsfindung zu unterstützen.

Unsere Erfahrung zeigt, dass dafür klassische SQL Datenbanken oft nicht geeignet sind: SQL-Anfragen können schnell sehr komplex und unübersichtlich werden. Insbesondere, wenn Informationen aus vielen Tabellen verknüpft und mit Aggregationsfunktionen berechnet werden müssen. Werden diese Informationen dann zusätzlich in zeitliche Beziehung zueinander gesetzt, werden SQL Entwickler kreativ und nutzen Unterabfragen, temporäre Tabellen und eigene UDFs.

Am Ende werden es dann oft viele SQL-Anfragen um das gewünschte Ergebnis zu berechnen. Oft folgt eine zeitaufwändige Validierung, ob die mühevoll erstellten SQL-Anfragen auch das Richtige tun. Hinzu kommt, dass die Ausführung dann oft zu lange dauert.

Die Open-Source Software ConQuery erlaubt stattdessen eine einfache und schnelle Analyse großer Datenbestände mit visuellen Anfragen über eine Weboberfläche.

Die Autoren geben an, dass kein Interessenkonflikt besteht.

Die Autoren geben an, dass kein Ethikvotum erforderlich ist.


Literatur

1.
Abadi D, Madden S, Ferreira M. Integrating compression and execution in column-oriented database systems. In: Proceedings of the 2006 ACM SIGMOD international conference on Management of data; 2006 Jun 27-29; Chicago, USA.
2.
Gray J, et al. Data Cube: A Relational Aggregation Operator Generalizing Group By, Cross-Tab, and Sub-Totals. Data Mining and Knowledge Discovery. 1997;1:29-53.
3.
Melnik S, et al. Dremel: Interactive Analysis of Web-Scale Datasets. Communications of the ACM. 2011;54:114-123.