gms | German Medical Science

HEC 2016: Health — Exploring Complexity
2016 Joint Conference of GMDS, DGEpi, IEA-EEF, EFMI

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V.
Deutsche Gesellschaft für Epidemiologie e. V.

28.08. - 02.09.2016, München

Zusammenführung klinischer Forschungsdatenbestände in ein klinisches Data Warehouse für die Krebsforschung an einem Universitätsklinikum

Meeting Abstract

  • Hans Laser - Zentrum für Informationsmanagement der Medizinischen Hochschule Hannover, Hannover, Deutschland
  • Brigitte Eder - Fakultät III - Medien, Information und Design, Hochschule Hannover, Hannover, Deutschland
  • Svetlana Gerbel - Zentrum für Informationsmanagement der Medizinischen Hochschule Hannover, Hannover, Deutschland
  • Annette Günther - Fakultät III - Medien, Information und Design, Hochschule Hannover, Hannover, Deutschland
  • Matthias Katzensteiner - Fakultät III - Medien, Information und Design, Hochschule Hannover, Hannover, Deutschland
  • Florentina Kindler - Fakultät III - Medien, Information und Design, Hochschule Hannover, Hannover, Deutschland
  • Isabell Nowak - Fakultät III - Medien, Information und Design, Hochschule Hannover, Hannover, Deutschland
  • Jannes Perberschlager - Fakultät III - Medien, Information und Design, Hochschule Hannover, Hannover, Deutschland
  • Jana Pertz - Fakultät III - Medien, Information und Design, Hochschule Hannover, Hannover, Deutschland
  • Gamze Sirman - Fakultät III - Medien, Information und Design, Hochschule Hannover, Hannover, Deutschland
  • Kirstin Tümler - Fakultät III - Medien, Information und Design, Hochschule Hannover, Hannover, Deutschland
  • Oliver J. Bott - Fakultät III - Medien, Information und Design, Hochschule Hannover, Hannover, Deutschland
  • Iyas Hamwi - Department of Hematology, Hemostasis, Oncology and Stem Cell Transplantation, Hannover Medical School, Hannover, Deutschland
  • Michael Heuser - Department of Hematology, Hemostasis, Oncology and Stem Cell Transplantation, Hannover Medical School, Hannover, Deutschland

HEC 2016: Health – Exploring Complexity. Joint Conference of GMDS, DGEpi, IEA-EEF, EFMI. München, 28.08.-02.09.2016. Düsseldorf: German Medical Science GMS Publishing House; 2016. DocAbstr. 765

doi: 10.3205/16gmds141, urn:nbn:de:0183-16gmds1417

Published: August 8, 2016
Published with erratum: April 24, 2018

© 2016 Laser et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License. See license information at http://creativecommons.org/licenses/by/4.0/.


Text

Hintergrund: In klinisch forschenden Einrichtungen werden Datenbestände aus klinischer Routine und Forschungsprojekten in historisch gewachsenen Datenbanken und Anwendungssystemen gepflegt. Sollen diese Datenbestände zusammengeführt werden, ist dies bedingt durch unterschiedliche Programme, Datenformate und Datenqualitäten nur mit hohem Aufwand möglich.

Im konkreten Fall wurden in einem Universitätsklinikum Daten aus der klinischen Routine der Krebspatientenversorgung über ca. 15 Jahre in verschiedenen Datenbeständen dokumentiert:

  • MS Access-Datenbank: Daten zu Oberflächenmarkern von malignen Zellen
  • MS Excel basierte Datenbank: Daten zu Molekular- und Zytogenetischen Analysen
  • MS SQL-Server-Datenbank: Diagnostische Daten der Zytologie

Weitere relevante Daten finden sich verteilt in den Subsystemen des Krankenhausinformationssystems (KIS) des Klinikums, insbesondere im Laborinformationssystem (LIS). Projektziel war die systematische und reproduzierbare Zusammenführung der Datenbestände in einem konsolidierten Repositorium als Basis für die Durchführung fachübergreifender Datenanalysen über Patienten, deren Laborwerte und den zeitlichen Verlauf der Behandlung. Herausforderungsvoll ist die eindeutige Identifikation der Patienten über verschiedene Datenbestände. Hierdurch soll eine strukturierte Datenbasis geboten werden, auf der weiterführende statistische Analysen ausgeführt werden können.

Methoden: Ein etablierter Ansatz zur zentralen Datenintegration und Standardisierung heterogener Datenbestände ist ein Data-Warehouse-System (“DWH”)[1]. Im Projekt wurde die DWH-Technologie des Universitätsklinikums[2] verwendet.

Eine hohe Datenqualität und die Berücksichtigung der Datenschutz- und Datensicherheitserfordernisse spielen für die Nutzung der Daten eine tragende Rolle. Um den Datenschutz zu gewährleisten, werden ausschließlich pseudonymisierte Patientendaten verarbeitet. Verwendet wird das im KIS hinterlegte Pseudonym zu jedem Patienten. Zur Patientenidentifikation wird ein zentraler Service des Klinischen DWH (Stammdatenanreicherung [2]) genutzt, der durch einen Merkmalsvergleich einen pseudonymen Patientenidentifikator ("PID”) zurückliefert. Die Datenbestände wurden zunächst in Patientenstammdaten und Analysedaten zerlegt. Es folgten Plausibilitäschecks und Qualitätsbereinigungen der Bestände mittels Extract-Transform-Load (“ETL”)-Prozessen und die Integration in ein SQL-Server basiertes Repositorium. Dadurch bleibt die Datenherkunft nachvollziehbar.

Ergebnisse: Die Zusammenführung der Datenbestände in ein konsolidiertes Repositorium wurde umgesetzt. Durch die Anreicherung der Patientenstammdaten konnte eine PID vergeben werden, die es ermöglicht, Patientendaten in den Datenbeständen zu identifizieren und zu konsolidieren. Anhand der PID wurden Fallzahlen (“CID”) aus dem Klinischen DWH zugeordnet. Das Klinische DWH konnte anhand der CID weitere Daten aus KIS und LIS-Daten zur Anreicherung der Daten des Forscherteams zu Auswertungszwecken bereitstellen.

Zusammenfassung: Konzipiert und umgesetzt wurde ein Ansatz, Forschungsdaten aus verschiedenen Datenquellen strukturiert zusammenzuführen. Bei den zu integrierenden Daten zeigten sich partiell komplexe Datenstrukturen, die informationstechnisch nicht abgebildet werden konnten. Zu prüfen wäre zudem, ob die Rate der Patientenidentifikation unter Einbeziehung vergleichbarer Ansätze und Werkzeuge (z.B. [3] oder [4]) verbessert werden kann. Die semantische Integration im DWH erfolgte in diesem Projekt benennungsbasiert, ein innovativer Ansatz wäre die Verwendung von Archetypen innerhalb des ETL-Prozesses [1].

Verknüpfungen zu Subsystemen des KIS werden durch diesen Ansatz erstmalig ermöglicht. Das entstandene Repositorium erlaubt die Durchführung heuristischer Analysen zur Bewertung von transplantierten Patienten auf strukturierten Daten. Die Bewertung von Wahrscheinlichkeiten der Abstoßungreaktion liefert innovative Aussagen zur Sensibilität bei Risikopatienten.

Ein etablierter Standard für Forschungsdatenbankmodelle fehlt und erschwerte die Integration der Daten. Die dokumentierten Konzepte werden als Template für zukünftige Datenbanken Anwendung finden und kontinuierlich diskutiert und verbessert. Perspektivisch ist die Etablierung eines standardisierten Frameworks zur Erstellung von Forschungsdatenbanken notwendig.


Literatur

1.
Haarbrandt B, Gerbel S, Marschollek M. Einbindung von openEHR Archetypen in den ETL-Prozess eines klinischen Data Warehouse. In: GMDS 2014. 59. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (GMDS). Göttingen, 07.-10.09.2014. Düsseldorf: German Medical Science GMS Publishing House; 2014. DocAbstr. 230. DOI: 10.3205/14gmds227 External link
2.
Gerbel S, Laser H, Haarbrandt B. Das Klinische Data Warehouse der Medizinischen Hochschule Hannover. MDI. 2014;(2):49-52.
3.
TMF-EV. V015-01 PID-Generator. http://www.tmf-ev.de/Themen/Projekte/V015_01_PID_Generator.aspx (accessed 29 April 2016) External link
4.
MOSAIC-Greifswald: ID-Management mittels E-PIX. https://mosaic-greifswald.de/werkzeuge-und-vorlagen/id-management-e-pix.html (accessed 29 April 2016) External link

Erratum

Im Abschnitt Zusammenfassung wurde fehlender Text ergänzt.