Article
Zusammenführung klinischer Forschungsdatenbestände in ein klinisches Data Warehouse für die Krebsforschung an einem Universitätsklinikum
Search Medline for
Authors
Published: | August 8, 2016 |
---|---|
Published with erratum: | April 24, 2018 |
Outline
Text
Hintergrund: In klinisch forschenden Einrichtungen werden Datenbestände aus klinischer Routine und Forschungsprojekten in historisch gewachsenen Datenbanken und Anwendungssystemen gepflegt. Sollen diese Datenbestände zusammengeführt werden, ist dies bedingt durch unterschiedliche Programme, Datenformate und Datenqualitäten nur mit hohem Aufwand möglich.
Im konkreten Fall wurden in einem Universitätsklinikum Daten aus der klinischen Routine der Krebspatientenversorgung über ca. 15 Jahre in verschiedenen Datenbeständen dokumentiert:
- MS Access-Datenbank: Daten zu Oberflächenmarkern von malignen Zellen
- MS Excel basierte Datenbank: Daten zu Molekular- und Zytogenetischen Analysen
- MS SQL-Server-Datenbank: Diagnostische Daten der Zytologie
Weitere relevante Daten finden sich verteilt in den Subsystemen des Krankenhausinformationssystems (KIS) des Klinikums, insbesondere im Laborinformationssystem (LIS). Projektziel war die systematische und reproduzierbare Zusammenführung der Datenbestände in einem konsolidierten Repositorium als Basis für die Durchführung fachübergreifender Datenanalysen über Patienten, deren Laborwerte und den zeitlichen Verlauf der Behandlung. Herausforderungsvoll ist die eindeutige Identifikation der Patienten über verschiedene Datenbestände. Hierdurch soll eine strukturierte Datenbasis geboten werden, auf der weiterführende statistische Analysen ausgeführt werden können.
Methoden: Ein etablierter Ansatz zur zentralen Datenintegration und Standardisierung heterogener Datenbestände ist ein Data-Warehouse-System (“DWH”)[1]. Im Projekt wurde die DWH-Technologie des Universitätsklinikums[2] verwendet.
Eine hohe Datenqualität und die Berücksichtigung der Datenschutz- und Datensicherheitserfordernisse spielen für die Nutzung der Daten eine tragende Rolle. Um den Datenschutz zu gewährleisten, werden ausschließlich pseudonymisierte Patientendaten verarbeitet. Verwendet wird das im KIS hinterlegte Pseudonym zu jedem Patienten. Zur Patientenidentifikation wird ein zentraler Service des Klinischen DWH (Stammdatenanreicherung [2]) genutzt, der durch einen Merkmalsvergleich einen pseudonymen Patientenidentifikator ("PID”) zurückliefert. Die Datenbestände wurden zunächst in Patientenstammdaten und Analysedaten zerlegt. Es folgten Plausibilitäschecks und Qualitätsbereinigungen der Bestände mittels Extract-Transform-Load (“ETL”)-Prozessen und die Integration in ein SQL-Server basiertes Repositorium. Dadurch bleibt die Datenherkunft nachvollziehbar.
Ergebnisse: Die Zusammenführung der Datenbestände in ein konsolidiertes Repositorium wurde umgesetzt. Durch die Anreicherung der Patientenstammdaten konnte eine PID vergeben werden, die es ermöglicht, Patientendaten in den Datenbeständen zu identifizieren und zu konsolidieren. Anhand der PID wurden Fallzahlen (“CID”) aus dem Klinischen DWH zugeordnet. Das Klinische DWH konnte anhand der CID weitere Daten aus KIS und LIS-Daten zur Anreicherung der Daten des Forscherteams zu Auswertungszwecken bereitstellen.
Zusammenfassung: Konzipiert und umgesetzt wurde ein Ansatz, Forschungsdaten aus verschiedenen Datenquellen strukturiert zusammenzuführen. Bei den zu integrierenden Daten zeigten sich partiell komplexe Datenstrukturen, die informationstechnisch nicht abgebildet werden konnten. Zu prüfen wäre zudem, ob die Rate der Patientenidentifikation unter Einbeziehung vergleichbarer Ansätze und Werkzeuge (z.B. [3] oder [4]) verbessert werden kann. Die semantische Integration im DWH erfolgte in diesem Projekt benennungsbasiert, ein innovativer Ansatz wäre die Verwendung von Archetypen innerhalb des ETL-Prozesses [1].
Verknüpfungen zu Subsystemen des KIS werden durch diesen Ansatz erstmalig ermöglicht. Das entstandene Repositorium erlaubt die Durchführung heuristischer Analysen zur Bewertung von transplantierten Patienten auf strukturierten Daten. Die Bewertung von Wahrscheinlichkeiten der Abstoßungreaktion liefert innovative Aussagen zur Sensibilität bei Risikopatienten.
Ein etablierter Standard für Forschungsdatenbankmodelle fehlt und erschwerte die Integration der Daten. Die dokumentierten Konzepte werden als Template für zukünftige Datenbanken Anwendung finden und kontinuierlich diskutiert und verbessert. Perspektivisch ist die Etablierung eines standardisierten Frameworks zur Erstellung von Forschungsdatenbanken notwendig.
Literatur
- 1.
- Haarbrandt B, Gerbel S, Marschollek M. Einbindung von openEHR Archetypen in den ETL-Prozess eines klinischen Data Warehouse. In: GMDS 2014. 59. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (GMDS). Göttingen, 07.-10.09.2014. Düsseldorf: German Medical Science GMS Publishing House; 2014. DocAbstr. 230. DOI: 10.3205/14gmds227
- 2.
- Gerbel S, Laser H, Haarbrandt B. Das Klinische Data Warehouse der Medizinischen Hochschule Hannover. MDI. 2014;(2):49-52.
- 3.
- TMF-EV. V015-01 PID-Generator. http://www.tmf-ev.de/Themen/Projekte/V015_01_PID_Generator.aspx (accessed 29 April 2016)
- 4.
- MOSAIC-Greifswald: ID-Management mittels E-PIX. https://mosaic-greifswald.de/werkzeuge-und-vorlagen/id-management-e-pix.html (accessed 29 April 2016)