gms | German Medical Science

GMDS 2013: 58. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V. (GMDS)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie

01. - 05.09.2013, Lübeck

Integration des Identitätsmanagements für Forschungsdatenbanken in ETL-Prozesse am Beispiel der Mainzer Patientenliste

Meeting Abstract

Suche in Medline nach

  • Marita Muscholl - Universitätsmedizin Mainz, Mainz, DE
  • Martin Lablans - Universitätsmedizin Mainz, Mainz, DE
  • Andreas Borg - Universitätsmedizin Mainz, Mainz, DE
  • Frank Ückert - Universitätsmedizin Mainz, Mainz, DE

GMDS 2013. 58. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (GMDS). Lübeck, 01.-05.09.2013. Düsseldorf: German Medical Science GMS Publishing House; 2013. DocAbstr.96

doi: 10.3205/13gmds052, urn:nbn:de:0183-13gmds0522

Veröffentlicht: 27. August 2013

© 2013 Muscholl et al.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielfältigt, verbreitet und öffentlich zugänglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Gliederung

Text

Einleitung und Fragestellung: Medizinische Forschung ist zunehmend in größeren und überregionalen Forschungsverbünden organisiert. Eine Folge davon ist die Notwendigkeit, forschungsrelevante Daten in zentralen Datenbanken bzw. Proben in zentralen Biobanken überregional zusammenzuführen. Um Datenschutzanforderungen zu genügen, ist hierbei die Pseudonymisierung der Daten erforderlich [1], [2]. Zu diesem Zweck wurden in der Vergangenheit verschiedene Dienste zum Identitätsmanagement entwickelt und etabliert, wie beispielsweise der PID-Generator [3] und seine Weiterentwicklung, die Mainzer Patientenliste. Bisher werden diese Dienste in Form von Webanwendungen angeboten, die nach manueller Eingabe der identifizierenden Daten ein Pseudonym erster Stufe zurückliefern. Beim Transfer von größeren Datenmengen aus verschiedenen, z. B. klinischen Datenquellen, wird jedoch ein automatisiertes Verfahren benötigt. Datenintegrationswerkzeuge aus dem Data Warehouse-Umfeld bieten umfassende Unterstützung des Datentransfers in sogenannten ETL-Prozessen. Dabei werden Daten aus dem Quellsystem gelesen, in das benötigte Ausgangsformat übersetzt und in das Zielsystem geschrieben (ETL = Extract-Transform-Load). Um beim Übergang von Quell- zu Zielsystem die identifizierenden Daten durch Pseudonyme ersetzen zu können, muss das ID-Management in den ETL-Prozess eingebunden werden. Der Beitrag beschreibt eine Integrationslösung für REST-basierte Pseudonymisierungsdienste in ETL-Prozesse, die exemplarisch für die Mainzer Patientenliste implementiert wurde.

Material und Methoden: Die Mainzer Patientenliste ist als Webservice mit einer REST-basierten Webschnittstelle realisiert, wobei der Zugriff über ein Ticket-basiertes Verfahren autorisiert wird. Für jede Instanz der Patientenliste, die als Service innerhalb eines Forschungsnetzes läuft, ist via Konfiguration festgelegt, welche identifizierbaren Datenfelder zur ID-Erzeugung verwendet werden sollen und welche Attributnamen erwartet werden. Für die Realisierung des ETL-Prozesses wurde Talend Open Studio [4] ausgewählt, ein verbreitetes Open-Source-Datenintegrationswerkzeug. Es stellt eine Bibliothek von Komponenten für die verschiedenen Anforderungen des ETL-Prozesses (Datenbankinterfaces, Datentransformation, etc.) zur Verfügung, die in einem Prozess verknüpft werden. Jede Talend-Komponente besteht aus Java-Emitter-Template-Code, den Talend beim Prozessstart zusammen mit den eingegebenen Komponenten-Parametern in kompilierbaren Java-Code umwandelt. Da bisher keine Talend-Komponente existiert, die die Abfrage einer REST-basierten Webschnittstelle unter Berücksichtigung von Inputparametern aus der Datenquelle anbietet, wurde eine spezifische Komponente (tMzID_getID) entwickelt. Eingabeparameter der Komponente sind a) die URL für die Adressierung der Patientenliste, b) ein Schlüssel zur Authentisierung und c) eine dynamische Key-Value-Liste, welche die Zuordnung zwischen Feldern der Datenquelle und Parameterbezeichnern für die Abfrage der Patientenliste festlegt. Die Rückgabe verschiedener Fehlercodes ermöglicht die Weiterbehandlung von Fehlern innerhalb des Talend-Prozesses. Da in der Praxis die transferierten Datenmengen aus patientenbezogenen Einzelbeobachtungen bestehen (mehrere Datensätze pro Patient), wurde zur Verbesserung des Datendurchsatzes ein lokaler ID-Cache implementiert.

Ergebnisse: In einem ersten Testszenario wurde die Komponente in einen Talend-Prozess integriert, der Testdaten aus einer Datei liest, Pseudonyme auf der Basis von Name, Vorname, Geburtsname, Geburtsdatum, Postleitzahl und Wohnort ermittelt, identifizierende Felder entfernt, Ergebnisdatensätze ausgibt und fehlerhafte Datensätze zur Nachbearbeitung speichert. Durch die Verwendung des ID-Caches konnte der Durchsatz in Testläufen mit 200-14000 Datensätzen um Faktor vier erhöht werden. Der absolute Durchsatz hängt von der Antwortzeit der Patientenliste ab und sinkt mit steigender Anzahl der registrierten Patienten.

Diskussion: Mit der vorgestellten Komponente lassen sich REST-basierte Pseudonymisierungsdienste erster Stufe wie die Mainzer Patientenliste einfach und performant in ETL-Prozesse einbinden. Künftige Anforderungen, die durch Weiterentwicklung der ID-Tools entstehen, können mit geringem Entwicklungsaufwand berücksichtigt werden.


Literatur

1.
Reng CM, Debold P, Specker Ch, Pommerening K. Generische Lösungen der TMF zum Datenschutz für die Forschungsnetze der Medizin. München: Medizinisch Wissenschaftliche Verlagsgesellschaft; 2006.
2.
Pommerening K. Das Datenschutzkonzept der TMF für Biomaterialbanken. it – Information Technology. 2007; 49: 352–59.
3.
Glock J, Herold R, Pommerening K: Personal identifiers in medical research networks: Evaluation of the personal identifier generator in the Competence Network Paediatric Oncology and Haematology. GMS Med Inform Biom Epidemiol. 2002;2: Doc06.
4.
Talend Open Studio. Talend; c2006-2013. [cited 2013 Mar 21]. Available from: http://de.talend.com/products/talend-open-studio Externer Link