gms | German Medical Science

GMDS 2014: 59. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V. (GMDS)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie

07. - 10.09.2014, Göttingen

Zentrale Forschungsdatenbank im dezentralen Forschungsnetz – Datenschutzkonzept des Deutschen Zentrums für Lungenforschung (DZL)

Meeting Abstract

  • R.W. Majeed - Sektion für Medizinische Informatik, Justus-Liebig-Universität Gießen, Gießen
  • S. Kuhn - Universities of Giessen and Marburg Lung Center (UGMLC), Justus-Liebig-Universität Gießen, Gießen
  • C. Ruppert - Universities of Giessen and Marburg Lung Center (UGMLC), Justus-Liebig-Universität Gießen, Gießen
  • A. Günther - Universities of Giessen and Marburg Lung Center (UGMLC), Justus-Liebig-Universität Gießen, Gießen
  • R. Röhrig - Sektion für Medizinische Informatik, Justus-Liebig-Universität Gießen, Gießen

GMDS 2014. 59. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (GMDS). Göttingen, 07.-10.09.2014. Düsseldorf: German Medical Science GMS Publishing House; 2014. DocAbstr. 337

doi: 10.3205/14gmds116, urn:nbn:de:0183-14gmds1161

Veröffentlicht: 4. September 2014

© 2014 Majeed et al.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielfältigt, verbreitet und öffentlich zugänglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Gliederung

Text

Einleitung: Das Deutsche Zentrum für Lungenforschung (DZL) ist ein Zusammenschluss der führenden universitären und außeruniversitären Einrichtungen für Lungenforschung in Deutschland. Ziel des DZL ist es, in einem translationalen Forschungsansatz gemeinsam neue Ansätze für Prävention Diagnose und Therapie der bedeutendsten Lungenerkrankungen zu entwickeln

Das DZL besteht aus fünf regionalen Zentren, die jeweils aus drei bis sechs Instituten bestehen. Insgesamt werden acht Krankheitsgebiete erforscht: Asthma/Allergien, Pneumonie/akutes Lungenversagen, chronisch obstruktive Lungenerkrankungen, Lungenfibrose/interstitielle Lungenerkrankungen, Lungenhochdruck, Lungenkrebs, Mukoviszidose und Lungenerkrankungen im Endstadium. An den beteiligten Einrichtungen der fünf Zentren existieren bereits zahlreiche lokale Forschungsdatenbanken.

Für das Ziel des DZL der krankheitsübergreifenden Forschung und Entdeckung gemeinsamer pathophysiologischer Konzepte ist eine zentrale Forschungsdatenbank notwendig, die die Inhalte aller lokalen Register und Datenbanken zusammenführt, mit Biomaterialdaten verknüpft und den Forschern Abfragemöglichkeiten bietet.

Ziel dieser Arbeit ist die Entwicklung einer Softwarearchitektur einer zentralen Forschungsdatenbank, die gleichzeitig allen geltenden Datenschutzbestimmungen entspricht.

Für eine standortübergreifende Forschungsdatenbank, die Daten aus unterschiedlichen Institutionen mehrerer Bundesländer zusammenführen soll, spielt der Datenschutzaspekt eine große Rolle. Hierbei sind regulative Vorgaben aus vielen Quellen zu berücksichtigen: Es gilt die EU Direktive 96/46/EC zum Datenschutz, das deutsche Bundesdatenschutzgesetz, die Datenschutzgesetze der einzelnen Bundesländer, die Vorgaben der lokalen Datenschutzbeauftragten der Universitätskliniken sowie zusätzliche Regularien auf Landesebene wie z.B. Landeskrankenhausgesetze.

Das Erarbeiten eines projektspezifischen Datenschutzkonzeptes wird erleichtert durch die Arbeitsgruppe Datenschutz der TMF (Technologie und Methodenplattform für die vernetzte medizinische Forschung), die generische Datenschutzkonzepte für Forschungsnetze in der Medizin ausgearbeitet hat [1]. Diese gelten jedoch hauptsächlich für primäre Forschungsdatenbanken, die die Daten eines Forschungsprojektes verwalten. Da in diesem Fall Daten vieler existierender Forschungsdatenbanken in einem Datawarehouse zusammengeführt werden sollen, muss jedoch von dem Standardkonzept abgewichen werden.

Der datenschutztechnisch einfachste Fall wäre ein Szenario, in dem nur vollständig anonymisierte Daten übertragen würden. Dann entfiele ein aufwendiges Datenschutzkonzept, da anonyme Daten für Forschungszwecke problemlos übertragen und gespeichert werden dürfen. Dieser Fall kommt allerdings für das DZL nicht in Frage, da sich anonyme Daten definitionsgemäß nicht zusammenführen lassen (z.B. Biomaterialdaten und zugehörige phänotypisierende Daten oder Verlaufsdaten eines Patienten) weil keine identifizierenden Merkmale mehr vorhanden sein dürfen.

Vor ähnlichen Problemen stehen vergleichbare Forschungsverbünde wie z.B. das Deutsche Konsortium für Translationale Krebsforschung (DKTK), die zusätzlich zur Pseudonymisierung auch anonyme Daten verarbeiten [2] oder das Forschungsprojekt „Greifswald Approach to Individualized Medicine“ (GANI_MED) [3].

Methoden: Eine Anforderungsanalyse fand vor der Erarbeitung des Datenschutzkonzeptes statt. Da das anvisierte Datawarehouse primär zur Unterstützung der Forscher gedacht ist, sollten Anforderungen grundsätzlich rein aus der Sicht des Forschers formuliert werden. In diesem Fall jedoch wäre eine rein anwendergetriebene Anforderungsanalyse nicht optimal, da die Datenquellen im medizinischen Forschungsumfeld zusätzliche Besonderheiten aufweisen: Die einzige Gemeinsamkeit sämtlicher Datenquellen ist der erforderliche Patientenbezug. Da sich der Forschungsverbund und dessen Fragestellungen im Verlauf ständig ändern können, sind auch die Importformate, -struktur und -felder zum Entwicklungszeitpunkt nur teilweise bekannt. Aus diesem Grund wurde ein Hybridansatz aus Anwendergetriebener und Quellengetriebener Anforderungsanalyse gewählt [4].

Ergebnisse: Aus den Anforderungen ergeben sich folgende fünf IT-unterstützte Prozesse: (a) Registrierung und Pseudonymisierung von Studienpatienten, (b) Zuordnung lokaler Patientenschlüssel zu registrierten Patienten. (c) Übermittlung von Daten an das Datawarehouse, (d) Bestellung lokaler Proben/Daten sowie (e) Benachrichtigung des behandelnden Arztes.

Die Datenübermittlung und die Pseudonymisierung basieren auf dem kryptographischen Verfahren der Public-Key-Kryptographie. Allen Standorten im Forschungsverbund sind bekannt: der öffentliche Schlüssel eines Treuhänders PubK_TH, der öffentliche Schlüssel des Datawarehouse PubK_DWH sowie jeweils den öffentlichen und privaten Schlüssel des eigenen Standortes PrivK_S1 (hier für Standort S1). Die privaten Schlüssel sind jeweils immer nur ihrem entsprechenden Inhaber bekannt – sie werden lokal erzeugt und zu keinem Zeitpunkt übertragen. Der oben erwähnte Treuhänder ist eine rein passive Rolle, die lediglich den eigenen privaten Schlüssel sicher verwahrt. Nur im Notfall (z.B. Datenverlust am Standort) wird er benötigt um Patienten reidentifizieren zu können.

(a) Für die Registrierung eines Patienten verschlüsselt der Standort dessen identifizierende Daten (IDAT) in festem Format (z.B. Vorname+Name+Geburtsdatum) mit dem öffentlichen Schlüssel des Treuhänders deterministisch. Es resultiert ein Pseudonym in Schlüssellänge (z.B. 2048 Bit), welches an den Pseudonymisierungsdienst gesendet wird. Dieser kann die Daten zwar nicht entschlüsseln, aber nachschlagen ob es bereits bekannt ist. Er erzeugt ein lokales Pseudonym (fortlaufende Nummer) die zurück an den übermittelnden Standort gesendet wird und von diesem gespeichert werden kann. Das lokale Pseudonym unterscheidet sich zwischen Standort auch für identische Patienten. Für alle weiteren Prozesse kann nun wahlweise das lokale Pseudonym, die verschlüsselten IDAT oder die in (b) zugeordneten verschlüsselten lokalen Schlüssel verwendet werden.

(b) Um eine Datenübermittlung von existierenden Datenbanken zu vereinfachen, können einem registrierten Patienten beliebig viele lokale Schlüssel zugeordnet werden. Die lokalen Patientenschlüssel werden dazu mit dem öffentlichen Schlüssel des Standorts verschlüsselt. Sie können dann ausschließlich von diesem Standort wieder entschlüsselt werden. Die verschlüsselten Patientenschlüssel werden anschließend mit dem lokalen Pseudonym an den Pseudonymisierungsdienst übertragen und von diesem gespeichert.

(c) Die Übermittlung von medizinischen Daten (MDAT) erfolgt immer über den Pseudonymisierungsdienst. Medizinische Daten werden ohne IDAT, Pseudonyme und Datenverweise mit dem PubK_DWH verschlüsselt. Datenverweise (etwa Links zu Proben, Imaging- und Genomdaten) werden mit dem eigenen PubK_S1 verschlüsselt. Anschließend werden die verschlüsselten MDAT mit den Pseudonymen an den Pseudonymisierungsdienst übertragen. Dieser kann MDAT nicht entschlüsseln. Er ersetzt die lokalen Pseudonyme durch zentrale Pseudonyme, die anschließend mit den unverändert verschlüsselten MDAT an das Datawarehouse weitergeleitet werden. Das Datawarehouse kann die MDAT entschlüsseln – die Datenzusammenführung erfolgt dann mithilfe der zentralen Pseudonyme.

(d) Die Probenbestellung geht von einem Forscher am Datawarehouse aus, der zunächst ein Patientenkollektiv spezifiziert. Nach manueller Kontrolle sendet das Datawarehouse die zentralen Pseudonyme mit der Zieladresse an den Pseudonymisierungsdienst, der zu jedem Pseudonym die Standorte und passenden lokalen Pseudonyme nachschlägt. Die lokalen Pseudonyme werden dann mit Zieladresse und Anweisungen an die entsprechenden Standorte übermittelt, die die Proben direkt an die Zieladresse verschicken.

(e) Die Benachrichtigung des behandelnden Arztes erfolgt analog zur Probenbestellung (d) ebenfalls über den Pseudonymisierungsdienst, der die Pseudonyme übersetzt. Anstelle der Zieladresse wird die zu übermittelnde Nachricht (i.d.R. weiterer Studieneinschluss) verschlüsselt an den Standort weitergegeben.

Diskussion: Mit dem vorliegenden Konzept wird sichergestellt dass die identifizierenden Daten nicht den Standort des primären Registers verlassen. Damit geht dieses Datenschutzkonzept über den Sicherheitsstandard der generischen Lösungen der TMF [1] hinaus. Insbesondere genügt dies §25, Abs.3 des Berliner Landeskrankenhausgesetzes [5], nach dem identifizierende Daten von Patienten die erfassende Institution nicht verlassen dürfen.


Literatur

1.
Reng C, Debold P, Specker C, Pommerening K. Generische Lösungen der TMF zum Datenschutz für die Forschungsnetze in der Medizin. Berlin: MWV, Medizinisch Wissenschaftl Verl-Ges; 2006. (Schriftenreihe der Telematikplattform für Medizinische Forschungsnetze TMF [1]).
2.
Steffens M, Husmann G, Koca M, Lablans M, Komor M, Zeissig S et al. IT behind a platform for Translational Cancer Research - concept and objectives. Stud Health Technol Inform. 2012; 180:1135–7.
3.
Schack C, Reinecke P, Möller A, Christoph H, Wolfgang H. Konzeption und Entwicklung einer generischen Architektur zur Integration heterogener klinischer Daten in eine zentrale Forschungsdatenbank im Rahmen des Projektes GANI_MED (Greifswald Approach to Individualized Medicine). In: Blettner M, Klug SJ, editors. 56. GMDS Jahrestagung, 6. DGEpi Jahrestagung. MAINZ 2011. Düsseldorf: German Medical Science; 2011. p. 812–3.
4.
Giorgini P, Rizzi S, Garzetti M. GRAnD: A goal-oriented approach to requirement analysis in data warehouses. Decision Support Systems. 2008; 45(1):4–21.
5.
GVBl. Berliner Landeskrankenhausgesetz (BlnLKG) in der Fassung der Bekanntmachung vom 18 September 2011. 2011. S. 483