gms | German Medical Science

GMDS 2014: 59. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V. (GMDS)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie

07. - 10.09.2014, Göttingen

Datenschutzkonformer Forschungsdatentransfer für ein deutsches Zentrum der Gesundheitsforschung

Meeting Abstract

Suche in Medline nach

  • T. Mauß - Universitätsmedizin Göttingen, Institut für Medizinische Informatik, Göttingen
  • O. Rienhoff - Universitätsmedizin Göttingen, Institut für Medizinische Informatik, Göttingen
  • M. Quade - Universitätsmedizin Göttingen, Institut für Medizinische Informatik, Göttingen

GMDS 2014. 59. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (GMDS). Göttingen, 07.-10.09.2014. Düsseldorf: German Medical Science GMS Publishing House; 2014. DocAbstr. 233

doi: 10.3205/14gmds115, urn:nbn:de:0183-14gmds1156

Veröffentlicht: 4. September 2014

© 2014 Mauß et al.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielfältigt, verbreitet und öffentlich zugänglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Gliederung

Text

Einleitung und Fragestellung: Sowohl durch die stetige Weiterentwicklung medizinischer Forschungsmethoden als auch durch den technischen Fortschritt bei Datenerfassungs- und Analysesystemen nimmt die Menge auswertbarer Datenpunkte klinischer Forschungsprozesse stetig zu. Ebenfalls ist eine Zunahme differenzierbarer Datentypen festzustellen. Neben den klassischen Informationssystemen zur Verwaltung und Speicherung von Biomaterial, Bilddaten und zur Erhebung phänotypischer Daten sind in großen Verbundforschungsnetzen weitere Datenbanken für Laboruntersuchungen (elektronische Laborbücher [1]), zur Verwaltung großer Probandenkollektive (Probandenmanagement [2]) sowie zur spezifischen Prozessdokumentation (Stammzellen-Verwaltungssystem) etabliert worden.

Großforschungsverbünde wie das Deutsche Zentrum für Herz-Kreislauf-Forschung e. V. (DZHK) sehen sich zusätzlich mit der Herausforderung konfrontiert, die durchgeführten Datenerhebungen sowie Forschungsergebnisse ihrer riesigen Probandenkollektive über einen Zeitraum von zehn Jahren und mehr [3] pflegen zu müssen. Datenschutzbestimmungen fordern eine frühestmögliche Anonymisierung oder – wenn dies der Forschungszweck nicht erlaubt – Pseudonymisierung. Der durch die Technologie- und Methodenplattform für vernetzte medizinische Forschung (TMF) herausgegebene Leitfaden zum Datenschutz in medizinischen Forschungsprojekten [4] fordert in der aktuell diskutierten zweiten Version unterschiedliche Pseudonyme für jeden Datentyp. Identifizierende Patientendaten sollen organisatorisch und technisch getrennt von den medizinischen Daten gespeichert werden. Die während der Datenerhebung notwendigen Prozesse für eine datenschutzkonforme Speicherung sind in den vergangenen Jahren intensiv beforscht worden und stehen heute in Form generischer Empfehlungen der TMF bereit.

Gemäß der diskutierten zweiten Version des TMF-Leitfadens werden verschiedene Datentypen unter verschiedenen Pseudonymen in unterschiedlichen Datenbanken gespeichert. Dies macht eine Datenintegration und -auswertung für Berechtigte zu einem komplexen Vorgang, welcher ohne spezialisierte Softwarewerkzeuge kaum geleistet werden kann. Zur wissenschaftlichen Nutzung ist eine Zusammenführung der getrennten Daten unter einem der Forschungsfragestellung angepassten Verwendungszweck erforderlich. Für die deutschen Zentren der Gesundheitsforschung gibt es aktuell keine anwendbaren Konzepte. Wie kann in Großforschungsverbünden eine datenschutzkonforme Datenintegration erfolgen?

Material und Methoden: Zur Konzepterstellung für eine generische Forschungsdatentransferstelle wurden relevante Anwendergruppen befragt und Prozesse analysiert. Dazu gehörte ebenso die Untersuchung von etablierten und sich im Aufbau befindliche Strukturen des DZHK im Hinblick auf relevante Ansätze zur Forschungsdatenintegration. Dies umfasste eine Analyse der Organisationsstruktur und vorhandener Datenschutz- und Datennutzungsdokumente. Diese wurden mit den Einwilligungserklärungen bereits bewilligter Studien, Register und Kohorten (SRK) abgeglichen. Mittels der daraufhin formulierbaren Use-Cases wurden mögliche Nutzungsszenarien modelliert. Die erarbeiteten Einsatzszenarien einer Forschungsdatentransferstelle wurden in eine Architekturbeschreibung überführt und prozessorientierte Kommunikationsmodelle als Grundlage für eine Implementierung erstellt.

Ergebnisse: Die Analyse etablierter Organisationstrukturen ergab zwei grundlegend unterschiedliche Anwendungsszenarien: Eine rein wissenschaftliche Anwendergruppe und eine Gruppe, welche primär Controlling- und Managementaufgaben wahrnimmt. Einerseits erheben klinischen Forscher, Statistiker und Epidemiologen Daten und werten diese zur Erforschung kardiovaskulärer Erkrankungen im Rahmen von durch das DZHK geförderten SRK aus. Anderseits ist durch Bestimmungen der ICH-GCP das Monitoring essentieller Bestandteil klinischer Studien zur Sicherung von Studienprotokoll und -zeitplan. Diese Funktion muss durch eine Forschungsdatentransferstelle geleistet werden. Die zweite identifizierte Personengruppe verwendet zusammengeführte Daten für Controlling- und Managementaufgaben: Mitarbeiter der Geschäftsstelle sowie Projektmanagementbeauftragte innerhalb der SRK benötigen verbindliche und tagesaktuelle Aussagen über Rekrutierungsstände und die Datenvollständigkeit, um Aufwandsentschädigungen zu bewerten. Beide Betrachtungsweisen unterscheiden sich stark und hängen von der jeweiligen Nutzungsabsicht ab. Die nachhaltige wissenschaftliche Nutzung klinischer Forschungsdaten ist ein essentieller Bestandteil langfristig ausgelegter Forschungsprojekte wie den deutschen Zentren der Gesundheitsforschung. Eine Forschungsdatentransferstelle muss in der Lage sein, Forderungen des Nationalen Ethikrats nach einer weniger restriktiven Zweckbindung von Forschungsdaten bei gleichzeitiger Stärkung des Spenderschutzes [5] umzusetzen. Von Beginn an sind hier zwei Korridore der Datennutzung zu berücksichtigen: die Durchführung klinischer Forschung und das damit verbundene Prozessmonitoring.

Nachfolgend wurde untersucht, welche Prozesse zur Bereitstellung der spezifischen Datenexporttypen notwendig sind und an welchen Punkten es ggf. Überschneidungen gibt. Als gemeinsame Prozesse wurden "Export aus Quellsystemen", "Bereinigung und Harmonisierung verschiedener Datenformate" und "Einspeichern in einen zentralen Datenspeicher" identifiziert (Extract-Transform-Load-Prozess). Aufgrund verschiedener Pseudonyme innerhalb einzelner Datenbanken bedarf diese Zusammenführung der Einbeziehung des Identitätsmanagements. Nur dort sind einzelne Pseudonyme und deren Zuordnung zueinander bekannt. Ebenfalls gemeinsam ist die Notwendigkeit eines prozessübergreifenden Datenmodells (beispielsweise Entity-Attribute-Value [6]) und eines ebenfalls prozessübergreifenden Kommunikations- und Zugriffsmodells.

Individuelle Prozesse umfassen die Verarbeitung gesammelter Daten sowie die Aufbereitung und Bereitstellung für Anwender. Auch hier findet die grundlegende Unterscheidung zwischen Forschungs- und Monitoring-Szenarien statt. Für Forschungsexporte muss eine Zusammenführung zwingend unter Prüfung des geplanten Verwendungszwecks gegenüber den Patienteneinwilligungen durchgeführt werden. Resultierende Datenstrukturen werden dem Forschungsvorhaben angemessen bereitgestellt. Die Forschungsdatentransferstelle muss sämtliche an sie gestellte Anfragen protokollieren. Somit ließe sich beispielsweise langfristig die Sammelstrategie einer Biomaterialbank, aber auch die Itemsets einer Studiendatenbank anhand gestellter Fragestellungen adjustieren, welche mit dem vorhandenen Datenbestand nicht beantwortet werden könnte. Zu Controlling- und Qualitätsmanagementzwecken sollen zuvor definierte Kennzahlen über dem aktuellen Datenbestand berechnet werden. Auch hierzu ist eine Datenzusammenführung über den Treuhänder erforderlich. Da eine Personenbeziehbarkeit der Resultate aufgrund deren Querschnitts-Charakteristik nicht notwendig ist, können die Qualitätsmanagement-Exporte grundsätzlich anonym erstellt werden.

Für eine standortübergreifende Bereitstellung von Datenexporten scheint eine zentrale Speicherlösung analog eines Datawarehouse eine geeignet Methode. Für die Implementierung einer Forschungsdatentransferstelle wurden vier grundsätzliche technische und organisatorische Workflows identifiziert:

1.
Der technische Ablauf des Exports und der Umpseudonymisierung medizinischer Daten aus Quellsystemen über angeschlossene ETL-Prozesse und die Interaktion mit dem Datentreuhänder.
2.
Der organisatorische Ablauf zur Registrierung und Nutzung von Kennzahlen zur Durchführung eines Monitorings im Rahmen des Qualitätsmanagements.
3.
Der technische Ablauf zum Abrufen pseudonymisierter medizinischer Daten über die Forschungsdatentransferstelle.
4.
Der technische Ablauf zum Abrufen anonymisierter Qualitätsmanagement-Berichten durch das Controlling.

Während der Datenübernahme in die Forschungsdatentransferstelle ist eine Umpseudonymisierung auf den neuen Forschungskontext [3] erforderlich, was eine Interaktion mit dem Identitätsmanagement des Datentreuhänders erfordert. Eine Zusammenführung erfolgt nur ad-hoc während der Datenbereitstellung. Die Datenbestände liegen somit grundsätzlich weiterhin unter einem Forschungspseudonym innerhalb des Datenspeichers vor.

Diskussion: Eine Forschungsdatentransferstelle würde die Infrastruktur eines Forschungsverbundes um eine wichtige Komponente für die nachvollziehbare und datenschutzkonforme Datenintegration und Bereitstellung von Datenexporten und Kennzahlen bereichern. Sie könnte die Möglichkeit bieten, Nutzungsregeln des Forschungsprojekts zentral zu bearbeiten und nur Daten und Proben für die Beforschung freizugeben, deren Einwilligung dies zum aktuellen Zeitpunkt erlaubt.

Insbesondere aus datenschutzrechtlicher Sicht bleibt die Frage zu klären, ob es problemlos möglich ist, alle zuvor getrennt gespeicherten Daten in einem Speicher – jedoch unter ihren unterschiedlichen Pseudonymen – zu speichern. Ein alternatives Vorgehen wäre das spezifische Anstoßen von Exporten aus Primärdatenbanken. Auch muss noch differenzierter betrachtet werden, in welchen Nutzungsszenarien anonymisierte Daten oder pseudonymisierte Daten herausgegeben werden.

Danksagung: Diese Arbeit wurde unterstützt durch das DZHK (Deutsches Zentrum für Herz-Kreislauf-Forschung e. V.), gefördert durch das BMBF (Bundesministerium für Bildung und Forschung) unter der Fördernummer 81X1300101.


Literatur

1.
Menzel J, Weil P, Bittihn P, Hornung D, Mathieu N, Demiroglu SY. Requirement analysis for an electronic laboratory notebook for sustainable data management in biomedical research. Stud Health Technol Inform. 2013;192:1108.
2.
Schwanke J, Nussbeck SY, Helbing K, Rienhoff O. Entwicklung eines Probandenmanagementsystems für ein multizentrisches Forschungsprojekt. In: GMDS 2013. 58. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (GMDS). Lübeck, 01.-05.09.2013. Düsseldorf: German Medical Science GMS Publishing House; 2013. DocAbstr.151. DOI: 10.3205/13gmds046 Externer Link
3.
Deutsche Forschungsgemeinschaft. Sicherung guter wissenschaftlicher Praxis. Weinheim: WILEY-VCH Verlag; 2013.
4.
Reng CM, Debold P, Specker C, Pommerening K. Generische Lösungen zum Datenschutz für die Forschungsnetze in der Medizin. Berlin: MWV Medizinisch Wissenschaftliche Verlagsgesellschaft; 2006.
5.
Deutscher Ethikrat. Biobankgeheimnis. In: Stellungnahme Humanbiobanken für die Forschung. Berlin: Deutscher Ethikrat; 2010. p. 30.
6.
Nadkarni PM, Marenco L, Chen R, Skoufos E, Shepherd G, Miller P. Organization of heterogeneous scientific data using the EAV/CR representation. J Am Med Inform Assoc. 1999 Nov-Dec;6(6):478-93.