gms | German Medical Science

GMDS 2014: 59. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V. (GMDS)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie

07. - 10.09.2014, Göttingen

Standortbezogene Datenzusammenführung in Verbundforschungsvorhaben durch ein Probandenmanagementsystem

Meeting Abstract

  • A. Stahmann - Universitätsmedizin Göttingen, Göttingen
  • C.R. Bauer - Universitätsmedizin Göttingen, Göttingen
  • T.G. Schulze - Universitätsmedizin Göttingen, Göttingen
  • J. Schwanke - Universitätsmedizin Göttingen, Göttingen

GMDS 2014. 59. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (GMDS). Göttingen, 07.-10.09.2014. Düsseldorf: German Medical Science GMS Publishing House; 2014. DocAbstr. 200

doi: 10.3205/14gmds118, urn:nbn:de:0183-14gmds1184

Veröffentlicht: 4. September 2014

© 2014 Stahmann et al.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielfältigt, verbreitet und öffentlich zugänglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Gliederung

Text

Einleitung und Fragestellung: In biomedizinischen Forschungsvorhaben ist es oft notwendig, eine große Anzahl von Probanden zu rekrutieren, um signifikante Forschungsergebnisse zu erzielen [1], [2], [3].

Hierzu kooperieren unterschiedliche Forschungseinrichtungen im Rahmen von Verbundforschungsvorhaben, bspw. die Deutschen Zentren der Gesundheitsforschung. Innerhalb der Verbundforschungsvorhaben werden benötigte Daten verteilt erhoben, gespeichert und verarbeitet. Zur Sicherstellung des Datenschutzes, werden durch die Technologie- und Methodenplattform für die vernetzte medizinische Forschung e.V. (TMF) seit über zehn Jahren generische Datenschutzkonzepte entwickelt [4]. Ein Kernelement dieser Konzepte ist die organisatorische Trennung der identifizierenden Daten (IDAT, z.B. Name, Geburtsdatum, Adresse) eines Probanden von dessen phänotypischen Daten bzw. Biomaterialdaten. Die Zuordnung zu den IDAT erfolgt durch die Verwendung mehrstufiger Pseudonyme.

Die Klinische Forschergruppe 241 (KFO241) widmet sich der Psychoseforschung und besteht aus mehr als 20 kooperierenden Forschungseinrichtungen. Diese Einrichtungen erfassen und sammeln phänotypische Daten und Biomaterialien. Hierzu wurde eine IT-Infrastruktur auf Grundlage der generischen TMF-Datenschutzkonzepte entwickelt. Entsprechend der Datenschutzkonzepte werden in den Datenbanken unterschiedliche Pseudonyme für denselben Probanden verwendet. Ein zentrales Identitätsmanagement, welches durch eine organisatorisch getrennte Institution betrieben wird, erzeugt die Pseudonyme [3], [4].

Insbesondere für Qualitätssicherungsmaßnahmen, aber auch zur Beantwortung von Forschungsfragestellungen, ist eine Zusammenführung der Daten notwendig. Die hierzu benötigten Daten sind sowohl in der Phänotypdatenbank als auch in der Biomaterialverwaltungsdatenbank gespeichert. Durch die datenschutzkonforme Verwendung mehrstufiger Pseudonyme wird die Zusammenführung der von den Forschern einer Forschungseinrichtung erhobenen Daten erschwert. Eine Datenzusammenführung könnte über das zentrale, verbundweite Identitätsmanagement vorgenommen werden. Aufgrund der exponierten Stellung des Identitätsmanagements im Verbund bietet dieses aus Datensicherheitsgründen keine direkte Abfrageschnittstelle. Weiterhin ist eine manuelle Zusammenführung über die papiergebundene Studiendokumentation der Forschungseinrichtung möglich, in welcher die Zuordnung der Pseudonyme zu einem Probanden dokumentiert wird.

Im Rahmen eines Pilotprojektes innerhalb der KFO241 wurde in Göttingen die papierbasierte Studiendokumentation durch ein Probandenmanagementsystem mit integrierter Pseudonymverwaltung ersetzt [4], [5]. Ziel des vorliegenden Beitrags ist es zu ermitteln, in wieweit ein Probandenmanagementsystem zur Orchestrierung des Datenzusammenführungsprozesses genutzt werden kann, bzw. welche Anpassungen nötig wären.

Material und Methoden: Innerhalb des Pilotprojekts zur Einführung eines Probandenmanagementsystems am Hauptstandort der KFO241 in Göttingen wurde eine umfassende Anforderungsanalyse durchgeführt [4]. Die durchgeführte Anforderungsanalyse umfasste sowohl Interviews mit den Forschern der KFO241 Göttingen, als auch die Aufarbeitung relevanter Literaturquellen [4]. Ziel war es, Anforderungen zu ermitteln, um die papierbasierte Studiendokumentation durch ein Probandenmanagementsystem zu ersetzten. Dabei wurde deutlich, dass die papierbasierte Studiendokumentation zu Qualitätssicherungsmaßnahmen und zur Beantwortung von Forschungsfragestellungen genutzt wird. Dies erfordert eine Zusammenführung von Daten aus der Phänotyp– und Biomaterialverwaltungsdatenbank unter Verwendung der mehrstufigen Pseudonyme. Die in der papierbasierten Studiendokumentation enthaltene Zuordnung der mehrstufigen Pseudonyme der Probanden wird genutzt, um manuell die Phänotyp- und Biomaterialdaten aufwendig zusammenzuführen. Zur Erfüllung der ermittelten Anforderungen wurde ein Lösungskonzept unter der Verwendung vorhandener Softwarewerkzeuge erstellt.

Zum einen das für die KFO241 entwickelte Probandenmanagementsystem, dessen Ziel die Ersetzung der papierbasierten Studiendokumentation zur Verwaltung der Probanden ist [5]. Neben den identifizierenden Daten werden die mehrstufigen Pseudonyme der betreuten Probanden verwaltet. Es bietet darüber hinaus Funktionalitäten zur Kontakt- und Einwilligungserklärungsverwaltung. Die eigentliche Zusammenführung von Datenbeständen aus heterogenen Datenquellen wie z.B. einer Phänotyp- und Biomaterialdatenbank kann mit Hilfe eines Data-Warehouse gelöst werden. Das Open-Source-Werkzeug i2b2 ist eine für Forschungsdaten konzipierte Data-Warehouse-Lösung, die eine für diese Datenquellen geeignete, generische Datenablage bietet, sowie auf Endanwender ausgelegte Abfragewerkzeuge für Qualitätssicherungsmaßnahmen und zur Beantwortung von Forschungsfragestellungen bereitstellt [6]. Mit Hilfe des Integrated Data Repository Toolkit (IDRT) können die in der Phänotyp- und Biomaterialdatenbank erfassten Daten extrahiert, transformiert und in i2b2 geladen werden [7].

Ergebnisse: Kern des Lösungskonzeptes bildet das bereits existierende Probandenmanagementsystem. (a) Über das Probandenmanagementsystem wählt der Forscher aus, ob er eine Datenzusammenführung für Qualitätssicherung oder Forschungsfragestellungen durchführen will. Bei der Datenzusammenführung für Forschungsfragestellungen wird die Einwilligungserklärung, welche durch das Probandenmanagementsystem elektronisch abgebildet wird, abgefragt und geprüft, ob diese eine solche Datenzusammenführung erlaubt. (b) Anschließend werden die Exporte aus den jeweiligen Datenbanken angefordert. Diese werden mit Hilfe eines sicheren Upload zur Verfügung gestellt. (c) Nach erfolgtem Upload aller Exporte wird der IDRT-Prozess zur Extraktion, Transformation und Laden der Daten durch das Probandenmanagementsystem gestartet. (d) Dabei werden die Pseudonyme aus den Exporten extrahiert. (e) Jedes Pseudonym wird an das Probandenmanagementsystem übertragen, welches prüft, ob das Pseudonym existiert und bei Zusammenführungen für Forschungsfragestellungen die Einwilligungserklärung einbezieht. (f) Daraufhin wird vom Probandenmanagementsystem ein Forschungspseudonym generiert, für eine vorgegebene Zeitdauer gespeichert und an den IDRT-Prozess gesendet. Mehrstufige Pseudonyme, die einem Probanden zugeordnet sind, werden in den Exporten durch das gleiche Forschungspseudonym ersetzt. Pseudonyme, welche die vorherigen Prüfungen nicht erfüllt haben, werden aus dem Export mit allen entsprechenden Daten entfernt. (g) Die Exporte der Datenbanken werden abschließend per IDRT in das Dataware-House i2b2 geladen. Durch die einheitlichen Forschungspseudonyme können die Daten durch die Forscher analysiert werden.

Diskussion: Das vorgestellte Lösungskonzept ermöglicht die Automatisierung des bisher manuellen Datenzusammenführungsprozesses und somit u.a. eine Reduzierung der Fehlerquellen. Damit das beschriebene Konzept umgesetzt werden kann, sind einige Erweiterungen am bestehenden Probandenmanagementsystem nötig. So ist insbesondere die Funktion zur Berücksichtigung der Einwilligungserklärungen der Probanden darauf angewiesen, dass die Einwilligungserklärungen in einer strukturierten Form erfasst sind. Bisher wird lediglich eine Versionierung der Einwilligungen angeboten. Diese ließe sich bei Bedarf bereits jetzt abfragen und ist dahingehend erweiterbar, dass auch die ausgewählten Einwilligungsumfänge abgebildet und abgefragt werden können. Darüber hinaus müsste die Schnittstelle zur Abfrage von Forschungspseudonymen im Probandenmanagementsystem implementiert werden. Um eine bessere Integration des vorgestellten Prozesses zu erreichen, könnte das verwendete Dataware-House um eine Verlinkung der Daten zum jeweiligen Probanden im Probandenmanagementsystem erweitert werden. Das IDRT müsste um eine Schnittstelle mit dem Probandenmanagementsystem ergänzt und um ein Modul erweitert werden, das den beschriebenen Austausch von Pseudonymen durchführt. Dieses wäre ähnlich der bereits implementierten Kommunikation des IDRT mit dem TMF-PID-Generator.

Die Grundvoraussetzung zur Anwendung des Lösungskonzeptes ist das Vorhandensein eines Probandenmanagementsystems am Standort. Die benötigten Funktionalitäten könnten auch durch das Identitätsmanagement des Forschungsverbundes realisiert werden. Somit wäre eine Übertragbarkeit des Lösungskonzeptes möglich. Auf Grund der exponierten Lage des Identitätsmanagement müssten umfangreiche Sicherheitsmaßnahmen implementiert werden, z.B. Rechte- und Rollenmanagement für Standorte, gesicherte Authentifizierung sowie Algorithmen zur Erkennung von falschen Pseudonymabfragen.

Danksagung: Diese Arbeit wurde unterstützt durch die Deutsche Forschungsgemeinschaft (DFG) im Rahmen der Klinischen Forschergruppe 241 (Förderkennzeichen SCHU 1603/5-1) und durch die Technologie- und Methodenplattform für die vernetzte medizinische Forschung e.V. (TMF) im Rahmen des Projektes „Integrated Data Repository Toolkit“ (Projektnummer V091-02M).


Literatur

1.
Anderson-Schmidt H, Adler L, Aly C, Anghelescu IG, Bauer M, Baumgärtner J, et al. The „DGPPN-Cohort”: a national collaboration initiative by the German Association for Psychiatry and Psychotherapy (DGPPN) for establishing a large-scale cohort of psychiatric patients. European archives of psychiatry and clinical neuroscience. 2013;263:695-701.
2.
Sullivan PF. The psychiatric GWAS consortium: big science comes to psychiatry. Neuron. 2010;68:182-6.
3.
Demiroglu SY, Skrowny D, Quade M, Schwanke J, Budde M, Gullatz V, et al. Managing sensitive phenotypic data and biomaterial in large-scale collaborative psychiatric genetic research projects: practical considerations. Molecular Psychiatry. 2012;17:1180-5.
4.
Schwanke J, Rienhoff O, Schulze TG, Nussbeck SY. Suitability of customer relationship management systems for the management of study participants in biomedical research. Methods of Information in Medicine. 2013;52:340-50.
5.
Schwanke J, Nussbeck SY, Helbing K, Rienhoff O. Entwicklung eines Probandenmanagementsystems für ein multizentrisches Forschungsprojekt. In: GMDS 2013. 58. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (GMDS). Lübeck, 01.-05.09.2013. Düsseldorf: German Medical Science GMS Publishing House; Düsseldorf; 2013. DocAbstr.151. DOI: 10.3205/13gmds046 Externer Link
6.
Kohane IS, Churchill SE, Murphy SN. A translational engine at the national scale: informatics for integrating biology and the bedside. Journal of the American Medical Informatics Association: JAMIA. 2012;19:181-5.
7.
Ganslandt T, Sax U, Löbe M, Drepper J, Bauer C, Baum B, et al. Integrated Data Repository Toolkit: Werkzeuge zur Nachnutzung medizinischer Daten für die Forschung. In: GI-Jahrestagung. 2012. S. 1252-9.
8.
Pommerening K. Das Datenschutzkonzept der TMF für Biomaterialbanken (The TMF Data Protection Scheme for Biobanks). it-Information Technology (vormals it+ ti). 2007;49:352-9.