gms | German Medical Science

67. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V. (GMDS), 13. Jahreskongress der Technologie- und Methodenplattform für die vernetzte medizinische Forschung e. V. (TMF)

21.08. - 25.08.2022, online

fTTP – Privacy-Preserving Record Linkage im Netzwerk Universitätsmedizin (NUM)

Meeting Abstract

  • Christopher Hampf - Institut für Community Medicine, Universitätsmedizin Greifswald, Greifswald, Germany
  • Martin Bialke - Institut für Community Medicine, Universitätsmedizin Greifswald, Greifswald, Germany
  • Thomas Bahls - Institut für Community Medicine, Universitätsmedizin Greifswald, Greifswald, Germany
  • Peter Penndorf - Institut für Community Medicine, Universitätsmedizin Greifswald, Greifswald, Germany
  • Nico Wöller - Institut für Community Medicine, Universitätsmedizin Greifswald, Greifswald, Germany
  • Lars Geidel - Unabhängige Treuhandstelle der Universitätsmedizin Greifswald, Greifswald, Germany
  • Ronny Schuldt - Unabhängige Treuhandstelle der Universitätsmedizin Greifswald, Greifswald, Germany
  • Arne Blumentritt - Unabhängige Treuhandstelle der Universitätsmedizin Greifswald, Greifswald, Germany
  • Frank-Michael Moser - Unabhängige Treuhandstelle der Universitätsmedizin Greifswald, Greifswald, Germany
  • Wolfgang Hoffmann - Institut für Community Medicine, Universitätsmedizin Greifswald, Greifswald, Germany

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie. 67. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V. (GMDS), 13. Jahreskongress der Technologie- und Methodenplattform für die vernetzte medizinische Forschung e.V. (TMF). sine loco [digital], 21.-25.08.2022. Düsseldorf: German Medical Science GMS Publishing House; 2022. DocAbstr. 96

doi: 10.3205/22gmds011, urn:nbn:de:0183-22gmds0112

Veröffentlicht: 19. August 2022

© 2022 Hampf et al.
Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung). Lizenz-Angaben siehe http://creativecommons.org/licenses/by/4.0/.


Gliederung

Text

Einleitung: Motiviert durch die COVID-19 Pandemie, wurden durch das Netzwerk Universitätsmedizin (NUM) innerhalb von 13 Forschungsprojekten Infrastrukturen zur Pandemieforschung etabliert [1]. Im Projekt NUM-CODEX wurden zentrale bzw. föderierte Strukturen implementiert. Diese haben das Ziel, medizinische Daten (MDAT) in einer zentralen Forschungsdatenplattform (CODEX) Forschenden bereitzustellen. Hierzu wurden 34 Universitätskliniken angebunden, die am jeweiligen Standort gesammelte Daten in einem standardisierten Format [2] an die CODEX-Plattform übermitteln. Um Datensätze einer Person korrekt zuzuordnen und über mehrere Standorte zusammenführen zu können, wird ein föderiertes Record Linkage durch eine föderierte Treuhandstelle (federated Trusted Third Party, fTTP) bereitgestellt. Diese setzt ein Privacy-Preserving Record Linkage auf Basis von Bloomfiltern [3], [4] um. Darüber hinaus unterstützt die fTTP die NUM-weit einheitliche Pseudonymisierung der Datensätze.

Stand der Technik: In der Medizininformatik-Initiative (MII) [5] und NUM-CODEX werden personenidentifizierende Daten (IDAT), Pseudonyme, sowie Einwilligungen und Widerrufe innerhalb einer lokaler Treuhandstelle verwaltet. Bereits durch die MII wurden an allen deutschen Universitätskliniken entsprechende Strukturen etabliert. Die Verwaltung und Bereitstellung medizinischer Daten erfolgt lokal mittels Datenintegrationszentrum (DIZ). Sowohl die lokalen Treuhandstellen, als auch die DIZe sollen in NUM-CODEX nachgenutzt werden. Zur Umsetzung eines föderierten PPRL sollen Bloomfilter verwendet werden. Diese sind das Ergebnis einer irreversiblen Transformation von IDAT. Die Bloomfilter können zwar auf Ähnlichkeit verglichen werden, lassen aber keinen Rückschluss auf die ursprünglichen IDAT zu.

Konzept: Im Rahmen der MII wurden bereits mehrere Konzepte für ein föderiertes Record Linkage erarbeitet [6]. Diese Konzepte wurden als Grundlage verwendet, um eine erste technische Spezifizierung in NUM-CODEX umzusetzen. Die benötigten Prozesse für Datenübermittlungen und Dritt-Pseudonymisierung für Datenherausgaben an Forschende wurden erarbeitet.

Die fTTP besteht aus zwei Komponenten:

  • fTTP-Wahrscheinlichkeit: Diese führt ein PPRL durch und verwaltet Pseudonym-Hierarchien. Zusammenführungen finden anhand von Wahrscheinlichkeiten statt, da die original IDAT an den Standorten verbleiben und damit in der fTTP-Wahrscheinlichkeit nicht für eine Zusammenführung herangezogen werden können.
  • fTTP-Clearing: Wenn innerhalb der fTTP-Wahrscheinlichkeit beim Record Linkage sogenannte mögliche Dubletten entstehen, wird ein Clearing-Prozess angestoßen. Für Forschungsprojekte mit z.B. geringer Teilnehmeranzahl, können in diesen Fällen IDAT nachgefordert werden und Dubletten manuell aufgelöst werden. Diese IDAT werden nur temporär und für den Zweck der Dublettenauflösung gespeichert und danach unwiederbringlich in der fTTP gelöscht.

Implementierung Technische Komponenten wurden anhand der Spezifikationen, unteranderem in FHIR®, implementiert und bereitgestellt. Die Infrastruktur folgt den erprobten Sicherheitskonzepten der Unabhängigen Treuhandstelle Greifswald. Etablierte Werkzeuge wie beispielsweise das Identitätsmanagement E-PIX® [7] wurden um PPRL-Funktionalitäten ergänzt. Dies ermöglicht zum einen die Generierung von Bloomfiltern an den Standorten (betrieben in den lokalen Treuhandstellen) und zum anderen den Vergleich von diesen in der fTTP. Die Prozesse der Personenregistrierung und der Um-Pseudonymisierung als Teilaufgaben eines Datentransfers wurden etabliert. MDAT können standortübergreifend mittels eines föderierten Record Linkages zusammengeführt werden.

Gewonnene Erkenntnisse Die fTTP ist seit 2021 praktisch nutz- und integrierbar. Die Anbindung der Standorte ist ein individueller Vorgang, da die Infrastrukturen im hohen Maße heterogen sind. Um erste Daten übermitteln zu können, wurde zunächst die fTTP-Wahrscheinlichkeit von den Standorten angebunden. Über 30 der 34 NUM-Standorte sind mittlerweile angeschlossen. Der produktive Betrieb ist für April 2022 vorgesehen. Erste Zahlen zu möglichen Dubletten, Personen usw. werden im Vortrag präsentiert.

Die Autoren geben an, dass kein Interessenkonflikt besteht.

Die Autoren geben an, dass kein Ethikvotum erforderlich ist.


Literatur

1.
Nationales Forschungsnetzwerk der Universitätsmedizin zu Covid-19. Forschungsarbeiten für die bestmögliche Patientenversorgung. [cited 2021 Aug 15]. Available from: https://www.netzwerk-universitaetsmedizin.de/projekte Externer Link
2.
Sass J, Bartschke A, Lehne M, Essenwanger A, Rinaldi E, Rudolph S, et al. The German Corona Consensus Dataset (GECCO): a standardized dataset for COVID-19 research in university medicine and beyond. BMC Med Inform Decis Mak. 2020;20(1):341.
3.
Schnell R, Bachteler T, Reiher J. Privacy-preserving record linkage using Bloom filters. BMC Med Inform Decis Mak. 2009;9:41.
4.
Schnell R, Borgs C. Randomized Response and Balanced Bloom Filters for Privacy Preserving Record Linkage. In: 2016 IEEE 16th International Conference on Data Mining Workshops (ICDMW); 2016 Dec 12-15.
5.
Semler SC, Wissing F, Heyder R. German Medical Informatics Initiative. Methods of information in medicine. 2018;57(S 01):e50-e6.
6.
Hampf C, Bahls T, Hund H, Drepper J, Lablans M, Speer R. Record Linkage: Optionen für standortübergreifende Datenzusammenführungen. medizin://dokumentation/ informatik/ informationsmanagement/ (mdi). 2019;21(4):117-21.
7.
Hampf C, Geidel L, Zerbe N, Bialke M, Stahl D, Blumentritt A, et al. Assessment of scalability and performance of the record linkage tool E-PIX((R)) in managing multi-million patients in research projects at a large university hospital in Germany. J Transl Med. 2020;18(1):86.