gms | German Medical Science

65th Annual Meeting of the German Association for Medical Informatics, Biometry and Epidemiology (GMDS), Meeting of the Central European Network (CEN: German Region, Austro-Swiss Region and Polish Region) of the International Biometric Society (IBS)

06.09. - 09.09.2020, Berlin (online conference)

Chancen von Open-Source-Software am Beispiel der Pseudonymisierungslösung „Mainzelliste”

Meeting Abstract

  • Jürgen Riegel - Universitätsmedizin Mainz, IMBEI Medizinische Informatik, Mainz, Germany
  • Moanes Ben Amor - Deutsches Krebsforschungszentrum, Verbundinformationssysteme, Heidelberg, Germany
  • Torben Brenner - Deutsches Krebsforschungszentrum, Verbundinformationssysteme, Heidelberg, Germany
  • Johannes Drepper - TMF e.V., Berlin, Germany
  • Martin Franke - Universität Leipzig, Institut für Informatik, Leipzig, Germany
  • Manuel Grün - Universität Marburg, Koordinierungszentrum für Klinische Studien, Marburg, Germany
  • Kay Hamacher - Technische Universität Darmstadt, Computational Biology and Simulation, Darmstadt, Germany
  • Hauke Hund - Hochschule Heilbronn, GECKO Institut, Heilbronn, Germany
  • Cornelius Knopp - Universitätsklinikum Tübingen, Translationale Bioinformatik, Tübingen, Germany
  • Tobias Kussel - Technische Universität Darmstadt, Computational Biology and Simulation, Darmstadt, Germany
  • Matthias Lemmer - Universität Marburg, Koordinierungszentrum für Klinische Studien, Marburg, Germany
  • Marcel Parciak - Universitätsmedizin Göttingen, Institut für Medizinische Informatik, Göttingen, Germany
  • Erhard Rahm - Universität Leipzig, Institut für Informatik, Leipzig, Germany
  • Florens Rohde - Universität Leipzig, Institut für Informatik, Leipzig, Germany
  • Ulrich Sax - Universitätsmedizin Göttingen, Institut für Medizinische Informatik, Göttingen, Germany
  • Josef Schepers - Charité – Universitätsmedizin Berlin, BIH, Berlin, Germany
  • Ziad Sehili - Universität Leipzig, Institut für Informatik, Leipzig, Germany
  • Markus Suhr - Universitätsmedizin Göttingen, Institut für Medizinische Informatik, Göttingen, Germany
  • Torsten Panholzer - Universitätsmedizin Mainz, IMBEI Medizinische Informatik, Mainz, Germany
  • Martin Lablans - Deutsches Krebsforschungszentrum, Verbundinformationssysteme, Heidelberg, Germany

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie. 65th Annual Meeting of the German Association for Medical Informatics, Biometry and Epidemiology (GMDS), Meeting of the Central European Network (CEN: German Region, Austro-Swiss Region and Polish Region) of the International Biometric Society (IBS). Berlin, 06.-09.09.2020. Düsseldorf: German Medical Science GMS Publishing House; 2021. DocAbstr. 409

doi: 10.3205/20gmds204, urn:nbn:de:0183-20gmds2049

Published: February 26, 2021

© 2021 Riegel et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License. See license information at http://creativecommons.org/licenses/by/4.0/.


Outline

Text

Hintergrund: Die Mainzelliste, eine IT-Lösung zur Pseudonymisierung und zum Identitätsmanagement [1], wird nicht nur in einer Vielzahl von Projekten und Einrichtungen genutzt, sondern auch durch mehrere Standorte weiterentwickelt. Eine solche Software-Entwicklung durch die engagierte Community schafft zum einen neue Herausforderungen, wie die Koordination von unabhängig entstandenen Code-Beiträgen unterschiedlicher Personen. Sie kann der Software andererseits aber Funktionalitäten verschaffen, die ein einzelner Entwicklerstandort allein nicht erbringen könnte.

Methoden: Die an verschiedenen Stellen erwachsenen Anforderungen werden als neue Funktionen dezentral realisiert. Sie werden in den Hauptzweig des Softwareprodukts in Abstimmung mit der Abteilung Verbundinformationssysteme am DKFZ Heidelberg und dem IMBEI an der Universitätsmedizin Mainz getestet und integriert. Die Integration geschieht in einem Bitbucket-Repository [2], wo man Quellcode, Entwicklungszweige, Programmversionen und Dokumentation findet.

Ergebnisse: Im Folgenden werden beispielhaft Community-Beiträge vorgestellt, die in jüngster Zeit entstanden sind und in Mainzelliste-Versionen einfließen.

  • Föderiertes Record Linkage mit Secure Multiparty Computation: Eine Ähnlichkeitssuche von Personen in Mainzellliste-Instanzen an verschiedenen Standorten (Föderiertes Privacy-Preserving Record Linkage) kommt auf Basis von Bloom Filtern bereits seit mehreren Jahren im Deutschen Konsortium für Translationale Krebsforschung zum Einsatz. Der von der TU Darmstadt und dem DKFZ Heidelberg neu entwickelte „Mainzelliste Secure EpiLinker” (MainSEL) benutzt statt der Bloomfilter „secure multi-party computation”, womit ein stark erhöhtes Sicherheitsniveau erreicht wird. Die experimentelle Technik soll erstmals im MII-Anwendungsfall Collaboration on Rare Diseases (CORD-MI) zum Einsatz kommen.
  • Blocking und Locality-Sensitive Hashing: Im Rahmen der „FASTML”-Förderung der TMF wurde das Bloomfilter-Matching der Mainzelliste vom Institut für Informatik der Universität Leipzig enorm beschleunigt. Zur Anwendung kommt hierfür Locality-Sensitive Hashing (LSH [3]). Eine Publikation (zurzeit im Review) belegt Geschwindigkeit und Matchgüte.
  • MainzelLibrary: Um die Funktionalität der Mainzelliste für föderiertes Record Linkage in anderen Projekten (u.a. in HiGHmed) zu verwenden, ist eine Umlizenzierung eines Teils der Mainzelliste erforderlich. Dafür wird die Bibliothek „MainzelLibrary” geschaffen und unter Apache 2.0 Lizenz veröffentlicht. Zusammen mit den Entwicklern des HiGHmed Data Sharing Frameworks wird eine Weiterentwicklung diese Bibliothek angestrebt.
  • Handling von eGK-Nummern: An der Universitätsmedizin Göttingen wird der unveränderliche Teil der GKV-Versichertennummer in das Record Linkage einbezogen. Hierfür wurde ein neuer ID-Typ mit entsprechender Validierung in die Mainzelliste integriert.
  • Einsatz der Mainzelliste in klinischen Studien: Die Mainzelliste wurde vom KKS Marburg um eine Audit-Trail-Funktionalität erweitert. Ferner soll ein Validierungskonzept der Mainzelliste nach GCP erstellt werden. Die TMF-Arbeitsgruppe IT-Infrastruktur und Qualitätsmanagement (ITQM) hat dieses Vorhaben bereits besprochen und zur Erstellung eines TMF-Projektantrags aufgefordert.
  • Continuous Integration und Docker-Image: Die Integration einer Vielzahl von Codebeiträgen Dritter in die Mainzelliste stellt besondere Anforderungen an die Softwarequalität. Hierzu wurden automatisierte Integrationstests vom DKFZ Heidelberg geschrieben und in die öffentlich zugreifbare Mainzelliste-Continuous Integration-Pipeline [2] aufgenommen. Ferner wurde die Bereitstellung der Software als Docker-Image durch das IMBEI Mainz umgesetzt. Das Image wird mittlerweile automatisch aus der Continuous Integration-Pipeline gebaut.

Zusammenfassung: Durch Beiträge aus verschiedenen Standorten konnte die Mainzelliste, die seit 2013 Quellcode-offen ist, entscheidend verbessert und funktional erweitert werden. Beteiligt waren 18 Entwickler aus 7 Einrichtungen. Die Erhaltung einer hohen Softwarequalität erleichtern automatisierte Tests und eine Continuous Integration-Pipeline.

Die Autoren geben an, dass kein Interessenkonflikt besteht.

Die Autoren geben an, dass kein Ethikvotum erforderlich ist.


Literatur

1.
Lablans M, Borg A, Ückert F. A RESTful pseudonymization interface for use in modern web applications. BMC Med Inform Decis Mak. 2015; 15:2.
2.
Bitbucket-Repository. Available from: http://www.mainzelliste.de External link
3.
Franke M, Sehili Z, Rahm E. Parallel Privacy-Preserving Record Linkage using LSH-based Blocking. In: Proceedings of the 3rd International Conference on Internet of Things. 2018.