GMS | 65th Annual Meeting of the German Association for Medical Informatics, Biometry and Epidemiology (GMDS), Meeting of the Central European Network (CEN: German Region, Austro-Swiss Region and Polish Region) of the International Biometric Society (IBS) | Chancen von Open-Source-Software am Beispiel der Pseudonymisierungslösung „Mainzelliste”

65th Annual Meeting of the German Association for Medical Informatics, Biometry and Epidemiology (GMDS), Meeting of the Central European Network (CEN: German Region, Austro-Swiss Region and Polish Region) of the International Biometric Society (IBS)

06.09. - 09.09.2020, Berlin (online conference)

Article

XML version

Send article

Chancen von Open-Source-Software am Beispiel der Pseudonymisierungslösung „Mainzelliste”

Meeting Abstract

Search Medline for

Jürgen Riegel - Universitätsmedizin Mainz, IMBEI Medizinische Informatik, Mainz, Germany
Moanes Ben Amor - Deutsches Krebsforschungszentrum, Verbundinformationssysteme, Heidelberg, Germany
Torben Brenner - Deutsches Krebsforschungszentrum, Verbundinformationssysteme, Heidelberg, Germany
Johannes Drepper - TMF e.V., Berlin, Germany
Martin Franke - Universität Leipzig, Institut für Informatik, Leipzig, Germany
Manuel Grün - Universität Marburg, Koordinierungszentrum für Klinische Studien, Marburg, Germany
Kay Hamacher - Technische Universität Darmstadt, Computational Biology and Simulation, Darmstadt, Germany
Hauke Hund - Hochschule Heilbronn, GECKO Institut, Heilbronn, Germany
Cornelius Knopp - Universitätsklinikum Tübingen, Translationale Bioinformatik, Tübingen, Germany
Tobias Kussel - Technische Universität Darmstadt, Computational Biology and Simulation, Darmstadt, Germany
Matthias Lemmer - Universität Marburg, Koordinierungszentrum für Klinische Studien, Marburg, Germany
Marcel Parciak - Universitätsmedizin Göttingen, Institut für Medizinische Informatik, Göttingen, Germany
Erhard Rahm - Universität Leipzig, Institut für Informatik, Leipzig, Germany
Florens Rohde - Universität Leipzig, Institut für Informatik, Leipzig, Germany
Ulrich Sax - Universitätsmedizin Göttingen, Institut für Medizinische Informatik, Göttingen, Germany
Josef Schepers - Charité – Universitätsmedizin Berlin, BIH, Berlin, Germany
Ziad Sehili - Universität Leipzig, Institut für Informatik, Leipzig, Germany
Markus Suhr - Universitätsmedizin Göttingen, Institut für Medizinische Informatik, Göttingen, Germany
Torsten Panholzer - Universitätsmedizin Mainz, IMBEI Medizinische Informatik, Mainz, Germany
Martin Lablans - Deutsches Krebsforschungszentrum, Verbundinformationssysteme, Heidelberg, Germany

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie. 65th Annual Meeting of the German Association for Medical Informatics, Biometry and Epidemiology (GMDS), Meeting of the Central European Network (CEN: German Region, Austro-Swiss Region and Polish Region) of the International Biometric Society (IBS). Berlin, 06.-09.09.2020. Düsseldorf: German Medical Science GMS Publishing House; 2021. DocAbstr. 409

doi: 10.3205/20gmds204, urn:nbn:de:0183-20gmds2049

Published:	February 26, 2021

© 2021 Riegel et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License. See license information at http://creativecommons.org/licenses/by/4.0/.

Outline

Text

Hintergrund: Die Mainzelliste, eine IT-Lösung zur Pseudonymisierung und zum Identitätsmanagement [1], wird nicht nur in einer Vielzahl von Projekten und Einrichtungen genutzt, sondern auch durch mehrere Standorte weiterentwickelt. Eine solche Software-Entwicklung durch die engagierte Community schafft zum einen neue Herausforderungen, wie die Koordination von unabhängig entstandenen Code-Beiträgen unterschiedlicher Personen. Sie kann der Software andererseits aber Funktionalitäten verschaffen, die ein einzelner Entwicklerstandort allein nicht erbringen könnte.

Methoden: Die an verschiedenen Stellen erwachsenen Anforderungen werden als neue Funktionen dezentral realisiert. Sie werden in den Hauptzweig des Softwareprodukts in Abstimmung mit der Abteilung Verbundinformationssysteme am DKFZ Heidelberg und dem IMBEI an der Universitätsmedizin Mainz getestet und integriert. Die Integration geschieht in einem Bitbucket-Repository [2], wo man Quellcode, Entwicklungszweige, Programmversionen und Dokumentation findet.

Ergebnisse: Im Folgenden werden beispielhaft Community-Beiträge vorgestellt, die in jüngster Zeit entstanden sind und in Mainzelliste-Versionen einfließen.

Föderiertes Record Linkage mit Secure Multiparty Computation: Eine Ähnlichkeitssuche von Personen in Mainzellliste-Instanzen an verschiedenen Standorten (Föderiertes Privacy-Preserving Record Linkage) kommt auf Basis von Bloom Filtern bereits seit mehreren Jahren im Deutschen Konsortium für Translationale Krebsforschung zum Einsatz. Der von der TU Darmstadt und dem DKFZ Heidelberg neu entwickelte „Mainzelliste Secure EpiLinker” (MainSEL) benutzt statt der Bloomfilter „secure multi-party computation”, womit ein stark erhöhtes Sicherheitsniveau erreicht wird. Die experimentelle Technik soll erstmals im MII-Anwendungsfall Collaboration on Rare Diseases (CORD-MI) zum Einsatz kommen.
Blocking und Locality-Sensitive Hashing: Im Rahmen der „FASTML”-Förderung der TMF wurde das Bloomfilter-Matching der Mainzelliste vom Institut für Informatik der Universität Leipzig enorm beschleunigt. Zur Anwendung kommt hierfür Locality-Sensitive Hashing (LSH [3]). Eine Publikation (zurzeit im Review) belegt Geschwindigkeit und Matchgüte.
MainzelLibrary: Um die Funktionalität der Mainzelliste für föderiertes Record Linkage in anderen Projekten (u.a. in HiGHmed) zu verwenden, ist eine Umlizenzierung eines Teils der Mainzelliste erforderlich. Dafür wird die Bibliothek „MainzelLibrary” geschaffen und unter Apache 2.0 Lizenz veröffentlicht. Zusammen mit den Entwicklern des HiGHmed Data Sharing Frameworks wird eine Weiterentwicklung diese Bibliothek angestrebt.
Handling von eGK-Nummern: An der Universitätsmedizin Göttingen wird der unveränderliche Teil der GKV-Versichertennummer in das Record Linkage einbezogen. Hierfür wurde ein neuer ID-Typ mit entsprechender Validierung in die Mainzelliste integriert.
Einsatz der Mainzelliste in klinischen Studien: Die Mainzelliste wurde vom KKS Marburg um eine Audit-Trail-Funktionalität erweitert. Ferner soll ein Validierungskonzept der Mainzelliste nach GCP erstellt werden. Die TMF-Arbeitsgruppe IT-Infrastruktur und Qualitätsmanagement (ITQM) hat dieses Vorhaben bereits besprochen und zur Erstellung eines TMF-Projektantrags aufgefordert.
Continuous Integration und Docker-Image: Die Integration einer Vielzahl von Codebeiträgen Dritter in die Mainzelliste stellt besondere Anforderungen an die Softwarequalität. Hierzu wurden automatisierte Integrationstests vom DKFZ Heidelberg geschrieben und in die öffentlich zugreifbare Mainzelliste-Continuous Integration-Pipeline [2] aufgenommen. Ferner wurde die Bereitstellung der Software als Docker-Image durch das IMBEI Mainz umgesetzt. Das Image wird mittlerweile automatisch aus der Continuous Integration-Pipeline gebaut.

Zusammenfassung: Durch Beiträge aus verschiedenen Standorten konnte die Mainzelliste, die seit 2013 Quellcode-offen ist, entscheidend verbessert und funktional erweitert werden. Beteiligt waren 18 Entwickler aus 7 Einrichtungen. Die Erhaltung einer hohen Softwarequalität erleichtern automatisierte Tests und eine Continuous Integration-Pipeline.

Die Autoren geben an, dass kein Interessenkonflikt besteht.

Die Autoren geben an, dass kein Ethikvotum erforderlich ist.

Outline

Literatur

1.: Lablans M, Borg A, Ückert F. A RESTful pseudonymization interface for use in modern web applications. BMC Med Inform Decis Mak. 2015; 15:2.
2.: Bitbucket-Repository. Available from: http://www.mainzelliste.de
3.: Franke M, Sehili Z, Rahm E. Parallel Privacy-Preserving Record Linkage using LSH-based Blocking. In: Proceedings of the 3rd International Conference on Internet of Things. 2018.

gms | German Medical Science

65th Annual Meeting of the German Association for Medical Informatics, Biometry and Epidemiology (GMDS), Meeting of the Central European Network (CEN: German Region, Austro-Swiss Region and Polish Region) of the International Biometric Society (IBS)

Article

Chancen von Open-Source-Software am Beispiel der Pseudonymisierungslösung „Mainzelliste”

Search Medline for

Authors

Outline

Text

Literatur