Article
Chancen von Open-Source-Software am Beispiel der Pseudonymisierungslösung „Mainzelliste”
Search Medline for
Authors
Published: | February 26, 2021 |
---|
Outline
Text
Hintergrund: Die Mainzelliste, eine IT-Lösung zur Pseudonymisierung und zum Identitätsmanagement [1], wird nicht nur in einer Vielzahl von Projekten und Einrichtungen genutzt, sondern auch durch mehrere Standorte weiterentwickelt. Eine solche Software-Entwicklung durch die engagierte Community schafft zum einen neue Herausforderungen, wie die Koordination von unabhängig entstandenen Code-Beiträgen unterschiedlicher Personen. Sie kann der Software andererseits aber Funktionalitäten verschaffen, die ein einzelner Entwicklerstandort allein nicht erbringen könnte.
Methoden: Die an verschiedenen Stellen erwachsenen Anforderungen werden als neue Funktionen dezentral realisiert. Sie werden in den Hauptzweig des Softwareprodukts in Abstimmung mit der Abteilung Verbundinformationssysteme am DKFZ Heidelberg und dem IMBEI an der Universitätsmedizin Mainz getestet und integriert. Die Integration geschieht in einem Bitbucket-Repository [2], wo man Quellcode, Entwicklungszweige, Programmversionen und Dokumentation findet.
Ergebnisse: Im Folgenden werden beispielhaft Community-Beiträge vorgestellt, die in jüngster Zeit entstanden sind und in Mainzelliste-Versionen einfließen.
- Föderiertes Record Linkage mit Secure Multiparty Computation: Eine Ähnlichkeitssuche von Personen in Mainzellliste-Instanzen an verschiedenen Standorten (Föderiertes Privacy-Preserving Record Linkage) kommt auf Basis von Bloom Filtern bereits seit mehreren Jahren im Deutschen Konsortium für Translationale Krebsforschung zum Einsatz. Der von der TU Darmstadt und dem DKFZ Heidelberg neu entwickelte „Mainzelliste Secure EpiLinker” (MainSEL) benutzt statt der Bloomfilter „secure multi-party computation”, womit ein stark erhöhtes Sicherheitsniveau erreicht wird. Die experimentelle Technik soll erstmals im MII-Anwendungsfall Collaboration on Rare Diseases (CORD-MI) zum Einsatz kommen.
- Blocking und Locality-Sensitive Hashing: Im Rahmen der „FASTML”-Förderung der TMF wurde das Bloomfilter-Matching der Mainzelliste vom Institut für Informatik der Universität Leipzig enorm beschleunigt. Zur Anwendung kommt hierfür Locality-Sensitive Hashing (LSH [3]). Eine Publikation (zurzeit im Review) belegt Geschwindigkeit und Matchgüte.
- MainzelLibrary: Um die Funktionalität der Mainzelliste für föderiertes Record Linkage in anderen Projekten (u.a. in HiGHmed) zu verwenden, ist eine Umlizenzierung eines Teils der Mainzelliste erforderlich. Dafür wird die Bibliothek „MainzelLibrary” geschaffen und unter Apache 2.0 Lizenz veröffentlicht. Zusammen mit den Entwicklern des HiGHmed Data Sharing Frameworks wird eine Weiterentwicklung diese Bibliothek angestrebt.
- Handling von eGK-Nummern: An der Universitätsmedizin Göttingen wird der unveränderliche Teil der GKV-Versichertennummer in das Record Linkage einbezogen. Hierfür wurde ein neuer ID-Typ mit entsprechender Validierung in die Mainzelliste integriert.
- Einsatz der Mainzelliste in klinischen Studien: Die Mainzelliste wurde vom KKS Marburg um eine Audit-Trail-Funktionalität erweitert. Ferner soll ein Validierungskonzept der Mainzelliste nach GCP erstellt werden. Die TMF-Arbeitsgruppe IT-Infrastruktur und Qualitätsmanagement (ITQM) hat dieses Vorhaben bereits besprochen und zur Erstellung eines TMF-Projektantrags aufgefordert.
- Continuous Integration und Docker-Image: Die Integration einer Vielzahl von Codebeiträgen Dritter in die Mainzelliste stellt besondere Anforderungen an die Softwarequalität. Hierzu wurden automatisierte Integrationstests vom DKFZ Heidelberg geschrieben und in die öffentlich zugreifbare Mainzelliste-Continuous Integration-Pipeline [2] aufgenommen. Ferner wurde die Bereitstellung der Software als Docker-Image durch das IMBEI Mainz umgesetzt. Das Image wird mittlerweile automatisch aus der Continuous Integration-Pipeline gebaut.
Zusammenfassung: Durch Beiträge aus verschiedenen Standorten konnte die Mainzelliste, die seit 2013 Quellcode-offen ist, entscheidend verbessert und funktional erweitert werden. Beteiligt waren 18 Entwickler aus 7 Einrichtungen. Die Erhaltung einer hohen Softwarequalität erleichtern automatisierte Tests und eine Continuous Integration-Pipeline.
Die Autoren geben an, dass kein Interessenkonflikt besteht.
Die Autoren geben an, dass kein Ethikvotum erforderlich ist.
Literatur
- 1.
- Lablans M, Borg A, Ückert F. A RESTful pseudonymization interface for use in modern web applications. BMC Med Inform Decis Mak. 2015; 15:2.
- 2.
- Bitbucket-Repository. Available from: http://www.mainzelliste.de
- 3.
- Franke M, Sehili Z, Rahm E. Parallel Privacy-Preserving Record Linkage using LSH-based Blocking. In: Proceedings of the 3rd International Conference on Internet of Things. 2018.