gms | German Medical Science

GMDS 2015: 60. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V. (GMDS)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie

06.09. - 09.09.2015, Krefeld

Service-basiertes High-Performance Privacy Preserving Record Linkage für die Epidemiologische Datenauswertung

Meeting Abstract

Suche in Medline nach

  • Alexandr Puchkovskiy - OFFIS CARE GmbH, Oldenburg, Deutschland
  • Stefan Gudenkauf - OFFIS - Institut für Informatik, Oldenburg, Deutschland

GMDS 2015. 60. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (GMDS). Krefeld, 06.-09.09.2015. Düsseldorf: German Medical Science GMS Publishing House; 2015. DocAbstr. 200

doi: 10.3205/15gmds164, urn:nbn:de:0183-15gmds1643

Veröffentlicht: 27. August 2015

© 2015 Puchkovskiy et al.
Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung). Lizenz-Angaben siehe http://creativecommons.org/licenses/by/4.0/.


Gliederung

Text

Einleitung: Wer in Deutschland Daten auswerten möchte, sieht sich mit Fragen des Datenschutzes konfrontiert. Zusätzlich müssen die Daten häufig aus unterschiedlichen Quellen zusammengeführt werden. Die Zusammenführung von Datensätzen unter Berücksichtigung von Datenschutzanforderungen wird Privacy Preserving Record Linkage (PPRL) genannt. Ein weitverbreitetes Verfahren hierzu ist die Bildung von Kontrollnummern aus personenidentifizierenden Daten mit Hilfe von kryptographischen Algorithmen [1]. Der Vorgang ist jedoch extrem rechenintensiv und kann schnell mehrere Tage dauern [2]. Dieses Problem wird durch drei Entwicklungen verschärft: (1) Moderne medizinische oder sozialogische Datenbanken halten Fallzahlen jenseits der Millionengrenze. So z.B. sind in Epidemiologischen Krebsregister Niedersachsen (EKN) ungefähr 4 Millionen Fälle gespeichert. (2) Es ist zu erwarten, dass die Datenbestände aufgrund gesetzliche Änderungen und zunehmender Vernetzung schneller wachsen. So z.B. sollen zukünftig die Daten von Einwohnermeldeämter mit Datenbestand von Krebsregister abgeglichen werden. (3) Es ist zu erwarten, dass PPRL zukünftig wesentlich schneller erfolgen muss. So z.B. wird diskutiert, dass klinische Krebsregister Datensätze innerhalb wenigen Sekunden für Tumorkonferenzen zur Verfügung stellen.

Moderne PPRL-Verfahren sollen große Datenmengen (volume) verschiedener Herkunft und Struktur (variety) zeitnah verarbeiten (velocity) und aus der Verarbeitung neue Einsichten (value) ermöglichen. Mit üblichen Softwarelösungen für PPRL wie z.B. AutoMatch und MTB ist dieses Ziel schwierig zu erreichen.

Material und Methoden: Die Umsetzung von PPRL erfolgte mittels Cloud-Technologien [3]. Hierzu wurde zunächst ein existierender PPRL-Algorithmus für Cloud-Computing optimiert [4]. Hierzu wurde der Algorithmus parallelisiert, so dass Mehrkern- und Multi-CPU- Systeme mehrere Datensätze gleichzeitig verarbeiten können. Zusätzlich wurde der Algorithmus für die Ausnutzung moderner Speichergroßen angepasst, was zu einer Minimierung von langsamen IO-Operationen führt. Anschließend wurde ein Testfall konstruiert und empirisch überprüft.

Ergebnisse: Der Ansatz wurde evaluiert, indem 4 Millionen Datensätze, Datenbestand der EKN, miteinander verglichen wurden. Jeder Datensatz bestand aus 26 Variablen, davon sind 22 Kontrollnummern, Gemeindekennziffer, Geschlecht, Geburtsmonat und Geburtsjahr. Der gesamte PPRL-Vorgang wurde in weniger als 24 Stunden durchgeführt. Dabei wurden 8*〖10〗^11 Datensatzvergleiche durchgeführt, was einer Geschwindigkeit von mehr als 90 Millionen Vergleiche pro Sekunde entspricht.

Zusätzlich ist Qualität des PPRL gestiegen. Es wurden sowohl False-Positive als auch False-Negative Fälle entdeckt, die im Datenbestand bisher nicht entdeckt wurden. Diese Tatsache erklärt sich dadurch, dass die Realisierung keine Vorauswahl von möglichen Match-Kandidaten trifft. Außerdem vergleicht die Realisierung alle 26 Variablen und nicht nur ein Subset davon.

Diskussion: Generell bieten Cloud-Dienste einige Vorteile für Dienstnutzer, zum Beispiel die Anpassung der Kosten an die tatsächliche Nutzung, die Reduzierung des Bedarfs an eigenem IT-Personal und diesbezüglicher Kosten, der Austausch hoher initialer Kapitalaufwendungen durch regelmäßige Kapitalflüsse, sowie die Erfüllung regulatorischer Auflagen und Rahmenbedingungen [5]. Cloud-basiertes PPRL bietet darüber hinaus eine hohe Performance und Skalierbarkeit, die mit gewöhnlichen Rechnern nicht erreicht werden kann, flexible Lizenzmodelle, sowie eine stark erhöhte Qualität des PPRL, da wesentlich aufwändigere und rechenintensive Verfahren ohne Performance-Einbußen verwendet werden können.


Literatur

1.
Appelrath HJ, Michaelis J, Schmidtmann I, Thoben W. Empfehlung an die Bundesländer zur technischen Umsetzung der Verfahrensweisen gemäß Gesetz über Krebsregister (KRG). Inform Biometrie und Epidemiol Medizin und Biol. 1996;27(2):101–110.
2.
Schnell R. Getting Big Data but avoiding Big Brother. Nürnberg; WP-GRLC-2013-02; 2013.
3.
Mell P, Grance T. The NIST Definition of Cloud Computing - Recommendations of the National Institute of Standards and Technology. Gaithersburg; 2011.
4.
Hentschel S, Katalinic A, Eds. Das Manual der epidemiologischen Krebsregistrierung. 1. Auflage. Zuckschwerdt Verlag für Medizin und Naturwissenschaften; 2008.
5.
Wilkins M, Bennett S, Baty J, Anbarusu AK, Carlson M, Lee M. Oracle Cloud Reference Architecture - Cloud Foundation Architecture, Release 3.0. 2011.