gms | German Medical Science

GMDS 2014: 59. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V. (GMDS)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie

07. - 10.09.2014, Göttingen

Datenschutzgerechte Zusammenführung personenbezogener Daten: Techniken des „Privacy Preserving Record Linkage“

Meeting Abstract

Suche in Medline nach

  • R. Schnell - Universität Duisburg-Essen, Institut für Soziologie, Duisburg
  • C. Borgs - Universität Duisburg-Essen, Institut für Soziologie, Duisburg

GMDS 2014. 59. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (GMDS). Göttingen, 07.-10.09.2014. Düsseldorf: German Medical Science GMS Publishing House; 2014. DocAbstr. 123

doi: 10.3205/14gmds232, urn:nbn:de:0183-14gmds2321

Veröffentlicht: 4. September 2014

© 2014 Schnell et al.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielfältigt, verbreitet und öffentlich zugänglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Gliederung

Text

Für viele medizinische Forschungsprobleme liegen relevante Daten über die gleichen Personen in getrennten Datenbanken vor. Die Verknüpfung dieser Datenbanken würde die Untersuchung zahlreicher Fragestellungen erlauben, falls keine Datenschutzbedenken bestünden. Die rechtlichen Hürden für die Zusammenführung solcher Daten sind im internationalen Vergleich in Deutschland außerordentlich hoch. Weiterhin existiert in Deutschland keine einheitliche Personenkennziffer. Daher sind Datenzusammenführungen („Privacy Preserving Record Linkage“, PPRL) in Deutschland sowohl technisch als auch organisatorisch besonders aufwändig.

Der Vortrag stellt technische Lösungen für die beiden zentralen Probleme des PPRL vor: Privacy Preserving Linkage und Privacy Preserving Blocking. Der Kern des Linkageproblems besteht in der Berechnung der Ähnlichkeit der zur Verfügung stehenden Identifikatoren, ohne dass die Identifikationen offengelegt werden müssen. Traditionell wurde dieses Problem durch die Verschlüsselung phonetischer Codes behandelt, dabei zeigen sich aber erhebliche Verluste durch falsch-negative Paare. Für die Lösung dieses Problems wurde in den letzten 10 Jahren eine Reihe neuer Verfahren entwickelt, insbesondere Refenzmengenlösungen, Secure Multiparty Protokolle und Bloomfilter-Verschlüsselungen. Praktische Anwendungen hat vor allem der letztgenannte Ansatz erfahren, daher wird dieser etwas ausführlicher erläutert. Die Datenstruktur eines Bloomfilters ist ein Bitarray, daher stellt sich unmittelbar die zweite zentrale Frage des PPRL mit Bloomfiltern: Wie findet man die nächsten Nachbarn einer großen Zahl von Bitarrays, ohne das alle Paare berechnet werden müssen? Dies ist das Problem des Privacy-Preserving-Blockings. Auch hier wurden in den letzten 15 Jahren zahlreiche Lösungen vorgeschlagen, z.b. Sorted Neighborhoods, Canopy Clustering und Multibit-Trees. Der Vortrag erläutert diese Techniken im Vergleich anhand zahlreicher simulierter und realer Datensätze.


Literatur

1.
Christen P. A survey of indexing techniques for scalable record linkage and deduplication. IEEE Transactions on Knowledge and Data Engineering. 2012;24(9):1537-55.
2.
Kuehni CE, Rueegg CS, Michel G, Rebholz CE, Strippoli MPF, Niggli FK, Egger M, von der Weid NX. Cohort profile: the Swiss Childhood Cancer Survivor Study. International Journal of Epidemiology. 2012;41(6):1553-64.
3.
Kuzu M, Kantarcioglu M, Durham EA, Toth C, Malin B. A practical approach to achieve private medical record linkage in light of public resources. Journal of the American Medical Informatics Association. 2013;20(2):285-92.
4.
Randall SM, Ferrante AM, Boyd JH, Bauer JK, Semmens JB. Privacy-preserving record linkage on large real world datasets. Journal of Biomedical Informatics. 2014 Aug;50:205-12.
5.
Schnell R. Privacy-preserving record linkage and privacy-preserving blocking for large files with cryptographic keys using multibit trees. In: American Statistical Association, editor. Proceedings of the Joint Statistical Meetings.Montreal, Canada: 2013 Aug 3-8. p.187-94.
6.
Schnell R, Bachteler T, Reiher J. Privacy-preserving record linkage using bloom filters. BMC Medical Informatics and Decision Making. 2009;9(41):1-11.
7.
Vatsalan D, Christen P, Verykios VS. A taxonomy of privacy-preserving record linkage techniques. Information Systems. 2013;38(6):946-69.
8.
Verykios V, Christen P. Privacy-preserving record linkage. WIREs Data Mining and Knowledge Discovery. 2013;3:321-2.