gms | German Medical Science

51. Kongress für Allgemeinmedizin und Familienmedizin

Deutsche Gesellschaft für Allgemeinmedizin und Familienmedizin (DEGAM)

21.09. - 23.09.2017, Düsseldorf

Zur De-Identifizierung bei sekundärer Nutzung hausärztlicher Routinedaten

Meeting Abstract

Search Medline for

  • J. Hauswaldt - Universitätsmedizin Göttingen, Institut für Allgemeinmedizin, Göttingen, Deutschland
  • E. Hummers - Universitätsmedizin Göttingen, Institut für Allgemeinmedizin, Göttingen, Deutschland
  • S. Heinemann - Universitätsmedizin Göttingen, Institut für Allgemeinmedizin, Göttingen, Deutschland

51. Kongress für Allgemeinmedizin und Familienmedizin. Düsseldorf, 21.-23.09.2017. Düsseldorf: German Medical Science GMS Publishing House; 2017. Doc17degam294

doi: 10.3205/17degam294, urn:nbn:de:0183-17degam2941

Published: September 5, 2017

© 2017 Hauswaldt et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License. See license information at http://creativecommons.org/licenses/by/4.0/.


Outline

Text

Hintergrund: Wenn medizinische Daten wirksam anonymisiert, also nicht personenbeziehbar sind, erlauben auch Europäische Datenschutzgrundverordnung und neues Bundesdatenschutzgesetz, sie für Forschungszwecke zu nutzen.

Fragestellung: Hausärztliche Routinedaten, gewonnen über die Behandlungsdatentransfer(BDT)-Schnittstelle, werden untersucht, ob Personen aus Feldinhalten einzeln, in Kombination oder mit Zusatzwissen identifiziert werden können.

Methoden: Aus einem hausärztlichen Arztpraxisinformationssystem werden einmalig die BDT-Daten aller Patienten, vom 01.01.2010 bis 31.12.2013, extrahiert. Noch in der Praxis werden direkte Identifikatoren gelöscht. Um Feldinhalte zu Geschlecht, Geburtsdatum, Wohnort sowie Diagnosen des Patienten auf potentiell re-identifizierende Eigenschaft als Quasi-Identifier zu kategorisieren, werden ihre Ausprägungen einzeln und in Kombination mittels des mathematischen Anonymitätsmaßes k-Häufigkeit untersucht.

Ergebnisse: 1,8 Mio. Datensätze mit 137 genutzten Feldkennungsentitäten umfassen insgesamt 12.600 Patienten, im untersuchten Zeitraum hatten 3.811 Patienten mindestens einen Kontakt zur Hausarztpraxis. „Patientengeschlecht“ ist annähernd ausgewogen anzutreffen (weiblich 57,7%). Die meisten Ausprägungen von „Geburtsdatum des Patienten“ unterschreiten ein arbiträr gefordertes k=30 und auch ein k=5, jedoch sind abgeleitet „Geburtsjahr“ oder „Altersdekade“ für Forschungszwecke oftmals genügend und finden sich auch ausreichend häufig, ausgenommen für Patientenalter kleiner 10 oder größer 90 Jahre. Häufigkeiten von „Wohnort des Patienten“ sind sehr unterschiedlich verteilt. 61% der gefundenen 1.382 Diagnose-Entitäten unterschreiten ein k=5, ebenso 330 der 744 auf drei Stellen trunkierten ICD-Kodes.

Diskussion: Anonymisierung von Sekundärdaten aus einer Hausarztpraxis wird durch „Patientengeschlecht“ nicht verletzt, durch Patientenalter in Jahren lediglich, wenn dieses kleiner 10 oder größer 90 Jahre ist. „Patientenwohnort“ ist als identifizierend anzusehen und darf zur Wahrung wirksamer Anonymisierung nicht extrahiert werden. Auch wenn trunkiert, sind auf Praxisebene viele Diagnosen als potentiell re-identifizierend anzusehen.