gms | German Medical Science

19. Deutscher Kongress für Versorgungsforschung

Deutsches Netzwerk Versorgungsforschung e. V.

30.09. - 01.10.2020, digital

Können ausgewählte ambulante Routinedaten anonym sein?

Meeting Abstract

Search Medline for

  • Johannes Hauswaldt - Universitätsmedizin Göttingen, Institut für Allgemeinmedizin, Göttingen, Deutschland

19. Deutscher Kongress für Versorgungsforschung (DKVF). sine loco [digital], 30.09.-01.10.2020. Düsseldorf: German Medical Science GMS Publishing House; 2020. Doc20dkvf455

doi: 10.3205/20dkvf455, urn:nbn:de:0183-20dkvf4554

Published: September 25, 2020

© 2020 Hauswaldt.
This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License. See license information at http://creativecommons.org/licenses/by/4.0/.


Outline

Text

Hintergrund und Stand (inter)nationaler Forschung: Anonyme Datennutzung ist nur zulässig, wenn die Daten eines Datensatzes keinesfalls und auch nicht nachträglich, auch nicht durch Verknüpfung mit weiteren Daten oder Informationen, auf eine Person bezogen werden können.

Fragestellung und Zielsetzung: Können Routinedaten aus Arztpraxisinformationssystemen „faktisch anonymisiert„ werden, um sie sekundär für Versorgungsforschung zu nutzen?

Methode oder Hypothese: An den Variablen Geschlecht, Geburtsjahr und ICD-Diagnosen, auch kombiniert, von Patient*innen in drei vorliegenden Datensätzen hausärztlicher Routinedaten wird das Ausgangsrisiko einer Re-Identifizierung und anschließend der Informationsverlust bei Anwendung von Anonymisierungstechniken bestimmt.

Als Datenbasis dienen eine „historische“ Datensammlung mit 382.622 Patient*innen (1994–2007), eine weitere mit 3.704 (1994–2013) und eine aus einem laufendem Projekt mit 100 Patient*innen (2012–2019). Geburtsdatum einer Person ist jedenfalls als quasi-identifizierend anzusehen, es wird auf „Geburtsjahr“ trunkiert. ICD-Diagnosen werden auf drei führende Stellen verkürzt und je Person quartalsweise gezählt.

In jeder Datensammlung werden die quasi-identifizierenden Variablen „Geschlecht“ und „Geburtsjahr“ unter dem Datenschutzmodell „k-Anonymität“ mit k=5 sowie k=30 im Ausgangsdatensatz sowie, nach Transformation mittels vergleichbarer Generalisierungshierarchien, in einer sinnvollen, praktisch wünschenswerten Datensatzmodifikation untersucht (Open-source Software „ARX – Data Anonymization Tool“, Version 3.8.0). Die Ergebnisse für verschiedene Risiko-Aspekte der Re-identifizierung sowie für Informationsverlust und für Brauchbarkeit weiterer Datenschutzmodelle mit ihren Risikobeurteilungen werden einander gegenübergestellt.

Anschließend werden die drei Datensammlungen unter Hinzunahme der sechs häufigsten „ICD-Dreisteller“ je Patient in gleicher Weise erneut untersucht.

Ergebnisse: Größere Datensammlungen besser noch als kleine können bereits mit wenig eingreifenden, gezielten Modifikationen und entsprechend geringem Informationsverlust wirksam und deutlich verbessert technisch anonymisiert werden – eine absolute Anonymisierung jedoch gelingt nicht.

Diskussion: Gesundheitsdaten einer Person können niemals als anonym angesehen werden, sind sensibel und lassen in vieler Hinsicht ein Individuum weitgehend identifizieren.

Eine erfolgreiche Anonymisierung, wenn überhaupt sinnvoll möglich, kann keinesfalls „absolut„ gelingen. Sie ist vielmehr in Abstufungen im Spannungsfeld zwischen (akzeptiertem) Risiko der Re-Identifizierung und dem (noch sinnvollen) Informationsverlust zu bewerten, bevor Sekundärnutzung erfolgt.

Praktische Implikationen: Ob mit ausreichender Wahrscheinlichkeit ein Personenbezug nicht hergestellt werden kann („faktische Anonymisierung“), muss immer im konkreten Einzelfall der untersuchten abgeschlossenen Datensammlung und unter Berücksichtigung der technischen und organisatorischen Maßnahmen ihrer Gewinnung und Verarbeitung (Forschungsinfrastruktur) sowie möglicher Angriffsszenarien nachgewiesen und beurteilt werden.