gms | German Medical Science

56. Kongress für Allgemeinmedizin und Familienmedizin

Deutsche Gesellschaft für Allgemeinmedizin und Familienmedizin (DEGAM)

15. - 17.09.2022, Greifswald

Zur De-Identifizierung von Feldinhalten in hausärztlichen Routinedaten

Meeting Abstract

  • presenting/speaker Johannes Hauswaldt - Universitätsmedizin Göttingen, Institut für Allgemeinmedizin, Göttingen, Deutschland
  • Roland Groh - Gesellschaft für wissenschaftliche Datenverarbeitung Göttingen, Göttingen, Deutschland
  • Knut Kaulke - TMF – Technologie- und Methodenplattform für die vernetzte medizinische Forschung e.V., Deutschland
  • Falk Schlegelmilch - Universitätsmedizin Göttingen, Institut für Allgemeinmedizin, Göttingen, Deutschland
  • Eva Hummers - Universitätsmedizin Göttingen, Institut für Allgemeinmedizin, Göttingen, Deutschland

Deutsche Gesellschaft für Allgemeinmedizin und Familienmedizin. 56. Kongress für Allgemeinmedizin und Familienmedizin. Greifswald, 15.-17.09.2022. Düsseldorf: German Medical Science GMS Publishing House; 2022. DocV-19-01

doi: 10.3205/22degam107, urn:nbn:de:0183-22degam1071

Veröffentlicht: 15. September 2022

© 2022 Hauswaldt et al.
Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung). Lizenz-Angaben siehe http://creativecommons.org/licenses/by/4.0/.


Gliederung

Text

Hintergrund: Sekundäre Nutzung von hausärztlichen Routinedaten ist technisch und organisatorisch rechtskonform machbar. Potentiell identifizierende Feldinhalte (PIF), insbesondere Freitexteinträge, behindern die „faktische Anonymisierung“ eines wissenschaftlich genutzten Sekundärdatensatzes (SDS).

Fragestellung: Schrittweises und systematisches Erkennen von PIF in einem exemplarischen SDS aus strukturierten Routinedaten einer hausärztlichen Praxis, extrahiert mittels der Behandlungsdatentransfer (BDT)-Schnittstelle. Ergebnisbewertung im Sinne einer Datenschutz-Folgenabschätzung (DSFA).

Methoden: Untersucht wird auf den Ebenen (1) der Feldkennungen (Variablen, Attribute), (2) ihrer Kombinationen, (3) ihrer Feldinhalte (Ausprägungen, Werte) und (4) des gesamten Datensatzes. Instrumente sind für (1) und (2) Feldtyp, relative Häufigkeiten, Kategorien, und hausärztliche Expertise, (3) Suchen und Ersetzen mittels TextCrawler, anschließend auf Namen oder Telefonnummern mittels Natural Language Processing Techniken, (d) ARX Data Anonymization-Tool. Bewertung als Abschätzen des Zusammentreffens von Schwere eines möglichen Schadens mit seiner Eintrittswahrscheinlichkeit.

Ergebnisse: Ein SDS aus einer hausärztlichen Praxis, 1993 bis 2017, von 14.285 Patienten, vorliegend als .csv-Datei mit 5.918.321 Datenzeilen (224 MB) und drei Variablen (Reihenfolge, Feldkennung, Feldinhalt), wurde untersucht. PIF wurden v.a. in den Feldern „Dauerbemerkungen“ und „Befunde“ erkannt und als „Namen“, „Ortsnamen“, „Telefonnummern“, „Funktions-“ und „Berufsbezeichnungen“ kategorisiert. „Sterbedatum“ wird als hoher Schaden mit mittlerer Eintrittswahrscheinlichkeit angesehen – Abhilfe: Umwandlung in Sterbejahr. Die Kombination von BDT-typischer temporaler Reihung, pseudonymisierter Patientenzuordnung und einzelnen Feldinhalten erhöht das Re-Identifizierungsrisiko im SDS als Ganzem.

Diskussion: Untersuchungen zu PIF müssen an einem konkreten, abgeschlossen vorliegenden SDS durchgeführt werden. Sie setzen fach- und sachspezifische Kenntnisse über Entstehung und Rahmenbedingungen der Rohdaten in Hausarztpraxen sowie Metainformationen über die Primärdaten voraus.

Take Home Message für die Praxis: Mit vertretbarem Aufwand können PIF in einem abgeschlossenen SDS immer nur unvollständig erkannt werden. Erkennen und Bewerten von PIF sind Voraussetzung für de-identifizierende Maßnahmen. Eine semantische Strukturierung der Daten, etwa unter SNOMED CT, ist erstrebenswert, hilft jedoch PIF durch Fehleingaben nicht ab.