Article
Stratifizierung des Re-Identifikationsrisikos medizinischer Daten
Search Medline for
Authors
Published: | September 10, 2024 |
---|
Outline
Text
Hintergrund: Medizinische Daten der Routineversorgung werden zur Sekundärnutzung in der Forschung verwendet, aber das damit verbundene Risiko für den Schutz der Privatsphäre erfordert eine gründliche Bewertung. Insbesondere die Evaluation des Re-Identifikationsrisikos ist als kritisch anzusehen. Derzeit ist keine standardisierte Methode zur umfassenden Quantifizierung dieses Risikos für medizinische Daten bekannt, die äußerst sensibel, aber für die Forschung unerlässlich sind.
Zielsetzung: Ziel dieser Arbeit ist die Entwicklung eines heuristischen Ansatzes zur Stratifizierung des Re-Identifikationsrisikos medizinischer Datensätze.
Methode: Diese Arbeit verfolgt einen integrativen Ansatz, indem das Risiko der Re-Identifikation nicht als monokausal betrachtet wird, sondern diverse Aspekte einbezogen werden. Basierend auf einer systematischen Literaturrecherche erfolgt die Identifikation und Beschreibung von Faktoren und entsprechenden Risiken, die bei Re-Identifikationsangriffen entscheidend sind. Für jeden Faktor werden Kriterien zur Bewertung der zugehörigen Komponenten erstellt. Die Wechselwirkungen zwischen den Faktoren werden in Entity-Relationship-Modellen visualisiert und ihre Richtung und Größe in einer Einflussmatrix zusammengefasst und quantifiziert. Darauf basierend werden abschließend verschiedene Indizes entwickelt, um das Re-Identifikationsrisiko einer medizinischen Datensammlung quantitativ zu erfassen, darzustellen und zu bewerten.
Ergebnisse: Insgesamt liegen vier generalisierte Perspektiven vor, die die ermittelten Einflussfaktoren auf das Re-Identifikationsrisiko modellieren: Die Datenperspektive zur Abbildung dateninhärenter Merkmale, die Wissensperspektive zur Beschreibung zusätzlich verfügbarer Kentnisse zur Re-Identifikation, die Angreiferperspektive zur Charakterisierung der Bedrohungssituation, sowie die technisch/organisatorische Perspektive zur Darstellung von Umfeldthemen. In den Entity-Relationship-Modellen zeigt sich ein komplexes System mit einer deutlichen Quervernetzung der Faktoren der jeweiligen Perspektive. Die Quantifizierung der Risikofaktoren erfolgt in einer Einflussmatrix, die als Instrument zur Risikostratifizierung angewendet wird. Aus der Einflussmatrix ableitbare Indizes und die Visualisierung des De-Anonymisierungsrisikos geben Hinweise auf besonders risikotreibende Komponenten einer Datensammlung und bilden somit eine Grundlage für zielgerichtete Sicherheitsmaßnahmen. Hier spielen Generalisierungs-, Suppressions- und Randomisierungsansätze eine entscheidende Rolle. Abschließende Experimente zur Ermittlung der Methodengüte anhand publizierter, verifizierter Re-Identifikationsangriffe bestätigen die Plausibilität und Trennschärfe der Risikostratifizierung. Die Einschätzung des Risikos erscheint jedoch etwas niedriger, als es vermutlich tatsächlich war, wahrscheinlich aufgrund der nur begrenzt verfügbaren Informationen aus den Publikationen.
Implikation für Forschung und/oder (Versorgungs-)Praxis: Mit dem vorgestellten Ansatz ist es möglich, das Risiko einer Rekonstruktion des Personenbezuges einzuschätzen und zu verringern. Allerdings ist dies ein Optimierungsproblem: Einerseits soll eine möglichst hohe Sicherheit erzielt werden, andererseits soll der damit verbundene Informationsverlust minimiert werden, der die Eignung der Daten für die Sekundärnutzung reduziert.
Förderung: Sonstige Förderung; Projektname: FAIRRMeDIC; Fördernummer: 01ZZ2012