gms | German Medical Science

GMDS 2012: 57. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V. (GMDS)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie

16. - 20.09.2012, Braunschweig

Ein System zur De-Identifikation medizinischer Rohdaten

Meeting Abstract

  • Katrin Tomanek - Averbis GmbH, Freiburg, Deutschland
  • Frank Enders - Averbis GmbH, Freiburg, Deutschland
  • Philipp Daumke - Averbis GmbH, Freiburg, Deutschland
  • Marcel Lucas Müller - Universitätsklinikum Freiburg, Deutschland
  • Martin Sedlmayr - Friedrich-Alexander Universität Erlangen-Nürnberg, Erlangen, Deutschland
  • Hans-Ulrich Prokosch - Institut für Medizinische Informatik, Biometrie und Epidemiologie, Universität Erlangen-Nürnberg, Erlangen, Deutschland

GMDS 2012. 57. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (GMDS). Braunschweig, 16.-20.09.2012. Düsseldorf: German Medical Science GMS Publishing House; 2012. Doc12gmds036

doi: 10.3205/12gmds036, urn:nbn:de:0183-12gmds0368

Published: September 13, 2012

© 2012 Tomanek et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution License (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.en). You are free: to Share – to copy, distribute and transmit the work, provided the original author and source are credited.


Outline

Text

Einleitung und Fragestellung: Im Rahmen des BMWi-geförderten Projekts cloud4health soll eine Infrastruktur bereitgestellt werden, die die Sekundärnutzung strukturierter und unstrukturierter medizinischer Rohdaten für wissenschaftliche Forschung ermöglicht. Ein hohes Schutzniveau der sensiblen personenbezogenen Daten ist dabei unabdingbare Voraussetzung. Alle medizinische Rohdaten müssen vor einer Weiterverwendung deidentifiziert werden, um die Persönlichkeitsrechte der Patienten zu schützen. Während eine Deidentifizierung strukturierter Daten häufig unkompliziert ist, da personenidentifizierende Merkmale ausschließlich in speziellen Feldern vorhanden sind, ist die Deidentifizierung freitextlicher Daten wie Arztbriefe oder Radiologieberichte deutlich aufwändiger und fehleranfälliger. Die besten Methoden zur automatischen De-Identifizierung englischsprachiger Dokumente liefern aktuell Erkennungsraten zwischen 95 und 98% [1], [2]. Für deutschsprachige Texte ist derzeit kein System vorhanden.

Material und Methoden: Das hier vorgestellte De-ID System geht von der Erkenntnis aus, dass eine vollautomatische und hinreichend genaue Deidentifizierung auf Freitextdaten nach derzeitigem Stand der Technik nicht möglich ist. Stattdessen zielt das System darauf ab, die Anwender in den medizinischen Einrichtungen so weit wie möglich bei der manuellen Deidentifizierung zu unterstützen und einen halbautomatischen Ansatz mit hoher Durchsatzrate zu ermöglichen. Zu deidentifizierende Merkmale sind typischerweise Personennamen, Kontaktinformationen, Altersangaben (wenn über einem bestimmten Alter), Geographika, Datumsangaben und Identifizierungsnummern aller Art [2]. Das De-ID System kann hinsichtlich dieser Merkmale frei konfiguriert werden. Desweiteren unterstützt das De-ID System die Deidentifizierung beliebiger Dokumentenarten wie Arztbriefe, Radiologie- oder OP-Berichte. Aktuell werden nur einfache Textformate unterstützt, zukünftig soll aber auch bspw. das HL7 CDA Format unterstützt werden.

Basierend auf modernen, maschinellen Lernverfahren [3] schlägt das System automatisch Textstellen vor, die mit großer Wahrscheinlichkeit personenidentifizierende Merkmale darstellen. Der Benutzer kann diese Vorschläge nun bei Bedarf bearbeiten und zusätzlich nicht erkannte Textpassagen markieren. Das System ist selbstlernend, d.h. es lernt im Hintergrund durch neu hinzukommende Annotationen weiter und wird damit sukzessive verbessert. Dadurch sinkt der manuelle Annotationsaufwand pro Dokument zunehmend. Mittels einer Filterfunktion kann das System bevorzugt solche Dokumente zur manuellen Prüfung vorschlagen, die viele und/oder problematische personenidentifizierende Merkmale enthalten.

Liegen neben dem unstrukturierten Text auch Metadaten wie Patientenname, Adresse usw. vor, so durchsucht das System den Freitext nach Bestandteilen der Metadaten und markiert die entsprechenden Textstellen bereits als personenidentifizierend. Zusätzlich kann die Sensitivität des Vorschlagssystems mittels Projekt-spezifischen Positiv- und Negativlisten (bspw. Stationsnamen) angepasst werden.

Ist die Annotation der Dokumente abgeschlossen, so können diese in anonymisierter oder pseudonymisierter Form exportiert werden. Hierfür stehen verschiedene Module zur Verfügung. Bei der einfachen Anonymisierung werden alle als kritisch markierten Textstellen lediglich durch einen statischen Platzhalter (“XXX”) ersetzt. In einer erweiterten Variante werden die kritisichen Textstellen durch typspezifische Platzhalter (weibliche Patientennamen bspw. durch einen anderen weiblichen Namen) ersetzt. Darüberhinaus sind austauschbare und konfigurierbare Module zur Pseudonymisierung der Daten und Module zur Beurteilung des Re-Identifizierungsrisikos und Sicherstellung von k-Anonymität sind in Entwicklung.

Diskussion: Mit dem De-ID-System wird eine wichtige Voraussetzung geschaffen, um eine Sekundärnutzung strukturierter und unstrukturierter medizinischer Rohdaten für die institutionsübergreifende Forschung zu ermöglichen. Das De-ID System wird als Prototyp gerade von den Projektpartnern getestet. Im Rahmen des Projekts cloud4health wird das De-ID-System hinsichtlich Effizienz und Effektivität bei der Deidentifizierung und seiner Benutzerfreundlichkeit und Geschwindigkeit evaluiert werden.


Literatur

1.
Uzuner Ö, Luo Y, Szolovits P. Evaluating the State-of-the-Art in Automatic De-identification. J Am Med Inform Assoc. 2007;14(5):550-63. DOI: 10.1197/jamia.M2444 External link
2.
Meystre M, Friedlin F, South B, Shen S, Samore M. Automatic de-identification of textual documents in the electronic health record: a review of recent research. BMC Med Res Methodol. 2010;10:70. DOI: 10.1186/1471-2288-10-70 External link
3.
Lafferty J, McCallum A, Pereira F. Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data. ICML. 2001:282-9.