gms | German Medical Science

Aufbau einer automatisierten NLP-Pipeline zur De-Identifikation klinischer Dokumente

Meeting Abstract

  • Giulia Baldini - Universitätsklinikum Essen, Institut für Diagnostische und Interventionelle Radiologie und Neuroradiologie, Essen, Deutschland; Universitätsklinikum Essen, Institut für Künstliche Intelligenz in der Medizin, Essen, Deutschland
  • Kamyar Arzideh - Universitätsklinikum Essen, Zentrale Informationstechnik, Abteilung Datenintegration, Essen, Deutschland; Universitätsklinikum Essen, Institut für Künstliche Intelligenz in der Medizin, Essen, Deutschland
  • Jan Trienes - Universitätsklinikum Essen, Institut für Künstliche Intelligenz in der Medizin, Essen, Deutschland
  • Jörg Schlötterer - Universitätsklinikum Essen, Institut für Künstliche Intelligenz in der Medizin, Essen, Deutschland
  • Christin Seifert - Universitätsklinikum Essen, Institut für Künstliche Intelligenz in der Medizin, Essen, Deutschland
  • Felix Nensa - Universitätsklinikum Essen, Institut für Diagnostische und Interventionelle Radiologie und Neuroradiologie, Essen, Deutschland; Universitätsklinikum Essen, Zentrale Informationstechnik, Abteilung Datenintegration, Essen, Deutschland; Universitätsklinikum Essen, Institut für Künstliche Intelligenz in der Medizin, Essen, Deutschland

SMITH Science Day 2022. Aachen, 23.-23.11.2022. Düsseldorf: German Medical Science GMS Publishing House; 2023. DocP30

doi: 10.3205/22smith41, urn:nbn:de:0183-22smith419

Veröffentlicht: 31. Januar 2023

© 2023 Baldini et al.
Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung). Lizenz-Angaben siehe http://creativecommons.org/licenses/by/4.0/.


Gliederung

Text

Einleitung: Im Krankenhaus werden viele Informationen zu einem Patienten in Form von Freitext gespeichert. Diese sogenannten unstrukturierten Daten können aufgrund ihrer Struktur und Form nur schwer ausgewertet und analysiert werden [1]. Die Identifikation von persönlichen datenschutzrelevanten Informationen eines Patienten oder Arztes bildet dabei eine wichtige Voraussetzung, um Dokumente aus dem Klinikalltag für Forschungszwecke zur Verfügung zu stellen. Ohne die Identifikation und Entfernung sogenannter Protected Health Information (PHI) ist die Forschung auf Dokumenten eines Krankenhauses mit hohen rechtlichen Hürden verbunden [2]. Errungenschaften im Bereich Natural Language Processing (NLP) wie die Entwicklung von Transformer-basierten Sprachmodellen wie beispielsweise BERT [3] oder ClinicalBERT [4] ermöglichen die Klassifikation großer Datenmengen mithilfe von Neuronalen Netzen. Die effiziente und automatisierte De-Identifikation von PHI ist daher mit relativ wenig manuellem Aufwand möglich.

Methoden: Der Aufbau einer medizinischen Forschungsplattform erfordert für unstrukturierte Daten die Etablierung von automatisierten Prozessen zur Identifikation und Entfernung datenschutzrelevanter Daten. Am Universitätsklinikum Essen werden Behandlungsdaten aus den klinischen Primärsystemen für befugtes Personal mithilfe der sogenannten Smart Hospital Information Platform (SHIP) extrahiert. Elektronische Daten eines Patienten sind dort auf Abruf für Klinikpersonal verfügbar. Dies beinhaltet auch verschiedene klinische Dokumente, die im Rahmen der medizinischen Versorgung erstellt werden.

Durch die Anbindung dieser bestehenden Strukturen und die Weiterleitung der Daten an ein NLP-Modell ist das Ziel, einen prototypischen Prozess zur De-Identifikation von unstrukturierten medizinischen Daten zu etablieren (siehe Abbildung 1 [Abb. 1]). Die Analyse und Erkennung von sensiblen Patienteninformationen wird mithilfe von Named Entity Recognition und Transformer-basierten Modellen durchgeführt. Durch Nutzung eines bereits vortrainierten BERT-Modells und Training auf 6.756 Pathologie-Befunden und 898 Texte aus der Verlaufsdokumentation von Patienten soll ein individuell angepasstes Modell zur De-Identifikation entwickelt werden. Ein Goldstandard für diese Dokumente wurde mithilfe manueller Annotationen vom Annotation-Lab [5], eines im Institut für Künstliche Intelligenz in der Medizin Essen gegründeten Teams zur Annotation von medizinischen Daten, aufgebaut. Die Annotatoren wurden dabei instruiert, alle persönlichen Informationen im Text zu markieren und anhand eines PHI-Typs zu kennzeichnen.

Die Erkennung von PHI erfolgt zunächst auf Basis von PHI-Superklassen, die eine grobe Einordnung in eine bestimmte Kategorie ermöglichen. Folgende Superklassen sind definiert worden: Age, Contact, Date, ID, Location, Name, Profession. Anschließend wird ein weiteres Modell zur Einteilung in die spezifischen PHI-Klassen verwendet. Dabei wird die genaue Unterscheidung zwischen den PHI-Typen durchgeführt und beispielsweise entschieden, ob ein erkannter Name sich auf den Patienten oder das Behandlungspersonal bezieht.

Ergebnisse: Sowohl die Pathologie-Befunde als auch die Verlaufsdokumentation konnten erfolgreich de-identifiziert werden. Alle Dokumente konnten aus SHIP extrahiert und an das Modell zur Vorhersage von PHI gesendet werden.

Das aus zwei Modellen kombinierte Ergebnis für die Superklassen liegt durchschnittlich bei einem F1-Macro-Average von 0,783. Am besten erkannt wurden die Klassen Contact mit einem F1-Score von 0,997 und ID mit einem F1-Score von 0,992. Die Klasse Date hat einen F1-Score von 0,97, Name einen F1-Score von 0,968 und Location einen F1-Score von 0,841 erzielt. Am schlechtesten erkannt wurden die Klassen Age mit einem F1-Score von 0,689 und Profession mit einem F1-Score von 0,017.

Werden die Klassen bei der Evaluation ignoriert und nur überprüft, ob ein bestimmtes Wort als PHI erkannt wurde oder nicht, dann liegt das F1-Micro-Average sogar bei 0,95. Bei der De-Identifikation ist dieser Wert besonders wichtig, da Fehler bei der Einteilung in einen PHI-Typ nicht so kritisch sind wie Fehler bei der Erkennung einer datenschutzrelevanten Information.

Diskussion: Die Ergebnisse des kombinierten Modells sind in Bezug auf die erkannten PHI interessant. So könnte die gute Erkennung der Klassen Contact, ID, Name und Date mit der relativ starren Struktur dieser Wörter erklärt werden. Dagegen sind die Berufsbezeichnungen in den Dokumenten vielfältiger ausgeprägt und folgen keinem klaren Muster. Das könnte ein Grund für das schlechte Ergebnis für die Klasse Profession sein.

Auch kann aufgrund der geringen Auftrittshäufigkeit mancher PHI-Typen nicht gewährleistet werden, dass Wörter nicht auswendig gelernt worden sind. Obwohl bereits Daten aus zwei unterschiedlichen Dokumententypen zum Training und Test verwendet worden sind, kann hier die Validation gegen einen weiteren Dokumententyp Aufschluss über möglicherweise vorhandenes Overfitting geben. Auch die Generalisierbarkeit und Anwendung auf weiteren Dokumentenarten kann mithilfe eines weiteren Datensatzes überprüft werden.


Literatur

1.
Chomutare T. Clinical Notes De-Identification: Scoping recent benchmarks for n2c2 datasets. Stud Health Technol Inform. 2022 Jan 14;289:293-6. DOI: 10.3233/SHTI210917 Externer Link
2.
Kolditz T, Lohr C, Hellrich J, Modersohn L, Betz B, Kiehntopf M, Hahn U. Annotating german clinical documents for De-Identification. Stud Health Technol Inform. 2019 Aug 21;264:203-7. DOI: 10.3233/SHTI190212 Externer Link
3.
Devlin J, Chang MW, Lee K, Toutanova K. BERT: Pre-training of deep bidirectional transformers for language understanding. 2019. arXiv. DOI: 10.48550/arXiv.1810.04805 Externer Link
4.
Huang K, Altosaar J, Ranganath R. ClinicalBERT: Modeling clinical notes and predicting hospital readmission. 2020. arXiv. 2019. DOI: 10.48550/arXiv.1904.05342 Externer Link
5.
Institut für Künstliche Intelligenz in der Medizin Essen. Annotation Lab [Internet]. 2022. Verfügbar unter: https://annotationlab.ikim.nrw/ Externer Link