gms | German Medical Science

66. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V. (GMDS), 12. Jahreskongress der Technologie- und Methodenplattform für die vernetzte medizinische Forschung e. V. (TMF)

26. - 30.09.2021, online

Natural Language Processing unstrukturierter radioonkologischer Dokumente mithilfe von Machine Learning

Meeting Abstract

Search Medline for

  • Matthias Ulrich - Department of Radiation Oncology, Heidelberg University Hospital, Heidelberg, Germany; Heidelberg Institute of Radiation Oncology (HIRO), Heidelberg, Germany; Clinical Cooperation Unit Radiation Oncology, German Cancer Research Center (DKFZ), Heidelberg, Germany
  • Andreas Kudak - Department of Radiation Oncology, Heidelberg University Hospital, Heidelberg, Germany; Heidelberg Institute of Radiation Oncology (HIRO), Heidelberg, Germany; Clinical Cooperation Unit Radiation Oncology, German Cancer Research Center (DKFZ), Heidelberg, Germany
  • Jürgen Debus - Department of Radiation Oncology, Heidelberg University Hospital, Heidelberg, Germany; Heidelberg Institute of Radiation Oncology (HIRO), Heidelberg, Germany; National Center for Tumor diseases (NCT), Heidelberg, Germany; Clinical Cooperation Unit Radiation Oncology, German Cancer Research Center (DKFZ), Heidelberg, Germany; Heidelberg Ion-Beam Therapy Center (HIT), Department of Radiation Oncology, Heidelberg University Hospital, Heidelberg, Germany; German Cancer Consortium (DKTK), partner site Heidelberg, Heidelberg, Germany
  • Nina Bougatf - Department of Radiation Oncology, Heidelberg University Hospital, Heidelberg, Germany; Heidelberg Institute of Radiation Oncology (HIRO), Heidelberg, Germany; National Center for Tumor diseases (NCT), Heidelberg, Germany; Clinical Cooperation Unit Radiation Oncology, German Cancer Research Center (DKFZ), Heidelberg, Germany; Heidelberg Ion-Beam Therapy Center (HIT), Department of Radiation Oncology, Heidelberg University Hospital, Heidelberg, Germany; German Cancer Consortium (DKTK), partner site Heidelberg, Heidelberg, Germany

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie. 66. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V. (GMDS), 12. Jahreskongress der Technologie- und Methodenplattform für die vernetzte medizinische Forschung e.V. (TMF). sine loco [digital], 26.-30.09.2021. Düsseldorf: German Medical Science GMS Publishing House; 2021. DocAbstr. 97

doi: 10.3205/21gmds055, urn:nbn:de:0183-21gmds0556

Published: September 24, 2021

© 2021 Ulrich et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License. See license information at http://creativecommons.org/licenses/by/4.0/.


Outline

Text

Einleitung: In der Radioonkologie des Universitätsklinikums Heidelberg liegen verschiedenste unstrukturierte medizinische Dokumente im Krankenhausinformationssystem vor, die wertvolle Informationen für retrospektive Auswertungen enthalten. Um die Inhalte dieser unstrukturierten Dokumente für wissenschaftliche Auswertungen verfügbar zu machen, werden diese momentan manuell von medizinischen Dokumentationsfachkräften in strukturierte Formulare einer zentralen Forschungsdatenbank übertragen. Dieses Vorgehen soll zukünftig mithilfe von Natural Language Processing (NLP) Tools unterstützt werden, um die Auswertung durch Machine Learning zu ermöglichen.

Methodik: Die bereits in der Forschungsdatenbank in der CTCAE Terminologie [1] strukturiert dokumentierten Nebenwirkungen eines festgelegten Patientenkollektivs sollen als Goldstandard dienen, um ein neuronales Netz zu trainieren, das die häufigsten Nebenwirkungen aus Nachsorgebriefen klassifiziert. Dazu wurde eine Pipeline entworfen, die zuerst die unterschiedlichen Dokumententypen, wie z.B. Arztbriefe, Nachsorgebriefe, Verlaufsbögen und Entlassbriefe mit n-Gram Feature Representation nach Typ klassifiziert (n=700). Aus den daraus gewonnenen Nachsorgebriefen wurde anschließend das Untersuchungsdatum annotiert und damit ein Conditional Random Field (CRF) Algorithmus trainiert (n=100). Mithilfe dieses Datums konnte ein Matching der Nachsorgebriefe auf die Daten der Forschungsdatenbank und somit ein automatisiertes Labeln der Nachsorgebriefe durchgeführt werden. Abschließend wurden die Fließtexte zum Vergleich in zwei Vektorformen (GloVe und fastText) überführt und damit ein Convolutional Neuronal Network (CNN) zur Multi-Label Klassifikation trainiert (n=202). Durch Variieren des Entscheidungsschwellwerts des Klassifikators wurde das beste Ergebnis ermittelt.

Ergebnisse: Die Dokumentenklassifikation erzielte einen Wert von 0.97 bei Precision, Recall und F1 Score. Der CRF Algorithmus zur Extraktion des Untersuchungsdatums erreichte einen F1 Score von 0.82 bei 0.95 Precision und 0.72 Recall. Als Ausgabeklassen des CNN wurden die 5 häufigsten Nebenwirkungen festgelegt. Hierbei erzielte fastText die besten Ergebnisse mit einem F1 Score von 0.46 bei 0.38 Precision (Hamming-Loss = 0.30, Accuracy-Score = 0.18).

Diskussion: Die Klassifikation der Dokumente mittels n-Gram Repräsentation lieferten sehr gute Ergebnisse. Recall und Precision bei der Extraktion des Untersuchungsdatums mittels CRF Algorithmus waren zufriedenstellend, können jedoch durch Anpassung der Trainingsfeatures noch weiter verbessert werden. Die vektorbasierte Repräsentation der medizinspezifischen Token sollte aufgrund der unzureichenden Ergebnisse überdacht werden. Es ist davon auszugehen, dass das Training mit weiteren Dokumenten das Ergebnis verbessert.

Schlussfolgerung: Das automatische Setzen der Label anhand vordokumentierter Daten funktioniert gut und bietet die Möglichkeit auf einen großen Bestand strukturiert dokumentierter Daten zurückzugreifen und diese mit unstrukturierten Fließtexten zu verknüpfen. Die Klassifizierung der nicht annotierten Texte mit den verwendeten Word Embedding Repräsentationen und dem CNN liefert unzureichende Ergebnisse, hierfür gibt es allerdings noch viele Alternativen, die in Zukunft getestet werden sollen. Als Fazit kann festgehalten werden, dass NLP ein großes Potenzial bietet, die großen Mengen an unstrukturierten Daten, die in der klinischen Routine anfallen, effizient zu verarbeiten.

Die Autoren geben an, dass kein Interessenkonflikt besteht.

Die Autoren geben an, dass kein Ethikvotum erforderlich ist.


Literatur

1.
CTEP Protocol Development. Common Terminology Criteria for Adverse Events (CTCAE). Verfügbar unter https://ctep.cancer.gov/protocolDevelopment/electronic_applications/ctc.htm External link