gms | German Medical Science

Automatische Sprachverarbeitung (NLP) im SMITH-Konsortium ‒ Korpusannotation und Klassifikatoren für klinische Informationsextraktion

Meeting Abstract

  • Udo Hahn - Jena University Language & Information Engineering (JULIE) Lab, Friedrich-Schiller-Universität Jena; SMITH-Konsortium der Medizininformatik-Initiative
  • Christina Lohr - Jena University Language & Information Engineering (JULIE) Lab, Friedrich-Schiller-Universität Jena; SMITH-Konsortium der Medizininformatik-Initiative
  • Luise Modersohn - Jena University Language & Information Engineering (JULIE) Lab, Friedrich-Schiller-Universität Jena; SMITH-Konsortium der Medizininformatik-Initiative
  • Tobias Kolditz - Jena University Language & Information Engineering (JULIE) Lab, Friedrich-Schiller-Universität Jena; SMITH-Konsortium der Medizininformatik-Initiative
  • Jako Faller - Jena University Language & Information Engineering (JULIE) Lab, Friedrich-Schiller-Universität Jena; SMITH-Konsortium der Medizininformatik-Initiative
  • Stephanie Luther - Jena University Language & Information Engineering (JULIE) Lab, Friedrich-Schiller-Universität Jena; SMITH-Konsortium der Medizininformatik-Initiative
  • Franz Matthies - Jena University Language & Information Engineering (JULIE) Lab, Friedrich-Schiller-Universität Jena; SMITH-Konsortium der Medizininformatik-Initiative
  • Sven Büchel - Jena University Language & Information Engineering (JULIE) Lab, Friedrich-Schiller-Universität Jena; SMITH-Konsortium der Medizininformatik-Initiative
  • Johannes Hellrich - Jena University Language & Information Engineering (JULIE) Lab, Friedrich-Schiller-Universität Jena; SMITH-Konsortium der Medizininformatik-Initiative
  • Erik Fäßler - Jena University Language & Information Engineering (JULIE) Lab, Friedrich-Schiller-Universität Jena; SMITH-Konsortium der Medizininformatik-Initiative

SMITH Science Day 2022. Aachen, 23.-23.11.2022. Düsseldorf: German Medical Science GMS Publishing House; 2023. DocV3

doi: 10.3205/22smith03, urn:nbn:de:0183-22smith034

Veröffentlicht: 31. Januar 2023

© 2023 Hahn et al.
Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung). Lizenz-Angaben siehe http://creativecommons.org/licenses/by/4.0/.


Gliederung

Text

Einleitung und Zielstellung: Krankenhaus-Informationssysteme (KIS) halten patientenbezogene Informationen in tabellenartig strukturierter Form in Electronic Health Records (EHR) vor, die zielgenau abgefragt und nachfolgend weiter ausgewertet werden können. Neben diesen strukturierten Daten sind in einem KIS aber auch unstrukturierte Daten in großer Fülle verfügbar. Hierzu zählen etwa Bilddaten (aus der Radiologie), aber auch textuelle Daten (Arztbriefe, klinische Berichte und Notizen usw.). Solche unstrukturierten Daten sind derzeit maschinell schwer bzw. gar nicht interpretierbar und somit auch nicht zielgenau auswertbar. Im SMITH-Konsortium wurde der Versuch unternommen, mit Verfahren zur automatischen Informationsextraktion [1], einer auf Textanalytik basierenden Form der automatischen Sprachanalyse (natural language processing; NLP), diesen Mangel zu beheben und eine inhaltlich getreue Abbildung von unstrukturierter natürlicher Sprache in strukturierte Informationsschemata des KIS zu leisten. Der Anspruch ist hierbei, ergänzende Informationen für ärztliche Entscheidungen im Klinikalltag bereitzustellen, die nicht (ausreichend) im strukturierten Teil des KIS verfügbar sind, sondern hauptsächlich oder nur in unstrukturierten klinischen Berichten.

Die folgende Darstellung konzentriert sich auf die Arbeiten des Jena University Language & Information Engineering (JULIE) Lab an der Friedrich-Schiller-Universität Jena. Das SMITH-Konsortium sticht aus der Gruppe der übrigen geförderten MII-Konsortien durch eine besondere Betonung der Rolle der klinischen NLP im Kontext des Use Case Phenotyping (PheP) hervor – neben dem JULIE Lab sind die Beiträge von ID Berlin und Averbis Freiburg ebenfalls auf klinische NLP fokussiert.

Methoden: Die Arbeiten im JULIE Lab gliedern sich in zwei große Aufgabengebiete: Einerseits den Aufbau von Textkorpora, also textueller Datensätze, die durch medizinische Metadaten das inhaltlich korrekte Verständnis klinischer Berichte im Sinne eines Goldstandards beschreiben. Solche Metadaten sind für jedwede Form der Systemevaluation unverzichtbar und können zugleich als Trainingsmaterial für (semi-)überwachte maschinelle Lernverfahren (ML) aus der Künstlichen Intelligenz genutzt werden. Dieser zuletzt genannte Aspekt ist andererseits die Grundlage für das maschinelle Lernen von Klassifikationssystemen, also konkreter Software zur Informationsextraktion. Darüber hinaus sind (große) Korpora unverzichtbar für die automatische Generierung bzw. (Domänen-)Adaption von statistischen Sprachmodellen (Deep Learning) als Alternative zu überwachten Lernverfahren.

In SMITH wurden mehrere Ebenen von Metadaten auf vergleichbarem Textmaterial an unterschiedlichen klinischen Standorten (Jena, Aachen und Leipzig) erstellt (Korpusannotation) [2]:

1.
Formale Sprachstrukturdaten wie Satz- und Wortgrenzen,
2.
Formal-inhaltliche Makrostrukturen klinischer Berichte in Form von Sektionskategorien wie Familien- und Patientenanamnese oder Diagnosen in Aufnahme- und Entlassbriefen,
3.
Charakterisierung potenziell personenidentifizierender sprachlicher Ausdrücke (Patientennamen, Alters- und Adressangaben, digitale Identifikatoren (URLs, Telefonnummern) usw.,
4.
Klinische Entitäten, also semantische Typen wie Krankheiten, Medikationen, Symptome und Befunde, Diagnosen und Prozeduren,
5.
Semantische Relationen zwischen diesen Entitäten (etwa Medikament – rezeptiert-wegen – Krankheit, Krankheit – ist-lokalisiert-an – Körperteil),
6.
Temporale Bezüge zwischen Entitäten bzw. semantischen Relationen (etwa A vor B),
7.
Sicherheit bzw. Verlässlichkeit (Faktizität) extrahierter Aussagen: sicher – unsicher – negiert.

Ergebnisse: Diese sieben Annotationsebenen wurden mit unterschiedlichen Erfüllungsgraden an den drei Kernstandorten für das klinische Hauptkorpus (3.000PA bzw. ClinDoc) behandelt – während in Jena alle 7 Aufgaben bearbeitet wurden, geschah dies in Aachen und Leipzig nur für die Aufgabengebiete 4 und 5. Da für die lokalen Korpus-Daten an jedem Klinikstandort trotz aufwändiger Anonymisierung bzw. Pseudonymisierung [3] aus Datenschutzgründen keine Nutzungserlaubnis außerhalb des jeweiligen Hauses erreicht werden konnte, wurden – ergänzend zu den im Projektplan fixierten Aufgaben – drei öffentlich zugängliche Alternativkorpora aufgebaut und annotiert:

1.
JSynCC [4] – ein Korpus, das sich aus Beispieltexten von medizinischen Lehrbüchern (Operationsberichte, Fallstudien usw.) speist. Sofern für diese Texte lokale e-book-Lizenzen vorliegen, kann durch eine im JULIE Lab entwickelte Software die identische Rekonstruktion des Korpus mit seinen Metadaten vor Ort garantiert werden.
2.
GGPOnc [5] – ein Korpus deutschsprachiger Leitlinien zur Krebsbehandlung, die sich auf dem Portal der Deutschen Krebsgesellschaft finden.
3.
GraSSCo [6] – ein Korpus von ursprünglich authentischen klinischen Berichten, die durch um-fassende Paraphrasierung und fiktive Abwandlungen nicht mehr den zugrundeliegenden Fällen zugeordnet werden können.

Diese drei Korpora sind für die NLP-Community frei zugänglich. Zusammen mit 3.000PA/ClinDoc enthalten sie insgesamt ca. 1,8 Mio. Annotate, also von Domänenexperten (Medizinstudenten nach dem 1. Staatsexamen bzw. medizinischen Dokumentaren) manuell vergebene Metadaten-Instanzen. Auf der Basis dieser reich annotierten Korpora wurden Klassifikatoren für alle sieben oben erwähnten Arten von Metadaten entwickelt. Diese Systeme sind nun in der Lage, in klinischen Texten automatisch Wort- und Satzgrenzen zu erkennen, sie zu sektionieren sowie personenidentifizierende Merkmale, klinisch relevante Entitäten (wie etwa Medikationen, Befunde und Prozeduren) sowie inhaltliche und zeitliche Beziehungen zwischen diesen zu erkennen und deren Faktizität zu bestimmen.

Diskussion: Angefangen von Routinen zur Textausleitung aus dem lokalen KIS (sog. ETL-Strecken unter der Hoheit des DIZ) über die De-Identifikation bis hin zur tiefen semantischen Inhaltsanalytik klinischer Berichte sind großvolumige Korpora mit vielschichtigen Metadaten und Software-Werkzeuge zur voll-automatischen Textanalytik aufgebaut worden, die in ihrer Funktionsbreite und Analysetiefe einen neuen Meilenstein für die deutschsprachige klinische NLP definieren.


Literatur

1.
Hahn U, Oleynik M. Medical information extraction in the age of deep learning. Yearb Med Inform. 2020 Aug;29(1):208-220. DOI: 10.1055/s-0040-1702001 Externer Link
2.
Hahn U, Matthies F, Lohr C, Löffler M. 3.000PA-towards a national reference corpus of german clinical language. Stud Health Technol Inform. 2018;247:26-30.
3.
Lohr C, Eder E, Hahn U. Pseudonymization of PHI items in german clinical reports. Stud Health Technol Inform. 2021 May 27;281:273-7. DOI: 10.3233/SHTI210163 Externer Link
4.
Lohr C, Buechel S, Hahn U. Sharing copies of synthetic clinical corpora without physical distribution: A case study to get around IPRs and privacy constraints featuring the German JSynCC corpus [Internet]. In: Calzolari N, Choukri K, Cieri C, Declerck T, Goggi S, Hasida K, Isahara H, Maegaard B, Mariani J, Mazo H, Moreno A, Odijk J, Piperidis S, Tokunaga T, eds. LREC 2018 – Proceedings of the 11th Inter-national Conference on Language Resources and Evaluation; 2018 May 7-12; Miyazaki, Japan. Paris: European Language Resources Association (ELRA). p. 1259-66. Available from: https://aclanthology.org/L18-1201.pdf Externer Link
5.
Borchert F, Lohr C, Modersohn L, Witt J, Langer T, Follmann M, Gietzelt M, Arnrich B, Hahn U, Schapranow M-P. GGPOnc 2.0 — the german clinical guideline corpus for oncology: Curation workflow, annotation policy, baseline NER taggers [Internet]. LREC 2022 – Proceedings of the 13th International Conference on Language Resources and Evaluation; 2022, Jun 20-25; Marseille, France. p. 3650-60. Available from: http://www.lrec-conf.org/proceedings/lrec2022/pdf/2022.lrec-1.389.pdf Externer Link
6.
Modersohn L, Schulz S, Lohr C, Hahn U. GRASCCO - The first publicly shareable, multiply-alienated german clinical text corpus. Stud Health Technol Inform. 2022 Aug 17;296:66-72. DOI: 10.3233/SHTI220805 Externer Link