gms | German Medical Science

Gesundheit – gemeinsam. Kooperationstagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (GMDS), Deutschen Gesellschaft für Sozialmedizin und Prävention (DGSMP), Deutschen Gesellschaft für Epidemiologie (DGEpi), Deutschen Gesellschaft für Medizinische Soziologie (DGMS) und der Deutschen Gesellschaft für Public Health (DGPH)

08.09. - 13.09.2024, Dresden

Few-Shot-Prompting von Large Language Models zur Extraktion von Daten zu Tumordiagnosen aus urologischen Arztbriefen – eine Evaluation

Meeting Abstract

  • Stefan Lenz - Universitätsmedizin Mainz, Mainz, Germany
  • Arsenij Ustjanzew - Universitätsmedizin Mainz, Mainz, Germany
  • Marco Jeray - Universitätsmedizin Mainz, Mainz, Germany
  • Torsten Panholzer - Universitätsmedizin Mainz, Mainz, Germany

Gesundheit – gemeinsam. Kooperationstagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (GMDS), Deutschen Gesellschaft für Sozialmedizin und Prävention (DGSMP), Deutschen Gesellschaft für Epidemiologie (DGEpi), Deutschen Gesellschaft für Medizinische Soziologie (DGMS) und der Deutschen Gesellschaft für Public Health (DGPH). Dresden, 08.-13.09.2024. Düsseldorf: German Medical Science GMS Publishing House; 2024. DocAbstr. 650

doi: 10.3205/24gmds179, urn:nbn:de:0183-24gmds1797

Published: September 6, 2024

© 2024 Lenz et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License. See license information at http://creativecommons.org/licenses/by/4.0/.


Outline

Text

Einleitung: Bei der gesetzlich vorgeschriebenen Tumordokumentation müssen Tumordiagnosen anhand des ICD-10-Katalogs kodiert und mit dem Erstdiagnosedatum erfasst werden [1]. Dokumentationsfachkräfte extrahieren diese Angaben derzeit manuell aus der Behandlungsdokumentation. Large Language Models (LLMs) können dabei helfen, weil sie umfangreiches Wissen integriert haben und komplexe Zusammenhänge in Texten erfassen können.

LLMs wie ChatGPT für die medizinische Dokumentation zu benutzen wurde bis jetzt vor allem im englischsprachigen Raum untersucht [2]. Praxisrelevant für die personenbezogene klinische Dokumentation in Deutschland ist es jedoch, deutsche Texte und Modelle zu betrachten, die auch lokal innerhalb der Kliniksinfrastruktur datenschutzkonform eingesetzt werden können.

Ziel dieser Evaluation ist es, die Fähigkeiten aktueller, lokal installierbarer Open-Source LLMs für die Tumordokumentation quantitativ und qualitativ zu analysieren. Dabei liegt der Fokus auf der Extraktion von Daten zu Tumordiagnosen in Arztbriefen.

Methodik: Datengrundlage sind 153 Arztbriefe von mittlerweile verstorbenen Patienten aus der Urologie der Universitätsmedizin Mainz in Form von PDF-Dateien. Alle Dokumente wurden vor der Verwendung manuell auf personenbezogene Daten überprüft und anonymisiert.

Aus den Arztbriefen wurden die diagnoserelevanten Abschnitte extrahiert und anschließend manuell die Diagnose als ICD-10-Code sowie die dazugehörige Datumsangabe annotiert. Daraus resultieren 149 annotierte Textabschnitte. Von diesen haben 110 mindestens eine Tumordiagnose und 23 mehrere Diagnosen. Bei 82 existiert ein mindestens monats- oder jahresgenaues Diagnosedatum. Die Texte beschreiben Prostatakarzinome (n=99), Urothelkarzinome (n=16) sowie sechs weitere Arten von Tumordiagnosen (n=34).

Den LLMs werden die Diagnoseabschnitte zusammen mit Fragen zur Tumordiagnose als Benutzereingabe (Prompts) übergeben, um strukturierte Antworten zu erhalten. Anschließend werden die Antworten mit den annotierten Informationen verglichen. Um die Antwortqualität zu verbessern und die Effektivität unterschiedlicher Prompts zu evaluieren, werden dem LLM beim Few-Shot-Prompting mehrere Beispiele präsentiert, die verdeutlichen, wie die Antwort aussehen soll [3].

Ergebnisse: Verschiedene Sprachmodelle, insbesondere Llama 3 [4] und Mistral-7B [5], zeigen gute Ergebnisse. Mit diesen Modellen können Werte von über 90-95% für die Sensitivität und Spezifität bei der Erkennung von Tumordiagnosen erzielt werden.

Eine ausführliche Erläuterung des gefragten Konzepts (hier der Tumordiagnose) im Prompt führt zu genaueren Antworten. Auch die beim Few-Shot-Prompting verwendeten Beispiele sowie deren Formatierung haben einen Einfluss auf die Genauigkeit der Erkennung von Tumordiagnosen, deren ICD-Codes sowie der zugehörigen Datumsangaben.

Diskussion: Die Kodierung von Diagnosen in ICD-10-Codes ist für LLMs schwieriger als die alleinige Extraktion der Tumordiagnosen als Text. Jedoch konnten wir dabei deutlich bessere Ergebnisse erzielen als anderweitig in der Literatur beschrieben wurde [2]. Dies liegt vermutlich unter anderem daran, dass die Anzahl der Codes für Tumordiagnosen geringer ist und diese einfacher zu kodieren sind als allgemein abrechnungsrelevante Diagnosen.

Die Evaluation weist auf das Potential der aktuell verfügbaren LLMs zur Verwendung in der Tumordokumentation hin. Ein limitierender Faktor unserer Ergebnisse ist zunächst die ausschließliche Konzentration auf urologische Arztbriefe aus einem Haus. Dennoch lassen die Ergebnisse allgemeine Schlüsse auf die Fähigkeiten der LLMs zu, da die betrachteten Konzepte stellvertretend für ähnliche Fragestellungen sein können.

Schlussfolgerung: Unsere Arbeit beschreibt an einem konkreten Anwendungsfall die Nutzung von frei verfügbaren LLMs zur Tumordokumentation. Sie evaluiert, welche Modelle vielversprechend sind, um sie für den praktischen Einsatz weiterzuentwickeln, und zeigt auch Herausforderungen in diesem Bereich auf.

Die Autoren geben an, dass kein Interessenkonflikt besteht.

Die Autoren geben an, dass kein Ethikvotum erforderlich ist.


Literatur

1.
Holland J. Bekanntmachung - Aktualisierter einheitlicher onkologischer Basisdatensatz der Arbeitsgemeinschaft Deutscher Tumorzentren e. V. (ADT) und der Gesellschaft der epidemiologischen Krebsregister in Deutschland e. V. (GEKID). Bundesanzeiger. 2021 May 10;(BAnz AT 12.07.2021 B4).
2.
Soroush A, Glicksberg BS, Zimlichman E, Barash Y, Freeman R, Charney AW, et al. Large Language Models Are Poor Medical Coders — Benchmarking of Medical Code Querying. NEJM AI. 2024 Apr 25;1(5):AIdbp2300040.
3.
Agrawal M, Hegselmann S, Lang H, Kim Y, Sontag D. Large language models are few-shot clinical information extractors. In: Goldberg Y, Kozareva Z, Zhang Y, editors. Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing. Abu Dhabi, United Arab Emirates: Association for Computational Linguistics; 2022 [cited 2024 Feb 14]. p. 1998–2022. Available from: https://aclanthology.org/2022.emnlp-main.130 External link
4.
Meta AI. Introducing Meta Llama 3: The most capable openly available LLM to date. [cited 2024 Apr 25]. Available from: https://ai.meta.com/blog/meta-llama-3/ External link
5.
Jiang AQ, Sablayrolles A, Mensch A, Bamford C, Chaplot DS, Casas D de las, et al. Mistral 7B. arXiv. 2023. DOI: 10.48550/arXiv.2310.06825 External link