gms | German Medical Science

26. Jahrestagung des Netzwerks Evidenzbasierte Medizin e. V.

Netzwerk Evidenzbasierte Medizin e. V. (EbM-Netzwerk)

26. - 28.03.2025, Freiburg

Automatische Beantwortung von Gesundheitsfragen durch generative KI mittels Retrieval Augmented Generation – Vergleich und Potentiale von Großen Sprachmodellen anhand des Beispiels Diabetes mellitus Typ 2

Meeting Abstract

  • author Stefan Lengauer - Technische Universität Graz, Institut für Computer Graphik und Wissensvisualisierung, Graz, Österreich
  • author Fabian Proprentner - Technische Universität Graz, Institut für Computer Graphik und Wissensvisualisierung, Graz, Österreich
  • author Mariia Tytarenko - Technische Universität Graz, Institut für Computer Graphik und Wissensvisualisierung, Graz, Österreich
  • author Cornelia Krenn - Medizinische Universität Graz, Institut für Allgemeinmedizin und evidenzbasierte Versorgungsforschung, Graz, Österreich
  • author Klaus Jeitler - Medizinische Universität Graz, Institut für Allgemeinmedizin und evidenzbasierte Versorgungsforschung, Graz, Österreich; Medizinische Universität Graz, Institut für Medizinische Informatik, Statistik und Dokumentation, Graz, Österreich
  • author Tobias Schreck - Technische Universität Graz, Institut für Computer Graphik und Wissensvisualisierung, Graz, Österreich

Die EbM der Zukunft – packen wir’s an!. 26. Jahrestagung des Netzwerks Evidenzbasierte Medizin. Freiburg, 26.-28.03.2025. Düsseldorf: German Medical Science GMS Publishing House; 2025. Doc25ebmPS-01-04

doi: 10.3205/25ebm048, urn:nbn:de:0183-25ebm0483

Published: March 27, 2025

© 2025 Lengauer et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License. See license information at http://creativecommons.org/licenses/by/4.0/.


Outline

Text

Hintergrund/Fragestellung: Die Fortschritte in der Entwicklung von KI-gestützten großen Sprachmodellen (LLMs) haben diese in vielen Bereichen zu leistungsfähigen Werkzeugen gemacht, die menschliche Entscheidungsträger zunehmend automatisiert unterstützen. LLMs wie GPT, GEMINI, LLAMA oder MISTRAL werden mit allgemeinen Textdaten trainiert und sind in der Lage, natürlichsprachliche Texte zu erzeugen, die oft kaum von Expert:innentexten zu unterscheiden sind. Im Bereich der Gesundheitsinformationssysteme können LLMs z.B. in Form von Chatbots eingesetzt werden, um auf spezifische Informationsbedürfnisse von User:innen individuell einzugehen. Dies stellt jedoch hohe Anforderungen an die Qualität der Antworten hinsichtlich Korrektheit, Relevanz und Angemessenheit.

Eine der größten Herausforderungen beim Einsatz von LLMs in Gesundheitsinformationssystemen ist der Umgang mit KI-Halluzinationen – plausibel erscheinende Informationen, die aber inhaltlich falsch sind. Um die Zuverlässigkeit der Antworten auf Gesundheitsfragen zu erhöhen, kann die Methode der Retrieval Augmented Generation (RAG) eingesetzt werden. Durch Kombination eines LLMs mit zuverlässigen externen Informationsquellen als Basis für die Antworten soll die Robustheit der generierten Antworten erhöht und das Auftreten von KI-Halluzinationen reduziert werden.

Methoden: In unserer Studie verglichen wir eine Auswahl mehrerer verbreiteter LLMs hinsichtlich ihrer Fähigkeit, Gesundheitsfragen zu Diabetes Typ 2 mithilfe der RAG-Methode zu beantworten. Als Informationsquelle diente eine etablierte Patienteninformationsbroschüre.

Wir definierten einen Benchmark mit häufig gestellten Gesundheitsfragen zu Diabetes Typ 2 und qualitätsgesicherten Referenzantworten. In quantitativen Experimenten bewerteten wir die generierten Antworten der LLMs mit etablierten Metriken zur Berechnung der Textähnlichkeit im Vergleich zur Referenz.

Ergebnisse: Wir erhielten eine Reihung der untersuchten Modelle hinsichtlich ihrer Fähigkeit, hochwertige expert:innen-ähnliche Antworten auf Gesundheitsfragen zu generieren. Während alle evaluierten LLMs grundlegende Kompetenzen für die Beantwortung der gestellten Fragen aufwiesen, zeigten sich teilweise gravierende Unterschiede je nach Fragetypus.

Schlussfolgerung: Große Sprachmodelle entwickeln sich schnell weiter. Unsere Studie biete eine aktuelle Momentaufnahme in einem spezifischen Bereich der Gesundheitsinformationen, und deutet auf ein vielversprechendes Potential hin. Die verwendete Vergleichsmethodik ist auf zukünftige Modelle übertragbar.

Interessenkonflikte: Die Autoren erklären, dass keine Interessenkonflikte bestehen.


Literatur

1.
Baumgart J, Viegener U. Den Diabetes im Griff: Ein Handbuch für Patientinnen und Patienten mit Diabetes mellitus Typ 2. Berlin: AOK-Bundesverband; 2019. ISBN: 978-3-940172-35-8
2.
Lewis P, et al. Retrieval-augmented generation for knowledge-intensive nlp tasks.” In: NIPS’20: Proceedings of the 34th International Conference on Neural Information Processing Systems; 2020 Dec 6-12; Vancouver, Canada. ACM; 2020. (Advances in Neural Information Processing Systems; 33). p. 9459-9474.
3.
Cascella M, Semeraro F, Montomoli J, Bellini V, Piazza O, Bignami E. The Breakthrough of Large Language Models Release for Medical Applications: 1-Year Timeline and Perspectives. J Med Syst. 2024 Feb 17;48(1):22. DOI: 10.1007/s10916-024-02045-3 External link