GMS | 26. Jahrestagung des Netzwerks Evidenzbasierte Medizin e. V. | Automatische Beantwortung von Gesundheitsfragen durch generative KI mittels Retrieval Augmented Generation – Vergleich und Potentiale von Großen Sprachmodellen anhand des Beispiels Diabetes mellitus Typ 2

26. Jahrestagung des Netzwerks Evidenzbasierte Medizin e. V.

Netzwerk Evidenzbasierte Medizin e. V. (EbM-Netzwerk)

26. - 28.03.2025, Freiburg

Artikel

XML Version

Artikel empfehlen

Automatische Beantwortung von Gesundheitsfragen durch generative KI mittels Retrieval Augmented Generation – Vergleich und Potentiale von Großen Sprachmodellen anhand des Beispiels Diabetes mellitus Typ 2

Meeting Abstract

Suche in Medline nach

Stefan Lengauer - Technische Universität Graz, Institut für Computer Graphik und Wissensvisualisierung, Graz, Österreich
Fabian Proprentner - Technische Universität Graz, Institut für Computer Graphik und Wissensvisualisierung, Graz, Österreich
Mariia Tytarenko - Technische Universität Graz, Institut für Computer Graphik und Wissensvisualisierung, Graz, Österreich
Cornelia Krenn - Medizinische Universität Graz, Institut für Allgemeinmedizin und evidenzbasierte Versorgungsforschung, Graz, Österreich
Klaus Jeitler - Medizinische Universität Graz, Institut für Allgemeinmedizin und evidenzbasierte Versorgungsforschung, Graz, Österreich; Medizinische Universität Graz, Institut für Medizinische Informatik, Statistik und Dokumentation, Graz, Österreich
Tobias Schreck - Technische Universität Graz, Institut für Computer Graphik und Wissensvisualisierung, Graz, Österreich

Die EbM der Zukunft – packen wir’s an!. 26. Jahrestagung des Netzwerks Evidenzbasierte Medizin. Freiburg, 26.-28.03.2025. Düsseldorf: German Medical Science GMS Publishing House; 2025. Doc25ebmPS-01-04

doi: 10.3205/25ebm048, urn:nbn:de:0183-25ebm0483

Veröffentlicht:	27. März 2025

© 2025 Lengauer et al.
Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung). Lizenz-Angaben siehe http://creativecommons.org/licenses/by/4.0/.

Gliederung

Text

Hintergrund/Fragestellung: Die Fortschritte in der Entwicklung von KI-gestützten großen Sprachmodellen (LLMs) haben diese in vielen Bereichen zu leistungsfähigen Werkzeugen gemacht, die menschliche Entscheidungsträger zunehmend automatisiert unterstützen. LLMs wie GPT, GEMINI, LLAMA oder MISTRAL werden mit allgemeinen Textdaten trainiert und sind in der Lage, natürlichsprachliche Texte zu erzeugen, die oft kaum von Expert:innentexten zu unterscheiden sind. Im Bereich der Gesundheitsinformationssysteme können LLMs z.B. in Form von Chatbots eingesetzt werden, um auf spezifische Informationsbedürfnisse von User:innen individuell einzugehen. Dies stellt jedoch hohe Anforderungen an die Qualität der Antworten hinsichtlich Korrektheit, Relevanz und Angemessenheit.

Eine der größten Herausforderungen beim Einsatz von LLMs in Gesundheitsinformationssystemen ist der Umgang mit KI-Halluzinationen – plausibel erscheinende Informationen, die aber inhaltlich falsch sind. Um die Zuverlässigkeit der Antworten auf Gesundheitsfragen zu erhöhen, kann die Methode der Retrieval Augmented Generation (RAG) eingesetzt werden. Durch Kombination eines LLMs mit zuverlässigen externen Informationsquellen als Basis für die Antworten soll die Robustheit der generierten Antworten erhöht und das Auftreten von KI-Halluzinationen reduziert werden.

Methoden: In unserer Studie verglichen wir eine Auswahl mehrerer verbreiteter LLMs hinsichtlich ihrer Fähigkeit, Gesundheitsfragen zu Diabetes Typ 2 mithilfe der RAG-Methode zu beantworten. Als Informationsquelle diente eine etablierte Patienteninformationsbroschüre.

Wir definierten einen Benchmark mit häufig gestellten Gesundheitsfragen zu Diabetes Typ 2 und qualitätsgesicherten Referenzantworten. In quantitativen Experimenten bewerteten wir die generierten Antworten der LLMs mit etablierten Metriken zur Berechnung der Textähnlichkeit im Vergleich zur Referenz.

Ergebnisse: Wir erhielten eine Reihung der untersuchten Modelle hinsichtlich ihrer Fähigkeit, hochwertige expert:innen-ähnliche Antworten auf Gesundheitsfragen zu generieren. Während alle evaluierten LLMs grundlegende Kompetenzen für die Beantwortung der gestellten Fragen aufwiesen, zeigten sich teilweise gravierende Unterschiede je nach Fragetypus.

Schlussfolgerung: Große Sprachmodelle entwickeln sich schnell weiter. Unsere Studie biete eine aktuelle Momentaufnahme in einem spezifischen Bereich der Gesundheitsinformationen, und deutet auf ein vielversprechendes Potential hin. Die verwendete Vergleichsmethodik ist auf zukünftige Modelle übertragbar.

Interessenkonflikte: Die Autoren erklären, dass keine Interessenkonflikte bestehen.

Gliederung

Literatur

1.: Baumgart J, Viegener U. Den Diabetes im Griff: Ein Handbuch für Patientinnen und Patienten mit Diabetes mellitus Typ 2. Berlin: AOK-Bundesverband; 2019. ISBN: 978-3-940172-35-8
2.: Lewis P, et al. Retrieval-augmented generation for knowledge-intensive nlp tasks.” In: NIPS’20: Proceedings of the 34th International Conference on Neural Information Processing Systems; 2020 Dec 6-12; Vancouver, Canada. ACM; 2020. (Advances in Neural Information Processing Systems; 33). p. 9459-9474.
3.: Cascella M, Semeraro F, Montomoli J, Bellini V, Piazza O, Bignami E. The Breakthrough of Large Language Models Release for Medical Applications: 1-Year Timeline and Perspectives. J Med Syst. 2024 Feb 17;48(1):22. DOI: 10.1007/s10916-024-02045-3

gms | German Medical Science

26. Jahrestagung des Netzwerks Evidenzbasierte Medizin e. V.

Artikel

Automatische Beantwortung von Gesundheitsfragen durch generative KI mittels Retrieval Augmented Generation – Vergleich und Potentiale von Großen Sprachmodellen anhand des Beispiels Diabetes mellitus Typ 2

Suche in Medline nach

Autoren

Gliederung

Text

Literatur