Artikel
Automatische Beantwortung von Gesundheitsfragen durch generative KI mittels Retrieval Augmented Generation – Vergleich und Potentiale von Großen Sprachmodellen anhand des Beispiels Diabetes mellitus Typ 2
Suche in Medline nach
Autoren
Veröffentlicht: | 27. März 2025 |
---|
Gliederung
Text
Hintergrund/Fragestellung: Die Fortschritte in der Entwicklung von KI-gestützten großen Sprachmodellen (LLMs) haben diese in vielen Bereichen zu leistungsfähigen Werkzeugen gemacht, die menschliche Entscheidungsträger zunehmend automatisiert unterstützen. LLMs wie GPT, GEMINI, LLAMA oder MISTRAL werden mit allgemeinen Textdaten trainiert und sind in der Lage, natürlichsprachliche Texte zu erzeugen, die oft kaum von Expert:innentexten zu unterscheiden sind. Im Bereich der Gesundheitsinformationssysteme können LLMs z.B. in Form von Chatbots eingesetzt werden, um auf spezifische Informationsbedürfnisse von User:innen individuell einzugehen. Dies stellt jedoch hohe Anforderungen an die Qualität der Antworten hinsichtlich Korrektheit, Relevanz und Angemessenheit.
Eine der größten Herausforderungen beim Einsatz von LLMs in Gesundheitsinformationssystemen ist der Umgang mit KI-Halluzinationen – plausibel erscheinende Informationen, die aber inhaltlich falsch sind. Um die Zuverlässigkeit der Antworten auf Gesundheitsfragen zu erhöhen, kann die Methode der Retrieval Augmented Generation (RAG) eingesetzt werden. Durch Kombination eines LLMs mit zuverlässigen externen Informationsquellen als Basis für die Antworten soll die Robustheit der generierten Antworten erhöht und das Auftreten von KI-Halluzinationen reduziert werden.
Methoden: In unserer Studie verglichen wir eine Auswahl mehrerer verbreiteter LLMs hinsichtlich ihrer Fähigkeit, Gesundheitsfragen zu Diabetes Typ 2 mithilfe der RAG-Methode zu beantworten. Als Informationsquelle diente eine etablierte Patienteninformationsbroschüre.
Wir definierten einen Benchmark mit häufig gestellten Gesundheitsfragen zu Diabetes Typ 2 und qualitätsgesicherten Referenzantworten. In quantitativen Experimenten bewerteten wir die generierten Antworten der LLMs mit etablierten Metriken zur Berechnung der Textähnlichkeit im Vergleich zur Referenz.
Ergebnisse: Wir erhielten eine Reihung der untersuchten Modelle hinsichtlich ihrer Fähigkeit, hochwertige expert:innen-ähnliche Antworten auf Gesundheitsfragen zu generieren. Während alle evaluierten LLMs grundlegende Kompetenzen für die Beantwortung der gestellten Fragen aufwiesen, zeigten sich teilweise gravierende Unterschiede je nach Fragetypus.
Schlussfolgerung: Große Sprachmodelle entwickeln sich schnell weiter. Unsere Studie biete eine aktuelle Momentaufnahme in einem spezifischen Bereich der Gesundheitsinformationen, und deutet auf ein vielversprechendes Potential hin. Die verwendete Vergleichsmethodik ist auf zukünftige Modelle übertragbar.
Interessenkonflikte: Die Autoren erklären, dass keine Interessenkonflikte bestehen.
Literatur
- 1.
- Baumgart J, Viegener U. Den Diabetes im Griff: Ein Handbuch für Patientinnen und Patienten mit Diabetes mellitus Typ 2. Berlin: AOK-Bundesverband; 2019. ISBN: 978-3-940172-35-8
- 2.
- Lewis P, et al. Retrieval-augmented generation for knowledge-intensive nlp tasks.” In: NIPS’20: Proceedings of the 34th International Conference on Neural Information Processing Systems; 2020 Dec 6-12; Vancouver, Canada. ACM; 2020. (Advances in Neural Information Processing Systems; 33). p. 9459-9474.
- 3.
- Cascella M, Semeraro F, Montomoli J, Bellini V, Piazza O, Bignami E. The Breakthrough of Large Language Models Release for Medical Applications: 1-Year Timeline and Perspectives. J Med Syst. 2024 Feb 17;48(1):22. DOI: 10.1007/s10916-024-02045-3