gms | German Medical Science

69. Kongress der Nordrhein-Westfälischen Gesellschaft für Urologie

Nordrhein-Westfälische Gesellschaft für Urologie e. V.

11.04. - 12.04.2024, Essen

Künstliche Intelligenz in der Urologie – Chancen und Risiken von Large Language Models

Meeting Abstract

  • presenting/speaker Johanna Eckrich - Universitätsklinikum Bonn, Klinik und Poliklinik für Urologie und Kinderurologie, Bonn, Deutschland
  • Jörg Ellinger - Universitätsklinikum Bonn, Klinik und Poliklinik für Urologie und Kinderurologie, Bonn, Deutschland
  • Alexander Cox - Universitätsklinikum Bonn, Klinik und Poliklinik für Urologie und Kinderurologie, Bonn, Deutschland
  • Johannes Stein - Universitätsklinikum Bonn, Klinik und Poliklinik für Urologie und Kinderurologie, Bonn, Deutschland
  • Manuel Ritter - Universitätsklinikum Bonn, Klinik und Poliklinik für Urologie und Kinderurologie, Bonn, Deutschland
  • A. Blaikie - University of St Andrews, School of Medicine, St Andrews, UK
  • S. Kuhn - Philipps-Universität Marburg and Universitätsklinikum Gießen und Marburg, Institut für Digitale Medizin, Marburg, Deutschland
  • C. R. Buhr - Universitätsmedizin der Johannes Gutenberg-Universität Mainz, Hals-, Nasen-, Ohren-Klinik und Poliklinik, Mainz, Deutschland

Nordrhein-Westfälische Gesellschaft für Urologie. 69. Kongress der Nordrhein-Westfälischen Gesellschaft für Urologie. Essen, 11.-12.04.2024. Düsseldorf: German Medical Science GMS Publishing House; 2024. DocP 1.11

doi: 10.3205/24nrwgu41, urn:nbn:de:0183-24nrwgu411

Published: March 26, 2024

© 2024 Eckrich et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License. See license information at http://creativecommons.org/licenses/by/4.0/.


Outline

Text

Einleitung: Rapide Entwicklungen im Bereich künstlicher Intelligenz (KI) und spezifisch von Large Language Models (LLMs) führen zu zunehmender Einbindung dieser Technologie in Teilbereiche des Alltags. Dieses umfasst auch, dass medizinische Fragestellungen an LLMs gerichtet werden ohne dass deren Potential und Limitationen hinreichend bekannt sind.

Ziel dieser Untersuchung war das Potential dreier LLMs für Beantwortung fallbasierter, urologischer Fragen zu evaluieren. Die Qualität der Antworten wurde mit korrespondierenden Antworten urologischer Fachärzte verglichen.

Methode: 45 fallbasierte Fragen wurden durch vier urologische Fachärzte und drei verbreitete LLMs (ChatGPT 3.5, ChatGPT 4 & Bard) unabhängig beantwortet. Alle generierten Antworten wurden im Anschluss durch Fachärzte verblindet in den Kategorien medizinische Qualität, Prägnanz, Kohärenz und Verständlichkeit mittels einer 6-stufigen Likert-Skala bewertet. Zudem wurde eine potentielle Gefährdung durch die gegebene Antwort eingeschätzt.

Ergebnisse: In verblindeter Evaluation wurden Antworten der Urologen im Vergleich zu den LLMs in jeder Kategorie signifikant besser bewertet. Obwohl die Ergebnisse der einzelnen LLMs unterschiedlich ausfielen, waren die Gesamtergebnisse in den semantischen Kategorien wie Kohärenz und Verständlichkeit hoch. Insbesondere in der Bewertung der medizinischen Qualität der Antworten wurden LLMs niedriger bewertet. Eine potentielle Gefährdung durch die gegebene Antwort wurde in 2,8% bis 18,9% der Antworten der LLMs identifiziert. Diese lag bei den Fachärzten <1%. 98% der Antworten wurden in einem modifizierten Turing Test der korrekten Entität zugeordnet. ChatGPT 4 flächendeckend am besten ab, während Bard die niedrigsten Werte erzielte. Auffällig war die signifikant erhöhte Zeichenzahl bei den von LLMs gegebenen Antworten.

Schlussfolgerung: Die „Konsultation“ von LLMs als alleinige Quelle medizinischer Fachinformation birgt relevante Risiken für Fehlinformation und ein Potential für Gefährdung. Die hohe semantische Qualität der Antworten könnte bei Anwendern zu einer Fehleinschätzung hinsichtlich Fachkompetenz beitragen. Jedoch haben LLMs das Potential beispielsweise als augmentative Entität medizinische Behandlung zu ökonomisieren.