gms | German Medical Science

65. Jahrestagung der Südwestdeutschen Gesellschaft für Urologie e. V.

Südwestdeutsche Gesellschaft für Urologie e. V.

25. - 28.06.2025, Ludwigshafen

UroBot: KI-gestützter und mit Leitlinien trainierter Chatbot übertrifft Fachärzte in der FEBU Prüfung

Meeting Abstract

Search Medline for

  • Nicolas Carl - Universitätsmedizin Mannheim
  • F. Wessels - Universitätsmedizin Mannheim
  • M. Hetz - Deutsches Krebsforschungszentrum (DKFZ)
  • T. Brinker - Deutsches Krebsforschungszentrum (DKFZ)

Südwestdeutsche Gesellschaft für Urologie e.V.. 65. Jahrestagung der Südwestdeutschen Gesellschaft für Urologie e.V.. Ludwigshafen, 25.-28.06.2025. Düsseldorf: German Medical Science GMS Publishing House; 2025. DocV6.5

doi: 10.3205/25swdgu49, urn:nbn:de:0183-25swdgu497

Published: June 11, 2025

© 2025 Carl et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License. See license information at http://creativecommons.org/licenses/by/4.0/.


Outline

Text

Einleitung und Ziele: Große Sprachmodelle (LLMs) enthalten klinisches Wissen und können medizinische Fachfragen ohne zusätzliches Training („Zero-Shot“) beantworten. Allerdings ist diese Leistung durch veraltete Trainingsdaten und mangelnde Erklärbarkeit begrenzt, was ihre klinische Anwendbarkeit erschwert. Unser Ziel war die Entwicklung eines urologiespezifischen Chatbots („UroBot“) und dessen Evaluierung im Vergleich zu modernen Sprachmodellen sowie zur Leistungsfähigkeit von Urologen bei Facharztprüfungsfragen. Zudem soll Urobot seine Antworten in einer vollständig durch Ärzte überprüfbaren Weise angeben.

Methoden: Wir entwickelten UroBot, eine Software-Pipeline basierend auf den Modellen GPT-3.5, GPT-4 und GPT-4o von OpenAI. Das System nutzt Retrieval-Augmented Generation (RAG) und integriert die gesamten EAU-Leitlinien von 2024. UroBot wurde mit den Zero-Shot-Prompting von GPT-3.5, GPT-4, GPT-4o und Uro_Chat verglichen. Die Evaluation umfasste 10 Durchläufe mit 200 Fragen der European Board of Urology (FEBU) Prüfung, wobei die Leistung anhand der durchschnittlichen Rate korrekter Antworten (RoCA) gemessen wurde.

Ergebnisse: UroBot-4o erreichte die höchste RoCA mit 88,4%, was 10,8% besser ist als GPT-4o (77,6%).Es zeigte zudem die höchste Reproduzierbarkeit zwischen den Durchläufen, gemessen mit Fleiss’ Kappa (k = 0,979). Zum Vergleich: Die durchschnittliche Leistung von Fachärzten in der Urologieprüfung beträgt laut Literatur 68,7%.

Schlussfolgerung: UroBot ist eine fachärztlich überprüfbare und präzise Software-Pipeline, die sowohl veröffentlichte Modelle als auch Urologen bei der Beantwortung von Facharztprüfungsfragen übertrifft. Der Code sowie Anleitungen zur Nutzung und Weiterentwicklung von UroBot werden bereitgestellt.