Article
UroBot: KI-gestützter und mit Leitlinien trainierter Chatbot übertrifft Fachärzte in der FEBU Prüfung
Search Medline for
Authors
Published: | June 11, 2025 |
---|
Outline
Text
Einleitung und Ziele: Große Sprachmodelle (LLMs) enthalten klinisches Wissen und können medizinische Fachfragen ohne zusätzliches Training („Zero-Shot“) beantworten. Allerdings ist diese Leistung durch veraltete Trainingsdaten und mangelnde Erklärbarkeit begrenzt, was ihre klinische Anwendbarkeit erschwert. Unser Ziel war die Entwicklung eines urologiespezifischen Chatbots („UroBot“) und dessen Evaluierung im Vergleich zu modernen Sprachmodellen sowie zur Leistungsfähigkeit von Urologen bei Facharztprüfungsfragen. Zudem soll Urobot seine Antworten in einer vollständig durch Ärzte überprüfbaren Weise angeben.
Methoden: Wir entwickelten UroBot, eine Software-Pipeline basierend auf den Modellen GPT-3.5, GPT-4 und GPT-4o von OpenAI. Das System nutzt Retrieval-Augmented Generation (RAG) und integriert die gesamten EAU-Leitlinien von 2024. UroBot wurde mit den Zero-Shot-Prompting von GPT-3.5, GPT-4, GPT-4o und Uro_Chat verglichen. Die Evaluation umfasste 10 Durchläufe mit 200 Fragen der European Board of Urology (FEBU) Prüfung, wobei die Leistung anhand der durchschnittlichen Rate korrekter Antworten (RoCA) gemessen wurde.
Ergebnisse: UroBot-4o erreichte die höchste RoCA mit 88,4%, was 10,8% besser ist als GPT-4o (77,6%).Es zeigte zudem die höchste Reproduzierbarkeit zwischen den Durchläufen, gemessen mit Fleiss’ Kappa (k = 0,979). Zum Vergleich: Die durchschnittliche Leistung von Fachärzten in der Urologieprüfung beträgt laut Literatur 68,7%.
Schlussfolgerung: UroBot ist eine fachärztlich überprüfbare und präzise Software-Pipeline, die sowohl veröffentlichte Modelle als auch Urologen bei der Beantwortung von Facharztprüfungsfragen übertrifft. Der Code sowie Anleitungen zur Nutzung und Weiterentwicklung von UroBot werden bereitgestellt.