gms | German Medical Science

50. Tagung der Bayerischen Urologenvereinigung und der Österreichischen Gesellschaft für Urologie und Andrologie

02.05. - 04.05.2024, München

Künstliche Intelligenz auf dem Prüfstand. Einblicke in die Rolle von Large Language Models in der urologischen Bildung

Meeting Abstract

  • presenting/speaker Lisa Kollitsch - Klinik Donaustadt, Wien, Österreich
  • Klaus Eredics - Klinik Donaustadt, Wien, Österreich; Paracelsus Medizinischen Privatuniversität, Salzburg, Österreich
  • Martin Marszalek - Klinik Donaustadt, Wien, Österreich
  • Michael Rauchenwald - Klinik Donaustadt, Wien, Österreich; European Board of Urology, Arnhem, The Netherlands
  • Sabine Brookman‐May - Klinikum der Universität München, München, Deutschland; Johnson & Johnson Innovative Medicine, Spring House, USA
  • Maximilian Burger - Universitätsklinikum Regensburg, Regensburg, Deutschland
  • Katharina Körner‐Riffard - Universitätsklinikum Regensburg, Regensburg, Deutschland
  • Matthias May - Klinikum St. Elisabeth Straubing, Straubing, Deutschland

Bayerische Urologenvereinigung. Österreichische Gesellschaft für Urologie und Andrologie. 50. Tagung der Bayerischen Urologenvereinigung und der Österreichischen Gesellschaft für Urologie und Andrologie. München, 02.-04.05.2024. Düsseldorf: German Medical Science GMS Publishing House; 2024. Doc24urobay57

doi: 10.3205/24urobay57, urn:nbn:de:0183-24urobay573

Published: April 26, 2024

© 2024 Kollitsch et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License. See license information at http://creativecommons.org/licenses/by/4.0/.


Outline

Text

Ziel: Beurteilung der Präzision, Verlässlichkeit und Leistungsfähigkeit dreier auf Künstlicher Intelligenz (KI) basierender Large Language Models (LLMs) in der Beantwortung von Prüfungsfragen aus verschiedenen urologischen Teilgebieten.

Methoden: ChatGPT-3.5, ChatGPT-4 und Bing AI wurden in zwei Testphasen, mit jeweils mindestens 48 Stunden Abstand, mittels 100 Multiple-Choice-Fragen (MCQ) aus dem In-Service-Assessment (ISA) 2022 des European Board of Urology (EBU) geprüft. Im Falle von divergierenden Antworten wurde eine zusätzliche Konsensfindungsrunde eingeführt, um definitive Antworten zu bestimmen.

Der primäre Endpunkt umfasste die Anzahl an korrekt beantwortete Fragen (RoCA). Zudem wurde die Konsistenz der LLM-Antworten über zwei Testphasen analysiert sowie die Leistung der LLMs bei Fragen unterschiedlicher Komplexität beurteilt. Die Bestehensgrenze von 61% aus dem schriftlichen EBU-Examen des Jahres 2022 wurde als maßgebliche Benchmark herangezogen. Die 100 MCQs wurden anhand der Antwortmuster von 727 Prüflingen des ISA-2022, basierend auf ihrer Genauigkeitsverteilung in vier Komplexitätsquartile (Q1–Q4) kategorisiert. Der mediane RoCA-Score der Prüflinge betrug 72,1% (Interquartilbereich/IQR: 54,5–84,4). Eine vierte Testrunde, zehn Wochen nach der initialen Konsensphase, diente der Evaluierung eines möglichen Wissenszuwachses.

Die Antwortpräzision wurde mittels zweier Ansätze, "Formal Accuracy" (FA) und "Enhanced Accuracy" (EA), quantifiziert. FA identifizierte die als korrekt vorgegebene Prüfungsantwort. EA hingegen inkludierte Antworten, die, obwohl formal inkorrekt, akademisch als valide betrachtet wurden. Es erfolgte eine Untersuchung, ob die Kombination von FA und EA zu einer Erhöhung der Gesamtgenauigkeit führte. Zusätzlich wurde die Leistung aller LLMs in verschiedenen Themengebieten bewertet.

Ergebnisse: ChatGPT-3.5 erzielte RoCA-Werte von 58%, 62% und 59%, ChatGPT-4 von 63%, 77% und 77% und Bing AI von 81%, 73% und 77%. Es fand sich eine Variation in den Übereinstimmungsraten über die Testrunden, wobei ChatGPT-4 und Bing AI signifikant bessere Resultate als ChatGPT-3.5 verzeichneten. Alle LLMs demonstrierten eine inverse Korrelation zwischen RoCA-Werten und Fragekomplexität, wobei ein statistisch signifikanter Abfall der Leistung bei komplexeren Fragen festgestellt wurde (p < 0.001). In der vierten Testrunde wurde bei keinem der drei LLMs ein signifikanter Anstieg des Wissensstands beobachtet.

Die Einbeziehung der EA zur FA resultierte in keiner signifikanten Verbesserung der Gesamtleistung. Die LLMs zeigten variable Leistungen in verschiedenen urologischen Subbereichen.

Schlussfolgerungen: Die gegenwärtige Leistungsfähigkeit der LLMs deutet auf ein beträchtliches Potenzial bei der Unterstützung urologischer Bildung und des Wissenserwerbs hin. Die Ergebnisse offenbaren jedoch signifikante Leistungsunterschiede zwischen den verschiedenen Teilbereichen sowie eine mangelnde Zuverlässigkeit über mehrere Testrunden hinweg. Dies betont die Notwendigkeit weiterer Entwicklungen, einer medizinspezifischen Anpassung und einer kontinuierlichen Aktualisierung der Modelle, bevor diese zuverlässig in medizinische Bildungskonzepte integriert werden können.