GMS | 64. Jahrestagung der Südwestdeutschen Gesellschaft für Urologie e. V. | Künstliche Intelligenz und ihre Fähigkeit urologische Detailfragen auf Facharztstandard zu beantworten. Kann ChatGPT FEBU?

64. Jahrestagung der Südwestdeutschen Gesellschaft für Urologie e. V.

Südwestdeutsche Gesellschaft für Urologie e. V.

19.-22.06.2024, Freiburg

Artikel

XML Version

Artikel empfehlen

Künstliche Intelligenz und ihre Fähigkeit urologische Detailfragen auf Facharztstandard zu beantworten. Kann ChatGPT FEBU?

Meeting Abstract

Suche in Medline nach

Justine Schoch - Bundeswehrzentralkrankenhaus Koblenz
H. Schmelz - Bundeswehrzentralkrankenhaus Koblenz
H. Borgmann - Universitätsklinikum Brandenburg an der Havel
T. Nestler - Bundeswehrzentralkrankenhaus Koblenz

Südwestdeutsche Gesellschaft für Urologie e.V.. 64. Jahrestagung der Südwestdeutschen Gesellschaft für Urologie e.V.. Freiburg, 19.-22.06.2024. Düsseldorf: German Medical Science GMS Publishing House; 2024. DocV8.3

doi: 10.3205/24swdgu73, urn:nbn:de:0183-24swdgu734

Veröffentlicht:	13. Mai 2024

© 2024 Schoch et al.
Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung). Lizenz-Angaben siehe http://creativecommons.org/licenses/by/4.0/.

Gliederung

Top
Text

Text

Einleitung: In der Ära der Künstlichen Intelligenz, gewinnen Sprachmodelle wie ChatGPT zunehmend auch im medizinischen Bereich an Bedeutung. Unsere Studie analysiert die Fähigkeit von Sprachmodellen am Beispiel ChatGPT urologische Detail-Fragen auf aktuellem Facharztniveau zu beantworten.

Material/Methoden: Das European Board of Urology (EBU) veröffentlicht alle zwei Jahre ca. 200 Testprüfungen, die dem originalen Fragenpool des Fellow of the EBU-Examens gleichen. Wir haben diese Multiple-Choice-Fragen ChatGPT Version 3.5 für die Testprüfungen der Jahre 2017–2018, 2019–2020 und 2021–2022 gestellt. Die Datenanalyse erfolgte mittels Chi²-Test.

Ergebnisse: In unserer Analyse wurden die Examina von 2017/2018 und 2019/2020 zusammengefasst und mit den Ergebnissen von 2021/2022 verglichen, da ChatGPT mit Daten bis 2021 trainiert wurde. Der Prozentsatz an korrekten Antworten betrug für die jeweiligen Examen 64,4% und 56,0% (p=0,138). Innerhalb der früheren Examina schnitt Chat-GPT deutlich besser in den Fragenkategorien Trauma (81,1%), Infektion/Lithiasis (74%) und Kinderurologie (73,7%) ab, während in den Kategorien Urochirugie (58,3%) und Transplantation/Nephrologie (46,2%) eher schlechtere Leistungen gezeigt wurden. Im aktuellen Examen, in welchem ChatGPT nur 56% erreichte, waren geringere Prozentzahlen an richtigen Antworten im Vergleich zu den früheren Examina in nahezu jeder Kategorie zu verzeichnen, der größte Unterschied lag im Bereich Trauma (-31,8%), wohingegen in Bezug auf Varia (+15,7%) und Urochirurgie (+1,6%) eine leichte Verbesserung zu sehen war. Diese Unterschiede waren statistisch nicht signifikant.

Schlussfolgerung: Diese Studie zeigt, dass ChatGPT generell über die Fähigkeit verfügt urologische Detailfragen zu beantworten und EBU-Examen zu bestehen. Trotz der hohen Kompetenz von ChatGPT in den früheren Testzyklen war ein Rückgang der Leistung im Examen 2021–2022 zu verzeichnen. Dies könnte auf die Begrenzung der Trainingsdaten von ChatGPT zurückzuführen sein, die 2021 endeten und somit das Verständnis für nachfolgende Fortschritte in der Urologie einschränkten.

Der Kern unserer Analyse liegt in der Erkenntnis der Notwendigkeit die Antworten durch Künstliche Intelligenzen wie ChatGPT kritisch zu validieren. Diese Studie unterstreicht die Bedeutung der kontinuierlichen Aktualisierung und Verbesserung von KI-Systemen und die Bedeutung des kritischen Hinterfragens durch medizinische Fachkräfte.

gms | German Medical Science