Artikel
Künstliche Intelligenz und ihre Fähigkeit urologische Detailfragen auf Facharztstandard zu beantworten. Kann ChatGPT FEBU?
Suche in Medline nach
Autoren
Veröffentlicht: | 13. Mai 2024 |
---|
Gliederung
Text
Einleitung: In der Ära der Künstlichen Intelligenz, gewinnen Sprachmodelle wie ChatGPT zunehmend auch im medizinischen Bereich an Bedeutung. Unsere Studie analysiert die Fähigkeit von Sprachmodellen am Beispiel ChatGPT urologische Detail-Fragen auf aktuellem Facharztniveau zu beantworten.
Material/Methoden: Das European Board of Urology (EBU) veröffentlicht alle zwei Jahre ca. 200 Testprüfungen, die dem originalen Fragenpool des Fellow of the EBU-Examens gleichen. Wir haben diese Multiple-Choice-Fragen ChatGPT Version 3.5 für die Testprüfungen der Jahre 2017–2018, 2019–2020 und 2021–2022 gestellt. Die Datenanalyse erfolgte mittels Chi²-Test.
Ergebnisse: In unserer Analyse wurden die Examina von 2017/2018 und 2019/2020 zusammengefasst und mit den Ergebnissen von 2021/2022 verglichen, da ChatGPT mit Daten bis 2021 trainiert wurde. Der Prozentsatz an korrekten Antworten betrug für die jeweiligen Examen 64,4% und 56,0% (p=0,138). Innerhalb der früheren Examina schnitt Chat-GPT deutlich besser in den Fragenkategorien Trauma (81,1%), Infektion/Lithiasis (74%) und Kinderurologie (73,7%) ab, während in den Kategorien Urochirugie (58,3%) und Transplantation/Nephrologie (46,2%) eher schlechtere Leistungen gezeigt wurden. Im aktuellen Examen, in welchem ChatGPT nur 56% erreichte, waren geringere Prozentzahlen an richtigen Antworten im Vergleich zu den früheren Examina in nahezu jeder Kategorie zu verzeichnen, der größte Unterschied lag im Bereich Trauma (-31,8%), wohingegen in Bezug auf Varia (+15,7%) und Urochirurgie (+1,6%) eine leichte Verbesserung zu sehen war. Diese Unterschiede waren statistisch nicht signifikant.
Schlussfolgerung: Diese Studie zeigt, dass ChatGPT generell über die Fähigkeit verfügt urologische Detailfragen zu beantworten und EBU-Examen zu bestehen. Trotz der hohen Kompetenz von ChatGPT in den früheren Testzyklen war ein Rückgang der Leistung im Examen 2021–2022 zu verzeichnen. Dies könnte auf die Begrenzung der Trainingsdaten von ChatGPT zurückzuführen sein, die 2021 endeten und somit das Verständnis für nachfolgende Fortschritte in der Urologie einschränkten.
Der Kern unserer Analyse liegt in der Erkenntnis der Notwendigkeit die Antworten durch Künstliche Intelligenzen wie ChatGPT kritisch zu validieren. Diese Studie unterstreicht die Bedeutung der kontinuierlichen Aktualisierung und Verbesserung von KI-Systemen und die Bedeutung des kritischen Hinterfragens durch medizinische Fachkräfte.