Article
Die Leistungsfähigkeit einer KI im Medizinstudium: In welchem Semester wäre ChatGPT?
Search Medline for
Authors
Published: | September 11, 2023 |
---|
Outline
Text
Fragestellung/Zielsetzung: Als generative künstliche Intelligenz (KI) bietet ChatGPT einen einfachen Zugang zu einem breiten Spektrum von Wissen, einschließlich medizinischem Wissen. Das Lehren und Testen von medizinischem Wissen wiederum ist eine zentrale Aufgabe der medizinischen Fakultäten, da der Wissenserwerb eine grundlegende Determinante für die Leistung von Ärzten ist. Um das medizinische Wissensniveau der ChatGPT-Antworten zu bestimmen, verglichen wir die Leistung von ChatGPT mit der von Medizinstudierenden in einem Progress Test Medizin (PTM).
Methoden: Insgesamt wurden 200 Multiple-Choice-Fragen (MC-Fragen) aus dem Progress Test Wintersemester 2021/2022 in die Benutzeroberfläche von ChatGPT eingegeben, um den Prozentsatz der richtig beantworteten Fragen zu erhalten.
Die Ergebnisse von ChatGPT wurden hinsichtlich des Gesamtergebnisses mit denen der teilnehmenden Studierendenkohorten aus den jeweiligen Semestern verglichen.
Zudem wurde berechnet, ob es Zusammenhänge zwischen der Richtigkeit der ChatGPT-Antworten und dem Antwortverhalten in Bezug auf die Antwortzeit, die Wortanzahl und die Schwierigkeit einer Progress-Test-Frage gibt.
Ergebnisse: Es konnten 196 Antworten ausgewertet werden, und insgesamt waren 67,9% der von ChatGPT beantworteten Progress-Test-Fragen korrekt.
Im Durchschnitt benötigte ChatGPT 22,8± 17,5 Sekunden für eine vollständige Antwort, die 36,2±28,1 Wörter enthielt. Es gab keine Korrelation zwischen der Antwortzeit, Wortanzahl und der Schwierigkeit mit der Richtigkeit der ChatGPT-Antwort (Korrelationskoeffizient für Zeit rho=-0,13, 95% CI [-0,27, 0,01], t(194)=-1,82, p=0,070; für Wortanzahl rho=-0,04, 95% CI [-0,18, 0,10], t(194)=-0,53, p=0,599; für Schwierigkeitsindex rho=0,12, 95% CI [-0,02, 0,26], t(194)=1,69, p=0,092).
Diskussion/Take Home Message: ChatGPT war in der Lage, zwei Drittel aller MC-Fragen auf Staatsexamens-Niveau im Progress Test Medizin richtig zu beantworten und erwies sich als leistungsfähiger als fast alle Medizinstudierenden in den Semestern 1-6. Damit sind die Antworten von ChatGPT mit der Studierenden-Leistung ab dem siebten Semester des Medizinstudiums vergleichbar. Zusammenhänge zwischen dem Antwortverhalten von ChatGPT und der Richtigkeit der Antworten ließen sich für den einzelnen Progress Test nicht eruieren.
Lehrende in der Medizin müssen sich in Zukunft intensiv mit den Stärken und Schwächen generativer KI auseinandersetzen, um Studierende gut im Umgang mit dieser ausbilden zu können.