gms | German Medical Science

Jahrestagung der Gesellschaft für Medizinische Ausbildung (GMA)

14.09. - 16.09.2023, Osnabrück

Die Leistungsfähigkeit einer KI im Medizinstudium: In welchem Semester wäre ChatGPT?

Meeting Abstract

  • presenting/speaker Hendrik Friederichs - Universität Bielefeld, AG Medical Education, Bielefeld, Deutschland
  • Wolf Jonas Friederichs - RWTH Aachen, Fakultät für Maschinenwesen, Aachen, Deutschland
  • Iván Roselló Atanet - Charité – Universitätsmedizin Berlin, AG Progress Test Medizin, Berlin, Deutschland
  • Maren März - Charité – Universitätsmedizin Berlin, AG Progress Test Medizin, Berlin, Deutschland

Jahrestagung der Gesellschaft für Medizinische Ausbildung (GMA). Osnabrück, 14.-16.09.2023. Düsseldorf: German Medical Science GMS Publishing House; 2023. DocV-02-06

doi: 10.3205/23gma012, urn:nbn:de:0183-23gma0128

Published: September 11, 2023

© 2023 Friederichs et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License. See license information at http://creativecommons.org/licenses/by/4.0/.


Outline

Text

Fragestellung/Zielsetzung: Als generative künstliche Intelligenz (KI) bietet ChatGPT einen einfachen Zugang zu einem breiten Spektrum von Wissen, einschließlich medizinischem Wissen. Das Lehren und Testen von medizinischem Wissen wiederum ist eine zentrale Aufgabe der medizinischen Fakultäten, da der Wissenserwerb eine grundlegende Determinante für die Leistung von Ärzten ist. Um das medizinische Wissensniveau der ChatGPT-Antworten zu bestimmen, verglichen wir die Leistung von ChatGPT mit der von Medizinstudierenden in einem Progress Test Medizin (PTM).

Methoden: Insgesamt wurden 200 Multiple-Choice-Fragen (MC-Fragen) aus dem Progress Test Wintersemester 2021/2022 in die Benutzeroberfläche von ChatGPT eingegeben, um den Prozentsatz der richtig beantworteten Fragen zu erhalten.

Die Ergebnisse von ChatGPT wurden hinsichtlich des Gesamtergebnisses mit denen der teilnehmenden Studierendenkohorten aus den jeweiligen Semestern verglichen.

Zudem wurde berechnet, ob es Zusammenhänge zwischen der Richtigkeit der ChatGPT-Antworten und dem Antwortverhalten in Bezug auf die Antwortzeit, die Wortanzahl und die Schwierigkeit einer Progress-Test-Frage gibt.

Ergebnisse: Es konnten 196 Antworten ausgewertet werden, und insgesamt waren 67,9% der von ChatGPT beantworteten Progress-Test-Fragen korrekt.

Im Durchschnitt benötigte ChatGPT 22,8± 17,5 Sekunden für eine vollständige Antwort, die 36,2±28,1 Wörter enthielt. Es gab keine Korrelation zwischen der Antwortzeit, Wortanzahl und der Schwierigkeit mit der Richtigkeit der ChatGPT-Antwort (Korrelationskoeffizient für Zeit rho=-0,13, 95% CI [-0,27, 0,01], t(194)=-1,82, p=0,070; für Wortanzahl rho=-0,04, 95% CI [-0,18, 0,10], t(194)=-0,53, p=0,599; für Schwierigkeitsindex rho=0,12, 95% CI [-0,02, 0,26], t(194)=1,69, p=0,092).

Diskussion/Take Home Message: ChatGPT war in der Lage, zwei Drittel aller MC-Fragen auf Staatsexamens-Niveau im Progress Test Medizin richtig zu beantworten und erwies sich als leistungsfähiger als fast alle Medizinstudierenden in den Semestern 1-6. Damit sind die Antworten von ChatGPT mit der Studierenden-Leistung ab dem siebten Semester des Medizinstudiums vergleichbar. Zusammenhänge zwischen dem Antwortverhalten von ChatGPT und der Richtigkeit der Antworten ließen sich für den einzelnen Progress Test nicht eruieren.

Lehrende in der Medizin müssen sich in Zukunft intensiv mit den Stärken und Schwächen generativer KI auseinandersetzen, um Studierende gut im Umgang mit dieser ausbilden zu können.