Article
Wie kompetent ist ChatGPT? Performance einer KI bzgl. des Kompetenzniveaus im Progress Test Medizin
Search Medline for
Authors
Published: | September 11, 2023 |
---|
Outline
Text
Fragestellung/Zielsetzung: ChatGPT ist ein Sprachmodell (Large Language Model, LLM), das überzeugende Sätze erzeugt, indem es die statistischen Sprachmuster aus einer riesigen Datenbank mit Internettexten nachahmt. Es besticht durch ein sehr einfaches User-Interface analog einer Suchmaschine und antwortet auf Suchanfragen bzw. -eingaben in meist eindeutigen und vollständigen Sätzen. So ist es nur eine Frage der Zeit, dass Patient*innen diese Künstliche Intelligenz (KI) für Gesundheitsfragen nutzen werden.
Auch Studierende werden das Sprachmodell für schnelle und kurzfristige medizinische Fragen nutzen. Wir konnten in einer Studie feststellen, dass die KI zwei Drittel aller gestellten Fragen aus dem Progress Test der Charité [1] korrekt beantwortet. Die Qualität der Antworten ist bisher allerdings noch nicht quantifiziert worden.
Um Stärken und Schwächen der KI näher einordnen zu können, wurde für die hier dargestellte Studie untersucht, auf welchem Kompetenzniveau die KI agiert.
Methoden: Im Nationalen Kompetenzbasierten Lernzielkatalog Medizin (NKLM) wird zwischen Wissen und Handlungskompetenz unterschieden, dabei entspricht die Kompetenztiefe 1 (Faktenwissen: Deskriptives Wissen (Fakten, Tatsachen) nennen und beschreiben) dem Kompetenzniveau „Erinnern“, die Kompetenztiefe 2 (Handlungs- und Begründungswissen: Sachverhalte und Zusammenhänge erklären, in den klinisch-wissenschaftlichen Kontext einordnen und datenbasiert bewerten) dem Kompetenzniveau „Anwenden“ im Progress Test Medizin.
Des Weiteren wird jede Frage des Progress Tests einer der folgenden neun Domänen zugeordnet:
- Diagnosestellung
- Diagnostik
- Ethik, Geschichte, Recht
- Gesundheitsförderung, Prävention
- Medizinisch-Wissenschaftliche Fertigkeiten
- Notfallerkennung, Notfallmaßnahmen
- Pathogenese, Pathomechanismen
- Struktur und Funktion
- Therapie
Insgesamt wurden 400 Multiple-Choice-Fragen (MCQs) aus den Progress Tests des Wintersemesters 2021/2022 und Sommersemesters 2022 in die Benutzeroberfläche von ChatGPT (GPT-3.5, Version ab 09. Januar 2023) eingegeben, um den Prozentsatz der richtig beantworteten Fragen zu erhalten.
Ergebnisse: Es konnten 395 Antworten ausgewertet werden, und insgesamt waren 65,5% der von ChatGPT beantworteten Progress-Test-Fragen korrekt.
Während es bei den Studierenden keine Unterschiede gibt, kann ChatGPT Fragen des Kompetenzniveaus „Erinnern“ besser beantworten als die des Kompetenzniveaus „Anwenden“. (Mittelwert Erinnern=72,1%, Mittelwert Anwenden=61,6%, Differenz=11,5%, 95% CI [1%, 20%], t(388,51)=2.2216, p=0,02689; Cohen’s d=0,23). Die Auswirkungen dieses Unterschieds auf die verschiedenen Domänen zeigt Abbildung 1 [Abb. 1].
Diskussion/Take Home Messages: Erwartungsgemäß zeigt die KI einen leichten Leistungsabfall bei zunehmendem Kompetenzniveau.
Die Werte liegen aber auf einem hohen Niveau und lassen das Potenzial der KI erahnen. Es ist dringend geboten, sich bezüglich der Konsequenzen in der medizinischen Aus- und Weiterbildung Gedanken zu machen.