gms | German Medical Science

Jahrestagung der Gesellschaft für Medizinische Ausbildung (GMA)

14.09. - 16.09.2023, Osnabrück

Wie kompetent ist ChatGPT? Performance einer KI bzgl. des Kompetenzniveaus im Progress Test Medizin

Meeting Abstract

  • presenting/speaker Hendrik Friederichs - Universität Bielefeld, AG Medical Education, Bielefeld, Deutschland
  • Wolf Jonas Friederichs - RWTH Aachen, Fakultät für Maschinenwesen, Aachen, Deutschland
  • Maren März - Charité – Universitätsmedizin Berlin, AG Progress Test Medizin, Berlin, Deutschland

Jahrestagung der Gesellschaft für Medizinische Ausbildung (GMA). Osnabrück, 14.-16.09.2023. Düsseldorf: German Medical Science GMS Publishing House; 2023. DocV-02-01

doi: 10.3205/23gma007, urn:nbn:de:0183-23gma0070

Published: September 11, 2023

© 2023 Friederichs et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License. See license information at http://creativecommons.org/licenses/by/4.0/.


Outline

Text

Fragestellung/Zielsetzung: ChatGPT ist ein Sprachmodell (Large Language Model, LLM), das überzeugende Sätze erzeugt, indem es die statistischen Sprachmuster aus einer riesigen Datenbank mit Internettexten nachahmt. Es besticht durch ein sehr einfaches User-Interface analog einer Suchmaschine und antwortet auf Suchanfragen bzw. -eingaben in meist eindeutigen und vollständigen Sätzen. So ist es nur eine Frage der Zeit, dass Patient*innen diese Künstliche Intelligenz (KI) für Gesundheitsfragen nutzen werden.

Auch Studierende werden das Sprachmodell für schnelle und kurzfristige medizinische Fragen nutzen. Wir konnten in einer Studie feststellen, dass die KI zwei Drittel aller gestellten Fragen aus dem Progress Test der Charité [1] korrekt beantwortet. Die Qualität der Antworten ist bisher allerdings noch nicht quantifiziert worden.

Um Stärken und Schwächen der KI näher einordnen zu können, wurde für die hier dargestellte Studie untersucht, auf welchem Kompetenzniveau die KI agiert.

Methoden: Im Nationalen Kompetenzbasierten Lernzielkatalog Medizin (NKLM) wird zwischen Wissen und Handlungskompetenz unterschieden, dabei entspricht die Kompetenztiefe 1 (Faktenwissen: Deskriptives Wissen (Fakten, Tatsachen) nennen und beschreiben) dem Kompetenzniveau „Erinnern“, die Kompetenztiefe 2 (Handlungs- und Begründungswissen: Sachverhalte und Zusammenhänge erklären, in den klinisch-wissenschaftlichen Kontext einordnen und datenbasiert bewerten) dem Kompetenzniveau „Anwenden“ im Progress Test Medizin.

Des Weiteren wird jede Frage des Progress Tests einer der folgenden neun Domänen zugeordnet:

  • Diagnosestellung
  • Diagnostik
  • Ethik, Geschichte, Recht
  • Gesundheitsförderung, Prävention
  • Medizinisch-Wissenschaftliche Fertigkeiten
  • Notfallerkennung, Notfallmaßnahmen
  • Pathogenese, Pathomechanismen
  • Struktur und Funktion
  • Therapie

Insgesamt wurden 400 Multiple-Choice-Fragen (MCQs) aus den Progress Tests des Wintersemesters 2021/2022 und Sommersemesters 2022 in die Benutzeroberfläche von ChatGPT (GPT-3.5, Version ab 09. Januar 2023) eingegeben, um den Prozentsatz der richtig beantworteten Fragen zu erhalten.

Ergebnisse: Es konnten 395 Antworten ausgewertet werden, und insgesamt waren 65,5% der von ChatGPT beantworteten Progress-Test-Fragen korrekt.

Während es bei den Studierenden keine Unterschiede gibt, kann ChatGPT Fragen des Kompetenzniveaus „Erinnern“ besser beantworten als die des Kompetenzniveaus „Anwenden“. (Mittelwert Erinnern=72,1%, Mittelwert Anwenden=61,6%, Differenz=11,5%, 95% CI [1%, 20%], t(388,51)=2.2216, p=0,02689; Cohen’s d=0,23). Die Auswirkungen dieses Unterschieds auf die verschiedenen Domänen zeigt Abbildung 1 [Abb. 1].

Diskussion/Take Home Messages: Erwartungsgemäß zeigt die KI einen leichten Leistungsabfall bei zunehmendem Kompetenzniveau.

Die Werte liegen aber auf einem hohen Niveau und lassen das Potenzial der KI erahnen. Es ist dringend geboten, sich bezüglich der Konsequenzen in der medizinischen Aus- und Weiterbildung Gedanken zu machen.


Literatur

1.
Osterberg K, Kölbel S, Brauns K. Der Progress Test Medizin: Erfahrungen an der Charité Berlin. GMS Z Med Ausbild. 2006;23(3):Doc46. Zugänglich unter/available from: https://www.egms.de/static/de/journals/zma/2006-23/zma000265.shtml External link