Artikel
OP-Aufklärung durch künstliche Intelligenz: Evaluation der Informationsqualität
Suche in Medline nach
Autoren
Veröffentlicht: | 23. Oktober 2023 |
---|
Gliederung
Text
Fragestellung: Die Spanne der möglichen Anwendungsfelder von Künstlicher Intelligenz (KI) in der Medizin ist groß. Um die Chancen und Risiken der immer größer und komplexer werdenden Methoden Künstlicher Intelligenz auf einer wissenschaftlichen Grundlage bewerten zu können untersucht diese Studie die Risikoaufklärung mittels KI für häufige operative Eingriffe aus dem Fachbereich der Orthopädie und Unfallchirurgie.
Methodik: Das auf Basis von KI programmierte textbasierte Dialogsystem ChatGPT des US-Start-Ups OpenAI wurde zur Durchführung eines Dialogs zur Aufklärung über operative Eingriffe verwendet. Für 20 häufige Eingriffe der Orthopädie und Unfallchirurgie wurden aus bereits im alltäglichen Einsatz befindlichen standardisierten Aufklärungsbögen (Thieme proCompliance) relevante Stichworte definiert. Diese dienten als Referenz zur Bewertung der Antworten durch ChatGPT. Der Chatbot erhielt identische Fragen wie im Referenz-Aufklärungsbogen und lieferte KI-basierte Antworten. Es wurde die Rate von Übereinstimmungen mit den zuvor definierten Stichworten geprüft. Das modifizierte DISCERN-Instrument (10 Fragen), als validiertes Instrument zur Messung der Qualität medizinischer Informationen, wurde zur objektiven Informationsbewertung eingesetzt. Höhere DISCERN-Werte entsprechen einer höheren Genauigkeit, Zuverlässigkeit und Qualität der medizinischen Information.
Ergebnisse und Schlussfolgerung: Die Anzahl an relevanten Stichwörtern im Referenz-Aufklärungsbogen betrug zwischen 32 und 90 Stichwörtern. Im Mittel wurden 47% (niedrigste: 30,5% bei Knieprothesenwechsel, höchste: 68,6% bei lumbalen Dekompressionsoperationen) der relevanten Stichwörter der jeweiligen Aufklärungsbögen durch ChatGPT genannt.
Der DISCERN Score betrug im Mittel 2,4 von 5 Punkten (niedrigste: 1,6 bei Hüftprothesenwechsel, höchste: 3,4 bei Kyphoplastie). Auf der Grundlage der Antworten auf alle vorausgehenden Fragen wurde die Gesamtqualität bei keiner der Chat-GPT Aufklärungen als „Hoch – Minimale Mängel“, bei 9 (45%) als „Mittel – Eventuell wichtige, aber nicht beträchtliche Mängel“ und bei 11 (55%) als „Niedrig – Beträchtliche Mängel“ eingestuft.
Von den insgesamt überprüften 20 Aufklärungen durch ChatGPT wurde keine als medizinisch einwandfrei, 9 (45%) als etwas nützlich, 7 (35%) als nicht nützlich und 4 (20%) als irreführend und gefährlich eingestuft.
Die medizinische Aufklärung über operative Eingriffe besitzt einen zentralen Stellenwert in der Arzt-Patient Beziehung und geht mit hohen Anforderungen an medizinische Informationen einher. Die in unserer Studie erreichte Qualität der medizinischen Information einer Aufklärung durch ChatGPT ist zum jetzigen Zeitpunkt nicht adäquat, um einen Arzt zu ersetzen. Problematisch sehen die Autoren den Zustand, dass unklar verbleibt auf welche Quellen die KI für eine bestimmte Antwort zurückgreift. Weitere Untersuchungen müssen zeigen, ob durch zukünftige Verbesserungen von Software und Quellen die Qualität medizinischer Information durch ChatGPT relevant verbessert werden kann.