gms | German Medical Science

Gesundheit – gemeinsam. Kooperationstagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (GMDS), Deutschen Gesellschaft für Sozialmedizin und Prävention (DGSMP), Deutschen Gesellschaft für Epidemiologie (DGEpi), Deutschen Gesellschaft für Medizinische Soziologie (DGMS) und der Deutschen Gesellschaft für Public Health (DGPH)

08.09. - 13.09.2024, Dresden

Künstliche Intelligenz vs. menschliche Expertise in der Evidenzsynthese: Eine Analyse der Performance von Chatbots und Wissenschaftler:innen in einem Scoping Review zur digital-unterstützten interprofessionellen Zusammenarbeit

Meeting Abstract

  • Kim Nordmann - Bayerisches Zentrum Pflege Digital, Hochschule für angewandte Wissenschaften Kempten, Kempten, Germany
  • Stefanie Sauter - Bayerisches Zentrum Pflege Digital, Hochschule für angewandte Wissenschaften Kempten, Kempten, Germany
  • Johanna Aigner - Bayerisches Zentrum Pflege Digital, Hochschule für angewandte Wissenschaften Kempten, Kempten, Germany
  • Marie-Christin Redlich - Bayerisches Zentrum Pflege Digital, Hochschule für angewandte Wissenschaften Kempten, Kempten, Germany
  • Michael Schaller - Bayerisches Zentrum Pflege Digital, Hochschule für angewandte Wissenschaften Kempten, Kempten, Germany
  • Florian Fischer - Bayerisches Zentrum Pflege Digital, Hochschule für angewandte Wissenschaften Kempten, Kempten, Germany

Gesundheit – gemeinsam. Kooperationstagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (GMDS), Deutschen Gesellschaft für Sozialmedizin und Prävention (DGSMP), Deutschen Gesellschaft für Epidemiologie (DGEpi), Deutschen Gesellschaft für Medizinische Soziologie (DGMS) und der Deutschen Gesellschaft für Public Health (DGPH). Dresden, 08.-13.09.2024. Düsseldorf: German Medical Science GMS Publishing House; 2024. DocAbstr. 196

doi: 10.3205/24gmds376, urn:nbn:de:0183-24gmds3760

Published: September 6, 2024

© 2024 Nordmann et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License. See license information at http://creativecommons.org/licenses/by/4.0/.


Outline

Text

Einleitung: Effiziente Kommunikation und Zusammenarbeit der Beschäftigten im Gesundheitssystem aus verschiedenen Professionen sind entscheidend für eine qualitativ hochwertige, patient:innenzentrierte Versorgung [1]. Digitale Tools können die interprofessionelle Kommunikation und Zusammenarbeit unterstützen, indem sie zu einer verbesserten Aufgabenteilung und klareren Zuständigkeiten beitragen sowie die Zugänglichkeit, Effizienz und Sicherheit des Informationsaustausches verbessern [2]. Trotz dieser Vorteile bleibt die Implementierung und nachhaltige Nutzung digitaler Tools komplex und herausfordernd. Im Rahmen eines Scoping Reviews sollen Faktoren für die erfolgreiche Umsetzung und Nutzung solcher Tools analysiert werden [3]. Die aufwendige Synthese der 407 eingeschlossenen Volltexte kann dabei potenziell durch den Einsatz künstlicher Intelligenz (KI) unterstützt werden. Insbesondere Chatbots, die auf großen generativen Sprachmodellen (Large Language Models) basieren, stehen hier im Fokus. Seit der Einführung von ChatGPT im Jahr 2021 haben solche Chatbots vermehrt Beachtung in Forschung und Öffentlichkeit gefunden; beispielsweise führte MAXQDA kürzlich einen auf großen Sprachmodellen basierenden KI-Assistenten für das Codieren ein. Allerdings ist die Performance dieser Chatbots, insbesondere im Vergleich zu menschlichen Fähigkeiten, noch unzureichend erforscht. Diese Studie evaluiert daher die Performance von Chatbots gegen die von Menschen im Kontext der qualitativen Evidenzsynthese.

Methoden: Die Performance von vier Chatbots (ZenoChat, ChatGPT 3.5, ChatGPT 4.0 und ChatFlash) und zwei Wissenschaftlerinnen wurde systematisch evaluiert. Die Studie basiert auf codierten Textabschnitten der 407 Artikel des Scoping Reviews, in denen Fragen des NASSS-Frameworks (Nonadoption, Abandonment, Scale-up, Spread, and Sustainability) von Greenhalgh et al. [4] beantwortet wurden. Das NASSS-Framework dient der Vorhersage und Bewertung des Erfolges technologiegestützter Gesundheitsprogramme und umfasst Fragen wie „Was sind die wichtigsten Merkmale der Technologie?“ und „Welche Veränderungen in den Rollen, Praktiken und Identitäten der Mitarbeiter sind damit verbunden?“ [4]. Die von Chatbots und Menschen erstellten Antworten wurden randomisiert und verblindet weiteren Personen mit wissenschaftlichem Hintergrund zugeteilt, welche diese anhand a priori definierter Kriterien (u.a. Genauigkeit und Vollständigkeit der Antwort, Addition neuer Inhalte und Interpretation, sowie korrekte Kontexterkennung in der Antwort und Länge der Antwort) bewerteten.

Ergebnisse: Die Genauigkeit der Antworten von Chatbots und denen von Menschen war vergleichbar gut. Chatbots erkannten den Kontext des Originaltextes jedoch besser und lieferten eher vollständige, wenn auch längere Antworten. Menschliche Antworten wiesen weniger Interpretation oder zusätzliche Inhalte auf. Unter den Chatbots erzielte ZenoChat insgesamt die am besten bewerteten Antworten, gefolgt von ChatFlash. Die Antworten von ChatGPT 3.5 und ChatGPT 4.0 wurden am schlechtesten bewertet.

Schlussfolgerung: Chatbots, die auf Large Language Models basieren, haben das Potenzial, den Prozess der Evidenzsynthese zu beschleunigen. Allerdings machen auch sie, ähnlich wie Menschen, Fehler. Angesichts der fortlaufenden Entwicklung und Feinabstimmung von Chatbots werden die erfolgreichen Anwendungen von Chatbots zur Erleichterung bzw. Beschleunigung von definierten Prozessen innerhalb der Forschung in den kommenden Jahren höchstwahrscheinlich weiter zunehmen. Dabei gilt es aber die Möglichkeiten und Grenzen kritisch abzuwägen. Hierfür sind weitere Studien notwendig, welche die Qualität und Verlässlichkeit von KI-basierten Verfahren im Rahmen der Evidenzsynthese auf Basis weiterer Proof-of-Concepts in unterschiedlichen Kontexten und zu verschiedenen Zielsetzungen untersuchen.

Die Autoren geben an, dass kein Interessenkonflikt besteht.

Die Autoren geben an, dass kein Ethikvotum erforderlich ist.


Literatur

1.
van Dongen JJJ, Lenzen SA, van Bokhoven MA, Daniëls R, van der Weijden T, Beurskens A. Interprofessional collaboration regarding patients' care plans in primary care: a focus group study into influential factors. BMC Fam Pract. 2016;17:58.
2.
Oostra DL, Fierkens C, Alewijnse MEJ, Olde Rikkert MGM, Nieuwboer MS, Perry M. Implementation of interprofessional digital communication tools in primary care for frail older adults: An interview study. J Interprof Care. 2022:1-9.
3.
Nordmann K, Sauter S, Möbius-Lerch P, Redlich MC, Schaller M, Fischer F. Conceptualizing Interprofessional Digital Communication and Collaboration in Health Care: Protocol for a Scoping Review. JMIR Res Protoc. 2023;12:e45179.
4.
Greenhalgh T, Wherton J, Papoutsi C, Lynch J, Hughes G, A'Court C, et al. Beyond Adoption: A New Framework for Theorizing and Evaluating Nonadoption, Abandonment, and Challenges to the Scale-Up, Spread, and Sustainability of Health and Care Technologies. J Med Internet Res. 2017;19(11):e367.