gms | German Medical Science

Gesundheit – gemeinsam. Kooperationstagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (GMDS), Deutschen Gesellschaft für Sozialmedizin und Prävention (DGSMP), Deutschen Gesellschaft für Epidemiologie (DGEpi), Deutschen Gesellschaft für Medizinische Soziologie (DGMS) und der Deutschen Gesellschaft für Public Health (DGPH)

08.09. - 13.09.2024, Dresden

Die Wahrnehmung der Vertrauenswürdigkeit eines KI-Systems zur Wundklassifizierung aus der Perspektive von Gesundheitsfachkräften

Meeting Abstract

  • Niels Hannemann - Universität Osnabrück, Institut für Gesundheitsforschung und Bildung, Abteilung New Public Health, Osnabrück, Germany
  • Jan-Oliver Kutza - Universität Osnabrück, Institut für Gesundheitsforschung und Bildung, Abteilung New Public Health, Osnabrück, Germany
  • Florian Kücking - Forschungsgruppe Informatik im Gesundheitswesen - Hochschule Osnabrück, Osnabrück, Germany
  • Mareike Przysucha - Forschungsgruppe Informatik im Gesundheitswesen - Hochschule Osnabrück, Osnabrück, Germany
  • Ursula Hertha Hübner - Forschungsgruppe Informatik im Gesundheitswesen - Hochschule Osnabrück, Osnabrück, Germany
  • Birgit Babitsch - Universität Osnabrück, Institut für Gesundheitsforschung und Bildung, Abteilung New Public Health, Osnabrück, Germany

Gesundheit – gemeinsam. Kooperationstagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (GMDS), Deutschen Gesellschaft für Sozialmedizin und Prävention (DGSMP), Deutschen Gesellschaft für Epidemiologie (DGEpi), Deutschen Gesellschaft für Medizinische Soziologie (DGMS) und der Deutschen Gesellschaft für Public Health (DGPH). Dresden, 08.-13.09.2024. Düsseldorf: German Medical Science GMS Publishing House; 2024. DocAbstr. 855

doi: 10.3205/24gmds379, urn:nbn:de:0183-24gmds3795

Published: September 6, 2024

© 2024 Hannemann et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License. See license information at http://creativecommons.org/licenses/by/4.0/.


Outline

Text

Hintergrund: Die Nutzung Künstlicher Intelligenz (KI) beeinflusst zunehmend die medizinische Behandlung und die Interaktion zwischen Gesundheitsfachkräften und Patient:innen [1]. Eine rasche Adoption erfolgte für bildgebende Verfahren in der Diagnostik der radiologischen gefolgt von der dermatologischen Versorgung [2].

Zentral für die Akzeptanz und die Nutzung KI-gestützter Gesundheitsversorgung ist deren Vertrauenswürdigkeit [3]. Obgleich diese zunehmend in der Forschung adressiert wird [4], bestehen erhebliche Forschungslücken. Dementsprechend wird die Fragestellung untersucht:

Wie wird die Vertrauenswürdigkeit eines KI-Systems zur Wundklassifikation von Gesundheitsfachkräften wahrgenommen und differiert diese in Abhängigkeit von personen- und berufsspezifischen Merkmalen?

Methodik: Im Zuge des ZIEL-Verbundprojekts (Förderkennzeichen: 16SV8616), wurde eine Interventionsstudie (Ethikvotum: HSOS/2023/1/6) von November 2023 bis Januar 2024 mit Gesundheitsfachkräften durchgeführt. Ziel der Studie war die Evaluation eines KI-Systems [5] im Hinblick auf dessen Akzeptanz und wahrgenommene Vertrauenswürdigkeit. Die Evaluation basiert auf der Beurteilung von Wundbildern hinsichtlich des Vorliegens oder Nichtvorliegens einer Wundmazeration durch Gesundheitsfachkräfte im Vergleich zu einer KI-basierten Wundklassifikation.

Die Operationalisierung der Relevanz der KI-Vertrauenswürdigkeit basiert auf den Dimensionen für vertrauenswürdige KI (Fairness, Autonomie, Kontrolle, Transparenz, Verlässlichkeit, Sicherheit und Datenschutz) [4]. Die Einzeldimensionen wurden mittels Likert-Skalen (überhaupt nicht relevant – sehr relevant) erhoben. Ergänzend wurden die Teilnehmer:innen um die Auswahl der für sie relevantesten Einzeldimension gebeten.

Zusätzlich wurden die Teilnehmer:innen gefragt, inwieweit sie die von einem KI-System bereitgestellte Beurteilung einer Wundmazeration für vertrauenswürdig (überhaupt nicht vertrauenswürdig – sehr vertrauenswürdig) erachten.

Geprüft wurde mittels U-Test, ob sich die Teilnehmer:innen hinsichtlich ihrer Einschätzung der Vertrauenswürdigkeit bei der Beurteilung der Relevanz der Einzeldimensionen vertrauenswürdiger KI unterscheiden.

Zudem wurde mittels einer logistischen Regressionsanalyse der Einfluss von personenbezogenen und berufsspezifischen Merkmalen auf die wahrgenommene KI-Vertrauenswürdigkeit untersucht (Referenzgruppen: weibliches Geschlecht; älter als 60 Jahre; Expertise in der Wundversorgung, Ärzteschaft; Berufserfahrung von mehr als 26 Jahren).

Ergebnisse: Die Stichprobe (N = 240) setzte sich aus 56,9% Frauen und 43,1% Männern zusammen. 63,0% der Teilnehmer:innen konnten dem Pflegepersonal und 37,0% der Ärzteschaft zugeordnet werden. 85,8% der Teilnehmer:innen arbeiteten im stationären Sektor.

Insgesamt nahmen 34,3% der Teilnehmer:innen das KI-System als überhaupt nicht oder eher nicht vertrauenswürdig wahr. 65,7% bewerteten das KI-System als eher oder sehr vertrauenswürdig.

Nur bei der wahrgenommenen Relevanz der Einzeldimension Autonomie findet sich ein Unterschied mit höheren Werten bei den Teilnehmer:innen, die das KI-System als vertrauenswürdig einstuften. Der Einzeldimension Verlässlichkeit wurde die höchste Relevanz (47,4%) für Beurteilung der KI-Vertrauenswürdigkeit zugesprochen

Die Zugehörigkeit zum männlichen Geschlecht (OR 2,142) und eine Berufserfahrung zwischen 16 und 25 Jahren (OR 3,759) erhöhte die Chance, dass das KI-System als vertrauenswürdig wahrgenommen wurde, wohingegen die Zugehörigkeit zur Altersgruppe der 40- bis 49-Jährigen diese signifikant reduzierte (OR 0,150).

Diskussion: Die Ergebnisse zeigen, dass Probleme hinsichtlich der KI-Vertrauenswürdigkeit bestehen, die sich auf die Nutzung solcher Technologien im Versorgungsalltag auswirken können. Die Dimensionen der Vertrauenswürdigkeit geben klare Hinweise, wie diese gefördert werden kann und schließt damit an die Forderungen des Explainable AI-Methoden (XAI) an. Interessant ist, dass personen- und berufsspezifische Merkmale nur zu geringen Unterschieden beitragen. Allerdings sind die Mechanismen, die die Wahrnehmung der Vertrauenswürdigkeit beeinflussen, noch nicht ausreichend verstanden. Dennoch sollte die Implementierung von XAI-Methoden (XAI) intensiviert werden, um den KI-Entscheidungsprozess für Nutzer:innen nachvollziehbar darzustellen.

Die Autoren geben an, dass kein Interessenkonflikt besteht.

Die Autoren geben an, dass ein positives Ethikvotum vorliegt.


Literatur

1.
Lötsch J, Kringel D, Ultsch A. Explainable Artificial Intelligence (XAI) in Biomedicine: Making AI Decisions Trustworthy for Physicians and Patients. BioMedInformatics. 2022;2(1):1-17.
2.
Shrivastava VK, Londhe ND, Sonawane RS, Suri JS. A novel and robust Bayesian approach for segmentation of psoriasis lesions and its risk stratification. Comput Methods Programs Biomed. 2017;150:9-22.
3.
Gille F, Jobin A, Ienca M. What we talk about when we talk about trust: Theory of trust for AI in healthcare. Intelligence-Based Medicine. 2020;1-2:100001.
4.
Fraunhofer-Institut . Leitfaden zur Gestaltung vertrauenswürdiger Künstlicher Intelligenz. KI-Prüfkatalog. Sankt Augustin: Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS; 2021.
5.
Hüsers J, Hafer G, Heggemann J, Wiemeyer S, Przysucha M, Dissemond J, et al. Automatic Classification of Diabetic Foot Ulcer Images - A Transfer-Learning Approach to Detect Wound Maceration. Stud Health Technol Inform. 2022;289:301-4.