gms | German Medical Science

26. Jahrestagung des Netzwerks Evidenzbasierte Medizin e. V.

Netzwerk Evidenzbasierte Medizin e. V. (EbM-Netzwerk)

26. - 28.03.2025, Freiburg

Datenextraktion aus randomisierten kontrollierten Studien mit einem Large Language Model (Elicit) und menschlichen Reviewern: ein systematischer Vergleich

Meeting Abstract

Suche in Medline nach

  • author Joleen Bianchi - OST, Departement Gesundheit, Schweiz; Ostschweizer Kinderspital, Interdisziplinäre Säuglingsstation, Schweiz
  • author Julian Hirt - OST, Departement Gesundheit, Schweiz; Universität Basel und Universitätsspital Basel, Research Center for Clinical Neuroimmunology and Neuroscience Basel (RC2NB), Pragmatic Evidence Lab, Basel, Schweiz
  • author Magdalena Vogt - OST, Departement Gesundheit, Schweiz
  • author Janine Vetsch - OST, Departement Gesundheit, Schweiz

Die EbM der Zukunft – packen wir’s an!. 26. Jahrestagung des Netzwerks Evidenzbasierte Medizin. Freiburg, 26.-28.03.2025. Düsseldorf: German Medical Science GMS Publishing House; 2025. Doc25ebmV-03-04

doi: 10.3205/25ebm016, urn:nbn:de:0183-25ebm0164

Veröffentlicht: 27. März 2025

© 2025 Bianchi et al.
Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung). Lizenz-Angaben siehe http://creativecommons.org/licenses/by/4.0/.


Gliederung

Text

Hintergrund/Fragestellung: Systematische Übersichtsarbeiten gelten als zuverlässige Methode zur Synthese von Evidenz, da sie einem strukturierten, systematischen und transparenten Prozess folgen. Sie sind jedoch arbeitsintensiv und daher zeitaufwändig. Elicit ist ein Tool der Künstlichen Intelligenz (KI), das große vortrainierte Sprachmodelle wie GPT-3 verwendet und bestimmte Schritte bei der Durchführung systematischer Übersichtsarbeiten automatisieren kann. Die Leistung und Genauigkeit des Tools wurde jedoch noch nicht von unabhängiger Seite bewertet. Unser Ziel war es, die Datenextraktion aus randomisierten kontrollierten Studien (RCTs) durch Elicit und menschlichen Reviewern zu vergleichen.

Methoden: Um die Datenextraktion von Elicit und menschlichen Reviewern zu vergleichen, haben wir eine Stichprobe von 20 RCTs gezogen, deren Daten manuell von menschlichen Reviewern für FIT-Nursing Care, einer pflegebezogenen Wissensplattform, extrahiert wurden. Wir untersuchten die Variablen Studienziele, Stichprobenmerkmale und -größe, Studiendesign, Beschreibung der Intervention, Outcome und Interventionseffekte und klassifizierten die Ergebnisse in "abweichende Extraktionen", "teilweise gleich mit weniger Informationen" und "gleich oder mehr Informationen".

Ergebnisse: Die Datenextraktion zwischen Elicit und den menschlichen Reviewern war bei 49% aller Variablen in allen zwanzig Studien gleich, teilweise gleich in 46% und abweichend in 5%. Bei allen sieben Variablen extrahierte Elicit im Vergleich zu den menschlichen Reviewern in 1–20 Studien gleich viele oder mehr Informationen (Median 11). Nur bei der Variable Studiendesign waren alle Extraktionen (100%) von Elicit gleich denen der menschlichen Reviewer. Bei der Variable Interventionseffekte waren die Extraktionen von Elicit nur in einer Studie (5%) gleich wie die der menschlichen Reviewern.

Schlussfolgerung: Elicit war in der Lage, die Daten für unsere vordefinierten Variablen teilweise korrekt zu extrahieren. Variablen wie Interventionseffekt oder Beschreibung der Intervention erfordern möglicherweise menschliche Reviewer, um die Datenextraktion zu vervollständigen, da Elicit nur wenige Details zu extrahieren scheint. Unsere Ergebnisse deuten darauf hin, dass eine Überprüfung durch menschliche Reviewer notwendig ist, um sicherzustellen, dass alle relevanten Informationen vollständig und korrekt von Elicit erfasst werden, aber zukünftige Studien sind notwendig, um unsere Ergebnisse zu bestätigen.

Interessenkonflikte: Die Autor:innen erklären keine Interessenskonflikte.