Artikel
Datenextraktion aus randomisierten kontrollierten Studien mit einem Large Language Model (Elicit) und menschlichen Reviewern: ein systematischer Vergleich
Suche in Medline nach
Autoren
Veröffentlicht: | 27. März 2025 |
---|
Gliederung
Text
Hintergrund/Fragestellung: Systematische Übersichtsarbeiten gelten als zuverlässige Methode zur Synthese von Evidenz, da sie einem strukturierten, systematischen und transparenten Prozess folgen. Sie sind jedoch arbeitsintensiv und daher zeitaufwändig. Elicit ist ein Tool der Künstlichen Intelligenz (KI), das große vortrainierte Sprachmodelle wie GPT-3 verwendet und bestimmte Schritte bei der Durchführung systematischer Übersichtsarbeiten automatisieren kann. Die Leistung und Genauigkeit des Tools wurde jedoch noch nicht von unabhängiger Seite bewertet. Unser Ziel war es, die Datenextraktion aus randomisierten kontrollierten Studien (RCTs) durch Elicit und menschlichen Reviewern zu vergleichen.
Methoden: Um die Datenextraktion von Elicit und menschlichen Reviewern zu vergleichen, haben wir eine Stichprobe von 20 RCTs gezogen, deren Daten manuell von menschlichen Reviewern für FIT-Nursing Care, einer pflegebezogenen Wissensplattform, extrahiert wurden. Wir untersuchten die Variablen Studienziele, Stichprobenmerkmale und -größe, Studiendesign, Beschreibung der Intervention, Outcome und Interventionseffekte und klassifizierten die Ergebnisse in "abweichende Extraktionen", "teilweise gleich mit weniger Informationen" und "gleich oder mehr Informationen".
Ergebnisse: Die Datenextraktion zwischen Elicit und den menschlichen Reviewern war bei 49% aller Variablen in allen zwanzig Studien gleich, teilweise gleich in 46% und abweichend in 5%. Bei allen sieben Variablen extrahierte Elicit im Vergleich zu den menschlichen Reviewern in 1–20 Studien gleich viele oder mehr Informationen (Median 11). Nur bei der Variable Studiendesign waren alle Extraktionen (100%) von Elicit gleich denen der menschlichen Reviewer. Bei der Variable Interventionseffekte waren die Extraktionen von Elicit nur in einer Studie (5%) gleich wie die der menschlichen Reviewern.
Schlussfolgerung: Elicit war in der Lage, die Daten für unsere vordefinierten Variablen teilweise korrekt zu extrahieren. Variablen wie Interventionseffekt oder Beschreibung der Intervention erfordern möglicherweise menschliche Reviewer, um die Datenextraktion zu vervollständigen, da Elicit nur wenige Details zu extrahieren scheint. Unsere Ergebnisse deuten darauf hin, dass eine Überprüfung durch menschliche Reviewer notwendig ist, um sicherzustellen, dass alle relevanten Informationen vollständig und korrekt von Elicit erfasst werden, aber zukünftige Studien sind notwendig, um unsere Ergebnisse zu bestätigen.
Interessenkonflikte: Die Autor:innen erklären keine Interessenskonflikte.