Artikel
KI-generierte Evidenzzusammenfassungen für Leitlinien aus dem Leitlinienprogramm Onkologie
Suche in Medline nach
Autoren
Veröffentlicht: | 27. März 2025 |
---|
Gliederung
Text
Hintergrund/Fragestellung: Essenzieller Baustein der S3-Leitlinienerstellung ist nach systematischer Recherche, methodischer Bewertung und Extraktion der Studienergebnisse in Evidenztabellen die Erstellung von Texten zur Zusammenfassung der identifizierten Evidenz. Bisherige Erfahrungen zeigen, dass dieser Prozess mitunter sehr aufwändig und fehleranfällig sein kann. Ziel der vorliegenden Arbeit ist die Evaluation KI-generierter Zusammenfassungen und Schlussfolgerungen aus Evidenztabellen anhand quantitativer Bewertungen der Korrektheit auf Endpunktebene und qualitativen Beurteilungen der Textqualität.
Methoden: Aus vier aktuellen S3-Leitlinien des OL wurden zufällig Evidenztabellen inklusive assoziierter Schlüssel- und PICO-Fragen ausgewählt und mittels Claude Sonnet 3.5 analysiert. Der entwickelte Prompt veranlasste die KI, das Studiendesign sowie Effektschätzer zu extrahieren und auf dieser Basis eine zusammenfassende Schlussfolgerung mit Bezug zur PICO-Frage zu formulieren. Zwei unabhängige Bewerter erfassten die Anzahl korrekt, falsch oder irrtümlich zusätzlich berichteter Endpunkte. Die Schlussfolgerungen der KI wurden auf Nachvollziehbarkeit (ja / teilweise / nein) und Ausmaß an Überarbeitungsaufwand zur Weitergabe an die Leitliniengruppen (keiner / wenig / viel) untersucht. Die Bewertungen wurden als Mittelwerte präsentiert. Eine erweiterte Untersuchung und Präsentation auf dem EbM-Kongress mit insgesamt 30 Evidenztabellen ist geplant.
Ergebnisse: Die Analyse umfasste fünf Evidenztabellen zu vier S3-Leitlinien mit insgesamt 22 Studien und 66 Endpunkten. Durchschnittlich 57,5 dieser Endpunkte (89,8%, Spanne: 75% bis 100%) wurden von der KI extrahiert und alle assoziierten Zahlwerte waren korrekt (Recall = 100%). Die Aussagen der KI zu diesen Endpunkten waren in 70,3% (n=48,5) der Fälle nachvollziehbar, in 16,7% (n=11,5) teilweise nachvollziehbar und in 13,0% (n=9,0) nicht nachvollziehbar. Hauptlimitationen waren unplausible Aussagen zum Verzerrungspotenzial durch die KI (70% der nicht oder teilweise nachvollziehbaren Fälle). Eine der vier zusammenfassenden Schlussfolgerungen der KI ist ohne Korrekturen verwertbar, die drei anderen benötigen nur wenige Anpassungen.
Schlussfolgerung: Unsere Pilotierung ergab eine sehr hohe Genauigkeit bei der Datenextraktion und überwiegend nachvollziehbare KI-generierte Zusammenfassungen von Evidenztabellen. Die Ergebnisse rechtfertigen weitergehende Untersuchungen zum Einsatz von generativer KI als Unterstützung bei der Interpretation von Evidenztabellen für die Leitliniengruppen.
Interessenkonflikte: Es liegen keine finanziellen Interessen vor.