gms | German Medical Science

26. Jahrestagung des Netzwerks Evidenzbasierte Medizin e. V.

Netzwerk Evidenzbasierte Medizin e. V. (EbM-Netzwerk)

26. - 28.03.2025, Freiburg

KI-generierte Evidenzzusammenfassungen für Leitlinien aus dem Leitlinienprogramm Onkologie

Meeting Abstract

Suche in Medline nach

  • author Gregor Wenzel - Deutsche Krebsgesellschaft e. V., Leitlinien / Evidenzbasierte Medizin, Deutschland
  • author Thomas Langer - Deutsche Krebsgesellschaft e. V., Leitlinien / Evidenzbasierte Medizin, Deutschland
  • author Anja Jacobs - Deutsche Krebsgesellschaft e. V., Leitlinien / Evidenzbasierte Medizin, Deutschland
  • author Markus Follmann - Deutsche Krebsgesellschaft e. V., Leitlinien / Evidenzbasierte Medizin, Deutschland

Die EbM der Zukunft – packen wir’s an!. 26. Jahrestagung des Netzwerks Evidenzbasierte Medizin. Freiburg, 26.-28.03.2025. Düsseldorf: German Medical Science GMS Publishing House; 2025. Doc25ebmV-03-02

doi: 10.3205/25ebm014, urn:nbn:de:0183-25ebm0144

Veröffentlicht: 27. März 2025

© 2025 Wenzel et al.
Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung). Lizenz-Angaben siehe http://creativecommons.org/licenses/by/4.0/.


Gliederung

Text

Hintergrund/Fragestellung: Essenzieller Baustein der S3-Leitlinienerstellung ist nach systematischer Recherche, methodischer Bewertung und Extraktion der Studienergebnisse in Evidenztabellen die Erstellung von Texten zur Zusammenfassung der identifizierten Evidenz. Bisherige Erfahrungen zeigen, dass dieser Prozess mitunter sehr aufwändig und fehleranfällig sein kann. Ziel der vorliegenden Arbeit ist die Evaluation KI-generierter Zusammenfassungen und Schlussfolgerungen aus Evidenztabellen anhand quantitativer Bewertungen der Korrektheit auf Endpunktebene und qualitativen Beurteilungen der Textqualität.

Methoden: Aus vier aktuellen S3-Leitlinien des OL wurden zufällig Evidenztabellen inklusive assoziierter Schlüssel- und PICO-Fragen ausgewählt und mittels Claude Sonnet 3.5 analysiert. Der entwickelte Prompt veranlasste die KI, das Studiendesign sowie Effektschätzer zu extrahieren und auf dieser Basis eine zusammenfassende Schlussfolgerung mit Bezug zur PICO-Frage zu formulieren. Zwei unabhängige Bewerter erfassten die Anzahl korrekt, falsch oder irrtümlich zusätzlich berichteter Endpunkte. Die Schlussfolgerungen der KI wurden auf Nachvollziehbarkeit (ja / teilweise / nein) und Ausmaß an Überarbeitungsaufwand zur Weitergabe an die Leitliniengruppen (keiner / wenig / viel) untersucht. Die Bewertungen wurden als Mittelwerte präsentiert. Eine erweiterte Untersuchung und Präsentation auf dem EbM-Kongress mit insgesamt 30 Evidenztabellen ist geplant.

Ergebnisse: Die Analyse umfasste fünf Evidenztabellen zu vier S3-Leitlinien mit insgesamt 22 Studien und 66 Endpunkten. Durchschnittlich 57,5 dieser Endpunkte (89,8%, Spanne: 75% bis 100%) wurden von der KI extrahiert und alle assoziierten Zahlwerte waren korrekt (Recall = 100%). Die Aussagen der KI zu diesen Endpunkten waren in 70,3% (n=48,5) der Fälle nachvollziehbar, in 16,7% (n=11,5) teilweise nachvollziehbar und in 13,0% (n=9,0) nicht nachvollziehbar. Hauptlimitationen waren unplausible Aussagen zum Verzerrungspotenzial durch die KI (70% der nicht oder teilweise nachvollziehbaren Fälle). Eine der vier zusammenfassenden Schlussfolgerungen der KI ist ohne Korrekturen verwertbar, die drei anderen benötigen nur wenige Anpassungen.

Schlussfolgerung: Unsere Pilotierung ergab eine sehr hohe Genauigkeit bei der Datenextraktion und überwiegend nachvollziehbare KI-generierte Zusammenfassungen von Evidenztabellen. Die Ergebnisse rechtfertigen weitergehende Untersuchungen zum Einsatz von generativer KI als Unterstützung bei der Interpretation von Evidenztabellen für die Leitliniengruppen.

Interessenkonflikte: Es liegen keine finanziellen Interessen vor.