gms | German Medical Science

20. Jahrestagung des Deutschen Netzwerks Evidenzbasierte Medizin e. V.

Deutsches Netzwerk Evidenzbasierte Medizin e. V.

21. - 23.03.2019, Berlin

AMSTAR – Test-Retest-Reliabilität von insgesamt sieben Bewertern

Meeting Abstract

  • Stefanie Bühn - Witten Herdecke, IFOM – Institut für Forschung in der Operativen Medizin, Deutschland
  • Peggy Ober - Universitätsmedizin Leipzig, Integriertes Forschungs- und Behandlungszentrum (IFB) Adipositas Erkrankungen, Leipzig, Deutschland
  • Uta Wegewitz - Bundesanstalt für Arbeitsschutz und Arbeitsmedizin, Deutschland
  • Anja Jacobs
  • Alba Fishta
  • Tim Mathes - Witten Herdecke, IFOM – Institut für Forschung in der Operativen Medizin, Deutschland
  • Beate Weikert
  • Dawid Pieper - Witten Herdecke, IFOM – Institut für Forschung in der Operativen Medizin, Deutschland

EbM und Digitale Transformation in der Medizin. 20. Jahrestagung des Deutschen Netzwerks Evidenzbasierte Medizin. Berlin, 21.-23.03.2019. Düsseldorf: German Medical Science GMS Publishing House; 2019. Doc19ebmP-OG08-01

doi: 10.3205/19ebm105, urn:nbn:de:0183-19ebm1052

Published: March 20, 2019

© 2019 Bühn et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License. See license information at http://creativecommons.org/licenses/by/4.0/.


Outline

Text

Hintergrund/Fragestellung: Systematische Übersichtsarbeiten (SR) randomisierter kontrollierter Studien (RCT) stellen die Basis für eine evidenzbasierte Gesundheitsversorgung dar. Für SRs ist AMSTAR (A MeaSurement Tool to Assess systematic Reviews) ein häufig verwendetes Instrument, um die methodologische Qualität zu bestimmen. Es verfügt über gute psychometrische Eigenschaften. Bisherige Studien haben gezeigt, dass sowohl der Grad der Erfahrung der einzelnen Bewerter als auch die Zusammenstellung der einzelnen Bewerter-Paare einen Einfluss auf die Bewertung haben kann. Die Test-Retest-Reliabilität (TRR) wurde bisher in diesem Zusammenhang nicht berücksichtigt.

Die vorliegende Arbeit untersucht die TRR von AMSTAR mit insgesamt sieben Reviewern.

Methoden: 16 zuvor systematisch identifizierte SRs aus der Arbeitsmedizin wurden, nach einer a priori festgelegten Reihenfolge, von insgesamt sieben Bewertern aus zwei verschiedenen Institutionen unabhängig von einander mit AMSTAR bewertet. Für AMSTAR-Item 1 wurde a priori festgelegt, dass es nur als erfüllt bewertet werden soll, wenn ein Studien-Protokoll vorliegt. Nach der ersten Bewertung, wurden etwa zwei Jahre später alle Bewertungen unter den gleichen Voraussetzungen wiederholt.

Die Antworten wurden dichotomisiert (yes versus alle anderen) und die TRR der einzelnen Rater wurde mit Hilfe des Reliabilitätsmaßes Gwet’s Alpha (AC1) berechnet.

Ergebnisse: Die TRR der einzelnen Rater zeigt eine große Variabilität. Der Rater mit der besten medianen TRR hatte über alle 11 AMSTAR-Items hinweg einen Wert von 0,89 (Spannweite 0,63–1), der mit dem schlechtesten TRR einen medianen Wert von 0,69 (Spannweite -0,02–1). Volle Übereinstimmung bei allen Ratern (Gwet’s AC1=1) gab es in AMSTAR-Item 1. Die niedrigste TRR wurde von einem Rater in Item 11 mit einem Gwet’s AC1 von -0,02 erreicht.

Vergleicht man die mediane TRR auf Item-Ebene über alle Rater, so lässt sich eine beachtliche bis fast peferkte Übereinstimmung feststellen. Der maximale Wert, mit einem Median von 1 wurde in Item 1 erreicht und der schlechteste Wert (Median=0,63) in den Items 4, 5 und 10.

Schlussfolgerungen: Die TRR von AMSTAR ist nur bedingt gegeben und zeigt Unterschiede je nach Item und Rater.


Literatur

1.
Pieper D, et al. Systematic review found AMSTAR, but not R(evised)-AMSTAR, to have good measurement properties. J Clin Epidemiol. 2015;68(5):574-83.
2.
Pieper D, et al. Inter-rater reliability of AMSTAR is dependent on the pair of reviewers. BMC Med Res Methodol. 2017;17(1):98.