gms | German Medical Science

Gemeinsam informiert entscheiden: 17. Jahrestagung des Deutschen Netzwerks Evidenzbasierte Medizin

Deutsches Netzwerk Evidenzbasierte Medizin e.V.

03.03. - 05.03.2016, Köln

Interrater-Reliabilität von AMSTAR – die Anzahl der Bewerter macht den Unterschied

Meeting Abstract

  • corresponding author presenting/speaker Uta Wegewitz - Bundesanstalt für Arbeitsschutz und Arbeitsmedizin, Berlin, Deutschland
  • author Anja Jacobs - Gemeinsamer Bundesausschuss, Berlin, Deutschland
  • author Beate Weikert - Bundesanstalt für Arbeitsschutz und Arbeitsmedizin, Berlin, Deutschland
  • author Alba Fishta - Bundesanstalt für Arbeitsschutz und Arbeitsmedizin, Berlin, Deutschland
  • author Dawid Pieper - IFOM, Universität Witten/Herdecke, Köln, Deutschland

Gemeinsam informiert entscheiden. 17. Jahrestagung des Deutschen Netzwerks Evidenzbasierte Medizin. Köln, 03.-05.03.2016. Düsseldorf: German Medical Science GMS Publishing House; 2016. Doc16ebmE3c

doi: 10.3205/16ebm029, urn:nbn:de:0183-16ebm0293

Veröffentlicht: 23. Februar 2016

© 2016 Wegewitz et al.
Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung). Lizenz-Angaben siehe http://creativecommons.org/licenses/by/4.0/.


Gliederung

Text

Hintergrund und Fragestellung: Für die Qualitätsbewertung von Systematischen Reviews (SRs) wird häufig das Instrument AMSTAR (Assessing the Methodological Quality of Systematic Reviews) genutzt, welches aus 11 Items besteht. Bereits publizierte Daten zu einem wichtigen Gütekriterium, der Interrater-Reliabilität, lassen auf eine hohe Übereinstimmung der Reviewer bei der Bewertung mit AMSTAR schließen. In diesen Reliabilitätsstudien wird in der Regel die Übereinstimmung von zwei Bewertern gemessen. Es bleibt allerdings fraglich, wie verlässlich die Informationen zur Interrater-Reliabilität sind, wenn die Ergebnisse auf den Bewertungen von lediglich zwei Personen beruhen. Ziel der Untersuchung war es daher zu prüfen, wie hoch die Interrater-Reliabilität von AMSTAR auf Basis der Bewertungen von fünf Reviewern ist und wie groß die Unterschiede zwischen den einzelnen Bewerterpaaren ausfallen.

Methoden: Es wurden 16 zufällig ausgewählte SRs aus dem Bereich Arbeitsmedizin via Medline identifiziert. Nach einer Kalibrierungsphase wurden die eingeschlossenen Reviews von fünf Reviewern unabhängig voneinander mit AMSTAR bewertet. Die Antwortkategorien wurden anschließend dichotomisiert („yes“ vs. „no“/„can’t answer“/„not applicable“) und die Übereinstimmungskoeffizienten nach Holsti (r) und Cohen (κ) für alle zehn möglichen Bewerterpaare berechnet.

Ergebnisse: Bezogen auf das Gesamtinstrument AMSTAR variierten die Übereinstimmungskoeffizienten der Bewerterpaare nach Holsti zwischen 0,83 und 0,98 bei einem Median von 0,88; die Kappa-Werte lagen zwischen 0,55 und 0,84 bei einem Median von 0,64. Bei den einzelnen Items war der Grad der Übereinstimmung zwischen den Bewertern sehr unterschiedlich. Die größte Differenz der Übereinstimmungskoeffizienten gab es bei den Items 4 und 11 (Δr=0,47), bzw. bei Item 8 (Δκ=0,82). Bei Item 1 stimmten dagegen alle fünf Reviewer in ihren Bewertungen überein, so dass die Koeffizienten bei allen Paarungen 1 betrugen.

Schlussfolgerung: Einzelne Items von AMSTAR können sehr unterschiedlich interpretiert werden. Die Wahl des Bewerterpaares als aber auch des Reliabilitätskoeffizienten hat einen wesentlichen Einfluss auf die Interrater-Reliabilität. Qualitätsbewertungen von Studien, bei denen lediglich zwei Reviewer mitgewirkt haben, können sehr selektive Ergebnisse ergeben. Aus diesem Grund sollten insbesondere in Reliabilitätsstudien möglichst mehr als zwei Beurteiler beteiligt sein. Ferner sollten Angaben zum Erfahrungsstand angegeben werden.