gms | German Medical Science

Kongress Medizin und Gesellschaft 2007

17. bis 21.09.2007, Augsburg

Simulationsstudie zum Vergleich zweier Ansätze zur Berechnung von gewichteten und ungewichteten multiplen Kappa-Koeffizienten

Meeting Abstract

Search Medline for

  • Marcus Kutschmann - Universität Bielefeld, Bielefeld
  • Ingo Langner - Bremer Institut für Präventionsforschung und Sozialmedizin

Kongress Medizin und Gesellschaft 2007. Augsburg, 17.-21.09.2007. Düsseldorf: German Medical Science GMS Publishing House; 2007. Doc07gmds226

The electronic version of this article is the complete one and can be found online at: http://www.egms.de/en/meetings/gmds2007/07gmds226.shtml

Published: September 6, 2007

© 2007 Kutschmann et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution License (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.en). You are free: to Share – to copy, distribute and transmit the work, provided the original author and source are credited.


Outline

Text

Einleitung: Zur Berechnung der Übereinstimmung zwischen zwei Gutachtern, die Objekte oder Individuen mittels eines Kategoriensystems klassifizieren, wird in der klinischen Forschung neben dem ungewichteten [1] vielfach auch der gewichtete Kappa-Koeffizient verwendet [2]. Dabei wird nicht nur die Häufigkeit berücksichtigt, mit der beide Gutachter übereinstimmende Bewertungen abgeben, sondern durch entsprechende Gewichtung werden auch voneinander abweichende Beurteilungen mit einbezogen. Weiterentwicklungen zur Berücksichtigung von mindestens drei Gutachtern beruhen häufig auf Funktionen paarweiser Übereinstimmungen [3], [4]. Eine Alternative besteht in der Betrachtung der simultanen Übereinstimmung aller Gutachter [5].

Methode: Betrachtet man mehr als zwei Gutachter und folgt man dem Ansatz nach Schouten [3] werden die multiplen beobachteten (Mult_B) und zufallsmäßig zu erwartenden Übereinstimmungsanteile (Mult_E) auf Grundlage von Kontingenztafeln für alle möglichen Gutachterpaare berechnet und in die Formel nach Cohen eingesetzt [1]. Beim simultanen Ansatz dagegen werden statt der paarweisen Übereinstimmungsanteile die Fälle berücksichtigt, bei denen alle Gutachter gleichzeitig übereinstimmende Urteile abgeben. Berechnet man gewichtete multiple Kappa-Koeffizienten, ergeben sich die Gewichtungsfaktoren auf Grundlage von Differenzen der ordinal skalierten Kategoriencodierungen. Hier werden für beide Ansätze für den gewichteten und ungewichteten Fall Simulationen von möglichen Bewertungsmustern für mehr als zwei Gutachter, mehr als zwei Bewertungskategorien und verschiedene Objektanzahlen duchgeführt.

Ergebnisse: Es zeigt sich, dass beide Ansätze identische Werte liefern, wenn die gewichtete Variante betrachtet wird. Dies ist um so erstaunlicher, da die entsprechenden Werte für Mult_B und Mult_E in beiden Ansätzen jeweils unterschiedlich sind. Berechnet man dagegen die entsprechenden ungewichteten multiplen Kappa-Koeffizienten, liefern beide Ansätze unterschiedliche Ergebnisse.

Diskussion: Der simultane Ansatz wird in der Literatur nach unserer Kenntnis nicht hinreichend diskutiert. Ein Argument ist, dass die beobachtete Übereinstimmung schon dann sehr klein werden kann, wenn nur einer der Gutachter deutlich anders beurteilt als die anderen [5]. Unsere Ergebnisse zeigen jedoch, dass zumindest im gewichteten Fall die beiden hier betrachteten Ansätze identische Resultate für den multiplen Kappa-Koeffizienten liefern.


Literatur

1.
Cohen J. A coefficient of agreement for nominal scales. Educational and Psychological Measurement. 1960;20:37-46.
2.
Cohen J. Weighted kappa: Nominal scale agreement with provision for scaled disagreement or partial credit. Psychological Bulletin. 1968;70:213-20.
3.
Schouten HJA. Measuring pairwise interobserver agreement when all subjcts are judged by the same observer. Statistica Neerlandica. 1982;36:45-61.
4.
Davies M, Fleiss JL. Measuring agreement for multinomial data. Biometrics. 1982;38:1047-51.
5.
Conger AJ. Integration and generalization of kappas for multiple raters. Psychological Bulletin. 1980;88:322-8.