gms | German Medical Science

GMS Medizinische Informatik, Biometrie und Epidemiologie

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (GMDS)

ISSN 1860-9171

Krankenhaus-Rangfolgen nach Ergebnisqualität in der Hüftendoprothetik - Routinedaten mit oder ohne ergänzende Patientenbefragungen? - Teil 1: Routinedaten

Ranking hospitals for outcomes in total hip replacement - administrative data with or without additional patient surveys? - Part 1: Administrative data

Originalarbeit

  • corresponding author Thomas Schäfer - Fachhochschule Gelsenkirchen/Bocholt, Fachbereich Wirtschaft, Bocholt, Deutschland
  • author Silke Neusser - ISEG – Institut für Sozialmedizin, Epidemiologie und Gesundheitssystemforschung, Hannover, Deutschland
  • author Christoph Lorenz - ISEG – Institut für Sozialmedizin, Epidemiologie und Gesundheitssystemforschung, Hannover, Deutschland
  • author Hans Dörning - ISEG – Institut für Sozialmedizin, Epidemiologie und Gesundheitssystemforschung, Hannover, Deutschland
  • author Eva Maria Bitzer - ISEG – Institut für Sozialmedizin, Epidemiologie und Gesundheitssystemforschung, Hannover, Deutschland

GMS Med Inform Biom Epidemiol 2007;3(1):Doc08

The electronic version of this article is the complete one and can be found online at: http://www.egms.de/en/journals/mibe/2007-3/mibe000056.shtml

Published: March 15, 2007

© 2007 Schäfer et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution License (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.en). You are free: to Share – to copy, distribute and transmit the work, provided the original author and source are credited.


Zusammenfassung

Hintergrund: Krankenhausrankings beziehen sich häufig auf schwere, unerwünschte Therapieresultate und beruhen auf routinemäßig verfügbaren Abrechnungsdaten. Im vorliegenden Projekt wurde am Beispiel der Implantation künstlicher Hüftgelenke untersucht, ob und inwieweit die den gesetzlichen Krankenkassen zur Verfügung stehenden Routinedaten für vergleichende Qualitätsbewertungen auf der Ebene einzelner Krankenhäuser bereits ausreichend sind oder ob eine inhaltlich angemessene Bewertung erst nach Ergänzung der Routinedaten um zusätzlich erhobene patientenseitige Informationen möglich ist. Im ersten Teil der Publikation werden die Ergebnisse des allein auf Routinedaten basierenden Qualitätsvergleichs vorgestellt.

Methodik: Zur Verfügung standen Routinedaten der AOK Niedersachsen der Jahre 2000, 2001 und 2002 (u.a. Stammdaten und Daten nach SGB V § 301). Die Studienpopulation umfasste alle Versicherten, die im Jahr 2000 oder 2001 ein künstliches Hüftgelenk erhielten. Das Krankenhaus-Ranking erfolgte anhand der Ergebnisindikatoren „Kritisches Ereignis (Mortalität oder Revision)“ und „Anzahl der Revisionsoperationen“ für Krankenhäuser, die in jedem der beiden Jahre mindestens 20 Fälle hatten. Im ersten Schritt erfolgte eine multivariate Modellierung (logistische bzw. Poisson-Regression) der Ergebnisindikatoren unter Berücksichtigung der Einflussgrößen Alter, Geschlecht, Nebendiagnosen, Krankenhausgröße und Operationsvolumen. Für das eigentliche Ranking wurden diese Modelle ohne Krankenhausmerkmale, aber ergänzt um Indikatorvariablen der einzelnen Krankenhäuser, erneut berechnet. Maßgeblich für den Rangplatz war das hinsichtlich der Einflussgrößen adjustierte Odds Ratio bzw. SMR des einzelnen Krankenhauses in Bezug auf ein vorher festgelegtes Referenzkrankenhaus. Die verschiedenen Ranglisten wurden untereinander verglichen und in Bezug auf die zeitliche Stabilität sowie den Einfluss der Fallmix-Variablen untersucht.

Ergebnisse: In jedem der beiden Beobachtungsjahre erhielten ca. 4500 Versicherte der AOK-Niedersachsen ein künstliches Hüftgelenk (n2000: 4482; n2001: 4579). In das Ranking einbezogen wurden 65 Krankenhäuser. Die zeitliche Stabilität der Rangfolgen bezüglich des gleichen Ergebnisparameters ist gering (Rangkorrelationskoeffizient von Spearman: 0,158 und 0,191). Die Übereinstimmung der auf verschiedenen Ergebnisindikatoren beruhenden Rangfolgen im gleichen Beobachtungsjahr ist hoch (Rangkorrelation: 0,80 und 0,85). Die Modellanpassung wird durch Einbezug der Fallmix-Variablen deutlich verbessert. Die Odds Ratios der einzelnen Krankenhäuser bewegen sich zwischen 0,0 bis 10,0 („Kritisches Ereignis“) und die SMRs variieren zwischen 0,0 bis 6,1 („Anzahl der Revisionen“).

Schlussfolgerungen: Ob sich der Fallmix aus den Variablen, die man aus den Routinedaten ableiten kann, ausreichend operationalisieren lässt, kann an dieser Stelle nicht abschließend beurteilt werden. Die Analysen geben nur Hinweise darauf, dass die patientenbezogenen erklärenden Variablen das Ergebnis in höherem Maß erklären als die Indikatorvariablen für die Krankenhäuser. Durch Zusammenfassung der Daten für mehrere Jahre lässt sich die Reliabilität der Bewertung erhöhen. Die Ranglisten zeigen ein erhebliches Qualitätsgefälle auf, das, wenn der Fall-Mix aus den Routinedaten in ausreichendem Umfang abgebildet wurde, Handlungsbedarf signalisiert. In Teil 2 der Publikation werden wir uns abschließend mit der Frage auseinandersetzen, ob die Routinedaten eine ausreichende Basis bilden, das Ergebnis der TEP und den Fallmix für die Qualitätsbewertung zu operationalisieren oder ob sie zu diesem Zweck durch Daten aus Versichertenbefragungen ergänzt werden sollten.

Schlüsselwörter: Künstlicher Hüftgelenkersatz/Komplikationen & Mortalität, Krankenhausvergleiche, Outcome Assessment (Health Care), Treatment Outcome, Qualitätsindikatoren

Abstract

Background: Many hospital rankings rely on the frequency of adverse outcomes and are based on administrative data. In the study presented here, we tried to find out, to what extent available administrative data of German Sickness Funds allow for an adequate hospital ranking and compared this with rankings based on additional information derived from a patient survey. Total hip replacement was chosen as an example procedure. In part I of the publication, we present the results of the approach based on administrative data.

Methods: We used administrative data from the AOK-Lower Saxony of the years 2000, 2001 and 2002. The study population comprised all beneficiaries, who received total hip replacement in the years 2000 or 2001. Performance indicators used where “critical incident (Mortality or revision)” and “number of revisions” within the first year. Hospitals were ranked if they performed at least 20 procedures on AOK-beneficiaries in each of the two years. Multivariate modelling (logistic and poisson regression) was used to estimate the performance indicators by case-mix variables (age, sex, co-diagnoses) and hospital characteristics (hospital size, surgical volume). The actual ranking was based on these multivariate models, excluding hospital variables and adding dummy-variables for each hospital. Hospitals were ranked by their case-mix adjusted odds ratio or SMR respectively with respect to a pre-selected reference hospital. The resulting rankings were compared with each other, with regard to temporal stability, and the impact of case-mix variables.

Results: About 4500 beneficiaries received total hip replacement in each year (n2000: 4482; n2001: 4579). The ranking included 65 hospitals. Comparing the years 2000 and 2001, the temporal stability of the rankings based on a single performance indicator was low (Spearman rang correlation coefficients 0.158 and 0.191). The agreement of rankings based on different performance indicators in the same year was high (Spearman: 0.80 and 0.85). Including case-mix variables improved the model fit remarkably. Odds ratios for hospitals varied from 0.0 to 10.0 (critical incident) and SMRs from 0.0 to 6.1 (number of revisions).

Conclusions: Using data of two adjacent years together improves the reliability of hospital rankings. Adding the administrative data derived patient variables improves the explanation of the performance indicators. Whether this is sufficient to account for case-mix can not be determined at this point. If the case-mix was addressed properly, the rankings showed large differences in the quality of care, raising the need for action. In the second part of the publication, we will discuss, whether administrative data are good enough to provide information on relevant health outcomes and case-mix, or if hospital rankings should be based on additional information from patient surveys.

Keywords: arthroplasty, replacement, hip/adverse effects and mortality, hospitals, community/statistics & numerical data, outcome assessment (health care), treatment outcome, quality indicators, health care


Einleitung

Der vergleichenden Qualitätsbewertung von Krankenhäusern kommt im Zusammenhang mit Bemühungen um einer größere Transparenz im Gesundheitswesen zumindest theoretisch eine große Bedeutung zu. So gibt es seit mehreren Jahren Aktivitäten, Verbrauchern, d.h. (potenziellen) Patienten, aber auch Kostenträgern (u.a. Krankenversicherungen) und anderen Akteuren im Gesundheitswesen entsprechende Informationen zur Verfügung zu stellen, um so, im Sinne marktwirtschaftlicher Überlegungen, rationale(re) Entscheidungen zu erleichtern [1].

Relativ unstrittig ist, dass zu diesem Zweck durchgeführte Krankenhausvergleiche auch Informationen zur Ergebnisqualität einzelner Einrichtungen beinhalten sollten [2], [3]. Dabei umfasst die Ergebnisqualität zwei Aspekte: den Grad, zu dem erwünschte Therapieresultate erreicht werden, und den Grad, zu dem unerwünschte Behandlungsergebnisse vermieden werden [4]. Erfahrungen mit ergebnisorientierten Krankenhausrangfolgen liegen seit mehreren Jahren vor [5], [6], [7], [8]. Ergebnisparameter sind hier v.a. schwere unerwünschte Therapieresultate, z.B. Operationssterblichkeit, schwere Komplikationen oder Wiedereinweisungsraten.

Problematisch an schweren unerwünschten Therapieresultaten als Ergebnisindikatoren bei Krankenhausvergleichen ist, dass sie, insbesondere bei gut planbaren Interventionen, selten bis sehr selten sind, so dass große Fallzahlen pro Krankenhaus erforderlich sind, um überhaupt inhaltlich bedeutsame und statistisch signifikante Unterschiede feststellen zu können. Zudem stellt sich insbesondere bei planbaren Interventionen die Frage, ob allein Ergebnisindikatoren zu schweren unerwünschten Therapieresultaten schon eine ausreichende Informationsgrundlage für die Entscheidungsfindung darstellen. Angenommen werden darf, dass Informationen zu erwünschten Therapieresultaten von mindestens genauso großem Interesse sind, also beispielsweise der Grad, zu dem bestehende Beschwerden und Symptome reduziert werden können oder das Ausmaß, in dem eine zuvor eingeschränkte Alltagsfunktionalität wiederhergestellt werden kann. Solche Daten, die in der Regel durch Befragung der Patienten erhoben werden müssen, sind bislang nur selten Bestandteil von ergebnisorientierten Krankenhausvergleichen.

Unabhängig von der Auswahl der Ergebnisindikatoren ist bei Krankenhausvergleichen die Problematik unterschiedlicher Fallzusammensetzungen in den zu vergleichenden Untersuchungseinheiten zu berücksichtigen (Fallmix). Dies um so eher, wenn Krankenhausvergleiche beispielsweise im Zusammenhang mit der Auswahl eines geeigneten Krankenhauses (Patienteninformation) oder in Vertragsverhandlungen zwischen Leistungserbringern und Kostenträgern zur Entscheidungsfindung dienen sollen. Eine angemessene Berücksichtigung des Fallmix setzt voraus, dass entsprechende Informationen für alle in einem Krankenhaus behandelten Patienten verfügbar sind.

Für Zwecke einer ergebnisorientierten Qualitätsbewertung von Krankenhäusern stehen den Kassen der gesetzlichen Krankenversicherung grundsätzlich die von den Krankenhäusern gemäß § 301 SGB V im Rahmen der Abrechnung übermittelten Routinedaten sowie die versichertenbezogenen Stammdaten zur Verfügung [3], [9]. Zwar sind diese Daten nicht primär zur Bewertung der Qualität der erbrachten Leistungen konzipiert, bieten aber den Vorteil einer vergleichsweise einfachen Verfügbarkeit und die Möglichkeit einer längsschnittlichen Betrachtung von Behandlungsverläufen. Die für eine Bildung von Krankenhausrangfolgen durchaus wünschenswerten Informationen (beispielsweise zur ärztlich-klinischen Einschätzung) der externen Qualitätssicherung nach § 137 Abs. 1 SGB V (Bundesgeschäftsstelle Qualitätssicherung) werden demgegenüber mit großem organisatorischen und finanziellen Aufwand erhoben, beziehen sich nur auf den jeweiligen Krankenhausaufenthalt und stehen den Krankenkassen nicht zur Verfügung [10].

Vor dem Hintergrund der eingangs beschriebenen Problematik wurde im vorliegenden Projekt untersucht, ob und inwieweit die genannten Routinedaten für vergleichende Qualitätsbewertungen auf der Ebene einzelner Krankenhäuser bereits ausreichen, oder ob sie erst in Kombination mit zusätzlich erhobenen patientenseitigen Informationen eine inhaltlich angemessene Bewertung ermöglichen. Als zu bewertende Intervention wurde die Implantation eines künstlichen Hüftgelenks (Totalendoprothese, TEP-Implantation) ausgewählt. Als Datengrundlage dienten Routinedaten der AOK-Niedersachsen aus den Jahren 2000, 2001 und 2002 sowie eine im Jahr 2003 durchgeführte Befragung von Versicherten der AOK-Niedersachsen. Ziel war, niedersächsische Krankenhäuser entsprechend ihrer Ergebnisqualität in eine Rangfolge zu bringen. In Niedersachsen wurden im Jahr 2000 knapp 10.000 TEP-Implantationen durchgeführt, ca. 45% davon bei Versicherten der AOK-Niedersachsen.

Aus Gründen der Übersichtlichkeit werden im folgenden nur die Ergebnisse der allein auf Routinedaten beruhenden vergleichenden Qualitätsbewertung vorgestellt, die Ergebnisse auf der Basis der Kombination von Routinedaten mit Daten einer Patientenbefragung werden in einer zweiten Publikation berichtet („Krankenhaus-Rangfolgen nach Ergebnisqualität in der Hüftendoprothetik - Routinedaten mit oder ohne ergänzende Patientenbefragungen? - Teil 2: Patientenbefragung in Kombination mit Routinedaten“).


Material und Methodik

Einbezogen wurden AOK-Versicherte,

  • die in der Zeitspanne zwischen dem 1.1.2000 bis 31.12.2001 einen Krankenhausaufenthalt in Niedersachsen, Bremen oder Hamburg hatten, der mit den Fallpauschalen 17.061 oder 17.071 oder mit den Sonderentgelten 17.03, 17.071 oder 17.06 gegenüber der AOK-Niedersachsen abgerechnet worden ist,
  • und die, soweit nicht verstorben, mindestens 90 Tage nach der Index-Operation noch bei der AOK versichert gewesen sind.

Die Basis der vorliegenden Studie bilden die pseudonymisierten Routinedaten der AOK-Niedersachsen. Einbezogen wurden Informationen aus den Versichertenstammdaten, Versicherungszeiten und zum stationären Leistungsgeschehen. Für die Auswertungen standen die Routinedaten zu stationären Aufenthalten bis Ende Dezember 2003 zur Verfügung, wobei für die allein auf Routinedaten basierende Qualitätsbewertung nur die Informationen bis Ende 2002 herangezogen wurden.

Unerwünschte Ergebnisse von TEP-Implantationen

Zu den unerwünschten Ergebnissen von TEP-Implantationen gehören neben der Häufigkeit schwerer Komplikationen (z.B. Pneumonie, tiefe Beinvenenthrombose, Implantatbruch) und (Operations-)Sterblichkeit [11], [12] die Revisionsrate sowie die Anzahl der Revisionsoperationen in einem definierten zeitlichen Abstand zur Index-Operation (z.B. 1 Jahr) [13], [14]. Die 1-Jahres-Revisionsrate sowie die Anzahl der Revisionsoperationen wurden berechnet, indem alle weiteren Krankenhausaufenthalte in den ersten zwölf Monaten nach der Index-Operation ermittelt wurden, bei denen:

  • entweder die Fallpauschale 17.071 abgerechnet wurde, die sich explizit auf den Ersatz einer Endoprothese durch eine Hüftgelenk-Prothese bezieht,
  • oder der OPS-Schlüssel auf eine Revisionsoperation oder Komplikationen im Zusammenhang mit einem künstlichen Hüftgelenk hinweist (OPS 5-821)
  • oder als Entlassungsdiagnose der ICD-Code "T84 Komplikationen durch orthopädische Endoprothesen, Implantate oder Transplantate“ angegeben wurde.

Da in den Routinedaten keine Angabe dazu enthalten ist, welches Hüftgelenk (links oder rechts) operiert wurde, wird die 1-Jahresrevisionsrate überschätzt.

Bestimmt wurde die Krankenhausmortalität (Sterblichkeit während des Index-Aufenthaltes) und die 30-Tage-Mortalität, d.h. die Sterblichkeit in den ersten 30 Tagen nach der Index-Operation. Da die Zahl der im Krankenhaus oder an der Operation verstorbenen Patienten sehr klein ist, wurden diese Ereignisse mit dem Ereignis, dass innerhalb von zwölf Monaten eine Revisionsoperation stattgefunden hat, zu dem Ergebnisparameter „kritisches Ereignis“ zusammengefasst.

Fallmix-Variablen

Zentrale Fallmix-Variablen im Rahmen des Qualitätsvergleichs der Intervention „TEP-Implantation“ sind Alter, Geschlecht und das Vorliegen von Begleiterkrankungen [15], [16]. Für die allein auf Routinedaten basierenden Analysen wurde der Fallmix durch die Kombination der folgenden Variablen operationalisiert: Geschlecht (männlich/weiblich), Alter (klassifiziert in 10-Jahres-Altersgruppen), Art der Index-Operation (Erstimplantationen/Revision) und Zahl der nicht-spezifischen Nebendiagnosen (unklassifiziert).

Alter und Geschlecht liegen in den Stammdaten der Krankenkasse vor. Der Indikator „Art der Index-Operation“ spiegelt wider, ob es sich bei der Index-Operation um die Erstimplantation eines künstlichen Hüftgelenkes handelte oder ob die Index-Operation bereits eine Revisionsoperation darstellte. Die Index-Operation wurde als Revisionsoperation eingestuft, wenn entweder die Fallpauschale 17.071 oder der OPS-Schlüssel auf eine Revisionsoperation oder Komplikationen im Zusammenhang mit einem künstlichen Hüftgelenk hinweist (OPS 5-821). Die Zahl der nicht-spezifischen Nebendiagnosen während des Index-Aufenthaltes diente als grober Indikator für Begleiterkrankungen. Nicht-spezifische Nebendiagnosen umfassten alle in den Routinedaten erfassten ICD-Diagnosen des Index-Aufenthaltes, außer denen, die für die Abrechnung der relevanten Fallpauschalen und Sonderentgelte angegeben werden können (M05, M06, M08, M09, M12, M13, M15, M16, M87, Q65,T93, S72, T84). Die Diagnosen wurden auf der Basis der 3-stelligen und nicht wie für die Fallpauschalen geforderten vier- bis fünfstelligen ICDs zugeordnet, da die 4. und 5. Stelle häufig fehlte.

Krankenhausmerkmale

Ob und inwiefern die Anzahl der in einer Fachabteilung durchgeführten TEP-Implantationen oder die Größe des Krankenhauses einen Einfluss auf die Häufigkeit unerwünschter Behandlungsergebnisse besitzt, ist umstritten [14], [17], [18]. Daher wurden in beiden Untersuchungsansätzen die Klinikmerkmale „Bettenzahl“ und „Operationsvolumen“ als zusätzliche, potenziell die Ergebnisqualität beeinflussende Merkmale einbezogen. Die Bettenzahl als Indikator für die Größe eines Krankenhauses wurde in fünf Kategorien eingeteilt (<150 Betten, 150-299 Betten, 300-499 Betten, 500-999 Betten, >=1000 Betten).

Das Operationsvolumen wurde anhand der Routinedaten der AOK-Niedersachsen abgeschätzt. Dabei wird das Operationsvolumen zwangsläufig um ca. 50% unterschätzt, da die AOK-Niedersachsen ca. 50% der GKV-Versicherten in Niedersachsen versichert. Das Ausmaß der Unterschätzung ist dabei um so höher, je geringer der prozentuale Anteil AOK-Versicherter an allen Patienten ist, die in einem Krankenhaus eine TEP-Implantation erhalten haben. Um das Ausmaß der Unterschätzung zu verringern, wurden im Merkmal für das „Operationsvolumen“ der Einrichtung neben der Prozedur „TEP-Implantation“ weitere Fallpauschalen und Sonderentgelte berücksichtigt, die im Zusammenhang mit Hüftgelenkoperationen stehen (i. E. Fallpauschalen 17.011, 17.013, 17.021, 17.023, 17.061, 17.071 17.08 oder Sonderentgelte 17.03, 17.04, 17.05, 17.06, 17.07, 17.08, 17.12 ). Um möglichst stabile Angaben zum jeweiligen Krankenhausvolumen zu erhalten, wurde darüber hinaus der Mittelwert der durchgeführten Hüftoperationen pro Krankenhaus aus den Jahren 2000, 2001 und 2002 gebildet. Die Krankenhäuser wurden entsprechend des so ermittelten Operationsvolumens in fünf etwa gleich große Gruppen eingeteilt: „sehr niedrig“ (maximal 10 Hüftoperationen pro Jahr an AOK-Patienten), „niedrig“ (11-25 Hüftoperationen pro Jahr an AOK-Patienten), „mittel“ (26-60 Hüftoperationen pro Jahr an AOK-Patienten), „hoch“ (51-100 Hüftoperationen pro Jahr an AOK-Patienten) und „sehr hoch“ (mehr als 100 Hüftoperationen pro Jahr an AOK-Patienten).

Zur Überprüfung der Validität des gewählten Vorgehens wurden die mit dem beschriebenen Verfahren ermittelten Operationshäufigkeiten mit den Angaben aus Leistungs- und Kalkulationsaufstellungen (LKA) zu Hüftgelenkendoprothesen in Niedersachsen für das Jahr 2002 verglichen.

Multivariate Modellierung des Einflusses der Fallmix-Variablen und Krankenhausmerkmale

In einem ersten Schritt wurde der Einfluss der Fallmix-Variablen und Krankenhausmerkmale auf die Ergebnisindikatoren Revision, Krankenhausmortalität, 30-Tage-Mortalität und „Kritisches Ereignis“ sowie „Anzahl der Revisionsoperationen“ multivariat modelliert. Ziel der Analysen war es, einen Überblick über die Relevanz der Einflussgrößen zu erhalten. Als statistisches Modell zur multivariaten Standardisierung wurde für die dichotomen Ergebnisparameter Revision, Krankenhausmortalität, 30-Tage-Mortalität und „Kritisches Ereignis“ die logistische Regression verwendet, während für die Anzahl der Revisionsoperationen die negative Binomial-Regression zur Anwendung kam (beide sind Spezialisierungen des Genaralisierten Linearen Modells). Die Analysen basieren aus Gründen der Stabilität auf den Daten beider Jahre (2000 und 2001).

Modellierung der dichotomen Ergebnisparameter Revision, Krankenhausmortalität, 30-Tage-Mortalität und „Kritisches Ereignis“

Die logistische Regression setzt eine Binomialverteilung der Zielvariablen voraus. Diese kann für die dichotomen Ergebnisparameter Revision, Krankenhausmortalität und 30-Tage-Mortalität nur bei stochastischer Unabhängigkeit der Datensätze angenommen werden, die nur dann gegeben ist, wenn kein Versicherter mit mehr als einer Index-Operation im Datensatz vertreten ist. Für die multivariaten Analysen wurde daher von den 141 Versicherten mit zwei Index-Operationen jeweils nur die erste berücksichtigt, um die Jahre 2000 und 2001 auch gemeinsam auswerten zu können.

In der definierenden Gleichung der logistischen Regression

Equation 1

mit

Equation 2

wird die bedingte Wahrscheinlichkeit P des betrachteten Ereignisses E – gegeben ein bestimmter Fallmix und ein bestimmtes Krankenhaus – in Beziehung gesetzt zu einer linearen Funktion der Fallmix-Variablen.

Dabei sind die bedingenden Variablen Ij nur der Werte 0 oder 1 fähig (Indikatorvariable, auch dummy-Variable). Die Indikatorvariablen bilden den vorliegenden Fallmix ab und zeigen auch, welches Krankenhaus die Indexoperation vorgenommen hat. So gibt es beispielsweise für jede Altersgruppe (bis auf eine, die sog. Referenzgruppe) eine Indikatorvariable und für jedes im Datensatz vorkommende Krankenhaus (bis auf eines, das Referenzkrankenhaus) eine Indikatorvariable. Entsprechend werden die anderen Fallmix-Variablen behandelt. Grundsätzlich ist es auch möglich, nicht klassifizierte, stetig variierende Variablen, wie beispielsweise das Alter, anstelle der durch Klassifikation erzeugten Indikatorvariablen in die Regressionsgleichung aufzunehmen, aber die Interpretation der Odds-Ratios ist dann weniger anschaulich. Aus den Daten werden die unbekannten Koeffizienten bi geschätzt, und damit können Schätzungen für die bedingten Wahrscheinlichkeit für jede Kombination der bedingenden Fallmix Variablen mit dem jeweiligen Krankenhaus abgeleitet werden. Die zugehörigen Odds definieren dann Odds-Ratios für die Eintrittswahrscheinlichkeit zwischen z.B. einer Altersgruppe und der Referenzaltersgruppe oder zwischen einem Krankenhaus und dem Referenzkrankenhaus. Diese Odds-Ratios (ORi) lassen sich unmittelbar aus den Koeffizienten bi der betreffenden Indikatorvariablen ermitteln. Sie werden berechnet durch Anwendung der Exponentialfunktion auf die Koeffizienten

Equation 3
Modellierung der Zahl der Revisionsoperationen

Als weiterer Ergebnisparameter wurde die Zahl der Revisionsoperationen, denen sich ein Versicherter innerhalb eines Jahres nach der Indexoperation unterziehen musste, verwendet. Die Modellverteilung, die zur Modellierung von Zählvariablen (counts) häufig gewählt wird, ist die Poissonverteilung. Im Rahmen des Modells der Poissonregression wird zugelassen, dass die Zahl der Revisionsoperationen für jeden Versicherten eine individuelle Verteilung besitzt. Wenn Zj die Zufallsvariable ist, die für den j-ten Versicherten die Zahl der Revisionsoperationen beschreibt, so gilt also

Equation 4

wobei λj der versichertenspezifischen Erwartungswert ist.

Die Abhängigkeit dieses Erwartungswertes von den erklärenden Variablen des Modells (den Indikatorvariablen des Fallmix und der Krankenhäuser) wird aus den gleichen Gründen wie bei der logistischen Regression log-linear modelliert, d.h. es gilt

Equation 5

wobei Iji die i-te bedingende Variable des j-ten Versicherten bezeichnet – log(λj) kann wie die auf der rechten Seite der Gleichung stehende lineare Funktion jeden reellen Wert annehmen.

Anwendung der Exponentialfunktion auf die Koeffizienten

Equation 6

führt zu ganz ähnlich interpretierbaren Werten wie im Modell der logistischen Regression. Allerdings ist diesmal dadurch kein Odds-Ratio beschrieben, sondern ein SMR (ursprünglich Standard Mortality Ratio), d.h. das Verhältnis zwischen der in der betrachteten Kategorie (bzw. Krankenhaus) beobachteten Zahl von Revisionsoperationen im Vergleich zu den in der Referenzkategorie (bzw. dem Referenzkrankenhaus) erwarteten.

Für die Poissonverteilung stimmt die Varianz mit dem Erwartungswert überein, d.h. die Varianzfunktion ist gegeben durch

Equation 7

In der Praxis zeigt sich häufig keine gute Anpassung, weil die Varianz des untersuchten Merkmals größer ist als der Mittelwert (sog. Overdispersion).

Im Fall von Overdispersion steht als Alternative zur Poissonverteilung die Negative Binomialverteilung („Negbinverteilung“) zur Verfügung, deren Varianz quadratisch vom Erwartungswert abhängt. Die Varianzfunktion der Negbinverteilung

Equation 8

verfügt (neben dem Erwartungswert μ) über einen zweiten Parameter (einen Dispersionsparameter) und zeichnet sich daher durch ein höheres Maß an Anpassungsfähigkeit aus. Das darauf beruhende Regressionsmodell („Negbinregression“) führt erfahrungsgemäß zu ganz ähnlichen Ergebnissen wie die Poissonregression.

Tabelle 1 [Tab. 1] zeigt die Verteilung der Zahl der Revisionsoperationen. Daraus berechnet sich ein Mittelwert von 0,1104 und eine Varianz von 0,1931. Es liegt also in erheblichem Ausmaß Overdispersion vor, so dass die Negative Binomialverteilung als Verteilungsmodell besser passen dürfte. In der Tat zeigt der Vergleich der beobachteten mit den erwarteten Häufigkeiten, dass die Negative Binomialverteilung ein ausgezeichnetes Verteilungsmodell für die Zahl der Revisionsoperationen bietet.

Erstellung der Krankenhausrangliste

Um Krankenhäuser im Sinne eines Benchmarking anzuordnen, ist ein transparentes Verfahren auf der Basis akzeptierter Ergebnisparameter und belastbarer Daten erforderlich, das insbesondere den Unterschieden der Krankenhäuser im Fallmix ausreichend Rechnung trägt. In Ländern mit publizierten Krankenhausvergleichen („Hospital Ranking“), so etwa in Großbritannien oder in den USA, aber auch in Deutschland, sind die eingesetzten Verfahren und verwendeten Daten einer anhaltenden kritischen Diskussion unterworfen [18], [19].

Der von uns verfolgte Ansatz der multivariaten Standardisierung berücksichtigt die Ergebnisqualität und den Fallmix der Krankenhäuser in dem Umfang, wie diese aus den Routinedaten der AOK Niedersachsen mit vertretbarem Aufwand operationalisiert werden können. Hierzu werden die zuvor berechneten Regressionsmodelle verwendet, in die nun allerdings neben den Fallmix-Variablen und – mit einer Ausnahme – für jedes im Datensatz vertretene Krankenhaus ebenfalls eine Indikatorvariable als „erklärende“ Variable aufgenommen wird. Die Ausnahme bildet das Referenzkrankenhaus, auf das sich im Vergleich alle Odds-Ratios bzw. SMRs beziehen (zur Auswahl des Referenzkrankenhauses vgl. u.).

Der Fallmix wurde durch die Kombination der o.g. Variablen operationalisiert. Die Festlegung des Fallmix erfolgte – unbeschadet der jeweiligen Signifikanz – für alle Untersuchungszeitspannen und für die letztlich zur Erstellung der Krankenhausrangfolgen verwendten Ergebnisparameter („Kritisches Ereignis“ und „Anzahl Revisionsoperationen“, vgl. u.) in der gleichen Weise, weil die gewählte Kombination über die konkrete Empirie hinaus aus der langjährigen Erfahrung der klinischen und epidemiologischen Forschung mindestens für erforderlich gehalten wird (und darüber hinaus auch, um Vergleiche zwischen den verschiedenen Ranglisten nicht zu erschweren).

Auswahl der verwendeten Ergebnisparameter

Im Weiteren sind nun vor Durchführung des Ranking zwei Fragen zu klären. Erstens muss entschieden werden, welche Kombination der Ergebnisparameter verwendet werden soll, und zweitens ist festzulegen – ggf. sogar in Abhängigkeit von dem jeweils genutzten Ergebnisparameter –, welchem Krankenhaus die Rolle des Referenzkrankenhauses zugewiesen wird. Beides lässt sich nicht entscheiden, ohne vorher einen Blick auf die Daten geworfen zu haben.

Wenn wir zunächst die Verteilung der im Krankenhaus oder innerhalb von 30 Tagen nach der Operation gestorbenen Versicherten auf die Krankenhäuser anschauen, so finden wir im Jahr 2000 einen Anteil in Höhe von 68,1% der 150 vertretenen Krankenhäuser, in dem kein einziger Versicherter im definierten Sinn gestorben ist (2001: 67,5% von 149 Krankenhäusern, s. auch Tabelle 2 [Tab. 2]). In den restlichen rund 32% der Krankenhäuser finden wir einen oder zwei Todesfälle im definierten Sinn (in einem einzigen Krankenhaus sind es auch mal drei).

Unter diesen Umständen macht es augenscheinlich auch inhaltlich gesehen wenig Sinn, die Krankenhäuser nach der (adjustierten) Mortalität – im Krankenhaus oder innerhalb von 30 Tagen – zu sortieren. Darüber hinaus melden bei solchen Verhältnissen auch die gängigen Verfahren der Maximum-Likelihood-Schätzung des Parametervektors multivariater Modelle häufig numerischen Bankrott an und steigen mit einer Fehlermeldung aus. Das System der Maximum-Likelihood-Gleichungen wird numerisch auf iterativem Wege mit Hilfe eines geeigneten Gradientenverfahrens gelöst. Dabei muss eine (im Kontext umfangreiche) Matrix von Ableitungen invertiert werden, die bei „schlecht konditionierten“ Problemen Gefahr läuft, singulär zu werden.

Übrig bleiben drei Ergebnisparameter, die allerdings nicht unabhängig voneinander sind, weil das „kritische Ereignis“ auch eine Revision sein kann. Wenn man jedoch – nach unserem Vorschlag – neben dem Parameter „kritisches Ereignis“ die Zahl der Revisionsoperationen nach der Indexoperation als zweiten Ergebnisparameter wählt, so finden beide mögliche Arten der Mortalität im Zusammenhang mit der Index-Operation Berücksichtigung, und dem Vorkommen von Revisionen wird ohne Informationsverlust Rechnung getragen. D.h. die Erstellung der Krankenhaus-Reihenfolgen bezieht sich nur noch auf die Ergebnisindikatoren „kritisches Ereignis“ und „Anzahl Revisionsoperationen“.

Auswahl des Referenzkrankenhauses

Was die Auswahl des Referenzkrankenhauses betrifft (auch ein fiktives „Durchschnittskrankenhaus“ steht zusätzlich zu den real existierenden Krankenhäusern mit zur Wahl), so sind die Konsequenzen von Fehlentscheidungen in dieser Frage am besten an den Extremen und in Bezug auf das Eintreten eines kritischen Ereignisses als Ergebnisparameter zu verdeutlichen. Es sei an dieser Stelle ausdrücklich darauf verwiesen, dass die Reihenfolge der Krankenhäuser in der Rangliste unabhängig von der Wahl des Referenzkrankenhauses ist. Es geht in der folgenden Diskussion ausschließlich um die Maßzahlen (und ihre statistische Signifikanz), mit denen die Krankenhäuser in der Rangliste dargestellt werden und damit um die Frage der Vermittlung der Ergebnisse des "Rankings" in der Öffentlichkeit und gegenüber den betroffenen Krankenhäusern. Ein (unadjustiertes) Odds-Ratio hat einen Zähler und einen Nenner, wobei das Referenzkrankenhaus den Nenner definiert. Wenn dieser Null ist oder nahe Null, so wird das Odds-Ratio unendlich groß. Im Modell der multivariaten Standardisierung ergeben sich dadurch möglicherweise numerische Probleme, und wenn nicht, so weicht jedes Krankenhaus, das mindesten ein kritisches Ereignis aufweist, mit einem extrem hohen Odds-Ratio signifikant vom Referenzkrankenhaus (das kein einziges kritisches Ereignis in der Bezugszeitspanne aufweist) ab. Die Krankenhäuser werden in der Rangliste also unzureichend differenziert dargestellt. Wird ein Krankenhaus mit maximaler Ereignisrate gewählt, so fallen zwar die numerischen Komplikationen weg, aber das Problem der mangelnden Differenzierung bleibt bestehen: In diesem Fall werden die meisten anderen Krankenhäuser mit einem Odds-Ratio klein gegen 1 als signifikant besser als das Referenzkrankenhaus eingestuft.

Wird das Durchschnittskrankenhaus als Referenzkrankenhaus gewählt (oder ein konkretes Krankenhaus nahe am Durchschnitt), so tritt das Phänomen mangelnder Differenzierung ebenfalls ein, aber im umgekehrten Sinn, jetzt sind die Odds-Ratios alle nahe 1 und wir finden in der Rangliste nur noch wenige Krankenhäuser, die signifikant vom Referenzkrankenhaus abweichen.

Wählt man dagegen (nach Mindestfallzahlbeschränkung, s.u.) ein Krankenhaus in der Nähe des ersten Dezils der Ereignisrate aus, so führt das für den vorliegenden Datensatz zu einer für die weitere Umsetzung der Ergebnisse des Benchmarking durchaus zweckmäßigen Differenzierung innerhalb der Rangliste. Allerdings gilt es dabei auch noch ein zweites Kriterium zu beachten. Die Fallzahl des Referenzkrankenhauses geht unmittelbar in das Konfidenzintervall (und damit in die Präzision der Schätzung) eines jeden krankenhausspezifischen Odds-Ratios ein. Sie sollte daher möglichst groß sein.

Festlegung einer Mindestfallzahl

Es leuchtet unmittelbar ein, dass man ein Krankenhaus nicht auf der Basis eines einzigen Falles oder nur sehr weniger Fälle in eine Rangliste einordnen kann, wobei dieses Problem im Kontext noch dadurch erschwert wird, dass der Anteil der Versicherten der AOK Niedersachsen an allen TEP-Patienten des jeweiligen Krankenhauses eine erhebliche Schwankungsbreite aufweist.

Allerdings ist es auch keine einfache Aufgabe, eine Mindestfallzahl zu benennen. In der Forschung ist es üblich, Fallzahlabschätzungen auf der Basis der erwünschten Trennschärfe (Power) eines statistischen Tests vorzunehmen. Im vorliegenden Fall wäre dies für ein bestimmtes Krankenhaus der (zweiseitige) Test auf Signifikanz des Odds-Ratios (bzw. SMRs) in Bezug auf das gewählte Referenzkrankenhaus, wobei die Nullhypothese H0: OR=1 gegenüber der Alternativhypothese H1: OR≠1 geprüft wird. Die Nullhypothese wird zum 5%-Niveau abgelehnt, wenn das 95%-Konfidenzintervall die 1 nicht überdeckt.

Bei der Festlegung der Mindestfallzahl von 20 in jedem der beiden Jahre haben wir uns an dem dichotomen Ergebnisparameter „kritisches Ereignis“ orientiert und im Weiteren von dem Wunsch leiten lassen, dass Krankenhäuser, die in der Untersuchungszeitspanne 2000 und 2001 (beide Jahre zusammen) ein OR von 5 in Bezug auf das Referenzkrankenhaus aufweisen, in der Rangliste als signifikant über dem Durchschnitt auffallen. Um die Herleitung der mindestens erforderlichen Fallzahl nicht zu verkomplizieren, wurden die Berechnungen für das rohe (unadjustierte) Odds-Ratio durchgeführt, so dass man das asymptotische 95%-Konfidenzintervall für das Odds-Ratio Ψ verwenden kann. Dieses hat die Form

Equation 9,

wobei Equation 10 die Schätzung des Odds-Ratios aus den Daten, k die Zahl der kritischen Ereignisse und n die Fallzahl des untersuchten Krankenhauses symbolisiert (sowie kRef und nRef die entsprechenden Größen des Referenzkrankenhauses).

Setzen wir nun die bekannten Größen ein (Equation 10 =5, kRef=3 und nRef=181) und nutzen die Beziehung

Equation 11

aus, so ergibt sich aus der Bedingung, dass die untere Grenze des Konfidenzintervalls größer als 1 sein soll, für die beiden Jahre zusammen eine Mindestfallzahl in Höhe von n=41,6. Gerundet auf 40 und gleichmäßig verteilt auf die beiden Jahre 2000 und 2001 findet die von uns für jedes der beiden Jahre jeweils vorgesehene Mindestfallzahl von n=20 ihre rationale Begründung.

Es werden also im Folgenden die Krankenhäuser in das Ranking einbezogen, die in jedem der beiden Jahre mindestens 20 Versicherten der AOK Niedersachsen ein künstliches Hüftgelenk implantiert haben. Dies sind 65 aus der ursprünglichen Liste für die Zeitspanne 2000/01, entsprechend einem Anteil von 43,3% der Krankenhausgesamtheit des Jahres 2000 (2001: 43,6% und 2000/01: 40,1%).


Ergebnisse

Patientencharakteristika

Im Jahr 2000 erfüllten 4482 AOK-Versicherte die Selektionskriterien und im Jahr 2001 4579 Personen (vgl. Tabelle 3 [Tab. 3]). Unter den Personen, die im Jahre 2001 die Selektionskriterien erfüllten, befinden sich 141 Personen, die bereits im Jahr 2000 die Selektionskriterien erfüllt haben, so dass die Gesamtzahl der Personen nur 8920 beträgt.

Prinzipiell stehen für alle einbezogenen AOK-Versicherten Informationen über den weiteren Verlauf bis zu zwölf Monaten nach der Index-Operation zur Verfügung. Aufgrund von Todesfällen (n=271) sowie wegen Versicherungswechsels (n=34) beträgt die durchschnittliche Nachbeobachtungszeit jedoch nur 357,1 Tage (und nicht 365 Tage).

Krankenhausmerkmale

Operationsvolumen

Das Ergebnis der Abschätzung des Operationsvolumens ist in Tabelle 4 [Tab. 4] zusammengestellt. Von den 168 Krankenhäusern in Niedersachsen, Bremen und Hamburg wiesen 37 (22,4%) ein sehr geringes Operationsvolumen auf. D.h. im Mittel über die Jahre 2000, 2001, 2002 wurden nicht mehr als 10 Hüftoperationen an Versicherten der AOK-Niedersachsen pro Jahr durchgeführt. 13 Krankenhäuser (7,7%) hatten dagegen ein sehr hohes Operationsvolumen, d.h. es wurden mehr als 100 Hüftoperationen pro Jahr an AOK-Versicherten vorgenommen (vgl. Tabelle 4 [Tab. 4]). Die mittlere Anzahl der pro Jahr an AOK-Versicherten durchgeführten Hüftoperationen bewegt sich je nach Kategorie zwischen 4 (Krankenhäuser mit sehr geringem Operationsvolumen pro Jahr) und 140 Operationen (Krankenhäuser mit sehr hohem Operationsvolumen). Die Korrelation des allein auf der Basis der AOK-Versicherten ermittelten Operationsvolumens mit dem der krankenhausbezogenen LKA-Statistik beträgt 0,83 (p<0,0001).

Bettenzahl

Die durchschnittliche Anzahl der Betten in den 168 niedersächsischen, hamburgischen und bremischen Kliniken beträgt 337,1. 20,8% der Krankenhäuser haben weniger als 150 Betten, 35,1% zwischen 150 und 299 Betten, 25,6% zwischen 300 bis 499 Betten, 14,3% zwischen 500 bis 999 Betten und 4,2% 1000 Betten und mehr.

Eine höhere Bettenzahl geht nicht notwendigerweise mit einer größeren Erfahrenheit der Einrichtung mit Hüftoperationen einher. So weisen zwar Kliniken mit einer Bettenzahl von unter 150 überwiegend ein sehr geringes bis geringes Operationsvolumen auf, allerdings verfügen 14,3% dieser Häuser über ein großes Operationsvolumen. Ebenso weisen 28,6% der Häuser mit 1000 und mehr Betten ein großes Operationsvolumen auf (500 bis 999 Betten: 29,2%), aber gleichzeitig fallen auch 42,9% dieser Kliniken in die Kategorie „sehr geringes Volumen“ bei Hüftoperationen (vgl. Tabelle 5 [Tab. 5]).

Ergebnisindikatoren

In Tabelle 6 [Tab. 6] sind die beobachteten Häufigkeiten der verschiedenen, aus den Routinedaten abgeleiteten Indikatoren der Ergebnisqualität getrennt für die Jahre 2000 und 2001 dargestellt.

Insgesamt beträgt die Revisionsrate im Jahr 2000 7,7% und steigt im Jahr 2001 geringfügig und nicht statistisch signifikant auf 8,2% an. 30-Tage-Mortalität und Krankenhausmortalität sind ähnlich hoch (0,9% und 1%). Sowohl Krankenhausmortalität als auch 30-Tage Mortalität bleiben zwischen den beiden Beobachtungsjahren konstant.

Einfluss der Fallmix-Variablen und Krankenhausmerkmale auf die Ergebnisindikatoren

Tabelle 7 [Tab. 7] und Tabelle 8 [Tab. 8] informieren über das Ergebnis der multivariaten Analysen zum Einfluss der Fallmix-Variablen und Krankenhausmerkmale auf die Ergebnisindikatoren. Es zeigt sich dabei z. B., dass

  • das Mortalitätsrisiko erst in der höchsten Altersgruppe (80 Jahre und älter) gegenüber der Referenzgruppe der unter 50-Jährigen signifikant erhöht ist und dass die Art der Indexoperation die Mortalität nicht beeinflusst.
  • die Odds der Wahrscheinlichkeit für eine Revisionsoperation um den Faktor 23,5 mal größer sind, wenn die Indexoperation selbst schon eine Revisionsoperation ist (im Vergleich zu den Odds, wenn die Indexoperation eine Erstoperation ist).
  • Frauen signifikant weniger Revisionsoperationen erfahren und auch ein niedrigeres Mortalitätsrisiko haben als Männer (allerdings nicht signifikant).
  • bei Vorliegen von einer und ab drei Nebendiagnosen das Mortalitätsrisiko erhöht ist, und bei vier und mehr Nebendiagnosen (im Vergleich zu einem Patienten ohne Nebendiagnose) signifikant auf das 3,5-fache ansteigt. Der Abfall des Mortalitätsrisikos beim Vorliegen von zwei nicht-spezifischen Nebendiagnosen ist unplausibel und hängt vermutlich damit zusammen, dass nur sehr wenige Patienten überhaupt gestorben sind.

Ein interessantes Bild ergibt sich aus Tabelle 7 [Tab. 7], was den Einfluss der Krankenhausmerkmale auf die Mortalität, insbesondere die Krankenhausmortalität betrifft:

So ist das Risiko, im Krankenhaus zu sterben, im Vergleich zu den Krankenhäusern mit weniger als 150 Betten in den größeren Häusern erhöht. Bei 1000 Betten und mehr bis auf mehr als das Vierfache. Nur für die zweithöchste Kategorie (500 bis 999 Betten) wird die Erhöhung des Risikos nicht signifikant. Der Mortalitätsgradient über die Kategorien des Operationsvolumens entspricht den Erwartungen. Im Vergleich zu Häusern mit einem sehr großen Operationsvolumen ist das Mortalitätsrisiko in Krankenhäusern mit geringem, mittlerem oder großem Volumen signifikant erhöht und fällt fast linear mit zunehmendem Volumen ab.

Ein anderes Bild ergibt sich für die Wahrscheinlichkeit einer Revisionsoperation (vgl. Tabelle 8 [Tab. 8]). Hier liegen die Häuser mit den mittleren Operationsvolumina – gemessen am Odds-Ratio – signifikant unter den Häusern mit sehr großem Operationsvolumen, und dies gilt in ähnlicher Weise auch für die Größe nach Bettenzahl.

Die Zahl der Revisionsoperationen wird signifikant beeinflusst vom Geschlecht (s.o.), von der Art der Index-Operation (s.o.), von der Zahl der Nebendiagnosen und vom Operationsvolumen. Patienten, die in Krankenhäusern mit einem mittleren oder großen Operationsvolumen operiert wurden, haben im Durchschnitt eine signifikant kleinere Zahl von Revisionsoperationen nach der Index-Operation, als in Krankenhäusern mit sehr großem Operationsvolumen zu erwarten ist. Was die Zahl der Nebendiagnosen anbetrifft, so ergibt sich kein über alle Kategorien konsistentes Bild, da die höchste Kategorie von Nebendiagnosen mit einer kleineren erwarteten Zahl von Revisionsoperationen einhergeht als die zweithöchste. Dies könnte möglicherweise ein Hinweis darauf sein, dass die Fallschwere mit der aus den Routinedaten ableitbaren Zahl der „nicht-spezifischen Nebendiagnosen“ nicht in ausreichendem Maße abgebildet wird.

Krankenhausrangliste

Effekt der Standardisierung bezüglich des Fallmix

Vergleicht man zunächst für die Untersuchungszeitspannen Jahr 2000, Jahr 2001 und Jahre 2001 und 2002 den Effekt der Standardisierung bezüglich des Fallmix, indem man die Rangnummern beim Ranking nach den rohen mit den Rangnummern beim Ranking nach den standardisierten Maßzahlen miteinander korreliert (Rangkorrelationskoeffizient nach Spearmann), so zeigt sich, dass der Effekt unter Zugrundelegung des dichotomen Ergebnisparameters „kritisches Ereignis“ in allen Jahren stärker war (und am stärksten in der Untersuchungszeitspanne 2000/2001) als unter Zugrundelegung des Ergebnisparameters „Zahl der Revisionsoperationen“ (Tabelle 9 [Tab. 9]).

Zeitliche Stabilität der Ranglisten bezüglich des gleichen Ergebnisparameters

Für den Ergebnisparameter „kritisches Ereignis“ erweist sich die Übereinstimmung zwischen den beiden Jahren mit einer Rangkorrelation von nur 0,19 (bei einem möglichen Maximum von 1) als äußerst gering. In einer Simulationsuntersuchung zur Robustheit des in England verbreiteten Verfahrens des Hospital-Rankings fanden Jacobs et al. [20] ähnliche Instabilitäten infolge unkontrollierter Zufallsschwankungen. Dagegen zeigt die Rangliste der Untersuchungszeitspanne 2000/2001 moderate bis gute Übereinstimmung mit denjenigen der Einzeljahre (Tabelle 10 [Tab. 10]). Hier zeigt sich der Vorteil einer breiteren Datenbasis, wenn man das Ranking auf die Daten zweier aufeinander folgender Jahre stützt.

Ähnliche Verhältnisse, insgesamt aber von etwas niedrigerer zeitlichen Stabilität, zeigen sich beim Ranking nach Maßgabe der Zahl der Revisionsoperationen (Tabelle 11 [Tab. 11]).

Übereinstimmung der auf verschiedenen Ergebnisparametern basierenden Ranglisten im gleichen Jahr

Am höchsten ist die Übereinstimmung im Jahr 2000 (Rangkorrelation r=0,848), aber auch in anderen Jahren finden wir Rangkorrelationen in Höhe von 0,8 und darüber. Dies zeigt einerseits, dass der Informationsverlust bei Reduzierung der Zahl der Revisionsoperationen auf den Indikator „Mindestens eine Revisionsoperation“ für Zwecke des Krankenhausvergleichs nicht so hoch ausfällt, wie man a priori vermuten würde, und weist andererseits darauf hin, dass die neben der Revision im Indikator „kritisches Ereignis“ berücksichtigten Mortalitätsindikatoren sich in der Einstufung der Krankenhäuser nur geringfügig niederschlagen (vgl. Tabelle 12 [Tab. 12]).

Güte der Modellanpassung (Modell Fit)

Im klassischen Regressionsmodell, in dem die Koeffizienten nach der Methode der kleinsten Quadrate geschätzt werden, lässt sich die gesamte Varianz der Beobachtungswerte additiv zerlegen in die sog. „erklärte“ Varianz und die Residualvarianz (Varianz der Zufallsfehler). Auf dieser Zerlegung basiert das gängige Maß für die Güte der Anpassung des Modells an die Daten, das sog. R2, der Anteil der erklärten Varianz an der Gesamtvarianz (zumeist in Prozent angegeben). Die Bezeichnung als R2 ist insofern gerechtfertigt, als man zeigen kann, dass der Anteil der erklärten Varianz mit dem Quadrat des multiplen Korrelationskoeffizienten – aus der Zielvariable auf der einen und sämtlichen erklärenden Variable auf der anderen Seite – übereinstimmt.

In den generalisierten linearen Modellen, die wir zur multivariaten Analyse eingesetzt haben, werden die Koeffizienten auf iterativem Wege nach der Maximum-Likelihood-Methode geschätzt, und die Varianz lässt sich nicht mehr in der geschilderten Weise zerlegen. Es wurden daher verschieden Maßzahlen vorgeschlagen, die eine ähnliche Interpretation und ähnliche Eigenschaften wie das klassische R2 besitzen. Eine solche als „Pseudo-R2“ bezeichnete Maßzahl basiert in der Regel auf der Log-Likelihood-Funktion oder der darauf aufbauenden Devianz als ein der Varianz entsprechendes Streuungsmaß. Die folgenden Ausführungen stützen sich auf ein verbreitetes Pseudo-R2-Maß, gelegentlich als Likelihood-Ratio-Index bezeichnet, das von [21], insbesondere für den Gebrauch im Modell der logistischen Regression, vorgeschlagen wurde, und auf ein neueres nach [22], [23] – das für die Poisson-, Negbin- und Normalregression besser geeignet ist –, die beide sowohl im Modell der logistischen als auch im Modell der Poissonregression berechen- und interpretierbar sind und darüber hinaus für die logistische Regression übereinstimmen.

Das von McFadden [21] vorgeschlagene Pseudo-R2 (R2 MF) setzt die Log-Likelihood-Funktion des betrachteten Modells ins Verhältnis zu derjenigen des sog. Nullmodells, das nur aus einer Konstanten besteht (dieser Quotient wird dann noch von 1 abgezogen).

Cameron und Windmeijer [22], [23] sind bei der Herleitung des von Ihnen vorgeschlagenen Pseudo-R2 von der Devianzzerlegung ausgegangen (ganz in Analogie zur Streuungszerlegung im Modell der Normalregression). Ihre als R2 Dev bezeichnete Maßzahl kann interpretiert werden als Verhältnis des Informationsgewinns bei Verwendung des angepassten Modells (anstelle des Nullmodells) zu dem maximal möglichen Informationsgewinn (bei Verwendung des gesättigten Modells anstelle des Nullmodells, wobei das gesättigte Modell ebenso viele Parameter wie Beobachtungen enthält).

Shtatland et al. [24], [25] schlagen die Kombination von R2 MF und R2 Dev im generalisierten linearen Modell explizit vor, weil diese beiden Maßzahlen sich wechselseitig ergänzen und gleichsam die untere und die obere Grenze der Bandbreite der Anpassungsgüte markieren.

Da sowohl das klassische R2 als auch die beiden von uns verwendeten Pseudo-R2-Maßzahlen wachsen, wenn zusätzliche erklärende Variable ins Modell aufgenommen werden, dürfen damit nur Modelle verglichen werden, in denen die Zahl der Variablen übereinstimmen. Ggf. kann man die Maßzahlen bezüglich der Zahl der zu schätzenden Parameter adjustieren [25].

Auf dem Feld der Sozial- und Bevölkerungswissenschaften finden sich im allgemeinen deutlich kleinere R2-Werte als etwa in den Naturwissenschaften. So gesehen erweist sich die Anpassung der multivariaten Modelle zur Erklärung der Ergebnisparameter alles in allem als überraschend gut (Tabelle 13 [Tab. 13]), wobei sowohl das kritische Ereignis als auch die Zahl der Revisionsoperationen ihre höchste Anpassung im Jahr 2001 finden (letzteres nur in Bezug auf R2 Dev).

Ein Vergleich von Tabelle 13 [Tab. 13] mit Tabelle 14 [Tab. 14] und Tabelle 15 [Tab. 15] zeigt allerdings, dass ein Großteil der Anpassung auf die Fallmix-Variablen und nur der kleinere Teil auf die Krankenhausvariablen zurückgeführt werden kann. Dabei ist der Zuwachs an Pseudo-R2 für den dichotomen Indikator „kritisches Ereignis“ in allen Untersuchungszeitspannen deutlich höher als für die Zahl der Revisions-Operationen. Im Hinblick auf den eigentlichen Zweck der multivariaten Analysen – den Qualitätsvergleich der Krankenhäuser – ist daraus zu schließen, dass die Standardisierung bezüglich des Fallmix der operierten Patienten bei Verwendung des „kritischen Ereignisses“ als Ergebnisparameter besser anschlägt als bei Verwendung der Zahl der Revisionsoperationen.

Resultierende ergebnisorientierte Krankenhausrangliste

In der folgenden Tabelle 16 [Tab. 16] ist das Ergebnis des Krankenhausrankings für die Ergebnisindikatoren „Kritisches Ereignis“ und „Zahl der Revisionsoperationen“ sowie die Kombination beider Ergebnisindikatoren dargestellt.


Diskussion

Die verwendeten Datenbestände der Jahre 2000 und 2001 mögen angesichts der Entwicklungen im stationären Sektor (Einführung von DRG etc.) u. U. als „veraltet“ erscheinen. Berücksichtigt man jedoch, dass sich an den der GKV zur Verfügung stehenden Daten nach § 301 SGB V seither nichts substanziell geändert hat – auch aktuellere GKV-Daten enthalten keine grundsätzlich anderen bzw. mehr qualitätsrelevante Informationen – und dass der Schwerpunkt der vorliegenden Studie auf der Illustration des methodischen Vorgehens liegt, stellt die Verwendung älterer Daten keinen substanziellen Nachteil dar.

Auf der Basis von Routinedaten lassen sich zwei Ergebnisparameter der TEP für den Qualitätsvergleich der Krankenhäuser heranziehen:

1.
Das „kritische Ereignis“, das eintritt, wenn sich ein Patient nach der Index-Operation innerhalb eines Jahres einer Revisionsoperation der gleichen Hüfte unterziehen muss oder wenn er innerhalb von 30 Tagen nach der Operation oder im Krankenhaus verstirbt.
2.
Die Zahl der Revisionsoperationen, der sich ein Patient innerhalb eines Jahres nach der Index-Operation an der gleichen Hüfte unterziehen muss.

Der Tod im Zusammenhang mit einer TEP ist glücklicherweise ein so seltenes Ereignis, dass sich die Mortalität als eigenständiger Ergebnisparameter für die vergleichende Qualitätsbewertung nicht eignet.

Bezogen auf jeden der beiden genannten Parameter lässt sich eine Rangliste der Krankenhäuser unter Berücksichtigung des Fallmix erstellen. Hierzu werden multivariate Regressionsmodelle herangezogen, die neben den Fallmix-Variablen auch eine Indikatorvariable für das Krankenhaus enthalten, das die Index-Operation durchgeführt hat. Untersuchungseinheit für diese Regressionsmodelle ist der Patient (bzw. Versicherte) – nicht aber die Operation oder das Krankenhaus.

Ob sich der Fallmix aus den Variablen „Alter“, „Geschlecht“, „Art der Index-Operation“ und „Zahl der nicht-spezifischen Nebendiagnosen“, die man aus den Routinedaten ableiten kann, ausreichend operationalisieren lässt, kann an dieser Stelle nicht abschließend beurteilt werden. Die Analysen geben nur Hinweise darauf, dass die Standardisierung das Ergebnis in höherem Maß erklärt, d.h. wirksamer ist, wenn der erste der beiden vorgeschlagenen Ergebnisparameter verwendet wird.

Durch Zusammenfassung der Daten für mehrere Jahre lässt sich die Reliabilität der Bewertung erhöhen. Die Ergebnisse des Rankings erwiesen sich für beide Ergebnisparameter als zeitlich so wenig stabil, dass ein Qualitätsvergleich auf der Basis eines einzelnen Jahres nicht empfohlen werden kann. Die Zahl der Revisionsoperationen pro Patient enthält mehr Informationen als der ebenfalls denkbare Ergebnisindikator „Mindestens eine Revisionsoperation“, auf den man daher verzichten kann. Nicht verzichten sollte man hingegen auf das kritische Ereignis als zweiten Ergebnisparameter – auch wenn es sich teilweise mit der Zahl der Revisionsoperationen überschneidet –, denn anders ist es nicht möglich, die Mortalität in dem Qualitätsvergleich der Krankenhäuser mit zu berücksichtigen.

Wegen der Überscheidung der beiden Parameter und zum Zwecke der Informationsverdichtung empfiehlt es sich, die beiden zugeordneten Ranglisten der Krankenhäuser in einem letzten Schritt zusammenzufassen. Das gängige Verfahren hierfür basiert auf den Summen der einzelnen Rangplätze. Wichtig für die korrekte Anwendung des Rangsummenverfahrens ist, dass im Fall von Bindungen – d.h., wenn mehrere Krankenhäuser den gleichen Platz beanspruchen und untereinander nach dem gewählten Ergebnisparameter nicht geordnet werden können – mittlere Rangplätze zugeteilt werden (z.B. wenn vier Krankenhäuser sich auf den ersten vier Rangplätzen nicht unterscheiden, muss allen der mittlere Rangplatz 2,5 zugewiesen werden). Bei der Bildung einer Rangsumme kann man nach der Bedeutung der Sortierkriterien der einzelnen Ranglisten gewichten. Da wir die beiden verwendeten Ergebnisparameter für gleich wichtig erachten, haben wir jedem das gleiche Gewicht (=½) gegeben.

Das Ergebnis des zusammenfassenden Rankings ist in Tabelle 16 [Tab. 16] dargestellt. Dass in der Tabelle Odds-Ratios ab einer Größe von 3,6 signifikant werden (und nicht ab 5, wie geplant), liegt daran, dass wir die Fallzahlabschätzung auf eine jährlich zu erstellende Rangliste ausgerichtet haben und in zwei Jahren pro Krankenhaus etwa doppelt so viele Fälle finden wie in einem Jahr.

Die Rangliste zeigt, bezogen auf die beiden Ergebnisparameter „kritisches Ereignis“ und „Zahl der Revisionsoperationen pro Patient“, ein erhebliches Qualitätsgefälle auf, das, wenn der Fall-Mix aus den Routinedaten in ausreichendem Umfang abgebildet wurde, Handlungsbedarf signalisiert.

Die vorgestellte, allein auf Routinedaten der gesetzlichen Krankenversicherung basierende Krankenhausreihenfolge orientiert sich allein an der Häufigkeit unerwünschter Behandlungsergebnisse. Aussagen zu zentralen erwünschten Behandlungsresultaten - beispielsweise das Ausmaß, zu dem Schmerzen vermindert und Alltagsfunktionalität wiederhergestellt werden - gehen dagegen nicht in das Ranking ein, weil derartige Informationen nicht Bestandteil der Routinedaten sind.

In Teil 2 der Publikation [26] werden wir uns mit der Frage auseinandersetzen, ob die Routinedaten eine ausreichende Basis bilden, das Ergebnis der TEP und den Fallmix für die Qualitätsbewertung zu operationalisieren oder ob sie zu diesem Zweck durch Daten aus Versichertenbefragungen ergänzt werden sollten.


Anmerkung

Interessenkonflikte

Die Studie wurde im Auftrag der AOK Niedersachsen durchgeführt.


Literatur

1.
Scheiber A, Koubenec H-J. Transparenz auf dem Gesundheitsmarkt - Informationen als Voraussetzung für einen aufgeklärten, selbstbestimmten Patienten. In: Swart E, Ihle P, editors. Routinedaten im Gesundheitswesen. Handbuch Sekundärdatenanalyse: Grundlagen, Methoden und Perspektiven. Bern: Hans Huber, Hogrefe; 2005. p. 397-402.
2.
Heller G, Swart E, Mansky T. Qualitätsanalysen mit Routinedaten. In: Klauber J, Robra B-P, Schellschmidt H, editors. Krankenhaus-Report 2003. Schwerpunkt Qualitätstransparenz - Instrumente und Konsequenzen. Stuttgart, New York: Schattauer GmbH - Verlag für Medizin und Naturwissenschaften; 2004. p. 271-88.
3.
Swart E. Können uns GKV-Prozessdaten Informationen über die Qualität der stationären Versorgung liefern? In: Swart E, Ihle P, editors. Routinedaten im Gesundheitswesen. Handbuch Sekundärdatenanalyse: Grundlagen, Methoden und Perspektiven. Bern: Hans Huber, Hogrefe; 2005. p. 271-9.
4.
Lohr KN. Medicare: A Strategy for Quality Assurance. Vol. I. Washington, D.C.: National Academy Press; 1990.
5.
Hannan EL, Kumar D, Racz M, Siu AL, Chassin MR. New York state's cardiac surgery reporting system: four years later. Ann Thorac Surg. 1994;58:1852-7.
6.
Cleary R, Beard R, Coles J, et al. Comparative hospital databases: value for management and quality. Qual Health Care. 1994;3(1):3-10.
7.
Ghali WA, Ash AS, Hall RE, Moskowitz MA. Statewide quality improvement initiatives and mortality after cardiac surgery. JAMA. 1997;277(5):379-82.
8.
Mohr VD, Bauer J, Döbler K, Fischer B, Woldenga C. Qualität sichtbar machen. BQS-Report 2002. Düsseldorf: BQS-Bundesgeschäftsstelle Qualitätssicherung; 2003.
9.
Mosafer M. Stationäre Wiederaufnahme als Indikator zur Messung der Ergebnisqualität im stationären Bereich. In: Swart E, Ihle P, editors. Routinedaten im Gesundheitswesen. Handbuch Sekundärdatenanalyse: Grundlagen, Methoden und Perspektiven. Bern: Hans Huber, Hogrefe; 2005. p. 263-70.
10.
Niemann FM, Wohlers J. Dokumentationsflut ohne Nutzen. Deutsches Ärzteblatt. 2005;102(18):C-1002.
11.
Bellamy N, Kirwan J, Boers M et al. Recommendations for a core set of outcome measures for future phase III clinical trials in knee, hip, and hand osteoarthritis. Consensus development at OMERACT III. J Rheumatol. 1997;24(4):799-802.
12.
Atroshi I, Ornstein E, Franzen H, Johnsson R, Stefansdottir A, Sundberg M. Quality of life after hip revision with impaction bone grafting on a par with that 4 years after primary cemented arthroplasty. Acta Orthop Scand. 2004;75(6):677-83.
13.
Faulkner A, Kennedy LG, Baxter K, Donovan J, Wilkinson M, Bevan G. Effectiveness of hip prostheses in primary total hip replacement: a critical review of evidence and an economic model. Health Technol Assess. 1998;2(6):1-146.
14.
Katz JN, Losina E, Barrett J et al. Association between hospital and surgeon procedure volume and outcomes of total hip replacement in the United States medicare population. J Bone Joint Surg Am. 2001;83-A(11):1622-9.
15.
Ethgen O, Bruyere O, Richy F, Dardennes C, Reginster JY. Health-related quality of life in total hip and total knee arthroplasty. A qualitative and systematic review of the literature. J Bone Joint Surg Am. 2004;86-A(5):963-74.
16.
Greenfield S, Apolone G, McNeil BJ. The importance of co-existent disease in the occurrence of postoperative complications and one-year recovery in patients undergoing total hip replacement: Comorbidity and outcomes after hip replacement. Medical Care. 1993;31(2):141-54.
17.
Espehaug B, Havelin LI, Engesaeter LB, Vollset SE. The effect of hospital-type and operating volume on the survival of hip replacements. A review of 39,505 primary total hip replacements reported to the Norwegian Arthroplasty Register, 1988-1996. Acta Orthop Scand. 1999;70(1):12-8.
18.
Heller G. Gibt es einen Zusammenhang zwischen Menge und Ergebnis bei operativen Routineeingriffen in Deutschland? In: Klauber J, Robra B-P, Schellschmidt H, editors. Krankenhaus-Report 2004. Schwerpunkt Qualitätstransparenz - Instrumente und Konsequenzen. Stuttgart, New York: Schattauer GmbH - Verlag für Medizin und Naturwissenschaften; 2005. p. 213-32.
19.
Schäfer T, Gericke CA, Busse R. Health Services Research. In: Ahrens WPI, editor. Handbook of Epidemiology. Berlin Heidelberg New York: Springer Verlag; 2005. p. 473-1543.
20.
Jacobs R, Goddard M, Smith PC. How robust are hospital ranks based on composite performance measures? Med Care. 2005;43(12):1177-84.
21.
McFadden D. The Measurement of Urban Travel Demand. J Public Econ. 1974;3(4):303-28.
22.
Cameron AC, Windmeijer FAG. R-Squared Measures for Count Data Regresion Models with Application to Health Care and Health Insurance in Australia. Journal of Business and Economic Statistics. 1996;14:209-20.
23.
Cameron AC, Windmeijer FAG. An R-Squared Measures of Goodness of Fit for some common Nonlinear Regression Models. J Econom. 1997;77:329-42.
24.
Shtatland ES, Moore S, Barton MB. Why we need R2measure of fit (and not only one) in PROC LOGISTIC and PROC GENMOD. SUGI Proceeding, Cary, NC, SAS Institute, Inc. 2000. p. 1338-43.
25.
Shtatland ES, Kleinman K, Cain EM. One more time about R2measures of fit in logistic regression. NESUG 2002 Proceedings - NorthEast SAS Users Group, Inc. 2002. p. 742-7.
26.
Bitzer EM, Neusser S, Lorenz C, Dörning H, Schäfer T. Krankenhaus-Rangfolgen nach Ergebnisqualität in der Hüftendoprothetik - Routinedaten mit oder ohne Patientenbefragungen? - Teil 2: Patientenbefragung in Kombination mit Routinedaten. GMS Med Inform Biom Epidemiol. 2007;3(1):Doc07.