Artikel
Krankenhaus-Rangfolgen nach Ergebnisqualität in der Hüftendoprothetik - Routinedaten mit oder ohne Patientenbefragungen? - Teil 2: Patientenbefragung in Kombination mit Routinedaten
Ranking hospitals for outcomes in total hip replacement - administrative data with or without patient surveys? - Part 2: Patient survey and administrative data
Suche in Medline nach
Autoren
Veröffentlicht: | 15. März 2007 |
---|
Gliederung
Zusammenfassung
Hintergrund: Krankenhausrankings beziehen sich häufig auf schwere, unerwünschte Therapieresultate und beruhen auf routinemäßig verfügbaren Abrechnungsdaten. Im vorliegenden Projekt wurde am Beispiel der Implantation künstlicher Hüftgelenke untersucht, ob und inwieweit die den gesetzlichen Krankenkassen zur Verfügung stehenden Routinedaten für vergleichende Qualitätsbewertungen auf der Ebene einzelner Krankenhäuser bereits ausreichend sind oder ob eine inhaltlich angemessene Bewertung erst nach Ergänzung der Routinedaten um zusätzlich erhobene patientenseitige Informationen möglich ist. Im zweiten Teil der Publikation werden die Ergebnisse des auf der Kombination von Routinedaten und Patientenbefragung basierenden Qualitätsvergleichs vorgestellt.
Methodik: Zur Verfügung standen Routinedaten der AOK Niedersachsen des Jahres 2002 (u.a. Stammdaten und Daten nach SGB V § 301) sowie Daten einer Versichertenbefragung. Die Studienpopulation umfasste hauptsächlich Versicherten, die im Jahr 2002 erstmals ein künstliches Hüftgelenk erhielten, sechs Monate postoperativ angeschrieben wurden und an der Befragung teilnahmen. Das Krankenhaus-Ranking erfolgte anhand der Ergebnisindikatoren „Revision“, „selbstberichtete Komplikationen“ und „Veränderungen in der Alltagsfunktionalität“ für Krankenhäuser, die im Jahr 2002 mindestens 20 Fälle hatten. Im ersten Schritt erfolgte eine multivariate Modellierung (logistische Regression bzw. Generalisiertes lineares Modell) der Ergebnisindikatoren unter Berücksichtigung verschiedener Einflussgrößen (u.a. Alter, Geschlecht, Begleiterkrankungen, Anmanese, präoperative Alltagsfunktion, Operationsvolumen). Für das eigentliche Ranking wurden diese Modelle ohne Krankenhausmerkmale, aber ergänzt um Indikatorvariablen der einzelnen Krankenhäuser, erneut berechnet. Maßgeblich für den Rangplatz war das hinsichtlich der patientenbezogenen Einflussgrößen adjustierte Odds Ratio (Ergebnisindikatoren „Revision“ und „Komplikationen“) bzw. die Standardisierte Differenz SDR (Ergebnisindikator „Veränderungen der Alltagsfunktionalität“) des einzelnen Krankenhauses in Bezug auf ein vorher festgelegtes Referenzkrankenhaus. Die verschiedenen Ranglisten wurden untereinander verglichen und in Bezug auf den Einfluss der Fallmix-Variablen untersucht.
Ergebnisse: Im Beobachtungsjahr erhielten 4089 Versicherte der AOK-Niedersachsen erstmals ein künstliches Hüftgelenk. An der Befragung teilgenommen haben 3293 Versicherte (80,5%). In das Ranking einbezogen wurden 60 Krankenhäuser. Die Übereinstimmung der auf verschiedenen Ergebnisindikatoren beruhenden Rangfolgen ist gering bis hoch (Rangkorrelation nach Spearman zwischen 0,07 und 0,88). Die Modellanpassung wird durch Einbezug der Fallmix-Variablen deutlich verbessert. Die Odds Ratios bzw. SDRs der einzelnen Krankenhäuser bewegen sich zwischen 0,0 bis 6,5 („Revision“), zwischen 0,6 bis 2,4 („Komplikation“) und zwischen -2,24 und 2,44 („Veränderungen der Alltagsfunktionalität“).
Schlussfolgerungen: Der Fallmix lässt sich mit den in der Patientenbefragung erhobenen zusätzlichen Merkmale verlässlicher berücksichtigen als allein mit Merkmalen auf der Basis von Routinedaten. Zudem erlaubt die Patientenbefragung die zusätzliche Berücksichtigung patientennaher Ergebnisindikatoren. Die Konzentration auf Patienten, deren Index-Operation eine Erstoperation gewesen ist, schwächt die Aussagekraft des auf Routinedaten basierenden Ergebnisindikators „Revisionen im Folgezeitraum“, weil Revisionen nach Erst-Operationen weniger häufig auftreten als nach Revisionsoperationen. Bei einem künftigen Vorgehen sollten demnach Routinedaten von allen mit einem künstlichen Hüftgelenk versorgten Patienten und Befragungsdaten von Patienten nach Erst-Implantation kombiniert werden. Um möglichst viele Krankenhäuser in ein Ranking einzubeziehen, sollte zudem die Kooperation mit anderen Krankenkassen angestrebt werden.
Abstract
Background: Many hospital rankings rely on the frequency of adverse outcomes and are based on administrative data. In the study presented here, we tried to find out, to what extent available administrative data of German Sickness Funds allow for an adequate hospital ranking and compared this with rankings based on additional information derived from a patient survey. Total hip replacement was chosen as an example procedure. In part II of the publication, we present the results of the approach based on administrative and patient-derived data.
Methods: We used administrative data from a large health insurance (AOK-Lower Saxony) of the year 2002 and from a patient survey. The study population comprised mainly beneficiaries, who received primary total hip replacement in the year 2002, were mailed a survey 6 month post-operatively and participated in the survey. Performance indicators used where “Revision”, “Complications” and “Change of functional impairment”. Hospitals were ranked if they performed at least 20 procedures on AOK-beneficiaries. Multivariate modelling (logistic regression and generalized linear models) was used to estimate the performance indicators by case-mix variables (a.o. age, sex, co-morbidity, medical history) and hospital characteristics (hospital size, surgical volume). The actual ranking was based on these multivariate models, excluding hospital variables and adding dummy-variables for each hospital. Hospitals were ranked by their case-mix adjusted odds ratio or Standardized Difference (SDR) with respect to a pre-selected reference hospital. The resulting rankings were compared with each other and with regard to the impact of case-mix variables.
Results: 4089 beneficiaries received primary total hip replacement in 2002. 3293 patients participated in the survey (80.5%). The ranking included 60 hospitals. The agreement of rankings based on different performance indicators in the same year was low to high (a correlation coefficient of Spearman between 0.07 to 0.88). Including case-mix variables improved the model fit remarkably. Odds ratios for hospitals varied from 0.0 to 6.5 (Revision), from 0.6 to 2.4 (Complications), and SDRs varied from -2.24 to 2.44 (Change of functional impairment).
Conclusions: Accounting for case-mix with patient-reported variables is more reliable than with variables that can be drawn from administrative data. Furthermore, including a patient survey allows to expand performance measurement on patient-reported, desired outcomes. Focusing on patients after primary total hip replacement weakened “revision” as performance indicator (because revisions after primary hip replacement are less frequent than after revision hip replacement). Future hospital rankings should rely on a combination of administrative data for primary and secondary hip replacements and patient-reported health outcomes after primary hip-replacement. To include as many hospitals as possible, co-operation with other health insurances is warranted.
Einleitung
Wie im ersten Teil der Publikation ausgeführt, kommt der vergleichenden Qualitätsbewertung von Krankenhäusern im Zusammenhang mit Bemühungen um einer größere Transparenz im Gesundheitswesen zumindest theoretisch eine große Bedeutung zu [1], wobei relativ unstrittig ist, dass zu diesem Zweck durchgeführte Krankenhausvergleiche auch Informationen zur Ergebnisqualität einzelner Einrichtungen beinhalten sollten [2], [3]. Ergebnisqualität beinhaltet zwei Aspekte: den Grad, zu dem erwünschte Therapieresultate erreicht werden, und den Grad, zu dem unerwünschte Behandlungsergebnisse vermieden werden [4]. Die meisten ergebnisorientierten Krankenhausrangfolgen basieren vorwiegend auf schweren unerwünschten Therapieresultaten, z. B. der Operationssterblichkeit, schweren Komplikationen oder Wiedereinweisungsraten [5], [6], [7], [8]. Erwünschte Therapieresultate, also beispielsweise der Grad, zu dem bestehende Beschwerden und Symptome reduziert werden können, oder das Ausmaß, in dem eine zuvor eingeschränkte Alltagsfunktionalität wiederhergestellt werden kann, werden dagegen bislang nur selten in Qualitätsvergleichen berücksichtigt. Bei Interventionen, deren primäres Ziel die Verlängerung des Lebens ist, oder in lebensbedrohlichen Notfallsituationen mag die Fokussierung auf unerwünschte Therapieergebnisse ausreichend sein. Bei Interventionen, die vorrangig mit dem Ziel einer Verbesserung der gesundheitsbezogenen Lebensqualität durchgeführt werden, und bei planbaren Interventionen dürften erwünschte Therapieergebnisse als Entscheidungsgrundlage von mindestens genauso großem Interesse sein. Da solche Daten in der Regel nicht in der Routine verfügbar sind, werden sie bislang nur selten in ergebnisorientierten Krankenhausvergleichen berücksichtigt.
Unabhängig von der Auswahl der Ergebnisindikatoren ist bei Krankenhausvergleichen die Problematik unterschiedlicher Fallzusammensetzungen in den zu vergleichenden Untersuchungseinheiten zu berücksichtigen (Fallmix). Eine angemessene Berücksichtigung des Fallmix setzt voraus, das entsprechende Informationen für alle in einem Krankenhaus behandelten Patienten verfügbar sind.
Für Zwecke einer ergebnisorientierten Qualitätsbewertung von Krankenhäusern stehen den Kassen der gesetzlichen Krankenversicherung grundsätzlich die von den Krankenhäusern gemäß § 301 SGB V im Rahmen der Abrechnung übermittelten Routinedaten zur Verfügung [3], [9].
Vor diesem Hintergrund wurde im vorliegenden Projekt untersucht, ob und inwieweit diese Routinedaten für vergleichende Qualitätsbewertungen auf der Ebene einzelner Krankenhäuser bereits ausreichen oder ob sie erst in Kombination mit zusätzlich erhobene patientenseitigen Informationen eine inhaltlich angemessene Bewertung ermöglichen. Als zu bewertende Intervention wurde die Implantation eines künstlichen Hüftgelenks (Totalendoprothese, TEP-Implantation) ausgewählt.
Mit einer TEP-Implantation wird eine deutliche Schmerzreduktion sowie eine möglichst weitgehende Wiederherstellung der Funktionalität des Hüftgelenks und der Alltagsfunktion angestrebt [10]. Zentrale Parameter der Ergebnisqualität sind daher das postoperative Beschwerdeniveau (d.h. Schmerzen und Funktionalität), die Häufigkeit schwerer Komplikationen (z.B. Pneumonie, tiefe Beinvenenthrombose, Implantatbruch) und die (Operations-)Sterblichkeit [11], [12]. Weitere Indikatoren sind die Revisionsrate sowie die Anzahl Revisionsoperationen in einem definierten zeitlichen Abstand zur Index-Operation (z.B. 1 Jahr) [13], [14].
Zentrale Fallmix-Variablen im Rahmen des Qualitätsvergleichs der Intervention „TEP-Implantation“ sind Alter, Geschlecht und das Vorliegen von Begleiterkrankungen [15], [16]. Für die Ergebnisindikatoren „Schmerzen“ und „Alltagsfunktionalität“ ist darüber hinaus das vor der Operation bestehende Ausgangsniveau (präoperatives Beschwerdeniveau) in der Regel der stärkste Prädiktor des postoperativen Ergebnisses [17], [18]. Auch die Art der Vorerkrankung sowie Art und Umfang der Vorbehandlung wurden vereinzelt bereits als die Alltagsfunktionalität beeinflussende Patientenmerkmale beschrieben [15]. Ob und inwiefern die Anzahl der in einer Fachabteilung durchgeführten TEP-Implantationen oder die Größe des Krankenhauses einen Einfluss auf die Ergebnisqualität besitzt, ist umstritten [14], [19], [20].
In der vorliegenden Studie wurden zwei Studienansätze verfolgt und miteinander verglichen:
- 1.
- Vergleichende Qualitätsbewertung niedersächsischer Krankenhäuser (und der Krankenhäuser in Bremen und Hamburg) auf der Basis der Routinedaten bezogen auf TEP-Implantationen, die in den Jahren 2000 und 2001 durchgeführt wurden.
- 2.
- Vergleichende Qualitätsbewertung niedersächsischer Krankenhäuser (und der Krankenhäuser in Bremen und Hamburg) auf der Basis einer Kombination von Routinedaten mit Daten einer Patientenbefragung, bezogen auf TEP-Implantationen, die im Jahr 2002 durchgeführt worden sind.
Aus Gründen der Übersichtlichkeit werden im folgenden nur die Ergebnisse auf der Basis einer Kombination von Routinedaten mit Daten einer Patientenbefragung vorgestellt, die Ergebnisse der allein auf Routinedaten beruhenden vergleichenden Qualitätsbewertung werden im ersten Teil der Publikation berichtet [21].
Als Datengrundlage für diesen Untersuchungsteil dienten Routinedaten der AOK-Niedersachsen aus den Jahren 2002 und 2003 sowie eine im Jahr 2003 durchgeführte Befragung von Versicherten der AOK-Niedersachsen. Ziel war es, niedersächsische Krankenhäuser entsprechend ihrer Ergebnisqualität in eine Rangfolge zu bringen. In Niedersachsen wurden im Jahr 2000 knapp 10.000 TEP-Implantationen durchgeführt, ca. 45% davon bei Versicherten der AOK-Niedersachsen.
Material und Methodik
Einbezogen wurden AOK-Versicherte,
- die in der Zeitspanne zwischen dem 1.1.2002 und dem 31.12.2002 einen Krankenhausaufenthalt in Niedersachsen, Bremen oder Hamburg hatten, der mit den Fallpauschalen 17.061 oder mit den Sonderentgelten 17.03 oder 17.071 gegenüber der AOK-Niedersachsen abgerechnet worden ist,
- und die zum Zeitpunkt der Befragung noch bei der AOK versichert gewesen sind (d.h. nicht verstorben waren oder die Krankenkassen gewechselt hatten).
Eine Basis der vorliegenden Studie bilden die pseudonymisierten Routinedaten der AOK-Niedersachsen. Einbezogen wurden Informationen aus den Versichertenstammdaten, zu Versicherungszeiten und zum stationären Leistungsgeschehen. Für die befragten Patienten standen Routinedaten zu stationären Aufenthalten bis Ende Dezember 2003 zur Verfügung.
Die Befragung der Patienten erfolgte zwischen fünf und sieben Monate nach der Indexoperation, d.h. mit einem zeitlichen Mindestabstand zur Index-Operationen von im Mittel sechs Monaten. Bei diesem zeitlichen Abstand sollten eine weitgehende Stabilisierung des Operationsergebnisses eingetreten und substanzielle Verbesserungen des Beschwerdebildes nachweisbar sein. Drei Wochen nach Versand des Fragebogens erhielten die Patienten, die noch nicht geantwortet hatten, ein Erinnerungsschreiben (inkl. Befragungsunterlagen).
Datenfluss – Datenschutz
Die Identifikation der Zielgruppen erfolgte nach den oben beschriebenen Kriterien durch die Krankenkasse. Alle für die Patientenbefragung selektierten Versicherten erhielten einen von der Krankenkasse versandten Fragebogen, der mit einer eindeutigen Code-Nummer (Pseudonymisierungsnummer) versehen war. Die Fragebögen wurden von den angeschriebenen Versicherten direkt an das ISEG zurückgeschickt. Die Code-Nummer diente auch zur Pseudonymisierung der Routinedaten, so dass Angaben aus der Patientenbefragung mit Informationen aus den Routinedaten verknüpft werden konnten. Dieses Vorgehen gewährleistete personenbezogene Analysen, ohne Rückschlüsse auf einzelne Versicherte zu ermöglichen.
Operationalisierung der Ergebnisqualität
Die 1-Jahres-Revisionsrate sowie die Anzahl der Revisionsoperationen wurde berechnet, indem alle weiteren Krankenhausaufenthalte innerhalb von zwölf Monaten nach der Index-Operation ermittelt wurden, bei denen:
- entweder die Fallpauschale 17.071 abgerechnet wurde, die sich explizit auf den Ersatz einer Endoprothese durch eine Hüftgelenk-Prothese bezieht,
- oder der OPS-Schlüssel auf eine Revisionsoperation oder Komplikationen im Zusammenhang mit einem künstlichen Hüftgelenk hinweist (OPS 5-821),
- oder als Entlassungsdiagnose der ICD-Code "T84 Komplikationen durch orthopädische Endoprothesen, Implantate oder Transplantate“ angegeben wurde.
Auf die Berechnung von Mortalitätsraten wurde in diesem Studienansatz verzichtet, da bei der Selektion der Studienpopulation zum Zeitpunkt der Befragung bereits verstorbene Patienten ausgeschlossen wurden.
Zur Bestimmung von Veränderungen des Beschwerdeniveaus (Schmerzen und Alltagsfunktionalität) wurde im Rahmen der Patientenbefragung der von Lequesne et al. [22] entwickelte und von Ludwig et al. [23] für den deutschen Sprachraum adaptierte Index verwendet. Der Lequesne-Index besteht aus elf Einzelitems, die Schmerzen, die maximale Gehstrecke sowie Aktivitäten des täglichen Lebens thematisieren. Die Items werden mit numerischen Werten zu einem Gesamtscore verrechnet, der Werte zwischen „0“ und „24“ annehmen kann, wobei hohe Werte eine hohe Beeinträchtigung repräsentieren. Ein Gesamtscore für den Lequesne-Index wurde berechnet, wenn zu mindestens sechs der elf Einzelitems gültige Werte vorlagen. In diesem Fall wurden ggf. fehlende Werte durch die mit Stuart’s tau c gewichtete Summe der nicht-fehlenden Werte ersetzt. (Stuart’s Tau-c: Ein nicht-parametrisches Zusammenhangsmaß für ordinale Variablen, das Bindungen und Anzahl der Variablenausprägungen berücksichtigt.)
Um Veränderungen bei indikationsspezifischen Beschwerden zwischen einem Zeitpunkt vor der Operation und dem Befragungszeitpunkt auch im Rahmen einer Einpunkterhebung abbilden zu können, wurde eine Variante der direkten Veränderungsmessung verwendet, in der die Versicherten gebeten werden, sich zum Zeitpunkt der Befragung an die Höhe der vor der Operation bestehenden Beschwerden zu erinnern. Mit diesem forschungsökonomischen Verfahren der Veränderungsmessung lassen sich im Vergleich zu einer prospektiven Zweipunktbefragung insbesondere bei stark beeinträchtigenden Erkrankungen valide Ergebnisse erzielen [24], [25].
Die Erfassung postoperativer Komplikationen erfolgte im Rahmen der Patientenbefragung mit Hilfe einer bereits in mehreren Studien verwendeten Checkliste [26], [27], die folgende Items umfasste: Eitrige Entzündung im Bereich der Operationswunde, Nicht-eitrige Entzündung im Bereich der Operationswunde, Knochenentzündung des operierten Hüftgelenkes, Entzündung der Harnwege, Lungenentzündung, Tiefe Beinvenenthrombose, Lungenembolie. Darüber hinaus bestand für die Befragten die Möglichkeit, weitere postoperative Beschwerden im Freitext zu benennen. Die Anzahl der selbstberichteten Komplikationen wurde als Ergebnisparameter verwendet.
Operationalisierung des Fallmix
Für den hier diskutierten zweiten Studienansatz wurden neben den aus den Routinedaten ableitbaren Merkmalen Alter, Geschlecht und Art der Index-Operation (Erstimplantationen/ Revision) folgende in der Patientenbefragung erhobene anamnestische Angaben als Fallmix-Variablen verwendet: Oberschenkelhalsbruch (ja/nein), Osteoporose (ja/nein), Rheumatische Arthritis (ja/nein), Anzahl der Begleiterkrankungen, (erinnerter) präoperativer Lequesne-Index, Operationen während des Index-Aufenthaltes (einseitig/beidseitig).
Alter und Geschlecht können den Stammdaten der Krankenkasse entnommen werden. Der Indikator „Art der Index-Operation“ spiegelt wider, ob es sich bei der Index-Operation um die Erstimplantation eines künstlichen Hüftgelenkes handelte oder ob die Index-Operation bereits eine Revisionsoperation darstellte. Die Index-Operation wurde als Revisionsoperation eingestuft, wenn entweder die Fallpauschale 17.071 oder der OPS-Schlüssel auf eine Revisionsoperation oder Komplikationen im Zusammenhang mit einem künstlichen Hüftgelenk hinwies (OPS 5-821).
Die Anzahl der Begleiterkrankungen wurde anhand des von Katz et al. [28] entwickelten und validierten Komorbiditätsindex erhoben, der u.a. Erkrankungen wie Asthma, Herzinsuffizienz oder Krebserkrankungen erfasst. Darüber hinaus wurden Angaben zur Anamnese (Art der präoperativ durchgeführten Behandlungen, Vorliegen entzündlicher Gelenkerkrankungen, Oberschenkelhalsfraktur) erhoben.
Operationalisierung von Krankenhausmerkmalen
In beiden Untersuchungsansätzen wurden die Klinikmerkmale „Bettenzahl“ und „Operationsvolumen“ als zusätzliche, potenziell die Ergebnisqualität beeinflussende Merkmale einbezogen. Die Bettenzahl als Indikator für die Größe eines Krankenhauses wurde in fünf Kategorien eingeteilt (<150 Betten, 150-299 Betten, 300-499 Betten, 500-999 Betten, >=1000 Betten).
Die Anzahl der jährlich in den Krankenhäusern durchgeführten TEP-Implantationen (Operationsvolumen) wird als Grad für die „Erfahrenheit“ der Einrichtung angesehen. Anhand der Routinedaten der AOK-Niedersachsen wurde eine Abschätzung dieses Parameters für Krankenhäuser in Niedersachsen, Hamburg und Bremen vorgenommen (zu methodischen Details s. [21]).
Multivariate Modellierung des Einflusses der Fallmix-Variablen und Krankenhausmerkmale
Ziel dieser Analysen war es, einen Überblick über die Relevanz der Einflussgrößen zu erhalten. Die beiden dichotomen Ergebnisparameter, die auf das Vorkommen mindesten einer Revisionsoperation bzw. mindestens einer Komplikation nach der Index-Operation hinweisen, folgen beide der Binomialverteilung und die multivariate Abhängigkeit von den verschiedenen Einflussgrößen kann – wie in Teil 1 der Publikation [21] – mit dem Modell der logistischen Regression geschätzt werden.
Darüber hinaus besteht – wie in Teil 1 der Publikation [21] näher ausgeführt – die Möglichkeit, die Abhängigkeit der beiden Zählvariablen „Zahl der Revisionsoperationen nach der Index-Operation“ und „Zahl der Komplikationen nach der Index-Operation“ von den Krankenhaus- und Fallmix-Variablen (ohne Informationsverlust) in einer Poisson- bzw. Negbinregression zu modellieren. Allerdings haben sich nur 119 Patienten (3,6%) einer (oder mehrerer) Revisionsoperation unterzogen. Darüber hinaus hat die Auswertung der Routinebestände der Jahre 2000 und 2001 eine hohe Korrelation (von über 0,9) der Krankenhausrangfolgen ergeben, die man unter Zugrundelegung einerseits der Zahl der Revisionsoperationen und andererseits der dichotomen Variable Revision erhält. Vor diesem Hintergrund wurde auf eine separate Auswertung der Zahl der Revisionsoperationen als Ergebnisparameter verzichtet.
Die Zahl der Komplikationen nach der Indexoperation hat eine Varianz von 0,465 bei einem Mittelwert von 0,457, ist also frei von dem Phänomen der Overdispersion (vgl. entsprechende Ausführungen in Teil 1 der Publikation [21]). Dieser Ergebnisparameter wurde daher im Rahmen von Poissonregressionen ausgewertet (und zwar ohne Korrektur auf Overdispersion).
Lequesne-Delta
Mit dem Lequesne-Index ist durch die Befragung eine Variable erhoben worden, die es erlaubt, eine weitere Dimension des Operationserfolges für den Qualitätsvergleich der Krankenhäuser zu nutzen: Wenn die Operation für den Patienten, was die Mobilität und die Wahrnehmung von Alltagsfunktionen betrifft, als Erfolg gewertet werden kann, muss der postoperative Indexwert deutlich niedriger ausfallen, als der präoperative. Es liegt daher nahe, die Differenz zwischen dem post- und dem präoperativen Wert als eigenständigen und zentralen Parameter der Ergebnisqualität zu betrachten.
Die psychometrischen Eigenschaften des Erhebungsinstrumentes lassen vermuten, dass diese, von uns im Folgenden als „Lequesne-Delta“ angesprochene Differenz, einer Normalverteilung genügt. Dies wird durch die Daten bestätigt (siehe Abbildung 1 [Abb. 1], der man auch entnehmen kann, dass der Lequesne-Index durch die Operation im Durchschnitt um 7,5 Punkte abgesenkt wurde).
Für eine normalverteilte Zielvariable gibt es das übliche Regressionsmodell, im Rahmen dessen die Regressionsparameter mit der Methode der kleinsten Quadrate geschätzt werden (Ordinary Least Square-Regression). Aus theoretischen Gründen stimmen die so erhaltenen Schätzungen mit denjenigen überein, die auf iterativem Wege durch Maximierung der Likelihoodfunktion gewonnen werden [29]. Da alle anderen Ergebnisparameter nur im generalisierten linearen Modell behandelt werden können, in dem zur Schätzung der Regressionsparameter stets die Maximum-Likelihood-Methode angewendet wird, erweist es sich hier als zweckmäßig, das normalverteilte Lequesne-Delta ebenfalls im generalisierten linearen Modell zu behandeln, denn dann lässt sich die Güte der Anpassung für alle betrachteten Modelle mit den gleichen Maßzahlen quantifizieren.
Darüber hinaus bietet diese Vorgehensweise die Möglichkeit, den systematischen linearen Teil des Modells
(vgl. [21]) auch, anders als es üblich ist, logarithmisch mit dem Erwartungswert der Normalverteilung zu verbinden (d.h. den Logarithmus anstelle der Identität als sog. Linkfunktion zu verwenden). Dann stellen – was sich leicht zeigen lässt – die aus den Regressionskoeffizienten ableitbaren Größen
– wie schon in der Poissonregression – die SMRs bezogen auf eine Referenzkategorie bzw. -krankenhaus dar, d.h. das standardisierte Verhältnis zwischen dem in der betrachteten Kategorie einer Einflussgröße (bzw. dem betrachteten Krankenhaus) beobachteten Mittelwert des Lequesne-Delta im Vergleich zu den in der Referenzkategorie (bzw. dem Referenzkrankenhaus ) erwarteten.
In dem üblichen Regressionsmodell für normalverteilte Zielvariable, das nicht auf das standardisierte Verhältnis (SMR), sondern auf die standardisierte Differenz (SDR) von (bedingten) Erwartungswerten abhebt, wird vom mittleren Lequesne-Delta in der betrachteten Kategorie einer Einflussvariable (oder in dem betrachteten Krankenhaus) die in der Referenzkategorie (bzw. dem Referenzkrankenhaus) erwartete abgezogen. Da der Operationserfolg um so größer ist, je größer der Absolutbetrag des (ja negativen) Lequesne-Deltas ist, liegt in einer Kategorie ein positiver Effekt auf den Operationserfolg vor, wenn das SDR negativ ist (und der Effekt ist um so größer, je größer der Absolutbetrag des SDR ausfällt). Das SDR sagt aus, um wie viel Punkte mehr der Lequesne-Index durch die Operation reduziert wurde, als in der Referenzgruppe erwartet. Umgekehrt weisen positive SDR-Werte auf einen negativen Effekt hin.
Das Ranking der Krankenhäuser kann nun sowohl nach den SDR- als auch nach den SMR-Werten vorgenommen werden, wobei zu erwarten ist, dass beide Rankings eine sehr hohe Rangkorrelation aufweisen. Eine alternative Vorgehensweise besteht darin, dass man allein die Fallmix-Variablen in das Modell aufnimmt und die Krankenhäuser nach dem durchschnittlichen Residuum ihrer Patienten (d.h. genauer des Durchschnitts der Differenz zwischen dem beobachteten und dem nach dem Modell erwarteten Wert des Lequesne-Delta der operierten Patienten) bewertet. Hierbei kommt man auf das gleiche Ergebnis wie beim Ranking nach der SDR-Methode.
Erstellung der Krankenhausrangliste
Grundsätzliche Überlegungen zum methodischen Vorgehen werden im 1. Teil der Publikation [21] beschrieben. Auch für den auf der Patientenbefragung beruhenden Ansatz erfolgt die multivariate Standardisierung der für den Qualitätsvergleich verwendeten Odds-Ratios und SMRs mit Hilfe von Regressionsmodellen, die neben den Fallmix-Variablen Indikatorvariablen für jedes Krankenhaus (bis auf das jeweilige Referenzkrankenhaus) enthalten. Der Fallmix wird diesmal durch die Kombination der folgenden Variablen operationalisiert: Geschlecht (aus Routinedaten, dichotom); Alter (aus Routinedaten, klassifiziert); Oberschenkelhalsbruch (dichotom); Osteoporose (dichotom); Rheumatische Arthritis (dichotom); Zahl der Begleiterkrankungen (unklassifiziert); Präoperativer Lequesne-Index (unklassifiziert); Art der Index-Operation (aus Routinedaten, dichotom); Anzahl Index-Operationen (ein- oder beidseitig, dichotom). Postoperative Variablen und präoperative Behandlungen haben wir wegen fehlender oder unklarer Ursache-Wirkungsbeziehung zum Operationserfolg unberücksichtigt gelassen.
Auswahl der verwendeten Ergebnisparameter
Eigenständige Ergebnisparameter sind gegeben durch die Variablen
- Revision (dichotom, weist auf mindestens eine Revisionsoperation in der Nachbeobachtungszeitspanne hin),
- Zahl der berichteten Komplikationen und
- Lequesne-Delta (post- minus präoperativer Wert des Lequesne-Index).
- Zu Vergleichszwecken verwenden wir für Teile der Analyse auch noch den aus der Zahl der berichteten Operationen abgeleiteten Ergebnisparameter „Komplikation“ (ein dichotomer Indikator, der darauf hin weist, dass mindestens eine Komplikation angegeben worden ist), weil dieser in gleicher Weise skaliert ist wie der einzige aus Routinedaten abgeleitete Ergebnisparameter „Revision“.
Auswahl der Referenzkrankenhäuser
Weil die drei eigenständigen Ergebnisparameter diesmal (anders als bei den allein auf Routinedaten beruhenden Analysen, vgl. Teil 1 der Publikation [21]) wesentlich verschiedene Aspekte des Operationserfolges abbilden, erweist es sich als zweckmäßig, ggf. für jeden der drei ein eigenes Referenzkrankenhaus zu wählen. Unter Zugrundelegung der in Teil 1 der Publikation [21] erläuterten Prinzipien haben wir die beiden in Tabelle 1 [Tab. 1] zusammengestellten Krankenhäuser ausgesucht, wobei sich eines der beiden als Referenzkrankenhaus für zwei der Ergebnisparameter eignete.
Festlegung einer Mindestfallzahl
Aufgrund einer Revisionsrate, die nach Art der Stichprobendefinition bei den befragten Versicherten weniger als halb so groß ist, wie im Routinedatensatz 2000/2001, haben wir für den hier ausgewerteten Datenbestand die Mindestfallzahl unter Berücksichtigung ausschließlich der aus den Befragungsdaten ermittelten Ergebnisparameter (Komplikation und Lequesne-Delta) festgelegt.
Orientiert man sich an dem dichotomen Parameter „Komplikationen“, so ergibt sich die Mindestfallzahl nach den in Teil 1 der Publikation [21] ausführlich dargelegten Logik in einer Höhe von n1=8. Ein Odds-Ratio von 5 – bezogen auf das Referenzkrankenhaus Nr. 112 – kann in Krankenhäusern mit mindestens acht Fällen also als signifikant erkannt werden.
Zwei Krankenhäuser werden (unstandardisiert) in Bezug auf das Lequesne-Delta mit Hilfe des Zweistichproben-t-Testes auf signifikante Unterschiede hin überprüft. Die Trennschärfe (Power) des t-Testes und darauf aufbauender Abschätzungen der Mindestfallzahl, um eine vorgegebene Effektgröße bei gegebenen Signifikanzniveau α und Power 1-β entdecken zu können, können aus publizierten Tabellen ermittelt werden.
Mit für Fallzahlabschätzungen verbreiteten Vorgaben von α=5% und β=20% (was einer Power von 80% entspricht) sowie einer Fallzahl von n1=107 im Referenzkrankenhaus lässt sich – unter Zugrundelegung der vorgefundenen Standardabweichung des Lequesne-Deltas von 5,5 Punkten – aus Tabelle 2.4.1 (S. 55) von Cohen [30] für das betrachtete Krankenhaus eine Mindestfallzahl von n2=19 ermitteln, wenn man eine Effektgröße in Höhe von vier post-/präoperativen Differenzpunkten auf der Skala des Lequesne-Index als signifikant erkennen können will. Das stärker einschränkende Selektionskriterium, das sich in Bezug auf das Lequesne-Delta ergibt, wird von 60 Krankenhäusern erfüllt, die in das im Folgenden dargestellte Ranking der Krankenhäuser einbezogen werden.
Für den weiter unten noch zu leistenden Vergleich der Qualitätsbewertung auf der Basis von Routinedaten mit derjenigen auf der Basis von Routine- und Befragungsdaten sei angemerkt, dass die aus Befragungsdaten ableitbaren Ergebnisparameter auf einer deutlich höher auflösenden Skala gemessen werden als diejenigen, die man aus Routinedaten ableiten kann, und daher ein deutlich höherer Anteil aller Krankenhäuser auf dieser Basis in den Vergleich einbezogen werden kann.
Ergebnisse
Studienpopulation
Von den 4089 AOK-Versicherten, bei denen im Jahr 2002 eine Hüftgelenkimplantation nach der Fallpauschale 17.061 oder den Sonderentgelten 17.03 oder 17.07 in Niedersachsen, Bremen oder Hamburg vorgenommen wurde, wurden 3981 Personen im Rahmen der Befragung angeschrieben (97,3%). Von den nicht angeschriebenen Personen (n=108) war die Mehrheit zum Zeitpunkt der Befragung verstorben (n=93) oder aus der AOK-Niedersachsen ausgetreten. Aus der Gruppe der angeschriebenen Personen gingen bis zum 7.10.2003 insgesamt 3363 Erhebungsbögen beim ISEG ein (Brutto-Rücklauf: 84,5%) von denen allerdings nur 3293 als Befragungsteilnehmer für die weiteren Auswertungen eingeschlossen werden konnten (Netto-Rücklauf: 82,7%).
Da 91 Personen zwischen dem 1.1.2002 und dem 31.12.2002 zweimal ein künstliches Hüftgelenk erhielten, wurden sie doppelt angeschrieben. Für diesen Personenkreis wurde nur die erste Hüftoperation als Indexoperation berücksichtigt.
Für die große Mehrheit (81%) der einbezogenen Befragungsteilnehmer steht ein Jahr Nachbeobachtungszeit zur Verfügung (n=2668). Die Zeitspanne der 624 Personen, die im 4. Quartal 2002 ihre Index-Operation erhielten, welche zur Nachbeobachtung zur Verfügung steht, ist etwas kürzer. Durchschnittlich beträgt die Nachbeobachtungszeit in dieser Gruppe 333,4 Tage. Infolge von Todesfällen (n=19) und Versicherungswechsel (n=12) verkürzt sich die durchschnittliche Nachbeobachtungszeit für die Befragungsteilnehmer noch weiter auf 358,2 Tage.
Patientenmerkmale und Ergebnisindikatoren
Knapp zwei Drittel der Befragten waren Frauen (64,7%), das durchschnittliche Alter in der Studienpopulation lag bei 69,3 Jahren. Etwas mehr als die Hälfte der Patienten wies nach eigenen Angaben keine der erfragten Begleiterkrankungen auf. Weitere Patientenmerkmale, Krankenhausmerkmale und die beobachteten Häufigkeiten der aus der Patientenbefragung abgeleiteten Indikatoren der Ergebnisqualität sind in Tabelle 2 [Tab. 2] dargestellt.
Einfluss der Fallmix-Variablen und Krankenhausmerkmale auf die Ergebnisindikatoren
Tabelle 3 [Tab. 3] und Tabelle 4 [Tab. 4] informieren über das Ergebnis der multivariaten Analysen zum Einfluss der Fallmix-Variablen und Krankenhausmerkmale auf die Ergebnisindikatoren. Man beachte, dass für den Ergebnisparameter „Lequesne-Delta“ ein SMR kleiner als Eins einen negativen Effekt der jeweiligen Kategorie der betrachteten Einflussgröße signalisiert, anders als es bei den Ergebnisparametern „Revision“ und „Komplikation“ (Odds-Ratios oder SMR) der Fall ist. (Um das logarithmische Modell überhaupt berechnen zu können, muss zunächst das Lequesne-Delta, d.h. prä- minus poststationärer Indexwert, modelliert werden. Die SMR dieses Modells stimmen jedoch mit den SMRs bezogen auf das negative Lequesne-Delta überein.) Aus diesem Grund haben wir in den Tabellen den Kehrwert 1/SMR eingetragen, der Effekte auf der gleichen Skala misst wie die SMR für die anderen Ergebnisparameter. So ist beispielsweise das 1/SMR in Höhe von 1,53 in der Gruppe der 80 Jahre alten und älteren Versicherten so zu interpretieren, dass die Reduktion des Lequesne-Index infolge der Operation in der Referenzgruppe der bis-49-Jährigen 1,53 mal so hoch ausfällt wie in der der Gruppe der 80 Jahre alten und älteren Versicherten.
Der Vergleich zwischen den beiden Tabellen weist zunächst auf eine deutlich höhere Sensitivität des Lequesne-Deltas auch gegenüber kleinen Veränderungen hin (SMRs sehr nahe 1 werden noch als signifikant von 1 verschieden erkannt), als wir sie bei den anderen Ergebnisparametern finden. Des Weiteren fällt der nahezu monotone Anstieg der Odds-Ratios und der SMRs (bzw. 1/SMR) sämtlicher Ergebnisparameter mit der Zahl der Begleiterkrankungen im Vergleich zur Referenzkategorie „keine Begleiterkrankung“ ins Auge (für Komplikationen und das Lequesne-Delta hochsignifikant). Dieses Verhalten war zu erwarten, es findet sich indessen für die aus Routinedaten ableitbare „Zahl der nicht-spezifischen Nebendiagnosen“ nicht (vgl. Teil 1 der Publikation [21]).
Der Einfluss der anderen Fallmix-Variablen variiert je nach Art des betrachten Ergebnisparameters:
- Das Vorliegen einer rheumatischen Arthritis stellt ein Risiko für Komplikationen dar und wirkt sich ungünstig auf den Operationserfolg – gemessen am Rückgang der funktionalen Beeinträchtigungen des Patienten oder der Patientin – aus.
- Das Geschlecht beeinflusst das Risiko, sich einer Revisionsoperation unterziehen zu müssen (dies ist für Frauen signifikant niedriger als für Männer), und auch die zu erwartende Zahl der Revisionsoperationen ist bei Frauen geringer als bei Männern. Auf die anderen Ergebnisparameter hat das Geschlecht keinen Einfluss. Überraschenderweise beeinflusst das Alter das Risiko für eine Komplikation kaum, aber beurteilt man den Operationserfolg nach der Veränderung des Lequesne-Index, zeigt sich ein deutlicher Gradient zu Lasten der Älteren.
- Ein Oberschenkelhalsbruch als Ursache der Hüftgelenksoperation geht nicht mit signifikant höheren Risiken für Komplikationen oder Revisionen einher, er beeinträchtigt aber den Operationserfolg nach Lequesne.
- Ein höherer präoperativer Lequesne-Index geht mit einem höheren Komplikationsrisiko einher, aber begünstigt den Operationserfolg nach Lequesne. Beide Zusammenhänge sind äußerst plausibel, wobei der zweite in Teilen sicher auch mit dem Regressionseffekt erklärt werden kann. Darunter versteht man das theoretisch begründete Phänomen, dass der Mittelwert eines Merkmals in einer Gruppe, deren Mitglieder als konstituierende Eigenschaft zum Zeitpunkt t0 alle eine Ausprägung dieses Merkmals oberhalb einer vorgegebenen Schwelle besitzen, zu einem späteren Zeitpunkt t1 zurückgegangen („regrediert“) ist.
- Die präoperativen Behandlungen (Schmerzmittel, Krankengymnastik oder Physikalische Therapie) stehen teilweise im Zusammenhang zum Revisionsrisiko bzw. der erwarteten Zahl von Revisionen, was aber wohl als eine Art Indikatorfunktion verstanden werden muss. Sie beeinflussen auch den Operationserfolg nach Lesquene, wobei der (schwach ausgeprägte) ungünstige Effekt der Massagen erklärungsbedürftig erscheint.
Krankenhausrangliste
Effekt der Standardisierung bezüglich des Fallmix
Die stärkste Wirkung auf die Reihung der Krankenhäuser nach der Ergebnisqualität hat der Fallmix bei Verwendung der Veränderung des Beeinträchtigungsniveaus, gemessen durch das Lequesne-Delta. Bei diesem Ergebnisparameter finden wir die kleinste Rangkorrelation zwischen dem rohen und dem standardisierten Effektmaß (vgl. Tabelle 5 [Tab. 5]). Dies liegt vermutlich an der – im Vergleich zu den anderen Fallmix-Variablen – hohen prädiktiven Kraft des präoperativen Lequesne-Index, wenn es um die Vorhersage des Rückgangs von Beeinträchtigungen infolge der Operation geht. Im Bereich der Komplikationen zeigt sich hinsichtlich der Zahl der Komplikationen eine geringfügig stärkere Abhängigkeit des Rankings (kleinerer Rangkorrelationskoeffizient) als in Bezug auf den dichotomen Ergebnisparameter „Komplikation“. Am wenigsten reagiert der Indikator, der auf mindestens eine Revisions-Operation in der Nachbeobachtungszeitspanne hinweist, auf die Standardisierung bezüglich des Fallmix.
Übereinstimmung der auf verschiedenen Ergebnisparametern basierenden Ranglisten der Krankenhäuser
Die durchgängig niedrigen Rangkorrelationskoeffizienten der Tabelle 6 [Tab. 6] weisen nachdrücklich darauf hin, dass Revisionen, Komplikationen und der Rückgang des Beeinträchtigungsniveaus die Ergebnisqualität einer Hüftgelenksoperation auf wesentlich verschiedenen Dimensionen messen. Bezogen auf die rohen (unstandardisierten) Effekte findet sich zwischen dem Lequesne-Delta und dem dichotomen Komplikationsindikator sogar eine negative Rangkorrelation in Höhe von -0,11!
Die beiden den Komplikationen zugeordneten Ergebnisparameter führen zu zwei Ranglisten, die untereinander eine hohe Korrelation von 0,9 aufweisen. Der mit der Dichotomisierung einhergehende Informationsverlust ist somit – wie schon in Teil 1 der Publikation [21] in Bezug auf die Revisionsoperationen festgestellt – wiederum als gering anzusehen.
Die Indikatorvariable, die auf mindestens eine Revision in der Nachbeobachtungszeitspanne hinweist, führt – etwas überraschend – zu einer Rangliste der Krankenhäuser, die so gut wie unabhängig von derjenigen ist, die sich bei Verwendung des Komplikationsindikators ergibt (Rangkorrelation nahe bei Null).
Güte der Modellanpassung (Modell Fit)
Um den angestrebten Vergleich zwischen einem allein auf Routinedaten basierenden Vorgehen und dem Vorgehen auf der Basis von Routinedaten und Patientenbefragung zu unterstützen, verwenden wir die gleichen Maßzahlen für die Güte der Anpassung wie in Teil 1 der Publikation [21], d.h. die beiden Pseudo-R2-Maße nach McFadden [31] (insbesondere für das Logistische Modell) und Cameron und Windmeijer [32] (insbesondere für das Poisson- und das Normalmodell).
Ein Blick auf Tabelle 7 [Tab. 7], Tabelle 8 [Tab. 8] und Tabelle 9 [Tab. 9] zeigt (zumeist auf niedrigerem Niveau) ein ähnliches Bild, wie in Teil 1 der Publikation: Hohe R2-Werte sind überwiegend auf den Beitrag des Fallmix zurückzuführen. Die Standardisierung entfaltet ihre – gemessen an R2 Dev – höchste Wirkung bei Verwendung des Lequesne-Deltas (in erster Linie infolge des dominierenden Einflusses des präoperativen Wertes des Lequesne-Delta, vgl. Tabelle 3 [Tab. 3]) und ihre schwächste bei Verwendung des Komplikationsmerkmals als Ergebnisparameter.
Die Modellanpassung mit der Revision als Zielparameter ist wesentlich schlechter als diejenige in den Jahren 2000 und 2001 mit dem „kritischen Ereignis“ als Ergebnisparameter. Zwar enthält das kritische Ereignis noch die Mortalität, es wird aber wegen der geringen Zahl von Todesfällen im wesentlichen von der Revision bestimmt. Die Ursache für den Verlust an Modellanpassung ist darin begründet, dass wir im Datensatz für 2002 vorwiegend Erstoperationen finden, so dass die dominierende Fallmix-Variable der Jahre 2000 und 2001 – die Art der Indexoperation – ihren Einfluss fast vollständig eingebüßt hat.
Resultierende ergebnisorientierte Krankenhaus-Rangliste
In Tabelle 10 [Tab. 10] ist das Ergebnis des Krankenhausrankings bezogen auf die Ergebnisindikatoren Revision, Komplikationen und Lequesne-Delta sowie die Kombination der drei Ranglisten nach dem Rangsummenkonzept dargestellt.
Diskussion
Das Beobachtungsjahr 2002 mag angesichts der Entwicklungen im stationären Sektor (Einführung von DRG etc.) u. U. als „veraltet“ erscheinen. Allerdings hat sich an den der GKV zur Verfügung stehenden Daten nach § 301 SGB V seither nichts substanziell geändert und auch die Ergebnisse von Patientenbefragungen zur Effektivität der Hüftendoprothetik belegen, dass die Bewertung aus Sicht der Patienten im zeitlichen Verlauf relativ stabil ist [27], [33]. Vor diesem Hintergrund und unter Berücksichtigung des Umstandes, dass der Schwerpunkt der vorliegenden Studie auf der Illustration des methodischen Vorgehens liegt, stellt die Verwendung älterer Daten keinen substanziellen Nachteil dar.
Die Befragung der Patienten ermöglicht es, die Ergebnisqualität auf zwei zusätzlichen, vom Vorkommen von Revisionsoperationen unabhängigen Dimensionen zu quantifizieren, nämlich einerseits hinsichtlich eingetretener Komplikationen und anderseits hinsichtlich des Rückgangs von Beeinträchtigungen infolge der Operation.
Darüber hinaus kann die Komorbidität in standardisierter Weise erhoben werden. Das auf der Basis des Fragebogens gebildete Merkmal „Begleiterkrankungen“ erweist sich als erheblich konsistenter operationalisiert als das aus Routinedaten ableitbare Merkmal „nicht-spezifische Nebendiagnosen“. Auch hat der präoperative Lequesne-Index eine hohe prädiktive Kraft, was die Veränderung des Beeinträchtigungsniveaus infolge der Operation betrifft.
Dennoch kann auf die Routinedaten nicht verzichtet werden, denn die Revision als Zielvariable wird – auch nach Standardisierung bezüglich des Fallmix – in höherem Umfang durch die Krankenhäuser erklärt als die beiden durch Befragung ermittelbaren Ergebnisparameter.
Bezogen auf jeden der drei genannten Parameter lässt sich eine Rangliste der Krankenhäuser unter Berücksichtigung des Fallmix erstellen. Hierzu wurden multivariate Regressionsmodelle herangezogen, die neben den Fallmix-Variablen auch eine Indikatorvariable für das Krankenhaus enthielten, das die Index-Operation durchgeführt hat. Untersuchungseinheit für diese Regressionsmodelle ist der Patient (bzw. Versicherte) – nicht aber die Operation oder das Krankenhaus.
Anhand der hier erhobenen Daten empfiehlt es sich, den Fallmix teils aus Routine-, teils aus Befragungsdaten in folgender Weise zu operationalisieren: Geschlecht (aus Routinedaten, dichotom), Alter (aus Routinedaten, klassifiziert), Oberschenkelhalsbruch (aus Befragungsdaten, dichotom), Osteoporose (aus Befragungsdaten, dichotom), Rheumatische Arthritis (aus Befragungsdaten, dichotom), Zahl der Begleiterkrankungen (aus Befragungsdaten, unklassifiziert), Präoperativer Lequesne-Index (aus Befragungsdaten, unklassifiziert), Art der Index-Operation (aus Routinedaten, dichotom) und Anzahl Operationen (ein- oder beidseitig, aus Befragungsdaten, dichotom)
Ein Problem erwächst in der vorliegenden Studie daraus, dass die mit der Befragung einhergehende Fokussierung auf Erstoperationen das Revisionsmerkmal als Ergebnisparameter hinsichtlich seiner Eignung für Zwecke des Qualitätsvergleiches empfindlich geschwächt hat. Die Koppelung von Routine- mit Befragungsdaten sollte daher in Zukunft anders erfolgen als im Rahmen der hier vorgelegten Studie: in die Stichprobe einbezogen werden sollten alle Versicherten, die ein künstliches Hüftgelenk erhalten haben, ungeachtet, ob es sich bei der Index-Operation um eine Erst-Operation oder um eine Revisionsoperation handelt. Um den klaren Bezug zur Operation bei der Befragung aufrecht erhalten zu können, sollten dann sechs Monate nach der Operation allerdings nur diejenigen Patienten befragt werden, die sich bis zum diesem Zeitpunkt noch keiner Revisionsoperation unterzogen haben (was anhand der Routinedaten überprüft werden kann).
Grundsätzlich können für die Ergebnisparameter „Revision“, „Zahl der Revisionen“, „Komplikation“, „Zahl der Komplikationen“ und „Lequesne-Delta“ selbständige Ranglisten erzeugt werden. Zur Vermeidung der Überschneidungen bei den Revisionen und den Komplikationen erscheint es nach den vorliegenden Analysen jedoch angebracht, entweder die jeweilige dichotome oder die jeweilige Zählvariable zu verwenden.
Die Zahl der Komplikationen enthält zwar mehr Informationen als der zugehörige dichotome Indikator, auch sind die Modellanpassung und der Effekt der Standardisierung geringfügig höher (Tabelle 7 [Tab. 7] und Tabelle 9 [Tab. 9]), aber im Hinblick auf den angestrebten Vergleich zu dem aus Routinedaten ableitbaren dichotomen Revisionsmerkmal einerseits und der hohen Korrelation der Ranglisten (Tabelle 6 [Tab. 6]) andererseits haben wir in der vorliegenden Studie bei Erzeugung der abschließenden Rangliste dem dichotomen Ergebnisparameter den Vorzug zu geben.
Fasst man, dieser Überlegung folgend, also die drei Ranglisten, die sich in Bezug auf die drei Ergebnisparameter Revision, Komplikation und Lequesne-Delta ergeben, mit Hilfe des in Teil 1 der Publikation [21] erläuterten Rangsummenverfahrens zum Zweck der Informationsverdichtung zusammen, so ergibt sich die in Tabelle 10 [Tab. 10] dargestellte Rangliste der Krankenhäuser.
Wegen der geringen Zahl von Revisionsoperationen weicht hier nur ein Krankenhaus statistisch signifikant vom Referenzkrankenhaus ab (mit einem fast siebenfach so großen Revisionsrisiko). In Bezug auf das Vorliegen mindestens einer Komplikation finden sich zwei signifikant vom Referenzkrankenhaus abweichende Krankenhäuser. Dass es nicht mehr sind, überrascht nicht. Die Mindestfallzahl hatten wir zur Entdeckung eines Oddds-Ratios von 5 ab aufwärts geplant. Das maximale standardisierte Odds-Ratio liegt jedoch (erfreulicherweise) bei nur 2,42. Am meisten signifikante Abweichungen finden sich bezüglich des Lequesne-Deltas. Allerdings gehört nur eine davon zu einem Krankenhaus, das schlechter dasteht als das Referenzkrankenhaus (mit einer geringeren Reduktion des Lequesne-Index), alle anderen Krankenhäuser, die sich signifikant vom Referenzkrankenhaus unterscheiden, sind besser.
Zusatznutzen der Befragung
Da die Befragung als Ergänzung des Routinedatensatzes gedacht ist, geht es bei dem Vergleich der beiden Untersuchungsansätze im Wesentlichen um die Frage, ob der Zusatznutzen der Befragung im Rahmen der Qualitätsbewertung den Zusatzaufwand rechtfertigt. Auch ohne Beleg durch eine vollständige Nutzen-Kosten-Analyse, die nicht Gegenstand der hier vorgelegten Studie war, ist plausibel, dass die Zusatzkosten der Befragung – angesichts der Kosten beispielsweise einer Revisionsoperation – nicht ins Gewicht fallen, wenn der Qualitätsvergleich durch die Befragung so verbessert werden kann, dass einige Revisionen und Komplikationen zusätzlich vermieden werden können, weil Schwachstellen in den schlechter bewerteten Krankenhäusern abgebaut oder Operationen in besser bewertete Krankenhäuser verlagert werden können. Dabei ist im Interesse der Krankenhäuser und der Rechtssicherheit eines für den Einsatz in der Routine geeigneten Verfahrens darauf zu achten, dass der Schweregrad der operierten Patienten möglichst umfassend, valide und reliabel Berücksichtigung findet. Darüber hinaus darf die Ergebnisqualität aus der subjektiven Empfindung der operierten Patienten (vor allem Reduktion von Schmerzen und Beeinträchtigungen) nicht vernachlässigt werden.
Unter Berücksichtigung all dieser Aspekte halten wir die Befragung der Patienten im Rahmen einer Qualitätsbewertung der die Operation durchführenden Krankenhäuser für empfehlenswert. Nicht nur, dass ein zentraler patientenorientierter Ergebnisparameter – die Differenz zwischen dem post- und präoperativem Beeinträchtigungsniveau – auf anderem Wege mit vergleichbarem Aufwand nicht erhoben werden kann. Auch die Einbeziehung von Begleiterkrankungen und Merkmalen der Krankheitsgenese zur Abbildung der Fallschwere gelingt, das zeigt die Zusammenschau der Erörterungen in den beiden Teilen der Publikation überzeugend, auf dem Wege der Befragung ungleich verlässlicher als bei Ableitung aus den Routinedaten.
Schlussfolgerungen
Nach einer Umfrage des Marktforschungsinstituts TNS im Auftrag der privaten Klinikkette Helios wollen die deutschen Bürger die Behandlungsqualität von Kliniken in aussagefähigen und leicht verständlichen Ranglisten, die in Zeitungen oder im Internet zugänglich gemacht werden, vergleichen können (Financial Times Deutschland vom 10. November 2005). Derartige Informationen sind in Deutschland bislang allenfalls in Ansätzen verfügbar, was auch die anhaltend kritische Diskussion um die von den Krankenhäusern zu erstellenden strukturierten Qualitätsberichte nach § 137 SGB V sowie die Publikation der Ergebnisse aus der externen Qualitätssicherung durch die Bundesgeschäftsstelle Qualitätssicherung verdeutlicht [1], [34], [35].
Die vorliegende Studie beschäftigt sich mit der Verwendbarkeit von GKV-Routinedaten zur ergebnisorientierten Qualitätsbewertung von Krankenhäusern und mit der, aufgrund der Limitationen der GKV-Routinedaten berechtigten Frage, welchen zusätzlichen Nutzen ergänzend durchgeführte Patientenbefragungen erbringen. Betrachtet man die in den beiden Teilen der vorliegenden Publikation vorgestellten Ergebnisse, lassen sich folgende Schlussfolgerungen für eine auf GKV-Routinedaten beruhende ergebnisorientierte Qualitätsbewertung von TEP-Implantationen durchführenden Krankenhäusern ziehen:
GKV-Routinedaten führen zu einer Bewertung, die zeitlich wenig stabil ist. Daher sollten die Routinedaten, die in ein Bewertungsverfahren einfließen, immer mehrere Jahre (mindestens zwei) umfassen.
Zur Sicherstellung der Validität eines Rankings, zur Erhöhung der Akzeptanz der Ranglisten durch die betroffenen Krankenhäuser und zur Erhöhung der Rechtssicherheit ist eine nach den Regeln der Wissenschaft durchgeführte multivariate Standardisierung bezüglich des Fallmix erforderlich. Die Kombination von Routinedaten und Versichertenbefragung ist insbesondere deswegen sinnvoll, weil nur auf diese Weise wesentliche patientenorientierte Ergebnisparameter und aussagekräftige Indikatoren zur Operationalisierung des Fallmix einbezogen werden können.
Die Kombination von Befragungs- mit den Routinedaten zweier Jahre könnte so erfolgen, dass alle Patienten des ersten einbezogenen Jahres, die zum Zeitpunkt der Befragung erst eine TEP hatten, in die Befragung einbezogen werden. Dadurch würde zum einem die Reliabilität der Befragung erhöht (die Befragten laufen nicht Gefahr, mehrere Operationen miteinander zu verwechseln), zum anderen lägen die Ergebnisse der Befragung so rechtzeitig vor, dass sie in der abschließenden Analyse, wenn auch die Routinedaten des zweiten Jahres bekannt sind, Berücksichtigung finden könnten.
Problematisch an der vorliegenden Studie ist unter Umständen, dass die Qualitätsbewertung der Krankenhäuser nur auf den Daten einer - wenn auch in Niedersachsen stark vertretenen - Krankenkasse beruht. Wie die vorgestellten Ergebnisse belegen, reicht selbst diese an sich recht umfangreiche Datenbasis nicht aus, Einschränkungen des Qualitätsvergleichs wegen zu kleiner Zahlen gänzlich außer Kraft zu setzen. Für einen Bundesland- oder bundesweiten Qualitätsvergleich, der sich auch auf GKV-Routinedaten stützt, wäre daher die Kooperation mehrerer Krankenkassen (zumindest der gesetzlichen Krankenversicherung) sehr wünschenswert. Die Kooperation möglichst vieler (aller) Krankenkassen der GKV würde auch dazu führen, dass die für den Einbezug in die Qualitätsbewertung erforderliche Mindestfallzahl pro Krankenhaus (von z. B. zwanzig Operationen) von einem größeren Anteil der Krankenhäuser erfüllt würde, so dass mehr Krankenhäuser in die Qualitätsbewertung einbezogen würden.
Zwei Drittel der Interviewten der eingangs zitierten Befragung hielten die Sterblichkeitsrate für ein wesentliches Kriterium eines Krankenhausrankings. In der hier vorgelegten, auf TEP ausgerichteten Studie waren die krankenhausspezifischen Sterblichkeitsraten so klein, dass sie nicht separat ausgewertet werden konnten. Um das zu ermöglichen, müsste man entweder die Beschränkung auf ein Bundesland oder die Beschränkung auf eine Kassenart oder die Beschränkung auf eine Operation (Behandlungsart) – oder besser noch, mehrere dieser Beschränkungen simultan – aufheben.
Ein potenzieller Nachteil des hier vorgestellten Vorgehens zur vergleichenden Qualitätsbewertung von Krankenhäusern besteht darin, dass chirurgisch-klinische Merkmale der Behandlung (beispielsweise Indikationsstellung, Verabreichung einer perioperativen Antiobiotikaprophylaxe) bislang in den GKV-Routinedaten nicht adäquat abgebildet und auch durch eine Patientenbefragung nur schwer valide erfassbar sind und so keinen Eingang in die Qualitätsbewertung finden. Derartige Informationen sowie Informationen zu ausgewählten, auch ergebnisorientierten Qualitätsindikatoren werden bundesweit im Rahmen der externen Qualitätssicherung nach § 137 SGB V gesammelt. Im Zuge der Weiterentwicklung von Methoden zur Erstellung von ergebnisorientierten Krankenhausbewertungen bestünde eine lohnende Aufgabe auch darin, die Datenquellen „GKV-Routinedaten“, „Daten der externen Qualitätssicherung“ und „Daten einer Patientenbefragung“ parallel für die Erstellung von Krankenhaus-Rangfolgen zu verwenden und, analog dem hier vorgestellten Vorgehen, miteinander im Hinblick auf ihre Aussagekraft zu vergleichen.
Literatur
- 1.
- Scheiber A, Koubenec H-J. Transparenz auf dem Gesundheitsmarkt - Informationen als Voraussetzung für einen aufgeklärten, selbstbestimmten Patienten. In: Swart E, Ihle P, editors. Routinedaten im Gesundheitswesen. Handbuch Sekundärdatenanalyse: Grundlagen, Methoden und Perspektiven. Bern: Hans Huber, Hogrefe; 2005. p. 397-402.
- 2.
- Heller G, Swart E, Mansky T. Qualitätsanalysen mit Routinedaten. In: Klauber J, Robra B-P, Schellschmidt H, editors. Krankenhaus-Report 2003. Schwerpunkt Qualitätstransparenz - Instrumente und Konsequenzen. Stuttgart, New York: Schattauer GmbH - Verlag für Medizin und Naturwissenschaften; 2004. p. 271-88.
- 3.
- Swart E. Können uns GKV-Prozessdaten Informationen über die Qualität der stationären Versorgung liefern? In: Swart E, Ihle P, editors. Routinedaten im Gesundheitswesen. Handbuch Sekundärdatenanalyse: Grundlagen, Methoden und Perspektiven. Bern: Hans Huber, Hogrefe; 2005. p. 271-9.
- 4.
- Lohr KN. Medicare: A Strategy for Quality Assurance. Vol. I. Washington, D.C.: National Academy Press; 1990.
- 5.
- Hannan EL, Kumar D, Racz M, Siu AL, Chassin MR. New York state's cardiac surgery reporting system: four years later. Ann Thorac Surg. 1994;58:1852-7.
- 6.
- Cleary R, Beard R, Coles J et al. Comparative hospital databases: value for management and quality. Qual Health Care. 1994;3(1):3-10.
- 7.
- Ghali WA, Ash AS, Hall RE, Moskowitz MA. Statewide quality improvement initiatives and mortality after cardiac surgery. JAMA. 1997;277(5):379-82.
- 8.
- Mohr VD, Bauer J, Döbler K, Fischer B, Woldenga C. Qualität sichtbar machen. BQS-Report 2002. Düsseldorf: BQS-Bundesgeschäftsstelle Qualitätssicherung; 2003.
- 9.
- Mosafer M. Stationäre Wiederaufnahme als Indikator zur Messung der Ergebnisqualität im stationären Bereich. In: Swart E, Ihle P, editors. Routinedaten im Gesundheitswesen. Handbuch Sekundärdatenanalyse: Grundlagen, Methoden und Perspektiven. Bern: Hans Huber, Hogrefe; 2005. p. 263-70.
- 10.
- Lühmann D, Kohlmann T, Raspe H. Hüftendoprothetik bei Osteoarthrose - Eine Verfahrensbewertung. Baden-Baden: Nomos; 2000.
- 11.
- Bellamy N, Kirwan J, Boers M et al. Recommendations for a core set of outcome measures for future phase III clinical trials in knee, hip, and hand osteoarthritis. Consensus development at OMERACT III. J Rheumatol. 1997;24(4):799-802.
- 12.
- Atroshi I, Ornstein E, Franzen H, Johnsson R, Stefansdottir A, Sundberg M. Quality of life after hip revision with impaction bone grafting on a par with that 4 years after primary cemented arthroplasty. Acta Orthop Scand. 2004;75(6):677-83.
- 13.
- Faulkner A, Kennedy LG, Baxter K, Donovan J, Wilkinson M, Bevan G. Effectiveness of hip prostheses in primary total hip replacement: a critical review of evidence and an economic model. Health Technol Assess. 1998;2(6):1-146.
- 14.
- Katz JN, Losina E, Barrett J et al. Association between hospital and surgeon procedure volume and outcomes of total hip replacement in the United States medicare population. J Bone Joint Surg Am. 2001;83-A(11):1622-9.
- 15.
- Ethgen O, Bruyere O, Richy F, Dardennes C, Reginster JY. Health-related quality of life in total hip and total knee arthroplasty. A qualitative and systematic review of the literature. J Bone Joint Surg Am. 2004;86-A(5):963-74.
- 16.
- Greenfield S, Apolone G, McNeil BJ. The importance of co-existent disease in the occurrence of postoperative complications and one-year recovery in patients undergoing total hip replacement: Comorbidity and outcomes after hip replacement. Medical Care. 1993;31(2):141-54.
- 17.
- Fortin PR, Clarke AE, Joseph L et al. Outcomes of total hip and knee replacement: preoperative functional status predicts outcomes at six months after surgery. Arthritis Rheum. 1999;42(8):1722-8.
- 18.
- Cleary PD, Reilly DT, Greenfield S et al. Using patient reports to assess health-related quality of life after total hip replacement. Quality of Life Research. 1993;2(1):3-11.
- 19.
- Espehaug B, Havelin LI, Engesaeter LB, Vollset SE. The effect of hospital-type and operating volume on the survival of hip replacements. A review of 39,505 primary total hip replacements reported to the Norwegian Arthroplasty Register, 1988-1996. Acta Orthop Scand. 1999;70(1):12-8.
- 20.
- Heller G. Gibt es einen Zusammenhang zwischen Menge und Ergebnis bei operativen Routineeingriffen in Deutschland? In: Klauber J, Robra B-P, Schellschmidt H, editors. Krankenhaus-Report 2004. Schwerpunkt Qualitätstransparenz - Instrumente und Konsequenzen. Stuttgart, New York: Schattauer GmbH - Verlag für Medizin und Naturwissenschaften; 2005. p. 213-32.
- 21.
- Schäfer T, Neusser S, Lorenz C, Dörning H, Bitzer EM. Krankenhaus-Rangfolgen nach Ergebnisqualität in der Hüftendoprothetik - Routinedaten mit oder ohne ergänzende Patientenbefragungen? - Teil 1: Routinedaten. GMS Med Inform Biom Epidemiol. 2007;3(1):Doc08.
- 22.
- Lequesne M, Mery C, Samson M, Gerard P. Indexes of severity for osteoarthritis of the hip and knee: Validation - value in comparison with other assessment tests. Scand J Rheumatol. 1987;65(Suppl.):85-9.
- 23.
- Ludwig FJ, Melzer H, Grimmig H, Daalmann HH. Kulturelle Adaptation des Lequesne - Index für Hüft- und Kniegelenkserkrankungen im deutschen Sprachraum. Rehabilitation. 2002;41:249-57.
- 24.
- Bitzer EM, Lorenz C, Dörning H. Beurteilung des Ergebnisses elektiver chirurgischer Eingriffe - Indirekte und direkte Veränderungsmessung im Vergleich. Das Gesundheitswesen. 2003;65(8-9):A25.
- 25.
- Bitzer EM, Lorenz C, Dörning H. Comparison of indirect and direct measures of change in symptoms after elective surgery. Quality of Life Research. 2003;12(7):243.
- 26.
- Bitzer EM, Dörning H, Schwartz FW. Determinanten der Veränderung indikationsspezifischer Beschwerden nach Hüftgelenkoperationen. Das Gesundheitswesen. 2000;62(8/9):A114.
- 27.
- Bitzer EM, Grobe TG, Dörning H, Schwartz FW. GEK-Report akut-stationäre Versorgung 2006. St. Augustin: Asgard; 2006.
- 28.
- Katz JN, Chang LC, Sangha O, Fossel AH, Bates DW. Can comorbidity be measured by questionnaire rather than medical record review? Medical Care. 1996;34:73-84.
- 29.
- McCullagh P, Nelder JA. Generalized linear models. Second Edition. London: Chapman and Hall; 1989.
- 30.
- Cohen J. Statistical Power Analysis for the Behavioral Sciences. Revised Edition ed. Orlando u.a.: Academic Press; 1977.
- 31.
- McFadden D. The Measurement of Urban Travel Demand. J Pub Economics. 1974;3(4):303-28.
- 32.
- Cameron AC, Windmeijer FAG. R-Squared Measures for Count Data Regresion Models with Application to Health Care and Health Insurance in Australia. Journal of Business and Economic Statistics. 1996;14:209-20.
- 33.
- Bitzer EM, Dörning H, Schwartz FW. Hüftgelenkoperationen in der Routineversorgung - Komplikationen und ihr Einfluß auf indikationsspezifische Beschwerden. Zeitschrift für Orthopädie und ihre Grenzgebiete. 2000;138(4):324-30.
- 34.
- Dierks ML, Schaeffer D. Informationen über die Qualität der gesundheitlichen Versorgung - Erwartungen und Forderungen der Patienten. In: Klauber J, Robra B-P, Schellschmidt H, editors. Krankenhaus-Report 2004. Schwerpunkt: Qualitätstransparenz. Stuttgart: Schattauer; 2005. p. 135-50.
- 35.
- Leber WD. Qualitätssicherung in einem wettbewerblichen Umfeld. In: Klauber J, Robra B-P, Schellschmidt H, editors. Krankenhaus-Report 2004. Schwerpunkt: Qualitätstransparenz. Stuttgart: Schattauer; 2005. p. 163-78.