Artikel
Nicht-parametrische Regression unter Einbeziehung kategorialer Variablen: Anwendung, Chancen und Grenzen neuerer Kernel-Smoothing Methoden für Fragestellungen der Versorgungsforschung.
Suche in Medline nach
Autoren
Veröffentlicht: | 22. September 2015 |
---|
Gliederung
Text
Hintergrund: Multivariable Regressionsmodelle dienen zur Ermittlung des Zusammenhanges zwischen mehreren erklärenden Variablen und einer bestimmten Zielgröße. Im Gegensatz zur parametrischen Modellierung (z. B. einfache lineare Regression) wird bei der nicht-parametrischen Modellierung die Strukturkomponente nicht direkt durch den Anwender spezifiziert. Nicht-parametrische Modelle sind flexibler, da diese weniger Annahmen benötigen. Für eine Vielzahl von Fragestellungen der Versorgungsforschung kann diese Flexibilität zu einer valideren Schätzung der Zusammenhänge dienen. Viele klassische Verfahren der nicht-parametrischen Regression setzen für unabhängige Variablen und Zielvariable ein metrisches Skalenniveau voraus. Die Berücksichtigung kategorialer Variablen, die erfahrungsgemäß für zahlreiche Probleme der Versorgungsforschung notwendig ist, bedarf einer angemessenen Erweiterung klassischer nicht-parametrischer Verfahren.
Fragestellung: Neben den klassischen Verfahren der nicht-parametrischen Regression (z. B. Multivariate Adaptive Regression Splines oder Kernel-Smoothing) existieren Lösungsansätze, die durch ein erweitertes Kalkül auch die Integration von kategorialen Variablen ermöglichen. Hierfür galt es, Ansätze und korrespondierende Softwareimplementierungen zu identifizieren, an einem ausgewählten Datensatz aus einem Register der Versorgungsforschung anzuwenden und schließlich die methodische Relevanz und die konkrete Anwendbarkeit kritisch einzuschätzen.
Methode: Eine intensive Recherche ergab, dass die kostenfreie Standardsoftware „R“ mit dem Package „np“ die Integration kategorialer Variablen in Regressionsmodelle ohne zusätzlichen Programmieraufwand ermöglicht. Auf eine pseudonymisierte Patientenstichprobe aus dem CONTENT-Register der Abteilung Allgemeinmedizin und Versorgungsforschung des Universitätsklinikums Heidelberg wurde dieses nicht-parametrische Verfahren zur Varianzaufklärung angewandt. Es wurde beispielhaft die patientenseitige pharmakotherapeutische Inanspruchnahme (operationalisiert durch die Anzahl der Verordnungen p. a.) in Abhängigkeit von Alter, Geschlecht und primärer Versicherungsart durch sog. Generalized Product Kernels (Li und Racine, 2007) approximiert.
Ergebnisse: Für den genannten Anwendungsfall war die Integration zweier kategorialer Variablen (Geschlecht, Primäre Versicherungsart) in das nicht-parametrische Regressionsmodell problemlos möglich. Im Vergleich zu entsprechenden parametrischen linearen und nichtlinearen Regressionsmodellen ergab sich für das nicht-parametrische Regressionsmodell ein deutlich größerer Anteil der modellbezogenen Varianzaufklärung. Mehrere Visualisierungen plausibilisieren die Vorteile des nicht-parametrischen Ansatzes für das Beispiel.
Diskussion: Neben den vielversprechenden Optionen für die Versorgungsforschung muss der Rechenintensität des Verfahrens Beachtung geschenkt werden, die für umfangreiche Datenvolumina dessen Einsatz beschränkt.
Praktische Implikationen: Nicht-parametrische Regressionsverfahren sollten für Probleme der Versorgungsforschung dann in Erwägung gezogen werden, wenn keine spezifischen Annahmen über die Struktur der Regressionsfunktion gemacht werden können oder sollen. Eine Integration kategorialer Variablen ist möglich. Allerdings stellen umfangreiche Datenvolumina eine Limitation für diese Verfahren dar.