gms | German Medical Science

63. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V. (GMDS)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie

02. - 06.09.2018, Osnabrück

Propensity Scores aus hochdimensionalen Routinedaten und das DMP Koronare Herzkrankheit

Meeting Abstract

Suche in Medline nach

  • Roland Weigand - AOK Bayern, Regensburg, Deutschland

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie. 63. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (GMDS). Osnabrück, 02.-06.09.2018. Düsseldorf: German Medical Science GMS Publishing House; 2018. DocAbstr. 257

doi: 10.3205/18gmds115, urn:nbn:de:0183-18gmds1156

Veröffentlicht: 27. August 2018

© 2018 Weigand.
Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung). Lizenz-Angaben siehe http://creativecommons.org/licenses/by/4.0/.


Gliederung

Text

Routinedaten der gesetzlichen Krankenversicherung werden regelmäßig zur Evaluation von Versorgungsprogrammen sowie zum Vergleich der "Real-World" Effektivität verschiedener Behandlungsformen herangezogen. Dabei spielt die Risikobereinigung eine essenzielle Rolle. Häufig finden hier grobe Krankheitsgruppen oder Morbiditätsscores aus dem klinischen Kontext Verwendung, etwa die Morbiditätsgruppen von Charlson oder Elixhauser. Auf die potentiell hochdimensionale Informationsmenge in Form von granularen Diagnosekodierungen und Arzneimittelverschreibungen wird in der Regel nicht zurückgegriffen, auch weil die traditionellen Regressions- oder Propensity-Score Methoden bei mehreren Tausend Kontrollvariablen an ihre Grenzen gelangen.

Als möglicher Ausweg hat sich das High-dimensional Propensity Score (hdPS) Verfahren von von Schneeweiß et al. [1] etabliert, wobei die Kontrollvariablen in mehreren Stufen selektiert und transformiert und dann für die Propensity-Score-Schätzung verwendet werden. Der vorliegende Beitrag behandelt ein alternatives Framework, bei dem die Propensity Scores ohne Vorselektion und Aggregation mithilfe von Machine Learning Methoden wie Gradient Boosting geschätzt werden [2]. Wir verwenden endstellige Diagnosecodes nach der International Statistical Classification of Diseases and Related Health Problems (ICD) aus der stationären und ambulanten Behandlung sowie endstellige Wirkstoffcodes der Arzneimittelverschreibungen nach der Anatomisch-Therapeutisch-Chemischen (ATC) Klassifikation, um die beobachtete Morbidität von Programmteilnehmern und Nichtteilnehmern zu kontrollieren. Über 30.000 Kontrollvariablen gehen somit in die Schätzung der Propensity Scores ein.

Grundsätzlich bietet das Machine Learning Verfahren verschiedene Vorteile im Vergleich zum hdPS Algorithmus: Im Gegensatz zur hdPS-Methode werden selten auftretende Diagnose- und Arzneimittelcodes berücksichtigt, falls sie einen deutlichen Effekt auf das Treatment haben. Die Anzahl der Variablen wird automatisch gewählt, so dass weniger Parameter diskretionär gesetzt werden müssen. Während bei der hdPS-Methode endstellige Codes der Performance schaden können, verbessern sie hier die Güte durch eine geeignete Kombination aus Modellselektion und Shrinkage. Zudem können numerische Kontrollvariablen (wie die Anzahl an Tagesdosen bei den Medikamenten) effizient genutzt werden, während der hdPS-Algorithmus diese ohne Bezug zum Treatment in Gruppen aufteilt.

Die genannten Methoden werden angewandt zur Untersuchung der Wirksamkeit des Disease Management Programms (DMP) für Koronare Herzkrankheit in Deutschland. Die Datenbasis bilden neuerkrankte Versicherte der AOK Bayern von 2009 bis 2012, der Auswertungszeitraum reicht bis 2016. Zielgröße ist die 4-Jahres Mortalität. Im Vergleich der hochdimensionalen Methoden mit einer niedrigdimensionalen Referenzschätzung zeigt sich eine deutlich verbesserte Prognosekraft in Bezug auf die DMP-Teilnahme. Die geschätzten Programmeffekte unterscheiden sich ebenfalls deutlich: Verringert sich die Mortalität bei Teilnahme laut Benchmark um gut 4 Prozentpunkte, ist der Effekt unter Verwendung der hochdimensionalen Methoden deutlich geringer. Im Vergleich von Machine Learning mit hdPS-Methode zeigt sich eine deutlich bessere Prognosekraft der reinen Machine Learning Verfahren, was in scheinbarem Widerspruch zur bestehenden Literatur steht [3]. Auch in Bezug auf die Schätzung der Treatment-Effekte, die üblicherweise simulationsbasiert evaluiert wird, stellen sich die Ergebnisse beim reinen Machine Learning besser dar als in der bisherigen Literatur [4], [5].

Die vorläufigen Ergebnisse weisen auf eine verbesserte Risikobereinigung mit hochdimensionalen Kontrollvariablen hin. Reine Machine Learning Methoden zur Schätzung von Propensity Scores mit hochdimensionalen Daten stellen im vorliegenden Kontext eine geeignete Alternative zur etablierten hdPS Methode dar. Unabhängig von der verwendeten Schätzmethode zeigt das DMP für Koronare Herzkrankheit einen günstigen Effekt auf die 4-Jahres-Mortalität.

Die Autoren geben an, dass kein Interessenkonflikt besteht.

Die Autoren geben an, dass kein Ethikvotum erforderlich ist.


Literatur

1.
Schneeweiss S, Rassen JA, Glynn RJ, Avorn J, Mogun H, Brookhart MA. High-dimensional propensity score adjustment in studies of treatment effects using health care claims data. Epidemiology. 2009 Jul;20(4):512-22. DOI: 10.1097/EDE.0b013e3181a663cc Externer Link
2.
Hastie T, Tibshirani R, Friedman J. The Elements of Statistical Learning. New York: Springer-Verlag; 2009.
3.
Ju C, Combs M, Lendle SD, Franklin JM, Wyss R, Schneeweiss S, van der Laan MJ. Propensity score prediction for electronic healthcare databases using Super Learner and High-dimensional Propensity Score Methods [Preprint]. arXiv:1703.02236. 2017.
4.
Karim ME, Pang M, Platt RW. Can We Train Machine Learning Methods to Outperform the High-dimensional Propensity Score Algorithm? Epidemiology. 2018 Mar;29(2):191-198. DOI: 10.1097/EDE.0000000000000787 Externer Link
5.
Wyss R, Schneeweiss S, van der Laan MJ, Lendle SD, Ju C, Franklin JM. Using Super Learner Prediction Modeling to Improve High-dimensional Propensity Score Estimation. Epidemiology. 2018;29:96–106.