gms | German Medical Science

17. Deutscher Kongress für Versorgungsforschung

Deutsches Netzwerk Versorgungsforschung e. V.

10. - 12.10.2018, Berlin

Adaption eines Modells aus dem Natural Language Processing zur Prognose von Leistungskosten auf Basis von GKV Routinedaten

Meeting Abstract

Suche in Medline nach

  • Wolfgang Galetzka - InGef, Versorgungsforschung, Berlin
  • Josephine Jacob - InGef, Versorgungsanalyse, Berlin
  • Dirk Enders - InGef, Biometrie, Berlin

17. Deutscher Kongress für Versorgungsforschung (DKVF). Berlin, 10.-12.10.2018. Düsseldorf: German Medical Science GMS Publishing House; 2018. Doc18dkvf226

doi: 10.3205/18dkvf226, urn:nbn:de:0183-18dkvf2268

Veröffentlicht: 12. Oktober 2018

© 2018 Galetzka et al.
Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung). Lizenz-Angaben siehe http://creativecommons.org/licenses/by/4.0/.


Gliederung

Text

Hintergrund: Aus gesundheitsökonomischer Sicht der Krankenkassen ist die Prognose der Leistungskosten ihrer Versicherten von besonderer Bedeutung. Insbesondere die Nutzung geordneter kategorischer Daten unspezifischer Länge (sequentieller Daten), wie etwa den Diagnosen eines Versicherten, zur Prognose ist eine nichttriviale Herausforderung. Ein neuer Ansatz ist die Einbettung der zugehörigen Codes in einen Vektorraum, eine Adaption des word2vec-Modells aus dem Bereich des Natural Language Processing [1], [2].

Fragestellung: Welches Potential hat die Einbettung sequentieller Daten in einen Vektorraum zur Verbesserung der Güte eines Prognosemodells von Leistungskosten?

Methoden: Datengrundlage bildete eine Forschungsdatenbank mit anonymisierten Routinedaten von ca. einer Million gesetzlich Versicherten, die in ihrer Alters-, Geschlechts- und Wohnortszusammensetzung der deutschen Bevölkerung entspricht.

Die Studienpopulation bestand aus Versicherten, die zwischen dem dritten Quartal 2014 und dem zweiten Quartal 2015 mindestens einen Tag versichert waren. In diesem Vorbeobachtungszeitraum wurden die Kovariablen des Prognosemodells gebildet. Zielgröße waren die individuellen Leistungskosten (gesamt, nur stationär, nur ambulant) im Jahr 2016. Es wurden drei lineare Modelle zur Prognose der jeweiligen Leistungskosten aufgestellt. Modell 1 beinhaltete nur kategoriale (Geschlecht des Versicherten, etc.) und ordinale (Kosten während des Vorbeobachtungszeitraums, Alter, etc.) Kovariablen, Modell 2 beinhaltete nur Kovariablen basierend auf sequentiellen Daten des Versicherten (Medikamente, Operationen und Diagnosen). Jedem Code der sequentiellen Daten wurde ein Vektor zugeordnet. Der Abstand zwischen zwei Vektoren repräsentiert die Ähnlichkeit hinsichtlich weiterer Codes in den Patientenhistorien. Dieser Abstand wurde genutzt um die Versicherten mithilfe eines unüberwachten Clusteringalgorithmus in verschiedene Gruppen zu unterteilen. Die Abstände der der Versicherten zu den Clustermittelpunkten wurden als Kovariablen im linearen Modell verwendet. Modell 3 war Kombination der Modelle 1 und 2.

Die Studienpopulation wurde in zwei Teile geteilt. Eine Trainingsmenge von 80% der Versicherten wurde zur Schätzung der Modellparameter verwendet, die restlichen 20% der Population wurden zur Bewertung der Prognosegüte verwendet.

Ergebnisse: Beim direkten Vergleich der Modelle zeigen sich Prognosegüten vergleichbarer Größe. So beträgt der R² bei den stationären Kosten 7,1% für Modell 2 und 6,5% für Modell 1, bei den ambulanten Kosten sind es 26,5% gegenüber 23,6 % und bei den Gesamtkosten sind es 19,2% gegenüber 21,0%. Die beste Prognosegüte wurde mit Modell 3 erzielt. Hier verbesserte sich der R² bzgl. der ambulanten Kosten auf 28,1%, bzgl. die stationären auf 7,4% und bzgl. der Gesamtkosten auf 23,8%.

Diskussion: Die Prognosequalität konnte durch die Einbettung der sequentiellen Codes im Vergleich zu einem Modell ohne diese verbessert werden. Das R² entspricht in etwa dem R² des Morbi-RSA des Ausgleichsjahres 2016 (24,62%) [3].

Weiterhin bietet die Methode Weiterentwicklungspotential. So wurden bisher weder die zeitliche Abfolge der Codes noch Wechselwirkungen zwischen Diagnosen und Medikamenten berücksichtigt. Weiterhin kann das bisherige Verfahren, die Verwendung der Zuordnungen eines Versicherten zu Clustern in einem linearen Modell, als einschichtiges Neuronales Netz aufgefasst werden. Hier wäre interessant zu untersuchen, ob durch ein anderes Clusteringverfahren ein tieferes Netzwerk identifiziert oder durch andere Aktivierungsfunktionen weitere Verbesserungen erzielt werden können.

Praktische Implikationen: Die entwickelte Methode könnte auf spezifische Versichertengruppen angewendet werden, beispielsweise um die Kosten für Patienten mit für spezielle Erkrankungen zu prognostizieren und so zukünftige Bedarfe frühzeitig identifizieren.


Literatur

1.
Mikolov T, Sutskever I, Chen K, Corrado GS, Dean J. Distributed representations of words and phrases and their compositionality. In: Burges CJC, Bottou L, Welling M, Ghahramani Z, Weinberger KQ, eds. Advances in Neural Information Processing Systems 26. La Jolla, CA: Curran Associates; 2013. p. 3111–9.
2.
Choi Y, Chiu CY, Sontag D. Learning Low-Dimensional Representations of Medical Concepts. AMIA Jt Summits Transl Sci Proc. 2016;2016:41-50.
3.
Drösler et al. Sondergutachten zu den Wirkungen des morbiditätsorientierten Risikostrukturausgleichs. Bonn; 2017 [Abgerufen 15.03.2018]. Verfügbar unter: https://www.bundesversicherungsamt.de/fileadmin/redaktion/Risikostrukturausgleich/20180125Sondergutachten_Wirkung_RSA_2017_korr.pdf Externer Link