gms | German Medical Science

63. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V. (GMDS)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie

02. - 06.09.2018, Osnabrück

Adaption eines Modells aus dem Natural Language Processing zur Prognose von Psychiatrieeinweisungen auf Basis von GKV Routinedaten

Meeting Abstract

Suche in Medline nach

  • Wolfgang Galetzka - Institut für angewandte Gesundheitsforschung Berlin GmbH, Berlin, Deutschland
  • Dirk Enders - Institut für angewandte Gesundheitsforschung Berlin GmbH, Berlin, Deutschland
  • Josephine Jacob - Institut für angewandte Gesundheitsforschung Berlin GmbH, Berlin, Deutschland

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie. 63. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (GMDS). Osnabrück, 02.-06.09.2018. Düsseldorf: German Medical Science GMS Publishing House; 2018. DocAbstr. 167

doi: 10.3205/18gmds106, urn:nbn:de:0183-18gmds1062

Veröffentlicht: 27. August 2018

© 2018 Galetzka et al.
Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung). Lizenz-Angaben siehe http://creativecommons.org/licenses/by/4.0/.


Gliederung

Text

Einleitung: Sowohl aus Patientensicht als auch aus gesundheitsökonomischer Sicht der Kostenträger ist die Prognose von psychiatrischen Krankenhausaufenthalten von Bedeutung. Insbesondere die Nutzung geordneter kategorischer Daten unspezifischer Länge (sequentielle Daten - wie etwa den Diagnosen eines Versicherten) zur Prognose ist eine nichttriviale Herausforderung. Ein neuer Ansatz ist die Einbettung der zugehörigen Codes in einen Vektorraum, eine Adaption des word2vec-Modells aus dem Bereich des Natural Language Processing [1], [2].

Fragestellung: Welches Potential hat die Einbettung sequentieller Daten in einen Vektorraum zur Verbesserung der Güte eines Prognosemodells von Psychiatrieeinweisungen?

Methode: Datengrundlage bildete eine Forschungsdatenbank mit anonymisierten Routinedaten von ca. einer Million gesetzlich Versicherten, die in ihrer Alters-, Geschlechts- und Wohnortszusammensetzung der deutschen Bevölkerung entspricht.

Die Studienpopulation bestand aus Versicherten, die zwischen dem dritten Quartal 2014 und dem zweiten Quartal 2015 mindestens einen Tag versichert waren. In diesem Vorbeobachtungszeitraum wurden die Kovariablen des Prognosemodells gebildet. Zielgröße war die vollstationäre Einweisung in eine psychiatrische Anstalt im Jahr 2016. Es wurden drei Logit-Modelle zur Bestimmung der Einweisungswahrscheinlichkeit aufgestellt. Modell 1 beinhaltete nur kategoriale Kovariablen (Geschlecht des Versicherten etc.) und ordinale Kovariablen (Kosten während des Vorbeobachtungszeitraums, Alter etc.). Modell 2 beinhaltete eine Kovariable basierend auf den sequentiellen Daten des Versicherten (Diagnosen). Dazu wurden alle Codes der sequentiellen Daten aus der Population bestimmt und jedem der über 10.000 Codes ein 40-dimensionaler Vektor zugeordnet. Der Abstand zwischen zwei Vektoren repräsentiert die Ähnlichkeit der Patientenhistorien, in denen die Codes auftauchen. So liegen beispielsweise die Vektoren der ICD-Codes von Hyperurikämie und Gicht nahe beieinander. Mithilfe dieser Vektoren wurden die geometrischen Schwerpunkte der Patienten mit Einweisung und der Patienten ohne Einweisung gebildet. Die Projektion des Vektors eines Patienten auf die Verbindungslinie dieser Schwerpunkte, ein Skalar, wurde als Kovariable des Logit-Modells verwendet. Modell 3 war eine Verfeinerung von Modell 2, bei der die Schwerpunkte, Projektionen und das Logit-Modell auf disjunkten Alters- und Geschlechtsstraten gebildet wurden.

Die Studienpopulation wurde zweigeteilt. Eine Trainingsmenge von 80% der Versicherten wurde zur Schätzung der Modellparameter verwendet, die restlichen 20% zur Bewertung der Prognosegüte.

Ergebnisse: Im direkten Vergleich schneiden die Modelle 2 und 3 besser ab. So beträgt der AUC beim ersten Modell 0,704 (95% KI: 0,689-0,719), beim zweiten 0,791 (95% KI: 0,778-0,804) und beim dritten 0,826 (95% KI: 0,814-0,833).

Diskussion: Die Prognosequalität konnte durch die Berücksichtigung der sequentiellen Codes im Vergleich zu einem Modell ohne diese erheblich verbessert werden.

Diese Methode bietet zusätzliches Weiterentwicklungspotential. So wurden weder die zeitliche Abfolge der Codes noch die verschriebenen Medikamente oder deren Wechselwirkung mit den Diagnosen berücksichtigt. Für Ersteres bietet sich die Verwendung von Convolutional Neural Networks in Kombination mit einer Einbettung an, dieses wurde im Bereich des Natural Language Processing bereits erfolgreich zur Klassifikation von Sätzen verwendet [3]. Hier ist interessant zu untersuchen, ob durch eine geeignete Adaption weitere Verbesserungen erzielt werden können.

Die Autoren geben an, dass kein Interessenkonflikt besteht.

Die Autoren geben an, dass kein Ethikvotum erforderlich ist.


Literatur

1.
Mikolov T, et al. Distributed representations of words and phrases and their compositionality. Advances in Neural Information Processing Systems. 2013:3111–9.
2.
Choi Y, Chiu Y, Sonntag D. Learning Low-Dimensional Representations of Medical Concepts. In: Proceedings of the AMIA Summit on Clinical Research Informatics (CRI). 2016. p. 41-50.
3.
Yoon K. Convolutional neural networks for sentence classification. In: Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing. 2014. p. 1746-51.