Article
Natural Language Processing basierte Analyse unstrukturierter elektronischer Krankenakten von Dysphagie-Patienten
Search Medline for
Authors
Published: | August 20, 2024 |
---|
Outline
Zusammenfassung
Hintergrund: Die präzise Kommunikation medizinischer Daten, insbesondere im Kontext von Dysphagie, wird durch die heterogene Terminologie und den Einsatz diverser Abkürzungen kompliziert. Das Ziel unserer Untersuchung bestand darin, durch den Einsatz von Natural Language Processing (NLP) Dysphagie-Fälle zu klassifizieren und strukturelle Ähnlichkeiten zu identifizieren.
Material und Methoden: In dieser Studie wurde ein anonymisierter Datensatz von 486 Patienten einer US-amerikanischen Klinik analysiert, welcher unstrukturierte diagnostische und symptomatische Daten enthielt. Mittels NLP-Methoden wurden zunächst die Ähnlichkeiten zwischen den Diagnosen evaluiert, um eine adäquate Patientengruppierung vorzunehmen. Anschließend erfolgte eine Kategorisierung dieser Diagnosen durch den Einsatz spezifischer Sprachmodelle.
Ergebnisse: Die Klassifizierung von Dysphagie-Fällen mittels unterschiedlicher Embedding-Modelle zeigte lediglich geringfügige Übereinstimmungen, was die Identifikation spezifischer Patientengruppen erschwerte. Die Vorverarbeitung der Daten durch Sprachmodelle (Large Language Models, LLMs) führte zu keiner Verbesserung der Diagnosequalität, um die Gruppierung zu verbessern. Die Anwendung von LLMs zur Kategorisierung der Diagnosen in neurogenetische, neurodegenerative, krebs verwandte und andere Erkrankungen, wies hingegen erfolgversprechende Resultate auf. Insbesondere die Kategorisierung mittels closed-source LLMs (GPT-3.5) erzielte einen hohen Übereinstimmungsgrad mit den von unseren medizinischen Kollaborationspartnern definierten Kategorien.
Diskussion: Die Klassifizierung basierend auf unstrukturierten Textdaten stellte sich als herausfordernd dar, vor allem aufgrund der variablen Terminologie. Die Analyse mittels Kategorien spezifischer closed-source LLMs (GPT-3.5) lieferte zufriedenstellende Ergebnisse. Der Einsatz von LLMs zur Unterstützung diagnostischer und therapeutischer Maßnahmen bleibt jedoch kritisch, da diese Modelle noch Defizite in Bezug auf Generalisierbarkeit und Reproduzierbarkeit aufweisen.
Fazit: LLMs bieten die Möglichkeit, Patienten mit Dysphagie in definierte Kategorien zu gruppieren. Eine ausschließliche Klassifizierung basierend auf Sprachmodellen ist jedoch aufgrund der breiten symptomatischen Diversität nur bedingt geeignet. Weiterführende Entwicklungen und ein vertieftes Verständnis von LLMs könnten zukünftig zusätzliche, relevante Erkenntnisse bieten, insbesondere im Umgang mit zunehmend umfangreicheren medizinischen Datensätzen.
Text
Hintergrund
Die präzise und effiziente Kommunikation medizinischer Tatsachen und Diagnosen ist für die Gesundheitsversorgung von großer Bedeutung. Eine Herausforderung dabei ist die vielfältige und manchmal uneinheitliche Terminologie sowie die Verwendung von Abkürzungen, die beispielsweise pathologische Zustände beschreiben. Dies trifft besonders auf Dysphagie zu, bei der eine Vielzahl unterschiedlicher Begriffe zur Beschreibung ähnlicher klinischer Zustände verwendet wird [1]. Unser Ziel war es, durch die Analyse mit Sprachmodellen, sogenannten Large Language Models (LLMs), die Dysphagie-Fälle in Gruppen zu clustern und dabei zugrundeliegende Muster und Ähnlichkeiten aufzudecken.
Material und Methoden
Die Studie untersucht einen vollständig anonymisierten Datensatz von 486 Patient*innen, der von der Klinik Our Lady Of The Lake in Baton Rouge (USA) bereitgestellt wurde. Die medizinischen Informationen der Patient*innen sind in unstrukturierter Textform gespeichert und enthalten diagnostische Informationen sowie symptomatische Berichte. Im Gegensatz zur strukturierten medizinischen Information von z.B. Blutparametern sind Daten in unstrukturierter Freitextform schwieriger zu analysieren. Zur Ableitung von Mustern haben wir die Ähnlichkeiten zwischen diesen medizinischen Diagnosen untersucht, um mögliche Gruppen zu identifizieren. Zudem haben wir überprüft, ob eine Einteilung der Patient*innen in vorgegebene Kategorien mithilfe von LLMs möglich ist [2]. Die Übereinstimmung von Gruppe haben wir durch die Intersection-over-Union (IoU) bestimmt. Der IoU-Wert kann dabei die Werte von 0 (keine Übereinstimmung) bis hin zu 1 (volle Übereinstimmung) annehmen.
Ergebnisse
Für die computergestützte Analyse wurden die Diagnosen mathematisch durch Vektoren beschrieben (= Embeddings). Diese multidimensionale Darstellung des Textes wurde approximiert, sodass die Diagnose jedes Patienten durch einen Punkt im 2-dim. Raum beschrieben wird. Die Analyse der Gruppierung durch verschiedene Embeddings zeigte jedoch wenig Übereinstimmung untereinander. Auch eine Durchführung der Gruppierung mit Unterstützung großer Sprachmodelle, die dabei durch Zusammenfassung der freien unstrukturierten Diagnosen zusätzliches Verständnis mit einbrachten, konnten keine übereinstimmenden Gruppen zeigen. Nach Vorgabe der Kategorien von Neurologisch, Neurodegenerative, Krebs und keines von Beidem (mit „Sonstige“ gekennzeichnet) zeigten jedoch closed-source Sprachmodelle (GPT-3.5), eine vielversprechende Performance Dysphagie-Patient*innen diesen Kategorien zuweisen zu können. Abbildung 1 [Abb. 1] zeigt, dass GPT-3.5 bei 3 von 4 Kategorien eine Übereinstimmung der Kategorien von über 0.5 zeigt.
Diskussion
Die Ergebnisse der diagnosegestützten Gruppierung von dysphagischen Patient*innen zeigte Schwierigkeiten in der Einteilung des unstrukturierten Textes. Die ist einerseits auf die große Vielfalt in der Beschreibung der Diagnosen bei Dysphagie-Patient*innen als auch in der Schwierigkeit von Freitext zu begründen. Die Kategorien gestützte Analyse zeigte jedoch sehr gute Ergebnisse für die closed source Modelle.
Fazit
Die Verwendung LLMs ermöglicht die Kategorisierung von dysphagischen Patient*innen anhand von vorgegebenen Gruppen, jedoch ist eine rein Sprachmodell gesteuerte Gruppierung von Dysphagie-Patient*innen aufgrund der symptomatischen Vielfalt noch nicht sehr zielführend. Die Entwicklung der LLMs und deren kognitiven Verständnisses wächst, weshalb eine Analyse zu einem späteren Zeitpunkt neue Erkenntnisse liefern kann.