gms | German Medical Science

GMDS 2015: 60. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V. (GMDS)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie

06.09. - 09.09.2015, Krefeld

Eignung computerlinguistischer Methoden zur Informationsextraktion aus Arztbriefen

Meeting Abstract

  • Felix Krauss - Institut für Computerlinguistik, Heidelberg, Deutschland
  • Karsten Senghas - Institut für Medizinische Biometrie und Informatik, Heidelberg, Deutschland
  • Petra Knaup-Gregori - Institut für Medizinische Biometrie und Informatik, Heidelberg, Deutschland
  • Martin Löpprich - Institut für Medizinische Biometrie und Informatik, Heidelberg, Deutschland

GMDS 2015. 60. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (GMDS). Krefeld, 06.-09.09.2015. Düsseldorf: German Medical Science GMS Publishing House; 2015. DocAbstr. 253

doi: 10.3205/15gmds044, urn:nbn:de:0183-15gmds0449

Published: August 27, 2015

© 2015 Krauss et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License. See license information at http://creativecommons.org/licenses/by/4.0/.


Outline

Text

Einleitung: In der Patientenversorgung ist der Arztbrief das zentrale Kommunikationsmittel zwischen Klinik und weiterbehandelnden Ärzten. Er enthält eine umfangreiche und detaillierte Darstellung zu allen im Behandlungsverlauf erhobenen Haupt- und Nebendiagnosen, Krankheitsstadien, Schweregraden und Therapieempfehlungen [1]. Daher dient ein Arztbrief häufig als Grundlage einer strukturierten Erfassung relevanter Daten für eine wissenschaftliche Dokumentation. Informationen in Arztbriefen liegen überwiegend als wenig strukturierte, narrative Texte vor. Die Erfassung der strukturierten Daten erfolgt daher meist sehr zeitaufwändig und manuell durch speziell ausgebildete medizinische Dokumentare.

Die automatische Extraktion von Informationen aus Arztbriefen stellt laut Meystre et al. eine besondere Herausforderung dar, da klinische Texte häufig aus kurzen ungrammatischen Textschnipsel bestehen, Abkürzungen, Akronyme und Schreibfehler enthalten und Strukturelemente wie Formatierungen, Satzzeichen und Aufzählungen uneinheitlich verwenden [2]. Hinzu kommt, dass bei selteneren Krankheitsentitäten Trainingsdaten nur begrenzt zu Verfügung stehen, da medizinische Daten zum einen nur unter strengen Richtlinien erfasst und veröffentlicht werden dürfen, und zum anderen in Kombination mit der deutschen Sprache keine annotierten medizinischen Korpora oder spezifischen Werkzeuge erhältlich sind. Trotzdem besteht eine hohe Erwartung was die Präzision einer automatischen Extraktion angeht.

In der vorliegenden Arbeit wurde geprüft, ob computerlinguistische Methoden ein unterstützendes Instrument beim Klassieren und Extrahieren natürlichsprachiger Datenmengen aus Arztbriefen sind. Dazu wurde ein Framework erstellt, das für die Automatisierung des manuellen Erfassungsprozesses verwendet werden kann, sowie die Eignung an 75 Arztbriefen überprüft.

Material und Methoden: Für die Arbeit wurde aus 665 anonymisierten Arztbriefen hämato-onkologischer Patienten der Sektion Multiples Myelom des UniversitätsKlinikums Heidelberg der Diagnose-Textabschnitt extrahiert. Da in einem Diagnose-Textabschnitt mehrere Diagnosen dokumentiert sind, konnten daraus 797 Einzeldiagnosen als wissenschaftlich relevante Diagnosen manuell dokumentiert werden. Aus den Textabschnitten lassen sich bei vollständiger Erhebung neun verschiedene krankheitsspezifische Merkmale ableiten: die Diagnose selbst, je zwei Klassifikationen zur Spezifikation von Krankheitsform und Stadium, der Sekretionsstatus, das Kreatininlevel, sowie das Vorhandensein von Osteolysen oder einer Niereninsuffizienz. Die Merkmalsausprägungen reichen dabei von langen Textpassagen wie der Diagnose „Monoklonale Gammopathie unbekannter Signifikanz“ über Abkürzungen hin zu einzelnen Buchstaben wie „III“ für das Krankheitsstadium 3 oder „A“ für das Kreatininlevel A.

Die Einzeldiagnosen zusammen mit der manuellen Merkmalsdokumentation wurde als Trainingsdatensatz für das maschinelle Lernen genutzt. Weitere 75 zufällig ausgewählte Arztbriefe dienten der Eignungsüberprüfung.

Das entwickelte Framework besteht aus Vorverarbeitungsschritten zur Datenaufbereitung und dem Training eines Klassifikators. Der Aufbau folgt dem einer Pipeline und erlaubt das flexible Hinzufügen und Entfernen einzelner Elemente und die Analyse des Einflusses verschiedener Vorverarbeitungen und Klassifikatoren auf das Gesamtergebnis. Es wurden ausschließlich frei verfügbare Java Bibliotheken und Packages eingesetzt. Als zentrales Werkzeug für die Klassierung von Merkmalen aus den Textsequenzen diente die Java Bibliothek MALLET (Machine Learning for Language Toolkit) [3]. Die Datenaufbereitung nutzt eine Kombination aus Lexikon zur Abkürzungsauflösung, Mustererkennung, Hunspell zur Schreibfehlerkorrektur und OpenNLP als NP-Chunker. Für die Klassierung der Merkmale wurden drei verschiedene Klassifikatoren auf dem Trainingsdatensatz trainiert: ein Multiklassen-Maximum-Entropie Klassifikator, eine Verbindung mehrerer binärer Maximum-Entropie Klassifikatoren, was eine merkmalsbezogene Parameteroptimierung erlaubt, sowie eine Support Vector Machine.

Ergebnisse: Es wurden 15 verschiedene Pipelines analysiert: jeder der drei trainierten Klassifikatoren wurde ohne (Baseline) und mit Datenaufbereitung untersucht. Zur Datenaufbereitung wurden die Vorverarbeitungsverfahren Abkürzungsauflösung, Erkennung regulärer Ausdrücke, Schreibfehlerkorrektur und NP-Chunking einzeln untersucht.

Abhängig vom betrachteten Merkmal liegt die Fehlerrate bei den 75 überprüften Arztbriefen zur Baseline für die drei Klassifikatoren zwischen 0,35 und 3,22 %. Das Hinzuschalten der Vorverarbeitungsverfahren brachte teilweise signifikante Verbesserungen. So konnte beispielsweise durch die Erkennung regulärer Ausdrücke die Fehlerrate beim Kreatininlevel um 31 % gesenkt werden. Bei anderen Merkmalen brachte aber dieselbe Maßnahme wiederrum eine Verschlechterung. Beispielsweise führt ein zusätzliches Leerzeichen bei der Zeichenkette „Ig A“ dazu, dass das A fälschlicherweise dem Kreatininlevel zugeordnet wird, anstelle als Krankheitsform „IgA“ klassiert zu werden. Diese merkmalsspezifischen Verbesserungen und Verschlechterungen einzelner Vorverarbeitungsverfahren konnten über alle Klassifikatoren hinweg beobachtet werden.

Die Klassifikatoren wurden mit Hilfe des F-Maßes, einer Kombination aus Genauigkeit (precision) und Trefferquote (recall), bewertet. Die Support Vector Machine erzielte mit einem durchschnittlichen F-Maß von 0.95 gegenüber dem Multiklassen-Maximum-Entropie Klassifikator und der Kombination mehrerer binärer Maximum-Entropie Klassifikatoren eine um 4,1 % bzw. 5,3 % höhere Güte.

Weiter wurde festgestellt, dass seltene Merkmalsausprägungen in dem Testdatensatz geringe F-Maße liefern und ein F-Maß von über 0.9 eine Häufigkeit von ungefähr 50 Ausprägungen erfordert.

Diskussion: Die geringen Fehlerraten und hohen F-Maße belegen grundsätzlich die Eignung der hier untersuchten computerlinguistischen Methoden. Es wurde aber auch festgestellt, dass kein Best-Practice Verfahren zur Extraktion von Informationen aus Arztbriefen spezifiziert werden kann. Vielmehr ist die Güte eines Verfahrens von den Eigenschaften der klassierten Merkmale (Länge und Eindeutigkeit), der Häufigkeitsverteilung der Merkmalsausprägungen in dem Trainingsdatensatz und der Datenqualität bzw. den eingesetzten Verfahren zur Datenaufbereitung abhängig. Eine spezifische Optimierung der eingesetzten Methoden bezogen auf eine bestimmte Krankheitsentität und auf die zu erfassenden Merkmale ist daher immer erforderlich. Allerding ist dies mitunter schwierig und kann auch äußerst zeit- und ressourcenaufwändig sein, beispielsweise wenn ein umfangreicher Trainingsdatensatz zunächst noch erzeugt werden muss, da Merkmalsklassierung und zugrundeliegender Textabschnitt getrennt voneinander in wissenschaftlicher Datensammlung und im Krankenhausinformationssystem vorliegen.

Von einem Verfahren, dass vollautomatisch Textsequenzen aus Arztbriefen extrahiert und die relevanten Merkmale klassiert, wäre aufgrund unserer Erfahrungen abzuraten. An mindestens einer Stelle im Verarbeitungsprozess sollte eine menschliche Interaktion stattfinden, um die Qualität der Dokumentation zu gewährleisten. So lassen sich beispielsweise bestimmte Dokumentationsrichtlinien wie die Unterscheidung von „nicht vorhanden“ und „nicht anwendbar“ mit einem vollautomatischen Verfahren nur schwer umsetzen, da solche Verfahren gewöhnlich nicht in der Lage sind zu entscheiden, ob tatsächlich keine Merkmalsinformation vorliegt, oder ob nur eine Klassierung nicht möglich ist. In der praktischen Anwendung zeigte sich ebenfalls, dass ein automatischer Zugriff auf die Arztbriefe von vielen Krankenhausinformationssystemen nicht unterstützt wird. Die Textstellen wurden daher von Hand in das Framework kopiert und das automatische Verfahren gestartet. Geübte Dokumentare wären bei einer vollständigen Dokumentation nur unwesentlich langsamer. Allerdings bietet unser Framework den Vorteil, dass Textstellen aus Arztbriefen, die zusätzlich abgespeichert werden, die Nachvollziehbarkeit einer voll- bzw. semiautomatischen Dokumentation zusätzlich steigert.


Literatur

1.
Unnewehr M, Schaaf B, Friederichs H. Arztbrief: Die Kommunikation optimieren. Deutsches Ärzteblatt. 2013; (110(37): A 1672−6.
2.
Meystre SM, Savova GK, Kipper-Schuler KC, Hurdle JF. Extracting information from textual documents in the electronic health record: a review of recent research. Yearbook of medical informatics. 2008: 128–44.
3.
MALLET: A Machine Learning for Language Toolkit. Amherst: University of Massachusetts; 2002. URL: http://mallet.cs.umass.edu External link