gms | German Medical Science

GMDS 2014: 59. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V. (GMDS)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie

07. - 10.09.2014, Göttingen

Extraktion kodierter Daten aus textuellen Befundberichten: Eine Fallstudie zu Echokardiographieberichten

Meeting Abstract

  • M. Toepfer - Julius-Maximilians-Universität Würzburg
  • P.D. Beck - Julius-Maximilians-Universität Würzburg
  • G. Dietrich - Julius-Maximilians-Universität Würzburg
  • M. Ertl - Comprehensive Heart Failure Center, Würzburg
  • G. Fette - Julius-Maximilians-Universität Würzburg
  • P. Kluegl - Julius-Maximilians-Universität Würzburg
  • S. Störk - Comprehensive Heart Failure Center, Würzburg
  • F. Puppe - Julius-Maximilians-Universität Würzburg

GMDS 2014. 59. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (GMDS). Göttingen, 07.-10.09.2014. Düsseldorf: German Medical Science GMS Publishing House; 2014. DocAbstr. 304

doi: 10.3205/14gmds069, urn:nbn:de:0183-14gmds0699

Veröffentlicht: 4. September 2014

© 2014 Toepfer et al.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielfältigt, verbreitet und öffentlich zugänglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Gliederung

Text

Einleitung: Im medizinischen Routinebetrieb fallen bei den verschiedensten Vorgängen große Menge an Daten an, die in den klinischen Informationssystemen (KIS) archiviert werden. Diese Datensenken sind ein reichhaltiger Fundus für die klinische Forschung um sowohl retrospektive Untersuchungen zu unterstützen, als auch für das Identifizieren geeigneter Kohorten für zukünftige Studien. Das Explorieren des Anteils der Freitexte dieser Daten gestaltet sich jedoch schwierig, da – abgesehen von einer unzureichenden Volltextsuche – Freitexte schlecht in die strukturierten Suchkonzepte von modernen Datenbanksystemen integriert werden können. Am Klinikum Würzburg wurde ein Informations-Extraktionssystem (IE) entwickelt, das aus den vorhandenen Freitexten wie z.B. Arztbriefen, Echokardiographieberichten, usw. strukturierte Daten gewinnen kann, die dann in gewohnter Manier von einer Datenbank gespeichert und dort abgefragt werden können. Die angewandte IE wird am Beispiel der Echokardiographieberichte illustriert.

Methoden: Das entwickelte IE-System wurde in Java implementiert und verwendet als grundlegende Datenverarbeitungsarchitektur das UIMA-Framework [1], das ideale Unterstützung für das Analysieren, Annotieren, Bearbeiten und Speichern von textuellen Daten bietet. Der Algorithmus des Systems erkennt die Konzepte durch Wortabgleich mit den Einträgen der Terminologie. Mit Hilfe syntaktisch erkannter Segmente und der Struktur der Terminologie werden daraufhin Mehrdeutigkeiten aufgelöst und Relationen zwischen diesen Konzepten identifiziert.

Die Vorgehensweise wird im Folgenden genauer erläutert (siehe auch [2]): Der Text wird zunächst in syntaktische Abschnitte unterteilt. Dabei wird ein einfacher regelbasierter Segmenttrenner verwendet, welcher an die Domäne angepasst wurde, da existierende Implementierungen keine zufriedenstellenden Ergebnisse in den medizinischen Teildomänen liefern. Die Zerlegung basiert größtenteils auf Satzzeichen (Punkte, Kommas, etc.), wobei Abkürzungen und Aufzählungen separat erkannt und bei der Segmentierung berücksichtigt werden. Da vorhandene medizinische Ontologien keine ausreichend feingranulare Abdeckung besitzen, wird eine auf die Textdokumente angepasste baumartige Terminologie verwendet, welche die möglichen medizinischen Konzepte der Domäne und deren Relationen spezifiziert. Für den initialen Textabgleich werden die Konzepte der Terminologie mit Schlüsselwörtern und Synonymen erweitert. Besitzen zwei oder mehr Konzepte dasselbe Schlüsselwort, so dass mehr als ein Konzept für eine betreffende Textstelle in Frage kommt, dann wird diese Mehrdeutigkeit durch eine Kontextsuche aufgelöst. Die Umgebung im Text, gegeben durch die Segmente und die darin erkannten Konzepte, in Kombination mit den entsprechenden Relationen in der Terminologie liefert Aufschluss über die exakte Bedeutung einer mehrdeutigen Textstelle. Dieser Prozess kann mehrere Iterationen durchlaufen bis alle Textstellen, die mit Schlüsselwörtern übereinstimmen, einem Terminologiekonzept zugeordnet wurden. Die Erkennung negierter Konzepte ist hierbei bereits inhärent gelöst, da die Relationen in der Terminologie auch Negationen umfassen. Der gesamte Prozess läuft über eine grafische Benutzeroberfläche, mit welcher komfortabel während der Entwicklung der Terminologie ständig die Qualität der extrahierten Informationen überprüft werden kann.

Ergebnisse: Im Datenbestand des Klinikums Würzburg befinden sich ca. 21700 textuelle Echokardiographie-Befunde aus den Jahren 2012–2013, die ca. 35 MB Speicherplatz umfassen. Ein durchschnittlicher Befundbericht enthält ca. 50 Informationen, von denen ein Teil numerisch und ein etwas größerer Teil qualitativer Natur ist. Dazu wurde manuell eine Terminologie bestehend aus 486 Knoten in einer Objekt-Attribut-Wert Struktur mit Synonymen und Kontextbezügen erstellt. Zur Evaluation wurde eine Teilmenge von 200 Dokumenten zufällig ausgewählt. Die Extraktion dauerte ca. 45 Sekunden. Der F-Score der Extraktionsqualität lag bei 96,2%, mit 93,2% Recall und 99,4% Precision. Der geringere Recall wird hauptsächlich von fehlenden Einträgen in der Terminologie verursacht. Diese lässt sich jedoch mit mehr Zeitaufwand einfach ergänzen, um die Extraktionsqualität weiter zu verbessern.

Diskussion: Mit dem dargestellten IE-System ist es möglich aus unstrukturierten Freitexten strukturierte, kodierte Information zu extrahieren. Die extrahierten Informationen werden im Rahmen eines Projektes des Deutschen Zentrums für Herzinsuffizienz am Klinikum Würzburg in ein Data Warehouse überführt, in welchem sie gemeinsam mit anderen strukturierten Daten für klinische Studien homogen abgefragt werden können. Im Gegensatz zu anderen IE-Systemen wie z.B. cTAKES [3], welche auf überwacht gelernten Modellen basieren, benötigt unser Ansatz keine annotierten Texte und kann somit bereits während der Terminologieerstellung eingesetzt werden. Weiterhin kann unser System nicht nur Begriffe aus einem Schlüsselwortkatalog identifizieren und kodieren, sondern auch feingranulare und problematische Mehrdeutigkeiten auflösen sowie den gefundenen Konzepten die in den Texten enthaltenen Eigenschaften (z.B. Adjektive, Zahlenwerte, etc.) zuordnen. Mit der dazugehörigen grafischen Entwicklungsumgebung für die IE-Terminologie ist es möglich, für eine gewünschte Domäne, wie in unserer Fallstudie Echokardiographien, in kurzer Zeit eine zufriedenstellende Extraktionskomponente zu entwickeln.

Diese Arbeit wurde unterstützt durch die Förderung des Bundesministeriums für Bildung und Forschung (BMBF 01 EO1004).


Literatur

1.
Ferrucci D, Lally A. UIMA: An architectural approach to unstructured information processing in the corporate research environment. Natural Language Engineering. 2004 10(3-4):327-48.
2.
Fette G, Ertl M, Wörner A, Kluegl P, Störk S, Puppe F. Information extraction from unstructured electronic health records and integration into a data warehouse. Lecture Notes in Informatics (LNI). 2012: 1237-51.
3.
Savova G, Masanz J, Ogren P, et al. Mayo clinical Text Analysis and Knowledge Extraction System (cTAKES): architecture, component evaluation and applications. J Am Med Inform Assoc. 2010 17(5):507-13.