gms | German Medical Science

53. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V. (GMDS)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie

15. bis 18.09.2008, Stuttgart

Semantisches Retrieval medizinischer Freitexte

Meeting Abstract

  • Lukas C. Faulstich - ID Information und Dokumentation im Gesundheitswesen GmbH & Co. KGaA, Berlin, Deutschland
  • Frank Müller - ID Information und Dokumentation im Gesundheitswesen GmbH & Co. KGaA, Berlin, Deutschland
  • André Sander - ID Information und Dokumentation im Gesundheitswesen GmbH & Co. KGaA, Berlin, Deutschland
  • Rudolf Pitzler - Institut für Medizinische Informatik, Statistik und Dokumentation, Medizinische Universität Graz, Graz, Deutschland
  • Maximilian Errath - Institut für Medizinische Informatik, Statistik und Dokumentation, Medizinische Universität Graz, Graz, Österreich
  • Andreas Holzinger - Institut für Medizinische Informatik, Statistik und Dokumentation, Medizinische Universität Graz, Graz, Österreich

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie. 53. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (gmds). Stuttgart, 15.-19.09.2008. Düsseldorf: German Medical Science GMS Publishing House; 2008. DocMDOK1-4

The electronic version of this article is the complete one and can be found online at: http://www.egms.de/en/meetings/gmds2008/08gmds093.shtml

Published: September 10, 2008

© 2008 Faulstich et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution License (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.en). You are free: to Share – to copy, distribute and transmit the work, provided the original author and source are credited.


Outline

Text

Einleitung und Fragestellung

Die Recherche auf medizinischen Freitexten, wie zum Beispiel Arztbriefen und Befunden, ist von großer Bedeutung in der klinischen Forschung, Qualitätssicherung und Abrechnung. Herkömmliche Stichwortsuche ist jedoch nur wenig geeignet:

Krankenakten werden aufgrund der mehrheitlich internen Verwendung wenig auf sprachliche Schwächen hin überprüft und orthographische Mängel sind in der klinischen Routine an der Tagesordnung. Solange der Text verständlich ist, gibt es ärztlich keinen zwingenden Grund, sich mit der Sprache auseinanderzusetzen.

Als Vokabular dient eine stark lokal variierende Mischung von lateinischen, deutschen und englischen Begriffen und Abkürzungen. So können Befunde zu schwer lesbaren „Telegrammen“ mutieren, wie z.B.: „Ca. 2x1cm, große ovaläre Verschattung im UF li. Rez. re. lat. frei, li. teiladhärent“. Obwohl für einschlägig geschulte Medizinerinnen und Mediziner durchaus verständlich, ist er doch für die maschinelle Handhabung mit traditionellen IR-Methoden sehr problematisch. Manche Abkürzungen haben zwar eine eindeutige Expansion, eine große Anzahl davon ist jedoch homonym und daher nur in ihrem Kontext sicher auflösbar. So sind ADS (Aufmerksamkeitsdefizitsyndrom oder akutes Durchfallsyndrom) bzw. HWI (Harnwegsinfekt oder Hinterwandinfarkt) homonyme medizinische Abkürzungen, ca. (circa), Ca. (Karzinom) und Ca (Kalzium) sind homonyme Abkürzungen aus Schriftsprache, Medizin und Chemie. Die inkonsistente Verwendung von Satzzeichen und alternierenden Schreibweisen erschwert die Situation weiter. Durch einen einzigen „kleinen Tippfehler“, kann aus dem Satz „Geschwulst, ca. 3 cm groß“, folgender Satz werden: „Geschwulst, ca, 3 cm groß“, wodurch die Unterscheidung zwischen einem Karzinombefund, einer ungefähren Größenangabe oder einer Erwähnung von Kalzium stark erschwert wird [1].

Aus diesen Gründen ist die im Information Retrieval übliche Verschlagwortung mit Lemmatisierer und Stemming unzureichend. ID hat daher ein ontologie-basiertes Retrieval-Verfahren entwickelt, das auf anspruchsvollen linguistischen Methoden zur Textaufbereitung aufsetzt. Diese Lösung für die semantische Recherche evaluieren wir auf medizinischen Freitexten an der Medizinischen Universität Graz.

Material und Methoden

Auf der Basis ihrer in der medizinischen Dokumentation bewährten Textaufbereitungsmethoden hat ID Verfahren zur automatischen semantischen Repräsentation von medizinischen Freitexten entwickelt [2], [3]. Diese Repräsentation abstrahiert von sprachlichen Variationen, indem sie Terme auf Konzepte der Wingert-Nomenklatur [4] abbildet. Homonyme werden kontextabhängig disambiguiert.

Dadurch kann den Erwartungen der Ärzteschaft an die Berücksichtigung von relativierenden und mehrdeutigen Ausdrucksformen und von uneinheitlichen Abkürzungen besser entsprochen werden. Zusätzlich berücksichtigt die Suche auch taxonomische und meronymische (Teil-Ganzes) Beziehungen: eine Suche nach Neubildungen findet auch Karzinome, eine Recherche nach Befunden am Verdauungstrakt auch Befunde an Magen oder Darm. Zu diesem Zweck werden Suchbegriffe als Konzepte der Wingert-Nomenklatur repräsentiert und durch Beziehungen aus dem ID MACS® - medical semantic network - expandiert.

Die semantische Recherche wurde auf einem Referenzkorpus von 2209 Texten mit mehreren Suchbegriffen getestet. Zum Vergleich wurde eine naive Stichwortsuche nach dem gegebenen Suchbegriff und eine manuell erweiterte Stichwortsuche durchgeführt. Die semantische Recherche wurde anhand einer Stichprobe von 250 separaten Befunden der Textsorte angepasst. Die manuellen Anfrageexpansionen wurden dagegen von Experten iterativ auf dem Referenzkorpus optimiert.

Ergebnisse

Tabelle 1 [Tab. 1]

Diskussion

Eine Übersicht über Verfahren der Anfrageexpansion im Information Retrieval gibt [5]. Interaktive Anfrageexpansion mit Hilfe des UMLS Metathesaurus wird in [6], [7] beschrieben. Multilinguales Retrieval mit UMLS-Konzepten wurde im Projekt MUCHMORE [8] untersucht. Im Gegensatz zu diesen Forschungsprojekten befindet sich das von ID entwickelte Verfahren bereits auf dem Weg zur Serienreife.

Der größte Vorteil der semantischen Recherche liegt darin, dass für die Formulierung einer Anfrage keine Expertenkenntnisse und keine aufwändige Optimierung der Anfrage notwendig sind. Dies kommt besonders bei unspezifischen Suchbegriffen zum Tragen, da hier viele Unterbegriffe und Synonyme zu berücksichtigen sind und somit effektive manuelle Anfrageexpansionen schwierig sind (vgl. die Anfrage Neubildung+Darm in Tabelle 1 [Tab. 1]). Weiter ist die semantische Recherche dort besonders nützlich, wo die Sprache innerhalb einer Textsammlung heterogen ist oder wo die Terminologie von Nutzern und Autoren abweicht. Die Auswertung zeigt, dass bei spezifischen Suchbegriffen (Gastritis) der Vorteil der semantischen Recherche gering ist. Bei komplexen Recherchen sind die Ergebnisse meist mit aufwändig durch Experten optimierten Anfragen vergleichbar und übertreffen in ihrer Ausbeute (Recall) die einfache Stichwortsuche deutlich. Ein weiterer Vorteil der semantischen Recherche ist das Erkennen und Ausfiltern von negierenden Aussagen (Ausschluss von etc.). Z.B. ist die einfache Stichwortsuche nach Tumor+Prostata sehr unbefriedigend. Manuell optimierte Anfrageexpansionen erfordern erfahrene und mit dem Korpus vertraute Experten (z.B. ist %tumor% wegzulassen, weil damit auch Vorkommen von tumorfrei gefunden würden). Obwohl bei der Negationsbehandlung noch Verbesserungspotentiale bestehen, erreicht die semantische Recherche doch schon achtbare Ergebnisse.

Offene Probleme: Diskrepanzen zwischen prä- und postkoordinierter Repräsentation: eine Suche nach Cholangitis soll auch Befunde mit einer Entzündung in einem Gallenweg finden. Unterschiedliche Konzeptualisierungen beim Benutzer und in der Ontologie: bei Adenokarzinom+Colon werden teilweise auch Vorkommen von topographischen Oberstrukturen (Dickdarm statt Colon) erwartet. Hierfür müssen aber erst noch geeignete Abbruch-Kriterien entwickelt werden.


Literatur

1.
Holzinger A, Geierhofer R, Errath M. Semantische Informationsextraktion in medizinischen Informationssystemen. Informatik-Spektrum 30(2) (pp. 69-78), Springer, 2007
2.
Denecke K, Kohlhof I, Bernauer J. Use of multiaxial indexing for information extraction from medical texts. In: Proc. Workshop on Foundations of Clinical Terminologies and Classifications; Romania, 2006
3.
Denecke K, Kohlhof I. Informationsextraktion aus medizinischen Texten basierend auf einer multiaxialen Indexierung. In: 51. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie. Leipzig, 10.-14.09.2006. Düsseldorf, Köln: German Medical Science; 2006. Doc 06gmds060. External link
4.
Wingert F. SNOMED. Systematisierte Nomenklatur der Medizin. Hrsg. der amerikanischen Ausgabe R. A. Côté. Deutsche Ausgabe bearbeitet und adaptiert von F. Wingert. Berlin, Heidelberg, New York etc.: Springer. 1984
5.
Efthimiadis E. Query expansion. In M.E. Williams (Ed.), Annual review of information systems and technology (ARIST). Vol. v31. Information Today (pp. 121-187), 1996.
6.
Aronson AR, Rindflesch TC, Brown AC. Exploiting a Large Thesaurus for Information Retrieval. In Procedings RIAO 94, 1994.
7.
Kingsland L C, Harbourt AM, Syed EJ, Schuyler PL. Coach: applying UMLS knowledge sources in an expert searcher environment. Bull Med Libr Assoc. 1993 April; 81(2): 178–183.
8.
Volk M, Ripplinger R, Vintar S, Buitelaar P, Raileanu D, Sacaleanu B. Semantic Annotation for Concept-Based Cross-Language Medical Information Retrieval. Int J Med Informatics, Volume 67:1-3, 2002.