gms | German Medical Science

50. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (gmds)
12. Jahrestagung der Deutschen Arbeitsgemeinschaft für Epidemiologie (dae)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie
Deutsche Arbeitsgemeinschaft für Epidemiologie

12. bis 15.09.2005, Freiburg im Breisgau

Automatische Generierung einer sprachübergreifenden Akronymdatenbank

Meeting Abstract

Search Medline for

  • Kornel Marko - Uniklinik Freiburg, Freiburg
  • Philipp Daumke - Uniklinik Freiburg, Freiburg
  • Stefan Schulz - Uniklinik Freiburg, Freiburg
  • Udo Hahn - Universität Jena, Jena

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie. Deutsche Arbeitsgemeinschaft für Epidemiologie. 50. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (gmds), 12. Jahrestagung der Deutschen Arbeitsgemeinschaft für Epidemiologie. Freiburg im Breisgau, 12.-15.09.2005. Düsseldorf, Köln: German Medical Science; 2005. Doc05gmds458

The electronic version of this article is the complete one and can be found online at: http://www.egms.de/en/meetings/gmds2005/05gmds440.shtml

Published: September 8, 2005

© 2005 Marko et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution License (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.en). You are free: to Share – to copy, distribute and transmit the work, provided the original author and source are credited.


Outline

Text

Einleitung

Die korrekte Behandlung von Akronymen und Abkürzungen in biomedizinischen Texten ist von großer Wichtigkeit für sprachverarbeitende Anwendungen wie z.B. der Recherche in mehrsprachigen Dokumentenkollektionen. Das Akronym „AD“ kann beispielsweise für das Deutsche zu „atopische Dermatitis“ expandieren, Englisch zu „Alzheimer’s Disease“, Spanisch zu „auricula derecha“, Portugiesisch zu „agua destilada“, etc. Auf der anderen Seite ist das Akronym äquivalent zu „Alzheimer’s Disease“, auf Deutsch „AK“ („Alzheimer Krankheit“) oder „MA“ („Morbus Alzheimer“) oder auf Spanisch „EA“ („enfermedad de Alzheimer“). Für eine adäquate Handhabung solcher Phänomene, muss die Berücksichtigung von Sprachspezifischen Varianten, Synonymen und Übersetzungen der Akronymdefinitionen gewährleistet sein.

Methoden

Schwartz und Hearst [1] präsentieren einen einfachen und schnellen Algorithmus zur automatischen Extraktion von Abkürzungen (ABK) und deren Definitionen (DEF). Der Quellcode (in Java) wird über das Web zur allgemeinen Verfügung gestellt (http://biotext.berkely.edu/software.html). Der Algorithmus extrahiert Kandidaten von DEF (ABK) und ABK (DEF)-Paaren durch die Nähe zu Klammerausdrücken. Eine mögliche Abkürzung hat dabei folgende Charakteristiken: Sie enthält zwischen zwei und zehn Zeichen und besteht aus maximal zwei Wörtern, wobei mindestens ein Zeichen einem Buchstaben entspricht. Die assoziierte Definition erscheint unmittelbar vor oder nach der Abkürzung. Das korrekte ABK-DEF-Paar wird daraufhin anhand einer Reihe von Regeln ausgewählt. Beispielsweise muss jedes Zeichen von ABK in derselben linearen Ordnung in DEF vorhanden sein, wobei das jeweils erste Zeichen von ABK und DEF identisch sein müssen.

Für unsere Experimente benutzten wir heterogene WWW-Quellen unterschiedlicher Sprachen mit einem großen Anteil an englischen MEDLINE-Einträgen. Mit über 250 Mio. Wörtern war das englische Korpus weit größer als das deutsche (37 Mio.), das portugiesische (14 Mio.) oder das spanische Korpus (11 Mio.). Die Anwendung des Algorithmus führte zur Extraktion von 212.470 unterschiedlichen ABK-DEF-Paaren für Englisch, 4.276 für Deutsch, 3.934 für Portugiesisch und 2.037 für Spanisch.

Um orthografische und syntaktische Varianten von Akronymdefinitionen („Arzneimittelgesetz“ und „Arzneimittelgesetzes“ für „AMG“) zu normalisieren und die Verknüpfung zu anderen Sprachen herzustellen („World Health Organisation“ und „Weltgesundheitsorganisation“ für „WHO“), wurden die Definitionen vom Morphosaurus-System [2] in drei Schritten verarbeitet:

1.
Orthografische Normalisierung: Zunächst werden sprachspezifische Ersetzungsregeln durchgeführt. So wird das deutsche ‚ß‘ in ‚ss‘ sowie die Umlaute ‚ä‘, ‚ö‘, und ‚ü‘ in ‚ae‘, ‚oe‘, und ‚ue‘ umgewandelt.
2.
Morphologische Segmentierung: Auf Basis eines deutschen, englischen, portugiesischen und spanischen Teilwort-Lexikons werden die orthografisch normalisierten Dokumente in semantisch sinnvolle Einheiten segmentiert.
3.
Semantische Normalisierung: Mittels eines Teilwort-Thesaurus, in dem im wesentlichen intra- und interlinguale Äquivalenzklassen definiert sind, werden alle relevanten lexikalischen Einheiten durch ihre entsprechende sprachunabhängige Morphosaurus-Klassen-Identifiers (MIDs) ersetzt. Somit wird beispielsweise das Wort „Weltgesundheitsorganisation“ auf die MIDs #world #health #organiz abgebildet.

Nach dieser morpho-semantischen Normalisierung von Akronymdefinitionen reduzierte sich die Anzahl unterschiedlicher ABK-DEF-Paaren auf 189.639 für Englisch, 3.653 für Deutsch, 3.633 für Portugiesisch und 1.911 für Spanisch.

Ergebnisse

Innersprachliche Phänomene

Innerhalb einer Sprache können im Wesentlichen zwei Szenarien auftreten: Ein Akronym kann einerseits unterschiedliche Definitionen besitzen (Ambiguitäten wie z.B. „AK“ für „Allgemeines Krankenhaus“, „Alzheimer Krankheit“ oder „Antikörper“). . Andrerseits kann eine Definition unterschiedliche (ad hoc) Abkürzungen aufweisen, wie z.B. ''AcP'', ''acPAse'' ''ACP-ase'', ''Acph'', ''ACPT'', ''AP'', ''APase'', ''AphA'' und ''Aps'' für die englische Phrase ''acid phosphatase''. Tabelle 1 [Tab. 1] fasst die Ergebnisse dieser Untersuchung zusammen.

Sprachübergreifende Phänomene

(1) Eine erste wichtige Beobachtung ist, dass häufige ABK-DEF-Paare über die betrachteten Sprachen hinweg identisch vorkommen, so wie „WHO“ und die Beschreibung „World Health Organisation“. Tabelle 2 [Tab. 2] fasst diesen Sachverhalt in Spalte 2 zusammen.

(2) Häufig haben identische Akronyme allerdings unterschiedliche Definitionen in den jeweiligen Sprachen, so wie das aus dem Deutschen extrahierte Paar „WHO“ - „Weltgesundheitsorganisation“ (Tabelle 2, Spalte 3 [Tab. 2]). Dieser Zusammenhang (ABK identisch, DEF unterschiedlich) könnte genutzt werden, um mögliche Übersetzungen von Definitionen festzulegen, allerdings mit einer beträchtlichen Anzahl von syntaktischen Varianten und falsch Positiven.

(3) In einer dritten Studie untersuchten wir daher sprachübergreifend die vom Morphosaurus-System verarbeiteten Definitionen (MID-Repräsentation). Die Anzahl derjenigen Paare, in denen je das Akronym identisch war, die Definitionen auf der Wortebene unterschiedlich, jedoch identisch auf der Ebene der MIDs ist in Tabelle 2, Spalte 3 [Tab. 2] aufgezeigt. Auf diese Weise werden Terme sprachübergreifend verlinkt, wie z.B. das Englische „acute lymphatic leukemia“, zu Deutsch „akute lymphatische Leukämie“, über das gemeinsame Akronym „ALL“.

(4) Daraufhin untersuchten wir diejenigen Paare, in denen die Akronyme und Definitionen auf der Wortebene unterschiedlich, jedoch Definitionen auf der Ebene der MIDs identisch sind (Tabelle 2, Spalte 4) [Tab. 2]. Somit lassen sich Bezüge wie „AIDS“ („acquired immune deficiency syndrome“) zu “SIDA” (“sindrome de immunodeficiencia adquirida”) über die gemeinsamen MIDs #acquir #immun #defic #syndrom abbilden.

Die generierte Datenbank mit insgesamt 222.717 unterschiedlichen ABK-DEF-Paaren ist unter http://www.morphosaurus.net zugänglich.

Danksagung

Diese Arbeit wurde zum Teil finanziert durch die Deutsche Forschungsgemeinschaft (KL 640/5-1) und das europäische „Network of Excellence Semantic Mining'' (NoE 507505).


Literatur

1.
Schwartz A, Hearst M. A simple algorithm for identifying abbreviation definitions in biomedical text. In Pacific Symposium on Biocomputing, pages 451 462, 2003.
2.
Markó K, Schulz S, Wermter J, Poprat M, Hahn U. Cross-Language Document Retrieval with Morphosaurus. In: E. Ammenwerth, W. Gaus, R. Haux, C. Lovis, K.P. Pfeiffer, B. Tilg, H.E. Wichmann (eds.): Kooperative Versorgung, Vernetzte Forschung, Ubiquitäre Information. Tagungsband der GMDS '04, Innsbruck, Austria. 2004