gms | German Medical Science

50. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (gmds)
12. Jahrestagung der Deutschen Arbeitsgemeinschaft für Epidemiologie (dae)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie
Deutsche Arbeitsgemeinschaft für Epidemiologie

12. bis 15.09.2005, Freiburg im Breisgau

Multilinguales medizinisches Wörterbuch

Meeting Abstract

Suche in Medline nach

  • Philipp Daumke - Uniklinik Freiburg, Freiburg
  • Kornel Marko - Uniklinik Freiburg, Freiburg
  • Michael Poprat - Universität Jena, Jena
  • Stefan Schulz - Uniklinik Freiburg, Freiburg

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie. Deutsche Arbeitsgemeinschaft für Epidemiologie. 50. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (gmds), 12. Jahrestagung der Deutschen Arbeitsgemeinschaft für Epidemiologie. Freiburg im Breisgau, 12.-15.09.2005. Düsseldorf, Köln: German Medical Science; 2005. Doc05gmds478

Die elektronische Version dieses Artikels ist vollständig und ist verfügbar unter: http://www.egms.de/de/meetings/gmds2005/05gmds374.shtml

Veröffentlicht: 8. September 2005

© 2005 Daumke et al.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielfältigt, verbreitet und öffentlich zugänglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Gliederung

Text

Einleitung

Die Erstellung und Pflege eines herkömmlichen multilingualen Wörterbuchs stellt eine aufwändige und zeitintensive Arbeit dar, welche medizinisches und linguistisches Expertenwissen erfordert. Wir stellen hier einen alternativen Ansatz vor, basierend auf unserem Morphosaurus-System [1], welches ein multilinguales Subwort-Lexikon enthält.

Die Erzeugung des Wörterbuch-Wortschatzes selbst erfolgt durch automatische Verfahren und führt zu einem Wortbestand, der den Inhalt des Subwort-Lexikons um ein Vielfaches übersteigt. Dadurch ist es möglich, einen umfassendes und hochwertiges multilinguales Lexikon anzubieten.

Morpho-Semantische Indexierung

Die Morpho-Semantische Indexierung (MSI) ist ein von den Autoren entwickeltes Verfahren, welches verschiedene intra- und interlinguale morphologische Phänomene wie Flexion, Derivation und Komposition berücksichtigt. Ihr Nutzen für die sprachübergreifende Dokumentenrecherche wurde bereits gezeigt1. Das Verfahren beinhaltet ein spezielles Subwort-Lexikon, deren Einträge die kleinsten bedeutungstragenden Einheiten biomedizinscher Begriffe darstellen. Subworte gleicher Bedeutung werden in sprachunabhängige Äquivalenzklassen als sogenannte Morphem-Identifiers (MIDs) zusammengefasst.

Die Morpho-Semantische Indexierung biomedizinischer Wörter besteht prinzipiell aus drei Schritten.

1.
orthografische Normalisierung: Zunächst werden sprachspezifische Ersetzungsregeln durchgeführt. So wird das deutsche ‚ß‘ in ‚ss‘ sowie die Umlaute ‚ä‘, ‚ö‘, und ‚ü‘ in ‚ae‘, ‚oe‘ und ‚ue‘ umgewandelt.
2.
Morphologische Segmentierung: Auf Basis des Subwort-Lexikons werden nun die orthografisch normalisierten Dokumente in semantisch sinnvolle Einheiten segmentiert. Mittels eines endlichen Automaten werden dabei ungültige Zerlegungen ausgeschlossen.
3.
Semantische Normalisierung: Anhand der Äquivalenzklassen werden nun alle relevanten lexikalischen Einheiten durch ihre entsprechenden MIDs ersetzt.

Das Ergebnis ist eine morpho-semantisch normalisierte, sprachunabhängige Darstellung dieser Wörter (siehe Abbildung 1 [Abb. 1]).

Biomedizinisches Wörterbuch

Zunächst wurden aus verschiedenen frei verfügbaren, domänen- und sprachspezifischen Quellen große biomedizinische Textcorpora zusammengestellt (siehe Abbildung 2A [Abb. 2]). Diese berücksichtigen in abnehmender Corpusgröße die Sprachen Englisch, Deutsch, Spanisch, Portugiesisch und Schwedisch.

Aus den Corpora werden durch einen Tokenizer Listen von Einzelwörtern sowie von Wortpaaren und -tripeln benachbarter Wörter gebildet (sog. Zielwörter). Als zusätzliche Information enthalten diese Listen die Häufigkeit Freq des Auftretens der Zielwörter in den Textcorpora (Abbildung 2B [Abb. 2]).

Die Zielwörter werden nun der Morpho-Semantischen Indexierung unterzogen (Abbildung 2C [Abb. 2]) und in die Datenbank Dict geschrieben, die als Einträge folglich Quadrupel der folgenden Form enthält: (Zielwort, Freq, MIDs, Sprache) (Abbildung 2D [Abb. 2]). Die Datenbank enthält derzeit ca. zwei Millionen Einträge.

Ein Benutzer sendet über ein Web-Interface Anfragen an das Wörterbuch (Abbildung 2E [Abb. 2]). Diese Anfragen werden zunächst wieder durch die MSI-Prozedur (Abbildung 2C [Abb. 2]) in eine Folge von MIDs umgewandelt (Abbildung 2F [Abb. 2]). Diese MIDs werden nun mit den Dict-Einträgen (3. Spalte in der Datenbank Dict) verglichen und die übereinstimmenden Datenbank-Zeilen als Ergebnisse in einer unsortierten Liste gesammelt. Diese Liste wird schließlich durch folgenden Sortieralgorithmus in einzelne Gruppen aufgeteilt (Abbildung 2G [Abb. 2]):

1.
Die Treffer gleicher Sprache bilden Hauptgruppen.
2.
Innerhalb der Hauptgruppen werden einfache Zeichenfolgen-Vergleiche durchgeführt, um orthografische Varianten derselben Wörter in Untergruppen einzuordnen
3.
Die Reihenfolge der orthografischen Varianten innerhalb der Untergruppen wird bestimmt durch deren Worthäufigkeiten, die in der Datenbank Dict enthalten sind.

Diskussion

Unser Ansatz bietet ein Lexikon mit einer umfassenden Anzahl von Einträgen in derzeit fünf verschiedenen Sprachen. Der Ansatz ist prinzipiell zur Vernetzung beliebig vieler Sprachen fähig. Da die Akquisition frei verfügbarer Texte durch das Wachstum des WWW zunehmend einfacher wird, ist die Erstellung einer zusätzlichen Sprache im Wörterbuch vorwiegend vom Einfügen neuer Sprachen im Subwort-Lexikon abhängig. Automatische Verfahren hierfür wurden von den Autoren bereits entwickelt.

Die Entwicklung der MSI-Prozedur dient in erster Linie der Verbesserung der sprachübergreifenden Dokumentenrecherche und abstrahiert bewusst von sprachlichen Phänomenen wie z.B. Komposition oder Derivation. Daher gibt das Wörterbuch derzeit keine zusätzlichen lexikalischen Informationen zu seinen Einträgen an.

Der Fokus zukünftiger Arbeit am Wörterbuch wird auf der Erweiterung des Subwort-Lexikons sowie auf dem Erhalt seiner interlingualen Integrität liegen.


Literatur

1.
Stefan Schulz und Udo Hahn. Morpheme-based, cross-lingual indexing for medical document retrieval. International Journal of Medical Informatics, 59(3):87-99, 2000.