gms | German Medical Science

64. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V. (GMDS)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie

08. - 11.09.2019, Dortmund

Eine deutschsprachige Interface-Terminologie für SNOMED CT

Meeting Abstract

  • David Hashemian Nik - Medizinische Universität Graz, Graz, Austria
  • Zdenko Kasáč - Medizinische Universität Graz, Graz, Austria
  • Zsófia Goda - Medizinische Universität Graz, Graz, Austria
  • Anita Semlitsch - Medizinische Universität Graz, Graz, Austria
  • Stefan Schulz - Medizinische Universität Graz, Graz, Austria; Averbis GmbH, Freiburg, Germany

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie. 64. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (GMDS). Dortmund, 08.-11.09.2019. Düsseldorf: German Medical Science GMS Publishing House; 2019. DocAbstr. 306

doi: 10.3205/19gmds156, urn:nbn:de:0183-19gmds1569

Published: September 6, 2019

© 2019 Hashemian Nik et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License. See license information at http://creativecommons.org/licenses/by/4.0/.


Outline

Text

Einleitung: Interface-Terminologien (ITs) verknüpfen die medizinische Alltagssprache mit Referenzterminologien [1]. ITs unterstützen automatische Textannotation, semantische Suche in medizinischen Dokumentenbeständen und stellen Wertemengen für strukturierte Dateneingabe bereit. Sie sind dort wichtig, wo Referenzterminologien wie SNOMED CT nicht übersetzt oder mit Synonymen angereichert sind. SNOMED CT (http://www.snomed.org/) wurde bereits in 38 Ländern eingeführt (darunter Schweiz und Österreich eingeführt); für Deutschland scheint die Einführung bevorzustehen. Eine offizielle deutsche Version existiert hingegen nicht. Uns erscheint eine mit SNOMED CT verknüpfte IT als eine sinnvolle Alternative zu einer teuren amtlichen Übersetzung, übereinstimmend mit den ASSESS-CT-Empfehlungen [2]. Wir beschreiben im Folgenden eine Heuristik zur teilautomatischen Erstellung einer deutschen Interface-Terminologie für SNOMED CT und eine erste Qualitätsbewertung.

Methoden:

Drei Phasen werden unterschieden: 1) Fragmentierung 2) Übersetzung 3) Termgenerierung.

Fragmentierung: Aus den über 700.000 Termen (Vorzugsterme und Synonyme) der internationalen englischsprachigen Version werden mittels eines Regelwerks Nominal- und Präpositionalphrasen, sowie alle Einzelwörter in eine sogenannte N-Gramm-Tabelle extrahiert. Diese Tabelle wird in jedem neuen SNOMED-CT-Release mit neuen Inhalten ergänzt. Die Tabelle wird nach absteigender Häufigkeit geordnet. Hierbei zeigt sich die hohe Frequenz bestimmter Ausdrücke, z.B. "computed tomography" oder " conventional release oral tablet", die in mehr als tausend SNOMED-CT-Konzepten vorkommen, aber nur einmal übersetzt werden müssen.

Übersetzen der N-Gramme: Mit Google Translate wird eine Rohübersetzung erstellt, deren Korrektur und Anreicherung mit Synonymen und grammatikalischen Markern (Wortart, Geschlecht, Kasus bei Präpositionen und Verbergänzungen) einen ständigen manuellen Input erfordert. Hiermit wurde vor 5 Jahren begonnen; die Arbeit wird von einer kleinen Gruppe von Studierenden der Medizin vorangetrieben. Die Arbeiten werden nach den folgenden Kriterien priorisiert: (a) N-Gramm-Häufigkeit, (b) Einzelwörter, (c) klinische Relevanz, (d) mehrdeutige Wörter, (e) nichtkompositionelle Wortkompositionen.

Termgenerierung: Mittels einer Reihe sprachspezifischer Python-3-Skripten, die z.B. Regeln zu Deklination und Kompositabildung implementieren, werden die deutschen N-Gramme zu vollständigen Termübersetzungen zusammengefügt. Kommen viele Synonyme ins Spiel, ergeben sich nach den Regeln der Kombinatorik bisweilen Tausende von Varianten, von denen nur ein Teil wirklich üblichen Termen entspricht. Die Terme werden mit Wort- und N-Gramm-Statistiken, gewonnen aus Standardterminologien und Korpora gewichtet, so dass Terme mit unsinnigen Wortkombinationen herausgefiltert werden können.

Bewertung: Eine Ende 2018 generierte IT wurde folgender Qualitätsprüfung unterzogen: Aus einer Zufallsstichprobe von 200 englischen SNOMED-CT-Termen (descriptions) wurde, erneut zufällig, je ein automatisch generierter deutscher Interface-Term herausgegriffen. Parallel dazu wurde mit dem webbasierten Übersetzungsdienst DeepL eine Übersetzung generiert. Drei Studierende der Medizin mussten diese Übersetzungen nach den Parametern (i) inhaltliche Verständlichkeit/Korrektheit, (ii) Grammatik und (iii) Stil und Rechtschreibung bewerten. Die Beurteilung war verblindet bezüglich der Herkunft der Übersetzungen (unser Verfahren gegenüber Deepl)

Ergebnis: Die IT umfasst derzeit ungefiltert ca. 4,4 Mio Terme für 341.105 SNOMED-CT-Konzepte, generiert auf der Basis von 111.605 deutschen N-Grammen. Die Blindbeurteilung der IT-Übersetzungen ergab im Vergleich zu DeepL-Übersetzungen keinen signifikanten Unterschied in den oben erwähnten Kategorien. Hierbei muss beachtet werden, dass DeepL nur eine Übersetzung erzeugt, während die IT im Durchschnitt 12,1 Übersetzungen pro SNOMED-CT-Konzept (Median 3) enthielt. Zudem wissen wir, dass maschinelle Übersetzungen Defizite bei Wortkompositabildung und Synonymabdeckung aufweisen.

Verfügbarkeit: Die IT kann zu Testzwecken bei den Autoren angefordert werden.

Die Autoren geben an, dass kein Interessenkonflikt besteht.

Die Autoren geben an, dass kein Ethikvotum erforderlich ist.


Literatur

1.
SNOMED International. Building an experimental German user interface terminology linked to SNOMED CT. 2017 [Accessed 16 April 2019]. Available from: https://confluence.ihtsdotools.org/pages/viewpage.action?pageId=45525419 External link
2.
Cangioli G, et al. Assessing SNOMED CT for large scale eHealth deployments in the EU. 2016. [Accessed 18 July 2019]. Available from: http://assess-ct.eu/fileadmin/assess_ct/deliverables/assess_ct_d1.3_current_and_future_use_of_snomed_ct.pdf External link