gms | German Medical Science

SMITH Science Day 2022

23.11.2022, Aachen

Terminologieserver ‒ Baustein für die MII

Meeting Abstract

Search Medline for

  • André Sander

SMITH Science Day 2022. Aachen, 23.-23.11.2022. Düsseldorf: German Medical Science GMS Publishing House; 2023. DocV13

doi: 10.3205/22smith11, urn:nbn:de:0183-22smith117

Published: January 31, 2023

© 2023 Sander.
This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License. See license information at http://creativecommons.org/licenses/by/4.0/.


Outline

Text

Einleitung und Zielstellung: Zentrale Forderung für den Aufbau der Datenintegrationszentren war und ist die Verwendung von standardisierten Terminologieservern [1]. Diese sollen neben den typischen Aufgaben, wie der einheitlichen Codierung von Nutzdaten über Mappings sowie Wertemengenbeschränkungen und -auswahl, auch Klassifikationen und Terminologien zur Anwendung bringen. Das betrifft zum einen die in Deutschland verwendeten Abrechnungsklassifikationen (ICD-10 und OPS) und zum anderen internationale Systeme, wie SNOMED CT, die im Rahmen der MII lizensiert wurden [2]. Eine besondere Herausforderung ist hier, dass SNOMED CT nicht in einer deutschen Übersetzung vorliegt und sich somit nicht ohne weiteres auf deutsche Nutzdaten, die im Freitext bzw. uncodiert vorliegen, anwenden lässt. Neben der Codierung von Nutzdaten ist die Standardisierung von Medikamentenstammdaten wichtige Basis für Interoperabilität. Diese Daten sind zwischen den Terminologiediensten und den Nutzdaten zu verorten und wurden im Rahmen der hier vorgestellten Entwicklung in den Terminologieserver integriert. Ziel war es, einen Terminologieserver zu entwickeln, der nicht nur die rein formalen Vorgaben des FHIR® R4 Standards implementiert, sondern praktische Anwendungsszenarien effizient unterstützt.

Methoden: Zur Bereitstellung der „Standard-Klassifikationen“ wurde ein bereits vorhandener Terminologieserver mit REST API angebunden. Dieser ermöglicht sowohl die Bereitstellung der gesetzlich vorgegebenen Abrechnungsklassifikationen (ICD-10, OPS), als auch fachbereichsspezifischer Ordnungssysteme (TNM, ICD-O, Orphanet, usw.). Insgesamt stehen einige Hundert „Code-Systeme“ der letzten 20 Jahre zur Verfügung. In dieser Basis ist zudem eine zu SNOMED CT ähnliche Terminologie (die „Wingert-Nomenklatur“, kurz WNC [3]) enthalten, die u.a. eingesetzt wird, um SNOMED CT auf deutsche Texte anzuwenden. Das wurde zweistufig implementiert. In einer ersten Stufe wurde die WNC auf Englisch übersetzt bzw. die Übersetzung vervollständigt und somit eine „Brückenterminologie“ zwischen zwei Sprachen geschaffen. Im zweiten Schritt wurde nun die unterschiedliche Granularität der beiden Terminologien – SNOMED CT enthält fast viermal so viele Konzepte wie die WNC – mithilfe von computerlinguistischen Methoden adressiert. Dabei wurden Methoden des Natural Language Processing (NLP) implementiert und dafür auf Funktionalitäten aufgesetzt, die bereits im Basis-Terminologieserver vorhanden waren und eine semantische Erschließung von Code-Systemen ermöglichen.

Im Bereich der Medication-Ressourcen wurde der Ansatz gewählt, die Pharmazentralnummer (PZN) als Klassifikation zu betrachten und diese auf die entsprechenden Ressourcen zu mappen. Die Komposition einer Medication-Ressource hat zudem einen starken terminologischen Aspekt, da ein Großteil der Attribute auf verschiedene Terminologien abgebildet werden. Für die MII sind das im Wesentlichen EDQM im Bereich der pharmazeutischen Informationen zur Darreichungsform und dem Applikationsweg, PZN und ATC für das Medikament selber und CAS und ASK für die Inhaltsstoffe. Alle Entitäten werden zudem auf SNOMED CT abgebildet, hier kommt der oben skizzierte Ansatz zum Einsatz. Komplettiert wird die Abbildung mit der Darstellung der Einheiten in UCUM.

Ergebnisse: Durch die Verwendung einer etablierten Basislösung konnten insbesondere die Standardklassifikationen mit allen relevanten Versionen äußerst effizient in die Anwendungs-Workflows eingebracht werden. Dazu zählt die Verschlagwortung (Codierung) von unstrukturierten Nutzdaten. Die Codierung erfolgt auf Grundlage der semantischen Suche und wurde mittels des (Filter-)Parameters „_text“ in der Ressource CodeSystem implementiert. Zudem wurden Custom Parameters implementiert, mit denen die Suche in Bezug auf Bandbreite der Ergebnisse gesteuert werden kann. Das Ergebnis enthält zudem Ähnlichkeitsangaben und Wahrscheinlichkeitswerte. Somit kann mittels eines einzelnen REST-Aufrufes ein ICD-10 oder OPS-Code für eine Freitextphrase erzeugt werden. Die generische Implementierung erlaubt darüber hinaus, diese Art der Verschlagwortung auf alle enthaltenen Klassifikationen anzuwenden (ATC, Orphanet, etc.).

Die semantische Suche wurde in der Ressource ConceptMap dazu genutzt, intelligente Mappingvorschläge zu erzeugen: dafür wird ausgehend von einem Code innerhalb eines Quell-CodeSystem der jeweilige Text mit dem Ziel-CodeSystem verschlagwortet. Damit wird z.B. ein effizientes Mapping vom OPS zu SNOMED CT unterstützt.

Der Ansatz einer Brückenterminologie zur Erschließung von SNOMED CT für deutsche Eingaben hat sich als recht erfolgreich erwiesen. Die Integration einer NLP Engine und die damit verbundene intelligente Nutzung der WNC ermöglicht sogar die Abbildung von Synonymen, die so nicht in SNOMED CT enthalten sind. Eine erste heuristische Analyse hat gezeigt, dass ca. 80% von SNOMED CT addressierbar sind. Das sind immerhin über 300.000 Concepte – 10x mehr, als derzeit offiziell werden sollen.

In die Architektur wurde zudem die Anbindung von externen Terminologieservern vorgesehen. Damit können Anfragen bzw. Inhalte, die nicht über ID LOGIK® zur Verfügung stehen, transparent weitergeleitet werden. Ein konkretes Anwendungsgebiet ist die Auflösung von ECL-Ausdrücken [4] wie sie in SNOMED CT verwendet werden.

Diskussion: Aus den Aktivitäten der MII heraus, ist die Forderung eines konsortienübergreifenden Terminologieservers formuliert worden, die in einer entsprechenden Taskforce bearbeitet wurde. Im Ergebnis ist eine Liste von Anforderungen formuliert worden, die nun sogar für einen nationalen Terminologieserver geprüft werden. Eine der zentralen Forderungen ist ein Syndication-Mechanismus [5], der mit der hier vorgestellten Architektur umgesetzt werden kann, da die Anbindung von externen Terminologieservern bereits adressiert wurde.

Die Annotation von deutschen Texten mit SNOMED CT hat bereits sehr gute Ergebnisse gezeigt, diese kann allerdings durch die Verwendung des Concept Models noch deutlich verbessert werden. Die entsprechenden Vorarbeiten wurden bereits umgesetzt. Fraglich ist noch eine effiziente Umsetzung von sogenannten post coodinated expressions (PCE) [6], die bei der Abbildung von komplexeren Phrasen notwendigerweise zu implementieren sind. Hier können sicherlich die vorhandenen NLP-Algorithmen verwendet und entsprechend erweitert werden.

Mit dem hier vorgestellten Ansatz konnte die Forderung nach einem standardisierten und performanten Terminologieserver umgesetzt werden und es konnten moderne NLP-Verfahren integriert werden, die eine intelligente und effiziente Anwendung auf Workflows in der klinischen Routine und Forschung ermöglichen.


Literatur

1.
HL7 International [Internet]. Available from: http://hl7.org/fhir/terminology-module.html External link
2.
BFARM/SNOMEDCT [Internet]. Available from: https://www.bfarm.de/EN/Code-systems/Terminologies/SNOMED-CT/_node.html External link
3.
FWS [Internet]. Verfügbar unter: http://www.friedrich-wingert-stiftung.de/ External link
4.
ECL [Internet]. Verfügbar unter: https://confluence.ihtsdotools.org/display/DOCECL External link
5.
Syndication [Internet]. Verfügbar unter: https://de.wikipedia.org/wiki/Content-Syndication External link
6.
PCE [Internet]. Verfügbar unter: https://confluence.ihtsdotools.org/display/DOCGLOSS/postcoordinated+expression External link