gms | German Medical Science

Struktursuche in pharmazeutischen Fachinformationen zur maschinenlesbaren Abbildung von AMTS-relevanten Informationen

Meeting Abstract

Suche in Medline nach

  • Franz Matthies - Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig
  • Daniel Neumann - Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig

SMITH Science Day 2022. Aachen, 23.-23.11.2022. Düsseldorf: German Medical Science GMS Publishing House; 2023. DocP15

doi: 10.3205/22smith26, urn:nbn:de:0183-22smith260

Veröffentlicht: 31. Januar 2023

© 2023 Matthies et al.
Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung). Lizenz-Angaben siehe http://creativecommons.org/licenses/by/4.0/.


Gliederung

Text

Einleitung und Zielstellung: Im Laufe der letzten Jahre haben sich mehrere Möglichkeiten pharmazeutische Fachinformationen darzustellen herauskristallisiert. Die pharmazeutischen Fachinformationen beruhen auf den Erkenntnissen der klinischen Anwendung. Für die Abbildung dieser Erkenntnisse zur weiteren Verarbeitung hat sich jedoch bis heute kein einheitlich geeignetes Vorgehen etabliert. Das bedingt auch, dass nicht nur die maschinelle Interpretierbarkeit der durch pharmazeutische Hersteller bereitgestellten Informationen problematisch ist, sondern auch die klinische bzw. menschliche Interpretierbarkeit [1].

Aus diesem Grund ist es notwendig eine Informationsstruktur zu finden, auf denen pharmazeutische Fachinformationen abgebildet (z.B. als Entscheidungsregeln, Modelle, Ontologien) werden können. Ziel ist es also die AMTS (Arzneimitteltherapiesicherheit)-relevanten Informationen, wie die Wechselwirkungen, Kontraindikationen und Dosierungsangaben, in den Fachinformationen zu finden. Die gefundenen Fachinformationen sind so zu strukturieren, dass diese maschinell interpretierbar sind und schlussendlich daraus FHIR-Queries gebildet werden können. Dieses Vorgehen soll dabei unterstützen die maschinelle Verarbeitung der Fachinformationen zu fördern und eine Grundlage für Beschreibungsmodelle von AMTS-Informationen darstellen.

Methoden: In einem ersten grundständigen Ansatz haben wir frei verfügbare textuelle Daten der Gelben Liste (https://www.gelbe-liste.de/) genommen sowie Hersteller-Produktinformationen aus der MMI-Datenbank, um einen prä-annotierten Korpus pharmazeutischer Texte für ca. 600 Präparate und ihre Haupt-Inhaltsstoffe zu generieren. Die Gelbe Liste umfasst unter anderem Informationen zu Wirkstoffen (>10.000), Wirkstoffgruppen, Präparaten (>110.000) etc. Mit herkömmlichen Web-Crawl-Mechanismen haben wir zum einen die Texte an sich extrahiert und darüber hinaus mittels der Analyse vorhandener html-Tags einige medizinisch-pharmazeutisch relevante Entitäten identifiziert. Diese Tags werden von den Autor*innen gesetzt, um Referenzen auf Entitäten innerhalb der Gelbe-Liste-Datenbanken zu erzeugen. Somit umfassen die Texte schon eine gewisse Anzahl an Metadaten, die wir nutzen können; unter anderem Wirkstoffe, Krankheiten oder Wirkstoffgruppen.

In einem zweiten Schritt haben wir einen Gazetteer-Ansatz angewandt, um weitere Verweise auf Wirkstoffe und Krankheiten zu extrahieren. Dabei stammen die Informationen zu den Krankheiten aus der Gelben Liste Datenbank und decken somit nur die Informationen ab, die nicht von den Autor*innen gesetzt wurden. Dieses Vorgehen ist aber auch noch durch weitere Terminologien/Wörterbücher ergänzbar; z.B. ICD-10-Terme. Den Wirkstoff-Gazetteer wiederum haben wir aus der entsprechenden MMI-Datenbank erzeugt.

Ein letzter Schritt, der noch ohne spezielle Sprachmodelle1 auskommt, aber verhältnismäßig produktiv für die vorliegende Art kuratierter Texte ist, beinhaltet die Verwendung von regulären Ausdrücken, um weitere relevante Informationen im Hinblick auf Medikationsbeschreibungen zu identifizieren. Diese umfassen die Nennung von Dosierungsangaben, die Angabe der Vergabedauer, den Modus der Vergabe sowie Spezifizierung für bestimmte Altersgruppierungen.

Schritt 2 und 3 wurden ähnlich schon bei der Erstellung eines klinischen Dokumentenkorpus angewandt [2].

Ergebnisse: Wir haben einen Workflow skizziert, mit dem mittels einfacher NLP-Verfahren viele grundlegende, relevante medizinisch-pharmazeutische Entitäten aus standardisierten pharmazeutischen Fachinformationen extrahiert werden konnten. Die Ergebnisse sind jedoch nur exemplarisch ausgewertet worden und eine qualitative Prüfung durch Pharmazeut*innen/Pharmakolog*innen ist im nächsten Schritt notwendig, um die Güte des Verfahrens einzuschätzen.

Diskussion: Nach einer ersten Plausibilisierung der gefundenen Annotationen haben sich konkrete Probleme hervorgetan:

1.
Die Einschätzung, welche Informationen in den annotierten Entitäten fehlen, ist zum jetzigen Zeitpunkt nicht einzuschätzen. Hier benötigt es klinisches als auch pharmazeutisch/pharmakologische Fachwissen.
2.
Wirkstoffgruppen werden häufig herangezogen, um tiefgreifendere Beschreibungen abzubilden. Es gibt jedoch keinen international anerkannten Katalog, der alle Wirkstoffgruppen nach aktuellem Erkenntnisstand vollumfassend zusammenfasst.
3.
Auch sind teilweise internationale Bezeichnungen zu finden, was das textuelle Mapping auf konkrete Wirkstoffe erschwert.
4.
Ein großes technisches Augenmerk liegt auf der Verknüpfung zwischen den Entitäten. Hier ist es notwendig, dass z.B. Dosierungen eben nicht nur den Medikamenten, sondern auch der zu verabreichenden Häufigkeit und dem hierfür zugrundeliegenden Phänotypen (z.B. Erwachsene ab 65 Jahren, Kinder bis 8 Jahren) zugeordnet werden können.
5.
Darauf aufbauend ist die Abbildung der multidimensionalen Abhängigkeit aus Laborwerten, anderen Medikamenten und deren Dosierungen bisher in keiner strukturierten Form vorhanden. Damit werden AMTS-Informationen bisher als Regelwerk aufgestellt und auch als eigenständiges Programm entwickelt.

Diese Hindernisse erfordern eine qualitative Analyse durch Domänenexperten und gleichzeitig wäre tiefgreifendere Forschung im Bereich der Meta-Annotationen sowie der maschinen-verarbeitbaren AMTS-spezifischen Abbildung von Informationen notwendig.

Anmerkungen:

1Als Sprachmodelle bezeichnen wir maschinell erlernte Modelle, die bspw. bestimmte Entitäten in einem Text automatisch extrahieren können. Diese sind jedoch grundsätzlich nur unter hohem Aufwand (an Rechenkapazität und/oder Erzeugung menschlich annotierter Goldstandards) zu bekommen.


Literatur

1.
Weisbach L, Schuster AK, Hartmann M, Fromm MF, Maas R, Farker K. Inconsistencies and ambiguities in liver-disease-related contraindications – A systematic analysis of SmPCs/PI of major drug markets. Journal of Clinical Medicine. 2022 Mar;11(7):1933. DOI: 10.3390/jcm11071933 Externer Link
2.
Hahn U, Matthies F, Lohr C, Löffler M. 3000PA - Towards a national reference corpus of german clinical language. Stud Health Technol Inform. 2018;247:26-30.