gms | German Medical Science

SMITH Science Day 2022

23.11.2022, Aachen

Semantische Modellierung und Ausführung von Phänotyp-Algorithmen

Meeting Abstract

  • Christoph Beger - SMITH-Konsortium der Medizininformatik-Initiative; Institut für Medizinische Informatik, Statistik und Epidemiologie, Universität Leipzig; Wachstumsnetzwerk CrescNet, Universität Leipzig
  • Franz Matthies - SMITH-Konsortium der Medizininformatik-Initiative; Institut für Medizinische Informatik, Statistik und Epidemiologie, Universität Leipzig
  • Ralph Schäfermeier - SMITH-Konsortium der Medizininformatik-Initiative; Institut für Medizinische Informatik, Statistik und Epidemiologie, Universität Leipzig
  • Alexandr Uciteli - SMITH-Konsortium der Medizininformatik-Initiative; Institut für Medizinische Informatik, Statistik und Epidemiologie, Universität Leipzig

SMITH Science Day 2022. Aachen, 23.-23.11.2022. Düsseldorf: German Medical Science GMS Publishing House; 2023. DocV5

doi: 10.3205/22smith05, urn:nbn:de:0183-22smith057

Published: January 31, 2023

© 2023 Beger et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License. See license information at http://creativecommons.org/licenses/by/4.0/.


Outline

Text

Einleitung und Zielstellung: In der Medizininformatik Initiative (MII) sollen innovative IT-Lösungen zur Unterstützung der medizinischen Forschung und zur Verbesserung der Patientenversorgung entwickelt werden. Ein wichtiger Aspekt dabei ist die automatische Detektion von Erkrankungen, Risiken für ebenjene und Nebenwirkungen von Medikamenten. Für die Durchführung der Detektion müssen Patientendaten aus elektronischen Patientenakten oder Forschungsdatenbanken extrahiert und ausgewertet werden. Dabei können maschinell interpretierbare Phänotyp-Algorithmen eingesetzt werden, die strukturierte Filterkriterien und Regeln verwenden, um Individuen mit bestimmten Merkmalen zu identifizieren (Auswahlkriterien) und weitere Merkmale abzuleiten. Computergestützte Algorithmen können so unter anderem die Rekrutierung für klinische Studien verbessern [1].

Der Aufwand, diese Algorithmen zu erstellen, kann abhängig von deren Komplexität sehr hoch sein [2] und bedarf typischerweise einer engen Zusammenarbeit zwischen Domänen- und IT-Experten. Um bei der Modellierung und Ausführung der Algorithmen zu unterstützen, haben wir das Terminologie- und Ontologie-basierte (TOP) Framework entwickelt, in dem Domänenexperten selbstständig Phänotypen mit entsprechenden Filtern und Regeln definieren können. Das Framework kann von IT-Spezialisten in Krankenhausinformationssystemen eingebettet werden und ermöglicht somit die Ausführung der Algorithmen auf Patientendaten aus der Routineversorgung und medizinischen Forschung.

Methoden: Diese Arbeit verwendet den Begriff „Phänotyp“ nach der Definition von Scheuermann et al. [3], wonach Phänotypen alle beobachtbaren (Kombinationen von) körperlichen Eigenschaften eines Organismus sind.

Des Weiteren setzen wir voraus, dass für Algorithmen relevante Datenelemente in strukturierter Form vorliegen und mit entsprechenden Abfragesprachen aus datenhaltenden Systemen (Quellsystem) abgerufen werden können. Für den Zugriff auf elektronische Patientendaten kommt in der MII HL7 FHIR zum Einsatz und Forschungsdatenbanken sind oft SQL-basiert. Daher haben wir uns auf SQL-basierte Datenbankmanagementsysteme und FHIR-Server mit FHIR Search Unterstützung fokussiert. Das hier vorgestellte Konzept kann jedoch auch in Verbindung mit anderen Abfragesprachen eingesetzt werden.

Als Grundlage für strukturierte Phänotyp-Algorithmen nutzen wir ein aus der Core Ontology of Phenotypes [4] abgeleitetes Modell, in welchem atomare Phänotypen (nicht zusammengesetzt) mit Begriffen aus Terminologien (z.B. LOINC, SNOMED CT) annotiert werden können. Diese Annotationen werden für die Zuordnung von Datenelementen aus den Quellsystemen zu atomaren Phänotypen verwendet. So ist der Phänotyp „Körpergröße“ mit dem Code LOINC:3137-7 annotiert. Mit einem entsprechenden Mapping können dem Phänotyp alle Größenwerte aus elektronischen Patientenakten zugeordnet werden.

Zusammengesetzte Phänotypen ergeben sich aus Kombinationen von atomaren oder anderen zusammengesetzten Phänotypen. Wir haben hierfür eine generische Spezifikation entwickelt, die vorsieht, dass zusammengesetzte Phänotypen immer einen auswertbaren Ausdruck besitzen, der entweder einen Phänotyp, eine Konstante oder genau eine Funktion mit einer beliebigen Anzahl von Argumenten repräsentiert. Die Argumente sind ebenfalls Ausdrücke, sodass Verschachtelungen möglich sind. Funktionen überführen Argumentmengen (Ausdrucksmengen) auf einen einzelnen Ausdruck (meistens einen Wert), wobei sie nicht auf mathematische Funktionen beschränkt sind und ihre Menge erweiterbar ist. Beispielsweise kann der Ausdruck des Phänotyp „Körper-Masse-Index“ wie folgt dargestellt werden: „Quotient(Gewicht, Potenz(Größe, 2))“.

Phänotyp-Algorithmen werden durch Angabe von (atomaren oder zusammengesetzten) Phänotypen als Ein-/Ausschlusskriterien initiiert. Zusammengesetzte Phänotypen können auf Atomare zurückgeführt werden, aus denen sie hergeleitet werden. Somit ergibt sich eine Menge von atomaren Phänotypen, die alle über Terminologie-Code Annotationen verfügen sollten. Für jeden Phänotyp kann eine Abfrage abgeleitet werden, die in die entsprechende Abfragesprache des Quellsystems übersetzt und ausgeführt wird. Diese Ableitung wird von generischen oder speziell auf das Quellsystem abgestimmten Adaptern umgesetzt. Für SQL und FHIR Search haben wir generische Java-basierte Adapter entwickelt (basierend auf [5]), die mit einem Mapping konfiguriert werden können. Die Abfrageergebnisse werden für die Auswertung von Ausdrücken der zusammengesetzten Phänotypen genutzt.

Die gesamte Modellierung der Phänotypen und Erstellung von Algorithmen kann von Domänenexperten durchgeführt werden. Lediglich Quellsystem-Mapping und Adapter müssen von IT-Spezialisten bereitgestellt werden. Das Mapping umfasst eine Liste aller im Quellsystem enthaltenen Datenelemente mit Terminologie-Code Annotationen. So können beispielsweise Codes auf FHIR-Strukturen (z.B. Ressourcentypen „Observation“ und „Condition“) oder SQL Datenbank Tabellen und Spalten gemappt werden. Zusätzlich lassen sich im Modell enthaltene Wertebereiche modifizieren. Dies kann hilfreich sein, um Modelle an einrichtungsspezifische Normwerte anzupassen (z.B. Laborgrenzwerte).

Ergebnisse: Basierend auf dem beschriebenen methodischen Grundbau haben wir eine interaktive Webanwendung, das TOP Framework, entwickelt. Domänenexperten können dieses nutzen, um Phänotyp-Algorithmen zu modellieren und auszuführen. Es besteht aus einem JavaScript-basierten Frontend, einem Java Spring Backend und einer Datenbank. Das Framework erlaubt die Suche in existierenden Algorithmen, unterstützt unter anderem bei der Erstellung von Ausdrücken für zusammengesetzte Phänotypen und sorgt somit für syntaktische Korrektheit. Front- und Backend kommunizieren über eine API (OpenAPI Spezifikation ist verfügbar unter https://github.com/Onto-Med/top-api), mit der das Backend auch programmatisch gesteuert werden kann. Über Frontend oder API können die im Methodenteil beschriebenen Phänotyp Abfragen erstellt und ausgeführt werden. Je nach ausgewähltem Quellsystem kommt ein passender Adapter zum Einsatz, der Abfragen in Quellsystem-spezifische Sprache übersetzt und ausführt.

Das Framework wurde mit zufällig generierten Testdaten, bestehend aus 10.000 Patienten mit etwa 50.000 Visiten, getestet. Dabei haben wir die Daten sowohl in einer SQL Datenbank als auch über einen FHIR-Server bereitgestellt und entsprechende Mapping-Konfigurationen erstellt. Abfragen an beide Quellsysteme ergaben identische Ergebnismengen.

Diskussion: Häufig werden Bio-Informatiker, Statistiker und vergleichbare Personengruppen mit der Implementierung von Algorithmen beauftragt. Dieser Umstand ist darauf zurückzuführen, dass oft keine einfach zugängliche Entwicklungsumgebung für Entwurf und Ausführung von Algorithmen eingesetzt wird. Somit ist keine klare Trennung zwischen Modellierung und Implementation möglich. Algorithmen müssen daher oft in Programmiersprachen (z.B. R, Python, CQL) verfasst werden, die zwar mächtiger und ausdrucksstärker als das TOP Framework sind, aber Domänenexperten nicht geläufig sind. Zudem muss der Zugriff auf Quelldaten gesondert umgesetzt werden (z.B. durch Verwendung von Bibliotheken wie FHIRcrackr oder FHIR-PYrate).

Die im TOP Framework verwendeten Ausdrücke zur Modellierung von zusammengesetzten Phänotypen sind generisch und somit geeignet, einen Großteil, aber nicht alle in der Praxis vorkommenden Berechnungen und Regeln in Algorithmen abzubilden. Für einige Phänotypen existieren komplexe Berechnungsvorschriften oder Machine-Learning-Algorithmen, die vom Framework noch nicht unterstützt werden. Zukünftig möchten wir eben solche komplexen Berechnungen als externe Services in das TOP Framework einbinden.

Diese Forschung wurde vom Bundesministerium für Bildung und Forschung im Rahmen der Projekte SMITH TOP (Förderkennzeichen: 01ZZ2018) und SMITH (Förderkennzeichen: 01ZZ1803A) gefördert.


Literatur

1.
Thadani SR, Weng C, Bigger JT, Ennever JF, Wajngurt D. Electronic screening improves efficiency in clinical trial recruitment. J Am Med Inform Assoc. 2009 Nov-Dec;16(6):869-73. DOI: 10.1197/jamia.M3119 External link
2.
Zhang H, He Z, He X, Guo Y, Nelson DR, Modave F, Wu Y, Hogan W, Prosperi M, Bian J. Computable eligibility criteria through ontology-driven data access: A case study of Hepatitis C virus trials. AMIA Annu Symp Proc. 2018 Dec 5;2018:1601-10.
3.
Scheuermann RH, Ceusters W, Smith B. Toward an ontological treatment of disease and diagnosis. Summit Transl Bioinform. 2009 Mar 1;2009:116-20.
4.
Uciteli A, Beger C, Kirsten T, Meineke FA, Herre H. Ontological representation, classification and data-driven computing of phenotypes. J Biomed Semantics. 2020 Dec 21;11(1):15. DOI: 10.1186/s13326-020-00230-0 External link
5.
Beger C, Matthies F, Schäfermeier R, Kirsten T, Herre H, Uciteli A. Towards an ontology-based phenotypic query model. Appl Sci. 21. Mai 2022;12(10):5214. DOI: 10.3390/app12105214 External link