Artikel
HERALD: Ein nutzerzentrierter Ansatz für die eigenständige Analyse von longitudinalen Gesundheitsdaten
Suche in Medline nach
Autoren
Veröffentlicht: | 6. September 2024 |
---|
Gliederung
Text
Einleitung und Stand der Technik: Für die Stärkung der translationalen Medizin ist ein effizienter analytischer Zugang zu Gesundheitsdaten für Forscher*innen von entscheidender Bedeutung. Hierfür werden häufig etablierte Data Warehouse Plattformen wie i2b2[1] oder ATLAS [1] eingesetzt. Gesundheitsdaten sind meist longitudinal. Für viele statistische Analysen und maschinelle Lernverfahren sind jedoch Querschnittdaten notwendig, was eine Transformation in Form von Auswahl und Aggregation von Fakten erfordert. Die effiziente Transformation und die Beschreibung, welche Informationen aus komplexen Längsschnittdaten für eine Fragestellung wirklich relevant sind, stellt oftmals eine Herausforderung dar. Bestehende Plattformen bieten im Regelfall nur begrenzte Aggregationsmethoden, was die verfügbaren Analysefunktionen einschränkt, oder haben komplexe Benutzeroberflächen mit steilen Lernkurven. Am anderen Ende des Spektrums stehen Abfragesprachen wie AQL [2] oder CQL [3] oder Programmiersprachen zur Verarbeitung medizinischen Wissens wie die Arden-Syntax [4], die speziell für anspruchsvolle Verarbeitungen longitudinaler Gesundheitsdaten entwickelt wurden. Sie sind jedoch komplex und ohne Programmier- oder Datenwissenschaftskenntnisse nur schwer zu verwenden.
Konzept: Mit HERALD (Human-centric Extraction for Research and Analysis of Longitudinal Data) haben wir eine domänenspezifische Abfragesprache für die Transformation von Fakten aus Data Warehouse Plattformen entwickelt. Diese Fakten werden durch ein generisches Datenmodell repräsentiert, welches Beobachtungen entlang einer Zeitachse organisiert. Jede HERALD-Abfrage verarbeitet alle verfügbaren Fakten auf Patient*innenebene und gibt für jede Patient*in einen einzelnen Fakt aus. Diese ausgegebenen Fakten bilden eine Spalte in der resultierenden Querschnittstabelle. Abfragen werden sequenziell ausgeführt und können sich auf die Ergebnisse vorhergehender Abfragen beziehen. Für die Abfragen können Operatoren zur Auswahl, Aggregation, Darstellung von Beziehungen, Existenz von Fakten sowie Filterfunktionen verwendet werden. Zusätzlich gibt es eine Reihe von Operatoren um zeitliche Einschränkungen zu treffen und Fakten zeitlich zueinander in Beziehung zu setzen. Beispiele für (leicht vereinfachte) HERALD-Abfragen sind „AVERAGE (DiastolicBloodPressure) AFTER FIRST (Medication=Losartan)“ oder „COUNT (Admission) BEFORE 2021-01-01“.
Implementierung: Unsere Implementierung [5] umfasst eine Laufzeitumgebung zusammen mit einem graphischen Editor zur Entwicklung von Abfragen sowie mehrere deskriptive statistische Methoden und Visualisierungen. Beispiele hierfür sind eine Datenqualitätsanalyse, ein Kohortenvergleich unter Verwendung univariater Verteilungen, eine Ereigniszeitanalyse und Streudiagramme. Die Implementierung kann als eigenständige Komponente betrieben werden, was für die Entwicklung wichtig ist. Ebenso kann sie jedoch über eine Schnittstelle in gängige Analyseplattformen integriert werden. Eine solche Schnittstelle haben wir beispielhaft für i2b2 implementiert. Als weiterführende Arbeiten planen wir die Integration von klinischen Standardterminologien, vergleichende Usability-Analysen mit ähnlichen Lösungen, die inhaltliche Evaluation mit klinischen Anwendungsfällen und serverseitige Komponenten zur Ausführung von Abfragen.
Gewonnene Erkenntnisse: HERALD ist eine domänenspezifische Abfragesprache, die sich durch eine intuitive Syntax auszeichnet und in einer umfassenden webbasierten Benutzeroberfläche zugänglich gemacht wird. Damit ermöglicht sie Forscher*innen die eigenständige Auswahl und Aggregation von longitudinalen Gesundheitsdaten und verkleinert die Lücke zwischen medizinischer und datenwissenschaftlicher Expertise. Die modulare Implementierung kann durch die Entwicklung spezieller Schnittstellenkomponenten in eine Vielzahl von Plattformen integriert werden. Unsere Lösung eignet sich für ein breites Spektrum von Anwendungsfällen in der Medizin. Beispiele aus der Charité sind der analytische Zugriff auf ein klinisches Krebsregister sowie Anwendungsfälle in der Nephrologie, der Neurologie und im Bereich der kardiovaskulären Medizin.
Die Autoren geben an, dass kein Interessenkonflikt besteht.
Die Autoren geben an, dass kein Ethikvotum erforderlich ist.
Literatur
- 1.
- Schüttler C, Prokosch HU, Sedlmayr M, Sedlmayr B. Evaluation of Three Feasibility Tools for Identifying Patient Data and Biospecimen Availability: Comparative Usability Study. JMIR Med Inform. 2021 Jul 21;9(7):e25531.
- 2.
- The openEHR Foundation. Archetype Query Language (AQL) [Internet]. London: The openEHR Foundation; 2021 [cited 2024 Apr 09]. Available from: https://specifications.openehr.org/releases/QUERY/latest/AQL.html
- 3.
- Li M, Zhi Y, Lu X, Cai H. Extending CQL with openEHR to Express Clinical Quality Indicators. Stud Health Technol Inform. 2019 Aug 21;264:1853–4.
- 4.
- Samwald M, Fehre K, De Bruin J, Adlassnig KP. The Arden Syntax standard for clinical decision support: Experiences and directions. J Biomed Inform. 2012 Aug;45(4):711–8.
- 5.
- HERALD Project [Internet]. [cited 2024 Apr 09]. Available from: https://www.herald-lang.org/