gms | German Medical Science

67. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V. (GMDS), 13. Jahreskongress der Technologie- und Methodenplattform für die vernetzte medizinische Forschung e. V. (TMF)

21.08. - 25.08.2022, online

Mapping von Registerdaten auf das OMOP CDM am Beispiel des MS-Register der Deutschen Multiplen Sklerose Gesellschaft Bundesverband e.V.

Meeting Abstract

  • Kirstin Tuemler - MS Forschungs- und Projektenwicklungs-gGmbH (MSFP), Hannover, Germany
  • Tina Parciak - University MS Center (UMSC), Hasselt, Belgium; Biomedical Research Institute (BIOMED) Hasselt University, Diepenbeek, Belgium; Data Science Institute (DSI), Hasselt University, Diepenbeek, Belgium
  • Martin Preusse - Kaiser & Preusse, Freiburg im Breisgau, Germany
  • Alexander Stahmann - MS-Register der DMSG, Bundeverband e.V., MS Forschungs- und Projektentwicklungs-gGmbH, Hannover, Germany

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie. 67. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V. (GMDS), 13. Jahreskongress der Technologie- und Methodenplattform für die vernetzte medizinische Forschung e.V. (TMF). sine loco [digital], 21.-25.08.2022. Düsseldorf: German Medical Science GMS Publishing House; 2022. DocAbstr. 180

doi: 10.3205/22gmds020, urn:nbn:de:0183-22gmds0203

Published: August 19, 2022

© 2022 Tuemler et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License. See license information at http://creativecommons.org/licenses/by/4.0/.


Outline

Text

Einleitung: Mit dem Ziel, die Versorgungslage der Patient:innen mit Multiple Sklerose (MS) in Deutschland transparent darzustellen, betreibt die MS Forschungs- und Projektentwicklungs- gGmbH (MSFP) seit 2001, im Auftrag der Deutschen Multiple Sklerose Gesellschaft, Bundesverband e. V. (DMSG), ein deutschlandweites klinisches MS-Register (GMSR). In dem longitudinalen Datensatz des Registers sind Informationen von >36.000 Patienten (Stand 2022) aus den Bereichen MS-Verlaufsdaten, MS-Schübe, Soziodemografie, Komorbiditäten, medikamentöse und nicht-medikamentöse Therapien sowie deren Nebenwirkungen enthalten [1]. Als der Kerndatensatz des Registers konzipiert wurde waren keine passenden standardisierten Kataloge verfügbar, sodass es sich mit Ausnahme der Nebenwirkungs- und Komorbiditätserfassung (ICD-10-GM und MedDRA) um eine Registerspezifische Datensatzdefinition handelt.

Um übergreifende Forschungsfragen, Analysen unterschiedlicher nationaler als auch internationaler Datenquellen zu ermöglichen, ist eine Harmonisierung der Daten, z.B. auf das Observational Medical Outcomes Partnership (OMOP) Common Data Model (CDM), nötig [2]. Zentrale Bestandteile des OMOP-CDM sind u.a. standardisierte, medizinische Vokabulare, auf die die jeweiligen Datenquellen gemappt werden.

Ziel: Mapping des MS-Register Datensatzes auf das OMOP CDM.

Fragestellungen: In welchem Umfang lassen sich MS-Registerdaten auf das OMOP CDM v5.3 mappen?

Methoden: Die für das Mapping verwendeten Quelldaten wurden als CSV-Dateien nach standardisierten internen Kriterien [1] für Analysen exportiert und aufbereitet. Um das Mapping zu realisieren, wurden die OHDSI-Tools und das ETL-Programm KNIME (v4.5.1) eingesetzt. Für die Mapping-Spezifikationen und die Auswahl der verwendeten Variablen wurden die OHDSI-Tools „White Rabbit [3]“, „Rabbit-in-a-Hat [3]“, „USAGI [4]“ und der webbasierten Anwendung „Athena [5]“ verwendet. Die transformierten Daten wurden in eine Datenbank nach dem OMOP-Schema geladen, welche auf einem dedizierten V-Server gehostet wird. Die Qualitätssicherung der Transformation wurde mit den OHDSI-Tools „Atlas“ [6], „Data Quality Dashboard (DQD)“ [7] und „Achilles“ [8] durchgeführt.

Ergebnis: Die Datenstrukturanalyse der Quelldateien diente als Ausgang für das ETL-Design. Die Registerdaten wurden auf drei Terminologien (SNOMED-CT, LOINC, PPI) gemappt. Es konnten 105 der 430 Variablen (24,4%) des Registers gemappt werden. In einem ETL-Prozess mit sieben Data Pipelines die Registerdaten geladen, aufbereitet und anschließend in die OMOP-Datenbank geladen. Die Mapping-Qualität wurde geprüft und im DQD eine Erfolgsquote von 99% erreicht.

Diskussion: Bei dem Mapping von Registerdaten auf das OMOP-CDM konnten 326 Variablen nicht auf ein Standardvokabular innerhalb des OMOP-CDM, wie SNOMED-CT oder LOINC, gemappt werden. Dies betraf insbesondere auch die kodierten Nebenwirkungsdaten.

Die Struktur des OMOP-CDM orientiert sich an Patientenakten- sowie Leistungs-/Abrechnungsdaten und ist daher nur begrenzt für von elektronischer Case Report Form (eCRF) Strukturen geprägten Datenquellen geeignet. So konnten viele der möglichen OMOP-Standardtabellen nicht gefüllt werden, weil die Informationen in der Registerdatenstruktur nicht enthalten sind.

Ausblick: Im Rahmen eines Vokabularupdates wurde MeDRA als Teil des SNOMED-CT Vokabulars verfügbar gemacht. Das MS-Register beteiligt sich an der Workgroup „Registry“ in OHDSI, um die Weiterentwicklung des CDM mitzugestalten und eine bessere Abbildung von Registerdaten in OMOP zu ermöglichen.

Interessenkonflikte:

  • K. Tümler: Arbeit an dem Projekt, wurde durch Mittel des Data Partner Call in the European Health Data and Evidence Network (EHDEN) finanziert.
  • A. Stahmann: Er erklärt hiermit, dass er seit dem 1. November 2020 geschäftliche, persönliche oder materielle Beziehungen zu den folgenden Industrieunternehmen, Consulting-Unternehmen oder Kostenträgern bzw. Trägern von medizinischen Einrichtungen unterhalten hat oder gegenwärtig unterhält: Deutsche Multiple Sklerose Gesellschaft, Bundesverband e.V., Innovationsfonds des G-BA, DMS Stiftung, Biogen, Bristol-Myers Squibb (Celgene), Merck, Novartis, Roche, Sanofi und Deutsche Rentenversicherung Bund
  • T. Parciak wird finanziert durch: 1. University MS Center (UMSC), Hasselt - Pelt, Belgium; 2. Biomedical Research Institute (BIOMED), Hasselt University, Agoralaan Building C, 3590 Diepenbeek, Belgium; 3. Data Science Institute (DSI), Hasselt University, Agoralaan Building D, 3590, Diepenbeek, Belgium
  • M. Preusse, zertifizierter SME für Kaiser & Preusse, wurde durch Mittel des Data Partner Call in the European Health Data and Evidence Network (EHDEN) finanziert.

Die Autoren geben an, dass kein Ethikvotum erforderlich ist.


Literatur

1.
Ohle LM, Ellenberger D, Flachenecker P, Friede T, Haas J, Hellwig K, et al. Chances and challenges of a long-term data repository in multiple sclerosis: 20th birthday of the German MS registry. Scientific Reports. Sci Rep. 2021 Jun 25;11(1):13340.
2.
Garza M, Fiol GD, Tenenbaum J, Walden A, Zozus MN. Evaluating common data models for use with a longitudinal community registry. J Biomed Inform. 2016;64:333-341.
3.
OHDSI White Rabbit. [letzter Zugriff: 25.05.2022]. Verfügbar unter: https://github.com/OHDSI/WhiteRabbit External link
4.
Schuemie M. OHDSI USAGI. [letzter Zugriff: 25.05.2022]. Verfügbar unter: https://github.com/OHDSI/Usagi External link
5.
OHDSI – Athena (Vocabularies Repository). [letzter Zugriff: 25.05.2022]. Verfügbar unter: https://github.com/OHDSI/Athena External link
6.
OHDSI Atlas. [letzter Zugriff: 25.05.2022]. Verfügbar unter: https://github.com/OHDSI/Atlas External link
7.
OHDSI Data Quality Dashboard - Data Quality Assessment Terminology. [letzter Zugriff: 25.05.2022]. Verfügbar unter: https://data.ohdsi.org/DataQualityDashboard/ External link
8.
OHDSI ACHILLES for data characterization. [letzter Zugriff: 25.05.2022]. Verfügbar unter: https://www.ohdsi.org/analytic-tools/achilles-for-data-characterization/ External link