Article
Stärkung der organisationsübergreifenden Nutzung von versorgungsnahen Daten – Erfahrung aus dem „OMOPing“-Prozess zweier großer Datensätze aus zertifizierten Krebszentren
Search Medline for
Authors
Published: | September 6, 2024 |
---|
Outline
Text
Einleitung: Um die internationale und gemeinsame Zusammenarbeit in der medizinischen und Versorgungsforschung zu verbessern, sollten Daten aus verschiedenen Quellen möglichst gemeinsame Datenstandards verwenden, die es Forschenden ermöglichen, ihre Analyseskripte auszutauschen und die Ergebnisse zusammenzutragen, ohne die eigentlichen Daten zentral zusammenzuführen. Das von der Initiative OHDSI getragene OMOP CDM (Observational Medical Outcomes Partnership Common Data Model) ist ein solcher Standard, der nicht nur Dateninhalt (mithilfe von eindeutig zuordenbaren Konzepten), sondern auch die Datenstruktur (durch relationale Tabellen) von versorgungsnahen Daten vereinheitlicht. Das OMOP CDM ist ein Datenstandard, der Datenbank-unabhängig nutzbar ist und mit einer Vielzahl von verschiedenen Terminologien zur Abdeckung der klinischen Versorgung aufwartet. Die Deutsche Krebsgesellschaft führt seit 2016 bzw. 2018 die zwei großen Beobachtungsstudien PCO (Prostate Cancer Outcomes) und EDIUM (Ergebnisqualität bei Darmkrebs: Identifikation von Ursachen und Maßnahmen zur flächendeckenden Qualitätsentwicklung) durch, in denen Daten aus der Versorgung in zertifizierten Prostata- und Darmkrebszentren mit patient-reported Outcomes-(PRO)-Daten der Patient*innen verknüpft werden. Um diese beiden Datensätze auch in internationalen Forschungsverbünden gemeinsam zu nutzen, wurden sie in das OMOP CDM überführt und eine Plattform aufgesetzt, durch die die ins OMOP CDM überführten Datensätze aufrufbar sind und für Analysen zur Verfügung stehen.
Methoden: Zunächst wurden die beiden Quelldatensätze auf ihre Übertragbarkeit in das OMOP CDM hin untersucht und es wurde entschieden, welche Datenfelder in das OMOP CDM überführt werden sollen. Mithilfe der Software Pentaho und zunächst synthetischen Datensätzen wurde ein Extract Transform Load-Prozess entwickelt, der die Quelldatensätze zunächst als csv-Dateien einliest und dann in eine relationale Datenbank (PostgreSQL), die dem Datenformat des OMOP CDM (Version 5.4) folgt, überträgt. Anschließend wurden Qualitätssicherungstests durchgeführt, um zu überprüfen, ob die Daten in der PostgreSQL den Quelldaten entsprechen. Zusätzlich wurde ein Server aufgesetzt, auf dem Analysetools und eine R-Studio-Umgebung implementiert sind und die Daten ausgewertet werden können.
Ergebnisse: Für den Prostatakrebsdatensatz wurden von N = 49.692 Prostatakrebsfälle mit 318 zugehörigen Datenfeldern n = 49.300 Fälle mit 247 Datenfeldern in das OMOP CDM überführt, für den Darmkrebsdatensatz waren es n = 8.680 (ursprünglich N = 8.801) mit 320 Datenfeldern (ursprünglich 343). Für die meisten Datenfelder aus der Versorgung konnten direkte Korrelate im OMOP CDM gefunden werden, allerdings sind PROs bis jetzt noch nicht gut abgebildet im Datenmodell, weshalb verschiedene Ansätze genutzt wurden, diese ohne zu viel Informationsverlust zu mappen.
Schlussfolgerung: Die beiden Datensätze konnten erfolgreich in das OMOP CDM überführt werden; die für die Forschenden der Deutschen Krebsgesellschaft abrufbare Analyseplattform beinhaltet neben den im OMOP CDM-Format überführten Datensätzen alle gängigen OHDSI-Analysetools inkl. Datendashboards, automatisiert erstellten Analysen sowie einer R-Studio-Umgebung, um föderierte Analysen in Zukunft besser durchführen zu können. Dies ist konkret bereits in dem EU-geförderten OPTIMA-Konsortium geplant. Die Nutzung von versorgungsnahen Daten für die Forschung wird dadurch weiter vorangetrieben und das vorgestellte Vorgehen kann auch auf andere Datensätze übertragen werden. Die Mitwirkung nicht nur von Bioinformatiker*innen, sondern vor allem auch von Versorgungsforschenden, Medizinsoziolog*innen und anderen Vertretenden aus den Fachdisziplinen, die sich wissenschaftlich mit Gesundheitsversorgung beschäftigen, bei Initiativen wie OHDSI sollte gestärkt werden, damit auch komplexere Datenarten wie bspw. PRO-Daten besser berücksichtigt werden in international verbreiteten Datenstandards.
Die Autoren geben an, dass kein Interessenkonflikt besteht.
Die Autoren geben an, dass ein positives Ethikvotum vorliegt.