gms | German Medical Science

GMDS 2014: 59. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V. (GMDS)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie

07. - 10.09.2014, Göttingen

CDISC ODM als Mittler zwischen heterogenen klinischen Datenquellen und einer integrierten Forschungsdatenbank – praktische Erfahrungen mit i2b2

Meeting Abstract

Suche in Medline nach

  • F. Meineke - Universität Leipzig, Leipzig; IFB AdipositasErkrankungen, Leipzig
  • S. Stäubert - Universität Leipzig, Leipzig; Zentrum für klini-sche Studien, Leipzig

GMDS 2014. 59. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (GMDS). Göttingen, 07.-10.09.2014. Düsseldorf: German Medical Science GMS Publishing House; 2014. DocAbstr. 333

doi: 10.3205/14gmds062, urn:nbn:de:0183-14gmds0625

Veröffentlicht: 4. September 2014

© 2014 Meineke et al.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielfältigt, verbreitet und öffentlich zugänglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Gliederung

Text

Das Integrierte Forschungs- und Behandlungszentrum (IFB) Adipositas-Erkrankungen [1] baut eine Forschungsdatenbank (FDB)-Infrastruktur für die datenschutzkonforme Integration heterogener Datenquellen auf. Vorgestellt wird das Konzept, die Implementation und erste Erfahrungen mit einer auf den CDISC ODM Standard aufbauenden Verarbeitungskette der Quellformate hin zum medizinischen Datawarehouse i2b2 [2].

Einleitung und Fragestellung: Die Forschungsdatenbank bildet den Kern der Daten-Archivlösung des IFB und ist die Plattform für verschiedene forschungsunterstützende Maßnahmen. Die Patienten der IFB Adipositas-Ambulanzen des Klinikums werden um Ihre schriftliche Zustimmung zur forschungsbezogenen Speicherung ihrer Daten und dem Einverständnis für eine Kontaktaufnahme im Falle einer Studieneignung befragt. Die Datenbank erlaubt damit einerseits das volle Patientenpotential für die Rekrutierungsansprache auszuschöpfen und andererseits bereits erhobene Daten im Vorfeld von Forschungsprojekten für fundierte Machbarkeitsuntersuchungen und Hypothesenbildungen heranzuziehen. Die für die Anwendungsdomäne Adipositas relevanten klinischen Daten liegen verteilt in verschiedenen Anwendungssystemen des Krankenhausinformationssystems, so auch in Office-Formaten, vor. Keines der Systeme unterstützt einen Datenstandard – die proprietären Formate sind entweder gar nicht oder nur schlecht annotiert zugänglich. Ein Zielsystem des Datentransfers ist das i2b2 System, das ebenfalls keine standardisierten Importschnittstellen vorsieht.

Material und Methoden: Alle vorliegenden Datenquellen werden in einem ersten Schritt in das CDISC ODM [3] Format überführt. Dieser XML basierte Standard wurde für den Transport von Daten und Metadaten klinischer Studien entwickelt. Allerdings unterstützen nur wenige gebräuchliche Systeme CDISC ODM direkt (z.B. OpenClinica, SAS). Häufig ist ein direkter Datenbankzugriff notwendig, selten stehen Webschnittstellen zur Verfügung. Diese Exportprogramme (ETL-Jobs) sind damit Unikate. Zumeist können hiermit auch Metadaten wie Gruppierungen und ihre Bezeichner, Code-Listen, Datentypen, Einheiten, Beschreibungen oder Anzeigenamen direkt übernommen werden.

Die in Tabellenform vorliegenden Daten werden über einen generischen ETL-Job (umgesetzt in TalendOpenStudio) transformiert. Die Metadaten werden über eine quellspezifische Konfigurationsdatei definiert. Die ODM/< StudyEvent>/Gliederung wird dabei für Versorgungsdaten analog als Patient/Fall/Untersuchungsformular interpretiert.

In einem zweiten Schritt werden Zusammenstellungen von ODM Dateien in eine Forschungsdatenbankzielstruktur übertragen. Entsprechend der unterschiedlichen Erwartungen der Nutzergruppen (Biometriker, Studienleiter, Forscher) wurde neben dem i2b2 Datawarehouse eine herkömmliche relationale Datenbank aufgebaut. Die ETL-Job für den Import in die jeweilige Datenbank ist dabei generisch – eine XML-basierte Steuerungssprache ermöglicht jedoch eine quellspezifische Lokalisierung der inhaltlichen Metadaten (z.B. Erhebungszeitpunkte, Patientenstammdaten, Probandenpseudonym, Quelle, Version und Zeitstempel) innerhalb der ODM Daten über XPATH, die Festlegung der Position im Ontologiebaum des i2b2, die Einbindung von Standardkatalogen (ICD, OPS), oder den Import von ID-Mappings zum Patienten-Record-Linkage.

Ergebnisse: Das zweistufige ODM basierte Verfahren zeigte in der Praxis verschiedene günstige Eigenschaften 1) Die entstehenden ODM Dateien können herkömmlich z.B. in einem Content Management System archiviert werden. 2) Für das standardisierte ODM stehen zahlreiche weiterverarbeitenden oder qualitätssichernde Werkzeuge (z.B. MDR [4], ODM-Validatoren) zur Verfügung. 3) Die Komplexität in der Entwicklung der Export ETL-Jobs von einer proprietären Datenquelle hin zu ODM verringert sich deutlich gegenüber einem Job der direkt in die Zielstruktur übersetzt, da die Entwickler weder Zugriff noch Kenntnis der Zieldatenbank sondern lediglich die Dokumentation des ODM benötigt. 4) Die Änderungen oder Ergänzung eines Forschungsdatenbank-Zielformates erzwingt nur die Änderung des zugehörigen Import ETL-Jobs.

Das Mapping auf ODM zeigte sich für alle hier betrachteten Daten gut realisierbar. Zusätzliche Metadataten können im ODM z.B. in einem eigenen Form-Element zusammengefasst werden.

XML Dateien tendieren dazu viel Speicherplatz ruhend und im Hauptspeicher zu benötigen. Um dem zu begegnen wurden die ODM Dateien komprimiert verarbeitet, Packraten von 95% sind typisch, und die Datenbereiche () im Stream (SAX-Parser) geschrieben und gelesen. Tests zeigten, dass das Verfahren auch große (>1/2 Mill. Probanden) Quellen handhaben kann.

Als Quellsysteme konnten verschiedene klinische Forschungsdatenerfassungssysteme (eClinical – oracle-Database, OpenClinica mit direktem ODM Export mit proprietären Erweiterungen, eine prop. Postgres basiertes System, eine prop. Datenbank mit REST Schnittstelle) und verschiedene Systeme die letztlich tabellarische Daten erzeugen (Biobankregister in Access, Forschungsdaten in Excel, PMD und §21 Datensatz des SAP i.s.h.med als csv) angebunden werden.

Diskussion: Der vorgestellte Ansatz, CDISC ODM als zentrales Datenformat einer medizinischen Forschungsdatenbank zu verwenden, hat sich grundsätzlich bewährt. Das zweistufige Verfahren spart Entwicklungszeit und erhöhte die Datenqualität. Hochdimensionale Daten bzw. Bilddaten können nur über Referenzen verwaltet werden – diese Einschränkung liegt sowohl im ODM als auch den Zieldatenbanken und Zugriffssystemen. Die Erfahrungen mit i2b2 selber sind durchaus positiv – tatsächlich entwickelt sich das System als neues, ergänzendes Angebot des Klinikums zur Forschungsunterstützung. Die entstandene Transparenz für den Kliniker auf „seine“ Daten wirkt sich positiv auf Qualität und Umfang der Dateneingabe in der Routine aus. Nach einer kurzen Einweisung fanden klinische Forscher das System neben der Patientenrekrutierung auch für die Qualitätssicherung innerhalb der Ambulanzen gut nutzbar – ursprünglich war dieser Use-Case nicht vorgesehen.

Diese Arbeiten werden vom Bundesministerium für Bildung und Forschung (BMBF), FKZ:01E01001, gefördert.


Literatur

1.
Integriertes Forschungs- und Behandlungszentrum AdipositasErkrankungen. Verfügbar unter: http://www.ifb-adipositas.de [Zugriff am 31.03.2014] Externer Link
2.
CDISC ODM Clinical Data Interchange Standards Consortium Operational Data Model. Verfügbar unter: http://www.cdisc.org/odm [Zugriff am 31.03.2014] Externer Link
3.
i2b2 (Informatics for Integrating Biology and the Bedside). Verfügbar unter: https://www.i2b2.org/ [Zugriff am 31.03.2014] Externer Link
4.
Stausberg J, Löbe M, Verplancke P, Drepper J, Herre H, Löffler M. Foundations of a metadata repository for databases of registers and trials. Stud Health Technol Inform. 2009;150:409-13.