gms | German Medical Science

50. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (gmds)
12. Jahrestagung der Deutschen Arbeitsgemeinschaft für Epidemiologie (dae)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie
Deutsche Arbeitsgemeinschaft für Epidemiologie

12. bis 15.09.2005, Freiburg im Breisgau

Data-Warehouse aus klinischen und genomischen Daten zur Entwicklung kombinatorischer Scoring-Systeme

Meeting Abstract

  • Christian Katzer - Universitätsklinikum Gießen, Gießen
  • Katja Weismüller - Universitätsklinikum Gießen, Gießen
  • Dominik Brammen - Universitätsklinikum Gießen, Gießen
  • Rainer Röhrig - Universitätsklinikum Gießen, Gießen
  • Gunter Hempelman - Universitätsklinikum Gießen, Gießen
  • Trinad Chakraborty - Universitätsklinikum Gießen, Gießen

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie. Deutsche Arbeitsgemeinschaft für Epidemiologie. 50. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (gmds), 12. Jahrestagung der Deutschen Arbeitsgemeinschaft für Epidemiologie. Freiburg im Breisgau, 12.-15.09.2005. Düsseldorf, Köln: German Medical Science; 2005. Doc05gmds513

Die elektronische Version dieses Artikels ist vollständig und ist verfügbar unter: http://www.egms.de/de/meetings/gmds2005/05gmds467.shtml

Veröffentlicht: 8. September 2005

© 2005 Katzer et al.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielfältigt, verbreitet und öffentlich zugänglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Gliederung

Text

Motivation

Im Rahmen des NGFN-2 (Nationales Genomforschungsnetz) beschäftigt sich unsere Arbeitsgruppe mit der Identifikation spezifischer krankheitsassoziierter Genexpressionsmuster, der Schwerpunkt liegt dabei auf dem Krankheitsbild der Sepsis. Unser Ziel ist die Entwicklung kombinatorischer Scoring-Systeme zur frühzeitigen Diagnosestellung und zur Vorhersage des Krankheitsverlaufs. Datengrundlage dafür soll ein Data-Warehouse aus Daten der klinischen und biologischen Forschung in Kombination mit Paientendaten aus der klinischen Routinedokumentation sein. Die im Studienkontext relevanten Daten sollen strukturell und semantisch vereinheitlicht in einer den Anforderungen des Datenschutz genügenden Form abgelegt werden.

Methodik und Ergebnisse

Die Daten der Studienpatienten aus der klinischen Routinedokumentation werden elektronisch über ein PDMS (Patienten-Daten-Management-System) erfasst [1]. Sie werden mit Daten aus der HL7-Kommunikation des PDMS mit weiteren klinischen Subsystemen ergänzt. Die Speicherung der Daten erfolgt in einer Produktionsdatenbank, deren Struktur sich am HL7-Modell orientiert. Als Datenmodell für die variablen medizinischen Daten wurde das Entity-Attribute-Value-Model (EAVM) gewählt. Die Daten aus den Microarray-Experimenten werden in der iCHIP Microarray Database abgelegt.

Im ersten Schritt beschäftigen wir uns im Sinne eines Architected-Data-Mart-Systems (ADM-System) zunächst mit dem Aufbau eines Data-Mart für die klinischen Daten [2]: der Einschluss eines Studienpatienten erfolgt über eine Markierung in seiner elektronischen Patientenakte in einem nur für den Studienarzt zugänglichen Bereich des PDMS. In diesem Bereich kann der Studienarzt Daten ergänzen, die nicht in der Routinedokumentation erhoben werden. In einem nächsten Schritt wird die Gesamtheit der klinischen Daten über einen in OracleTM integrierten Datenreplikationsmechanismus in eine abgekoppelte Datenbank transferiert und dabei pseudonymisiert. In diesem pseudonymisierten Bereich werden Hilfstabellen zu Studienzugehörigkeit und Studienrelevanz der Daten gepflegt. Unter Verwendung der Hilfstabellen werden die studienrelevanten Daten identifiziert und über den Datenreplikationsmechanismus in eine weitere Datenbank gespiegelt. Hier pflegt der Domänenspezialist Tabellen zur zeitlichen Einordnung, Modifikation, Vereinheitlichung und Aggregation der studienrelevanten Daten. Ziel ist die strukturelle und semantische Standardisierung der Daten, als Orientierung sollen das HL7-Reference-Information-Model, das Operational Data Model des Clinical Data Interchange Standards Consortium (CDISC) und die Logical Observation Identifiers Names and Codes (LOINC) dienen. Die prozessierten Daten sollen den Data-Mart für die studienrelevanten Daten aus der klinischen Routinedokumentation bilden.

Im nächsten Schritt wird ein Mapping zwischen dem Data-Mart für klinische Daten und der iCHIP-Datenbank angestrebt. iCHIP erfüllt die Standards MIAME (Minimal Information about a Microarray Experiment) und MAGE-OM2 (MicroArray Gene Expression Object Model). Die beiden Datenbestände sollen zusammen das Data-Warehouse bilden.

Unser aktuelles Datenschutzkonzept wurde zusammen mit dem Datenschutzbeauftragten des Universitätsklinikums ausgearbeitet und folgt den Anforderungen der gültigen Datenschutzgesetze. Wir streben jedoch an, unser Datenschutzkonzept durch das zur Zeit noch in Entwicklung befindliche Konzept der TMF zu ersetzten [3].

Der Zugriff auf das Data-Warehouse soll über ein noch zu implementierendes browserbasiertes Interface erfolgen. Über konfigurierbare SQL-Skripts sollen Daten extrahiert und in verschiedenen Formaten (HL7, CDISC, MAGE-ML, Flat Files) zur Verfügung gestellt werden. Über eine Remote-Data-Entry-Funktion soll eine Integration von Daten aus externen Beständen möglich werden. Das Interface soll weiterhin eine Benutzerverwaltung integrieren, die gewährleistet, dass der Wissenschaftler lediglich Zugriff auf die a priori festgelegten und durch die Ethikkommission genehmigten Patienten und Parameter erhält.

Diskussion

Da ein hypothesenfreier Forschungsansatz gewählt wurde, sind im Projektverlauf neue Fragestellungen, neue Problematiken und sich verändernde Vorgehensweisen zu erwarten. Zur Integration neuer Parameter und Datentypen ist eine hohe Flexibilität der Datenhaltung erforderlich. Für den eventuellen Austausch mit externen Datenbeständen ist das Einhalten von Datenstandards unerlässlich. In früheren Arbeiten wurde bereits gezeigt, dass klinische Scores mit einer guten prognostischen Qualität mit den Daten aus dem PDMS berechnet werden können [4]. Ein Übertragen des Konzepts auf einen Datenbestand aus klinischen und genomischen Daten sollte möglich sein.


Literatur

1.
Michel A et al.: Design principles of a clinical information system for intensiv care units (ICU Data). Stud Health Technol Inform 2000; 77: 921-4
2.
Hackney D: Architectures and Approaches for Successful Data Warehouses. Oracle White Papers 02.04.2002
3.
Pommerening et al.: Secondary use of the Electronic Health Record via pseudonymisation. In: Bos L, Laxminarayan S, Marsh A (eds.): Medical Care Compunetics 1. Amsterdam: IOS Press; 2004: 441-446
4.
Junger et al. Automatic calculation of a modified APACHE II score using a patient data management system (PDMS). Int J Med Inform 2002; 65: 145-57