gms | German Medical Science

GMDS 2012: 57. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V. (GMDS)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie

16. - 20.09.2012, Braunschweig

Nutzdaten und Metadaten in einem integrierten relationalen Schema: Ein Baustein für Informationssysteme der biomedizinischen und klinischen Forschung

Meeting Abstract

Search Medline for

  • Thomas H. Müller - Ludwig-Maximilians-Universität München, IBE – Institut für Medizinische Informationsverarbeitung, Biometrie u. Epidemiologie, München, Deutschland

GMDS 2012. 57. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (GMDS). Braunschweig, 16.-20.09.2012. Düsseldorf: German Medical Science GMS Publishing House; 2012. Doc12gmds123

DOI: 10.3205/12gmds123, URN: urn:nbn:de:0183-12gmds1239

Published: September 13, 2012

© 2012 Müller.
This is an Open Access article distributed under the terms of the Creative Commons Attribution License (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.en). You are free: to Share – to copy, distribute and transmit the work, provided the original author and source are credited.


Outline

Text

Einleitung und Fragestellung: Die Erstellung von Informationssystemen für klinische Forschung auf der Grundlage von Software zur elektronischen Datenerfassung (EDC, engl. electronic data capture) für klinische Prüfungen ist einerseits aufwendig, andererseits ist bei vielen Projekten mehr Flexibilität erforderlich als derartig spezialisierte Software ermöglicht. Das liegt nicht zuletzt an einer relativ starr vorgegebenen Datenstruktur, wobei der Heterogenität der klinischen Daten durch EAV (Entry-Attribute-Value)-Schemata Rechnung getragen wird, einem Ansatz, der zunächst einmal jede Datentypisierung auf der Ebene des Datenbanksystems außer Kraft setzt. Weiterhin werden Metadaten nur in begrenztem Umfang nutzbar gemacht. Dadurch werden intelligente Lösungen, die gleichzeitig leicht handhabbar sind, erschwert. Wir stellen hier einen Gegenentwurf vor, der Nutzdaten und Metadaten in einem gemeinsamen relationalen Schema integriert, vielfältige Datentypen ermöglicht und generische, Datentyp-abhängige (oder auch objektorientiert) Verarbeitung begünstigt.

Material und Methoden: Der beschriebene Entwurf ist als EDC-Baustein für inzwischen etliche klinische Forschungsprojekte realisiert. Er besteht aus einem generisch konfigurierbaren Web-Formulargenerator „dbform“ und einem Formularcompiler, der die nötigen Konfigurationsdaten für den Formulargenerator aus einem formalisierten Datenverzeichnis erzeugt. Das System wurde erstmals in [1] beschrieben und seither in vielfältiger Hinsicht verbessert. Der Formgenerator läuft auf einer Plattform mit Webserver und relationales Datenbanksystem. Unsere derzeitige Wahl ist Linux, Apache [2] und PostgreSQL [3], andere Umgebungen sind möglich. Die vorherrschende Implementierungssprache ist Perl [4].

Es handelt sich um ein modulares System das mit verschiedenen Datenbank-Managementsystemen (DBMS) betrieben werden kann. Es stellt u.a. ein Application Programming Interface (API) bereit, das projektspezifische Erweiterungen ermöglicht.

Ergebnisse: Kern des Ansatzes ist, dass der Datenkörper alle relevanten Informationen, also Nutzdaten und Metadaten, vereinigt. Dabei sind die Metadaten ebenfalls relational hinterlegt und als formale Sprache hinreichend mächtig, um sich selbst syntaktisch zu beschreiben. Dadurch wird erreicht, dass selbst bestimmte Minimalrelationen (z.B., um Patient, Studienzentrum, Systembenutzer, Rollen, etc. darzustellen), die vorhanden sein müssen, dennoch hinsichtlich ihrer Attribute für jedes Projekt weitgehend frei definiert werden können.

Der Teil der Nutzdaten, der den sog. Case Report Forms entspricht, ist ebenfalls in Relationen hinterlegt, die etliche gemeinsame Attribute – zusammen als „Kontext“ bezeichnet – tragen. Auch der Kontext ist in einem gewissen Umfang flexibel gestaltbar. Textuelle Metadaten als auch Nutzdaten können mehrsprachig sein. So können nicht nur Formulare mehrsprachig gestaltet werden, es können auch mehrsprachige Nutzdaten verarbeitet, z.B. nach der Erfassung von Übersetzern in eine gemeinsame Sprache übersetzt werden.

Das zweite wesentliche Entwurfsprinzip ist die konsequente Typisierung von Daten, wobei zusätzlich zu den Datentypen des DBMS weitere Typen benötigt werden und auch vorhanden sind. Ein oft eingesetztes Beispiel unter vielen sind partielle Datumsangaben.

Diskussion: Erst reichhaltige Metadaten ermöglichen effiziente generische Funktionalitäten. Letztlich können dazu sogar die Metadaten ergänzt oder geändert werden, was die Vielseitigkeit generischer Verarbeitungsmöglichkeiten noch einmal deutlich ausweitet. Diese Generizität ermöglicht den Verzicht auf EAV-Schemata trotz Datenheterogenität, was nicht nur in Bezug auf Performanz von Vorteil ist. Auch für das Design von verteilten Informationssystemen [5], insbesondere hinsichtlich einer effektiven und inhaltlich sinnvollen Interoperabilität, sind generische Funktionalitäten von zentraler Bedeutung.


Literatur

1.
Müller TH, Adelhard K. A web-based central diagnostic data repository. Stud Health Technol Inform. 2002;90:246-50.
2.
Apache [Internet]. Available from: http://httpd.apache.org [cited 20.04.2012] External link
3.
Postgresql [Internet]. Available from: http://www.postgresql.org [cited 20.04.2012] External link
4.
Perl [Internet]. Available from: http://www.perl.org [cited 20.04.2012] External link
5.
Oliveira AG, Salgado NC. Design aspects of a distributed clinical trials information system. Clin Trials. 2006;3(4):385-96. DOI: 10.1177/1740774506069156 External link
6.
Nadkarni PM, Marenco L, Chen R, Skoufos E, Shepherd G, Miller P. Organization of Heterogeneous Scientific Data Using the EAV/CR Representation. J Am Med Inform Assoc. 1999;6(6):478-93.