gms | German Medical Science

GMDS 2012: 57. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V. (GMDS)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie

16. - 20.09.2012, Braunschweig

Bewertung der Datenqualität des OpEN.SC Metadaten-Repositories mithilfe des Data Quality Assessment Frameworks

Meeting Abstract

  • Beatrice Streit - Charité – Universitätsmedizin Berlin, Deutschland
  • Sabine Hanß - Charité – Universitätsmedizin Berlin, Deutschland
  • Yao Zhou - Charité – Universitätsmedizin Berlin, Deutschland
  • Sonja Niepage - Charité – Universitätsmedizin Berlin, Deutschland
  • Thomas Schrader - FH Brandenburg, Deutschland

GMDS 2012. 57. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (GMDS). Braunschweig, 16.-20.09.2012. Düsseldorf: German Medical Science GMS Publishing House; 2012. Doc12gmds032

DOI: 10.3205/12gmds032, URN: urn:nbn:de:0183-12gmds0325

Published: September 13, 2012

© 2012 Streit et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution License (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.en). You are free: to Share – to copy, distribute and transmit the work, provided the original author and source are credited.


Outline

Text

Einleitung: Das DFG-geförderte Projekt Open European Nephrology Science Center bietet autorisierten NutzerInnen eine Plattform für anonymisierte medizinische Daten der Domänen Nephrologie und Nephropathologie. Es handelt sich hierbei um klinische Patientendaten, die aus verschiedenen Quellen in einem Metadaten-Repository gespeichert und für zukünftige Forschungsvorhaben herangezogen werden.

Die Durchführung und Qualitätssicherung einer geplanten Studie und ihrer Veröffentlichung stellt einen komplexen Prozess dar [1], [2]. Ein Beurteilung der Datenqualität vor der Durchführung einer klinischen Studie kann diesen Prozess erleichtern.

Das OpEN.SC-Portal stellt ForscherInnen eine Suche in medizinischen Patientendaten der Campi der Charité – Universitätsmedizin Berlin. Die Ergebnisse dieser Suchanfragen können durch die ForscherIn einer Datenqualitätsprüfung basierend auf speziellen Kennzahlen unterzogen werden.

Methoden: Der von OpEN.SC bereits formulierte Prozess der Datensuche [3] für klinischen Studien wurde um den Aspekt der Datenqualitätsanalyse erweitert. Für die Modellierung wurde BPMN 2.0 verwendet. Basierend auf den abgeleiteten Use Cases wurden Anforderungen an die Datenqualitätsanalyse ermittelt. Im Rahmen einer prototypischen Umsetzung wurde ein Java-Webservice implementiert und in das SOA-basierte Datenqualitätsframework [4], [5] eingebettet.

Der Prozess der Datengewinnung wurde mithilfe des Webservices mit zwei unterschiedlichen klinischen Fragestellungen ausgeführt. Anschließend wurden die Datensätze hinsichtlich der Qualitätsdimension „TimeRelation“ und „Interpretabilty“ miteinander verglichen. Diese Qualitätsdimensionen wurden mittels Kennzahlen charakterisiert, welche für die beiden Stichproben berechnet wurden.

Ergebnisse: Für die Qualitätsdimension „TimeRelation“ wurden zwei Untergruppen „TimeDistance“ und „Timeliness“ gebildet. Während sich die Parameter der Gruppe „Timelines“ auf die Beschreibung von Servicequalität beziehen, beschreiben die Kennzahlen der Untergruppe „TimeDistance“ die sog. Produktqualität. Es wurde der durchschnittliche Abstand zwischen zwei Laboruntersuchungen berechnet, einmal für die gesamte Krankengeschichte und einmal für einen spezifischen Krankenhausaufenthalt. Da nephrologische PatientInnen teils mit akuter Symptomatik, teils mit chronischen Problemen stationär aufgenommen werden, kann bereits eine PatientIn unterschiedliche Kennzahlen im Krankheitsverlauf aufweisen.

Die Qualitätsdimension „Interpretability“ wurde mittels der Kennzahlen „Anzahl der Begriffe, die auf einen Standard abgebildet werden können“ und dem Verhältnis von verwendeten Begriffen und Standardbegriffen beschrieben. Hier lassen sich Unterschiede zwischen den Quellen nachweisen.

Diskussion: Die Qualitätsdimension „TimeDistance“ ist ein wichtiger beschreibender Parameter für die Abschätzung einer möglichen Datenverwendung für eine Verlaufsanalyse. Sind die Zeitabstände nicht homogen genug, eignen sich die Daten weniger für eine Verlaufsanalyse. Die Dimension „Interpretierbarkeit“ wurde an Kennzahlen geknüpft, welche die Abbildbarkeit des verwendeten Vokabulars auf Standardbegriffe aus Terminologien oder Klassifikationen beschreibt. Finden sich nur wenige Begriffe in den Terminologiekonzepten wieder, ist das ein Indiz dafür, dass sich in der Quelle des Datensatzes eine eigene Terminologie entwickelt hat. Dies kann zu Schwierigkeiten bei der Interpretation führen.

Die Berechnung und Angabe der Qualitätskennzahlen liefert den ForscherInnen eine Einschätzung der Datenqualität ihrer Suchergebnisse. Sie dient als Indikator zur Entscheidungsfindung, ob die Datenqualität für das Forschungsvorhaben hinreichend ist.

Die verwendete Ontologie basiert auf den grundlegenden Arbeiten von [6] und wurde sukzessive auf die medizinische Domäne erweitert und angepasst. In der Datenqualitätsontologie von OpEN.SC wurde der Ansatz verfolgt, nicht nur wertende Qualitätskennzahlen dazustellen sondern auch zunächst wertfreie Kennzahlen zu ermitteln, die die Eigenschaften des Datenmaterials beschreiben. Eine Bewertung der Qualität wird der Einschätzung des Users überlassen und ist vom spezifischen Anwendungskontext der Daten abhängig.


Literatur

1.
Walter T, Krzyzanowska MK. Quality of clinical trials in Gastro-Entero-Pancreatic Neuroendocrine Tumours. Neuroendocrinology. 2012. DOI: 10.1159/000337662 External link
2.
Ahmad N, Boutron I, Dechartres A, Durieux P, Ravaud P. Applicability and generalisability of the results of systematic reviews to public health practice and policy: a systematic review. Trials. 2010;11:20. DOI: 10.1186/1745-6215-11-20 External link
3.
Niepage S, Hanß S, Schrader T. Workflowanalyse zur Definition der Anforderungen an ein medizinisches Forschungsdatenzentrum. In: 55. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (gmds); 2010 Sep 5-9.
4.
Schrader T, Zhou Y, Hanss S. The problem of data quality in medical research science centers. In: 17th International Conference on Concurrency, Specification and Programming; 2008. p. 463-70.
5.
Zhou Y, Hanss S, Cornils M, Hahn C, Niepage S, Schrader T. A soa-based data quality assessment framework in a medical science center. In: 14th International Conference on Information Quality (ICIQ 2009); 2009. p. 149-60.
6.
Kahn B, Strong D, Wang RY. Information Quality Benchmarks: Product and Service Performance. Communications of the ACM. 2002:184-92.