gms | German Medical Science

MAINZ//2011: 56. GMDS-Jahrestagung und 6. DGEpi-Jahrestagung

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V.
Deutsche Gesellschaft für Epidemiologie e. V.

26. - 29.09.2011 in Mainz

Aufbau eines Enterprise Data Dictionary zur Integration heterogener Datenquellen in einer Single-Source-Forschungsplattform

Meeting Abstract

  • Christian Zunner - Lehrstuhl für Medizinische Informatik, FAU Erlangen, Erlangen
  • Thomas Bürkle - Lehrstuhl für Medizinische Informatik, FAU Erlangen, Erlangen
  • Hans-Ulrich Prokosch - Lehrstuhl für Medizinische Informatik, FAU Erlangen, Erlangen
  • Thomas Ganslandt - Medizinisches IK-Zentrum, Universitätsklinikum Erlangen, Erlangen

Mainz//2011. 56. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (gmds), 6. Jahrestagung der Deutschen Gesellschaft für Epidemiologie (DGEpi). Mainz, 26.-29.09.2011. Düsseldorf: German Medical Science GMS Publishing House; 2011. Doc11gmds444

doi: 10.3205/11gmds444, urn:nbn:de:0183-11gmds4446

Published: September 20, 2011

© 2011 Zunner et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution License (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.en). You are free: to Share – to copy, distribute and transmit the work, provided the original author and source are credited.


Outline

Text

Einleitung: Die nachhaltige Nutzung klinischer Routinedaten nach dem Single Source-Ansatz gewinnt zunehmend an Bedeutung. Häufig können die so gewonnenen Daten jedoch nur bedingt IT-gestützt ausgewertet werden, da getrennt erhobene Merkmale oft semantisch voneinander abweichen [1]. Dieses Problem kann durch ein kontrolliertes medizinisches Vokabular gelöst werden. Am Universitätsklinikum Erlangen erfolgt die Tumordokumentation verteilt über mehrere Systeme (Soarian TM KAS, Swisslab TM Laborinformationssystem, GTDS TM Tumorregister). Zudem werden Laboruntersuchungen in 13 verschiedenen Laboren erbracht, deren diagnostische Spektren sich überschneiden, jedoch kein einheitliches Schema zur Codierung der Parameter verwenden. Für systemübergreifende Auswertungen müssen die Ausprägungen der Quellsysteme auf ein standardisiertes Vokabular abgebildet werden. Ziel des Projekts war es daher, Werkzeuge für den Aufbau eines Enterprise Data Dictionary am UK Erlangen auszuwählen und zu evaluieren.

Methoden: Mit Hilfe von verschiedenen Mapping-Verfahren sollte eine OWL-basierte Ontologie der Merkmale und Ausprägungen erzeugt werden, die entsprechende Mappings auf verschiedene Klassifikationen und Nomenklaturen enthält. Die Metadaten der genannten Quellsysteme (Laborparameter bzw. Formulare, Items und Ausprägungen) wurden zunächst in einem strukturierten Format exportiert. Die Laborparameter wurden mit Hilfe einer modifizierten Version des Tools RELMA5.0 (http://loinc.org/downloads) semiautomatisch auf LOINC [2] (Deutsche Übersetzung des DIMDI) abgebildet. Die aus Swisslab exportierten Metadaten wurden hierfür um erforderliche Spezifikationen aus den SOPs des Labors ergänzt. Die generierten Mappings wurden durch drei Labormediziner unabhängig auf technische und inhaltliche Korrektheit überprüft. Nach Abschluss der Überprüfung durch die Labormediziner wurde die Güte der Mappings anhand von Precision und Recall evaluiert, analog dazu die Mappings der restlichen Parameter aus Zentrallabor und Kinderkliniklabor. Die Items der Tumordokumentationssysteme wurden mit Hilfe eines MetamapTx-basierten Verfahrens in Anlehnung an [3], [4] vollautomatisch auf Konzepte des UMLS- bzw. NCI-Metathesaurus abgebildet. Alle Ergebnisse wurden anschließend in einer gemeinsamen Ontologie zusammengeführt und diese im Clinical DataWarehouse für Auswertungen bereitgestellt.

Ergebnisse: Zunächst wurden die 100 häufigsten Laborparameter des Zentrallabors auf LOINC abgebildet, wobei 7 Parametern kein LOINC zugeordnet werden konnte. Von den 308 Soarian-Items des Bronchialkarzinom-Dokumentationsmoduls wurden 238 korrekt abgebildet. Bei 52 der 70 falschen Mappings lag der Fehler in der automatischen Übersetzung.

Diskussion: Die Merkmale und Ausprägungen aus den Quellsystemen lassen sich zu einem hohen Prozentsatz vollautomatisiert auf die Zielvokabulare abbilden. Es fällt auf, dass das Mapping der Laborwerte (weniger Variabilität, hohe Übereinstimmung durch die einbezogenen SOPs, die die Untersuchung genau kennzeichnen) besser funktioniert als im variableren Bereich der Tumordokumentation. Die gewählten Konzept-Extraktionsverfahren bieten ein hohes Maß an Güte bei vertretbarem Aufwand. Die Güte wird durch die automatische Übersetzung der Cross-Language-Queries limitiert, sofern keine vollständige deutsche Version des Zielvokabulars vorliegt, wie beim NCI-Thesaurus.


Literatur

1.
Cimino JJ. Collect Once, Use Many: Enabling the Reuse of Clinical Data through Controlled Terminologies. Journal of AHIMA. 2007;78(2):24-9.
2.
Lin MC, Vreeman DJ, McDonald CJ, Huff SM. A Characterization of Local LOINC Mapping for Laboratory Tests in Three Large Institutions. Methods of Information in Medicine. 2011;50(2).
3.
Carrero F, Cortizo JC, Gómez JM, de Buenaga M. In the development of a SpanishMetamap. In: CIKM '08, Proceeding of the 17th ACM conference on Information and knowledge management, ACM New York, 2008.
4.
Carrero F, Cortizo JC, Gómez JM. Building a Spanish MMTx by using automatic translation and biomedical ontologies. In: IDEAL '08, Proceedings of the 9th International Conference on Intelligent Data Engineering and Automated Learning, 2008.