gms | German Medical Science

MAINZ//2011: 56. GMDS-Jahrestagung und 6. DGEpi-Jahrestagung

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V.
Deutsche Gesellschaft für Epidemiologie e. V.

26. - 29.09.2011 in Mainz

Evaluation und Optimierung verschiedener Information Retrieval in OpEN.SC

Meeting Abstract

Search Medline for

  • Beatrice Streit - Fachbereich Informatik und Medien, Fachhochschule Brandenburg, Brandenburg
  • Sabine Hanß - Institut für Medizinische Informatik, Charité - Universitätsmedizin Berlin, Berlin
  • Claudia Hahn - Institut für Pathologie, Charité - Universitätsmedizin Berlin, Berlin
  • Thomas Schrader - Fachbereich Informatik und Medien, Fachhochschule Brandenburg, Brandenburg

Mainz//2011. 56. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (gmds), 6. Jahrestagung der Deutschen Gesellschaft für Epidemiologie (DGEpi). Mainz, 26.-29.09.2011. Düsseldorf: German Medical Science GMS Publishing House; 2011. Doc11gmds482

DOI: 10.3205/11gmds482, URN: urn:nbn:de:0183-11gmds4824

Published: September 20, 2011

© 2011 Streit et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution License (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.en). You are free: to Share – to copy, distribute and transmit the work, provided the original author and source are credited.


Outline

Text

Einleitung: Das von der DFG geförderte Projekt Open European Nephrology Science Center stellt anonymisierte Patientendaten aus dem klinischen Alltag der Charité Campi für Forschungszwecke zur Verfügung. Autorisierten Nutzer/-innen bietet das OpEN.SC-Portal eine Suche in medizinischen Patientendaten aus den Domänen Nephrologie und Nephropathologie. Eine solche Suche umfasst einige Herausforderungen, die sich aufgrund der Komplexität, des Umfangs und der Fehleranfälligkeit der Daten ergeben [1], [2]. Zur Optimierung der Suche wird eine expertengesteuerte Evaluation hinsichtlich Schnelligkeit und Präzision – Vollständigkeit und Richtigkeit der Ergebnisse – benötigt.

Methoden: Eine einfache, schnelle Suche in anonymisierten Patientendaten wurde implementiert und in unterschiedlichen Varianten getestet. Durch die Systemarchitektur von OpEN.SC wurde eine flexible Lösung mittels eines Webservices gefordert. Die einzelnen Suchparameter (Diagnosen, Geschlecht und Alter eines Patienten/Patientin) wurden durch ein logisches UND verknüpft und durchsuchten die Datenbank entsprechend eines String-Matching-Algorithmus. Zur Evaluation wurden zwei Testsets aus je 50 randomisiert ausgewählten Patienten/Patientinnen mittels einer einfachen Zufallsstichprobe zusammengestellt. Der Schwerpunkt lag auf Vollständigkeitstests, die die Präzision und Genauigkeit der Suchergebnisse überprüfen, so wie auf Performanztests. Beim Entwurf der Suche wurde die Struktur der ICD-10 Klassifikation inklusive der Untergruppen berücksichtigt. Die Reproduzierbarkeit stellte dabei ein wichtiges Kriterium der Suche dar. Die Ergebnisse der ausgeführten Tests wurden mit den Experten/Expertinnen, Ärzten/Ärztinnen des Projekts OpEN.SC, evaluiert und diskutiert.

Ergebnisse: Bei der Auswertung der Vollständigkeitstests zeigte sich, dass die Suchergebnisse keine falsch positiven Ergebnisse enthalten. Dies lässt sich mit der Charakteristik des String- Matching-Algorithmus, die Daten mit einer Suchmaske zu durchsuchen, begründen. Nach diesem Prinzip können keine für die Suchanfrage irrelevanten Ergebnisse gefunden werden. Die Performanztests zeigten eine deutlich bessere Suchgeschwindigkeit, sobald durch Suchkriterien wie z.B. das Geschlecht oder ein eingeschränkter Altersbereich die zu durchsuchenden Datenmenge deutlich reduziert wurde. Diese Reduktionsschritte wurden dann dem Suchprozess vorangestellt. Die Ergebnisse der zahlreichen Tests auf den beiden Testsets und den Gesamtdaten wurden unter Berücksichtigung der gestellten Anforderungen ausgewertet. Dabei wurde die schnellste mit der vollständigsten Variante verknüpft und implementiert, um größtmögliche Vollständigkeit mit Performanz zu verbinden. Es gelang Fehlerkategorien zu definieren, um die Ursachen für nicht gefundene Patienten/Patientinnen aufzuklären.

Diskussion: Zur Verbesserung und Optimierung der Suche und ihrer Ergebnisse werden zwei Ansätze behandelt. Eine Möglichkeit ist es die Datenqualität vor und während der Eingabe zu erhöhen, eine andere ist es mittels semantischer Suche die Vollständigkeit zu verbessern [3]. Dies kann jedoch zu falsch positiven Ergebnisse führen. Eine Erweiterung des Webservices zur zusätzlichen Suche nach Medikationen und Transplantationen ist umgesetzt, jedoch noch nicht evaluiert.


Literatur

1.
Mikkelsen G, Aasly J. Consequences of impaired data quality on information retrieval in electronic patient records. International Journal of Medical Informatics. 2004;74(5): 387-–394.
2.
Manning CD, Raghavan P, Schutze H. An Introduction to Information Retrieval. Cambridge University Press; 2009.
3.
Daumke P, Schulz S, Muller ML, Dzeyk W, Prinzen L, Pacheco EJ, Secco CP, Nohama P, Marko K. Subword-based Semantic Retrieval of Clinical and Bibliographic Documents. Methods of Information in Medicine. 2010;49(2):141-–147.