gms | German Medical Science

MAINZ//2011: 56. GMDS-Jahrestagung und 6. DGEpi-Jahrestagung

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V.
Deutsche Gesellschaft für Epidemiologie e. V.

26. - 29.09.2011 in Mainz

Evaluation und Optimierung verschiedener Information Retrieval in OpEN.SC

Meeting Abstract

Suche in Medline nach

  • Beatrice Streit - Fachbereich Informatik und Medien, Fachhochschule Brandenburg, Brandenburg
  • Sabine Hanß - Institut für Medizinische Informatik, Charité - Universitätsmedizin Berlin, Berlin
  • Claudia Hahn - Institut für Pathologie, Charité - Universitätsmedizin Berlin, Berlin
  • Thomas Schrader - Fachbereich Informatik und Medien, Fachhochschule Brandenburg, Brandenburg

Mainz//2011. 56. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (gmds), 6. Jahrestagung der Deutschen Gesellschaft für Epidemiologie (DGEpi). Mainz, 26.-29.09.2011. Düsseldorf: German Medical Science GMS Publishing House; 2011. Doc11gmds482

doi: 10.3205/11gmds482, urn:nbn:de:0183-11gmds4824

Veröffentlicht: 20. September 2011

© 2011 Streit et al.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielfältigt, verbreitet und öffentlich zugänglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Gliederung

Text

Einleitung: Das von der DFG geförderte Projekt Open European Nephrology Science Center stellt anonymisierte Patientendaten aus dem klinischen Alltag der Charité Campi für Forschungszwecke zur Verfügung. Autorisierten Nutzer/-innen bietet das OpEN.SC-Portal eine Suche in medizinischen Patientendaten aus den Domänen Nephrologie und Nephropathologie. Eine solche Suche umfasst einige Herausforderungen, die sich aufgrund der Komplexität, des Umfangs und der Fehleranfälligkeit der Daten ergeben [1], [2]. Zur Optimierung der Suche wird eine expertengesteuerte Evaluation hinsichtlich Schnelligkeit und Präzision – Vollständigkeit und Richtigkeit der Ergebnisse – benötigt.

Methoden: Eine einfache, schnelle Suche in anonymisierten Patientendaten wurde implementiert und in unterschiedlichen Varianten getestet. Durch die Systemarchitektur von OpEN.SC wurde eine flexible Lösung mittels eines Webservices gefordert. Die einzelnen Suchparameter (Diagnosen, Geschlecht und Alter eines Patienten/Patientin) wurden durch ein logisches UND verknüpft und durchsuchten die Datenbank entsprechend eines String-Matching-Algorithmus. Zur Evaluation wurden zwei Testsets aus je 50 randomisiert ausgewählten Patienten/Patientinnen mittels einer einfachen Zufallsstichprobe zusammengestellt. Der Schwerpunkt lag auf Vollständigkeitstests, die die Präzision und Genauigkeit der Suchergebnisse überprüfen, so wie auf Performanztests. Beim Entwurf der Suche wurde die Struktur der ICD-10 Klassifikation inklusive der Untergruppen berücksichtigt. Die Reproduzierbarkeit stellte dabei ein wichtiges Kriterium der Suche dar. Die Ergebnisse der ausgeführten Tests wurden mit den Experten/Expertinnen, Ärzten/Ärztinnen des Projekts OpEN.SC, evaluiert und diskutiert.

Ergebnisse: Bei der Auswertung der Vollständigkeitstests zeigte sich, dass die Suchergebnisse keine falsch positiven Ergebnisse enthalten. Dies lässt sich mit der Charakteristik des String- Matching-Algorithmus, die Daten mit einer Suchmaske zu durchsuchen, begründen. Nach diesem Prinzip können keine für die Suchanfrage irrelevanten Ergebnisse gefunden werden. Die Performanztests zeigten eine deutlich bessere Suchgeschwindigkeit, sobald durch Suchkriterien wie z.B. das Geschlecht oder ein eingeschränkter Altersbereich die zu durchsuchenden Datenmenge deutlich reduziert wurde. Diese Reduktionsschritte wurden dann dem Suchprozess vorangestellt. Die Ergebnisse der zahlreichen Tests auf den beiden Testsets und den Gesamtdaten wurden unter Berücksichtigung der gestellten Anforderungen ausgewertet. Dabei wurde die schnellste mit der vollständigsten Variante verknüpft und implementiert, um größtmögliche Vollständigkeit mit Performanz zu verbinden. Es gelang Fehlerkategorien zu definieren, um die Ursachen für nicht gefundene Patienten/Patientinnen aufzuklären.

Diskussion: Zur Verbesserung und Optimierung der Suche und ihrer Ergebnisse werden zwei Ansätze behandelt. Eine Möglichkeit ist es die Datenqualität vor und während der Eingabe zu erhöhen, eine andere ist es mittels semantischer Suche die Vollständigkeit zu verbessern [3]. Dies kann jedoch zu falsch positiven Ergebnisse führen. Eine Erweiterung des Webservices zur zusätzlichen Suche nach Medikationen und Transplantationen ist umgesetzt, jedoch noch nicht evaluiert.


Literatur

1.
Mikkelsen G, Aasly J. Consequences of impaired data quality on information retrieval in electronic patient records. International Journal of Medical Informatics. 2004;74(5): 387-–394.
2.
Manning CD, Raghavan P, Schutze H. An Introduction to Information Retrieval. Cambridge University Press; 2009.
3.
Daumke P, Schulz S, Muller ML, Dzeyk W, Prinzen L, Pacheco EJ, Secco CP, Nohama P, Marko K. Subword-based Semantic Retrieval of Clinical and Bibliographic Documents. Methods of Information in Medicine. 2010;49(2):141-–147.