gms | German Medical Science

MAINZ//2011: 56. GMDS-Jahrestagung und 6. DGEpi-Jahrestagung

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V.
Deutsche Gesellschaft für Epidemiologie e. V.

26. - 29.09.2011 in Mainz

Die Averbis Extraction Platform – Sekundärnutzung klinischer Rohdaten – Technologien, Tools und Anwendungsszenarien

Meeting Abstract

  • Frank Enders - Averbis GmbH, Freiburg
  • Kai Simon - Averbis GmbH, Freiburg
  • Katrin Tomanek - Averbis GmbH, Freiburg
  • Kornél Markó - Averbis GmbH, Freiburg
  • Philipp Daumke - Averbis GmbH, Freiburg

Mainz//2011. 56. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (gmds), 6. Jahrestagung der Deutschen Gesellschaft für Epidemiologie (DGEpi). Mainz, 26.-29.09.2011. Düsseldorf: German Medical Science GMS Publishing House; 2011. Doc11gmds396

doi: 10.3205/11gmds396, urn:nbn:de:0183-11gmds3967

Veröffentlicht: 20. September 2011

© 2011 Enders et al.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielfältigt, verbreitet und öffentlich zugänglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Gliederung

Text

Einleitung/Hintergrund: Leistungserbringer im Gesundheitswesen stehen vor der großen Herausforderung, durch Innovationen im Bereich Forschung und Entwicklung die Behandlungsqualität im Gesundheitswesen zu verbessern, die Patientensicherheit zu erhöhen und gleichzeitig die Kosten für Gesundheitsleistungen zu reduzieren. Die Sekundärnutzung klinischer Rohdaten stellt eine vielversprechende Möglichkeit dar, die Forschung und Entwicklung im Gesundheitswesen neu zu definieren und deren Wertschöpfungskette nachhaltig zu verändern [1]. Aggregierte Patientendaten können zur Identifikation von Krankheitsmechanismen beitragen, Rekrutierungszeiten von Patienten in klinischen Studien reduzieren, die Überwachung der Medikamentensicherheit durch kontinuierliches Monitoring verbessern, Plausibilitätsprüfungen ärztlichen Handelns effizient und kostengünstig ermöglichen und einen Beitrag zur Entbürokratisierung im Abrechnungswesen des deutschen Gesundheitssystems leisten. Da medizinische Rohdaten häufig weder strukturiert noch normalisiert vorliegen und in vielen Fällen sogar narrativ erfasst werden, sind für deren Sekundärnutzung Textanalyse-Technologien (Text-Mining, Natural Language Processing) eine notwendige Voraussetzung zur Sicherstellung der semantischen Interoperabilität.

Materialien und Methoden: Die Averbis Extraction Platform (AEP) ist ein Framework zur Extraktion relevanter Inhalte aus natürlichsprachlichen Inhalten und deren Normalisierung mit Hilfe standardisierter Terminologien. Sie wird in verschiedenen epidemiologischen und klinischen Forschungsprojekten erfolgreich eingesetzt: Innerhalb des EU-Projektes DebugIT http://www.debugit.eu/ kommt die AEP zum Einsatz, um die semantische Interoperabilität heterogener Quelldaten (Krankheitserreger, Antibiotika, Probentypen) aus verschiedenen europäischen Ländern durch den Rückgriff auf internationale Terminologien (z.B. UniProt http://www.uniprot.org/, ATC http://www.whocc.no/atc_ddd_index/], SNOMED CT http://www.ihtsdo.org/snomed-ct/) zu gewährleisten. Im Rahmen des THESEUS Forschungsprogramms RADMINING http://www.theseus-programm.de/de/RADMINING.php wird das Framework für die automatisierte Verschlagwortung und Befundextraktion (RadLex http://www.rsna.org/radlex/, ICD10 http://www.dimdi.de/static/de/klassi/diagnosen/icd10/index.htm) eingesetzt und bietet den Ärzten durch eine Suche in Befunden und Bildquellen eine wichtige Unterstützung in ihrer täglichen Arbeit. In Zusammenarbeit mit einem Pharmakonzern werden mit Hilfe der AEP Gennamen in biomedizinischer Forschungsliteratur erkannt und dadurch die Erstellung, Pflege und Erweiterung konzerninterner Gen-, Protein- und Biomarker-Datenbanken unterstützt.

Diskussion/Schlussfolgerung: Mit Hilfe moderner NLP-Technologien lassen sich medizinische Fakten aus Rohdaten automatisiert extrahieren, normalisieren und aggregieren. Die Genauigkeit der automatischen Verfahren in den genannten Anwendungsszenarien liegt zwischen 86,4% (Generkennung) und 93% (Radiologie). In vielen Anwendungsszenarien ist dies eine zufriedenstellende Erkennungsrate. Fehler bei der Erkennung sind auf schlechte Qualität der Rohdaten (z.B. Rechtschreibfehler), fehlende Abdeckung der Terminologien und besondere sprachliche Konstrukte hervorgerufen, die von automatischen Verfahren nicht aufgelöst werden können. In Fällen, in denen eine höhere Erkennungsrate notwendig ist, können automatische Verfahren den Experten eine hilfreiche Unterstützung im Sinne einer Vorverarbeitung bieten.


Literatur

1.
Deloitte. Secondary uses of Electronic Health Record (EHR) data in Life Sciences. Available from: http://www.deloitte.com/view/en_US/us/Industries/lifesciences/dc2b066f0f001210VgnVCM100000ba42f00aRCRD.htm Externer Link