Artikel
Die Averbis Extraction Platform – Sekundärnutzung klinischer Rohdaten – Technologien, Tools und Anwendungsszenarien
Suche in Medline nach
Autoren
Veröffentlicht: | 20. September 2011 |
---|
Gliederung
Text
Einleitung/Hintergrund: Leistungserbringer im Gesundheitswesen stehen vor der großen Herausforderung, durch Innovationen im Bereich Forschung und Entwicklung die Behandlungsqualität im Gesundheitswesen zu verbessern, die Patientensicherheit zu erhöhen und gleichzeitig die Kosten für Gesundheitsleistungen zu reduzieren. Die Sekundärnutzung klinischer Rohdaten stellt eine vielversprechende Möglichkeit dar, die Forschung und Entwicklung im Gesundheitswesen neu zu definieren und deren Wertschöpfungskette nachhaltig zu verändern [1]. Aggregierte Patientendaten können zur Identifikation von Krankheitsmechanismen beitragen, Rekrutierungszeiten von Patienten in klinischen Studien reduzieren, die Überwachung der Medikamentensicherheit durch kontinuierliches Monitoring verbessern, Plausibilitätsprüfungen ärztlichen Handelns effizient und kostengünstig ermöglichen und einen Beitrag zur Entbürokratisierung im Abrechnungswesen des deutschen Gesundheitssystems leisten. Da medizinische Rohdaten häufig weder strukturiert noch normalisiert vorliegen und in vielen Fällen sogar narrativ erfasst werden, sind für deren Sekundärnutzung Textanalyse-Technologien (Text-Mining, Natural Language Processing) eine notwendige Voraussetzung zur Sicherstellung der semantischen Interoperabilität.
Materialien und Methoden: Die Averbis Extraction Platform (AEP) ist ein Framework zur Extraktion relevanter Inhalte aus natürlichsprachlichen Inhalten und deren Normalisierung mit Hilfe standardisierter Terminologien. Sie wird in verschiedenen epidemiologischen und klinischen Forschungsprojekten erfolgreich eingesetzt: Innerhalb des EU-Projektes DebugIT http://www.debugit.eu/ kommt die AEP zum Einsatz, um die semantische Interoperabilität heterogener Quelldaten (Krankheitserreger, Antibiotika, Probentypen) aus verschiedenen europäischen Ländern durch den Rückgriff auf internationale Terminologien (z.B. UniProt http://www.uniprot.org/, ATC http://www.whocc.no/atc_ddd_index/], SNOMED CT http://www.ihtsdo.org/snomed-ct/) zu gewährleisten. Im Rahmen des THESEUS Forschungsprogramms RADMINING http://www.theseus-programm.de/de/RADMINING.php wird das Framework für die automatisierte Verschlagwortung und Befundextraktion (RadLex http://www.rsna.org/radlex/, ICD10 http://www.dimdi.de/static/de/klassi/diagnosen/icd10/index.htm) eingesetzt und bietet den Ärzten durch eine Suche in Befunden und Bildquellen eine wichtige Unterstützung in ihrer täglichen Arbeit. In Zusammenarbeit mit einem Pharmakonzern werden mit Hilfe der AEP Gennamen in biomedizinischer Forschungsliteratur erkannt und dadurch die Erstellung, Pflege und Erweiterung konzerninterner Gen-, Protein- und Biomarker-Datenbanken unterstützt.
Diskussion/Schlussfolgerung: Mit Hilfe moderner NLP-Technologien lassen sich medizinische Fakten aus Rohdaten automatisiert extrahieren, normalisieren und aggregieren. Die Genauigkeit der automatischen Verfahren in den genannten Anwendungsszenarien liegt zwischen 86,4% (Generkennung) und 93% (Radiologie). In vielen Anwendungsszenarien ist dies eine zufriedenstellende Erkennungsrate. Fehler bei der Erkennung sind auf schlechte Qualität der Rohdaten (z.B. Rechtschreibfehler), fehlende Abdeckung der Terminologien und besondere sprachliche Konstrukte hervorgerufen, die von automatischen Verfahren nicht aufgelöst werden können. In Fällen, in denen eine höhere Erkennungsrate notwendig ist, können automatische Verfahren den Experten eine hilfreiche Unterstützung im Sinne einer Vorverarbeitung bieten.