gms | German Medical Science

GMDS 2014: 59. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V. (GMDS)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie

07. - 10.09.2014, Göttingen

Automatische Generierung von Expertenprofilen zu Seltenen Erkrankungen

Meeting Abstract

  • A. Pflugrad - Division of Neurophysiology, Universität Ulm; Zentrum für Seltene Erkrankungen Ulm im Kompetenzzentrum Seltene Erkrankungen Baden-Württemberg; Institut für Informatik, Hochschule Ulm
  • K. Jurkat-Rott - Division of Neurophysiology, Universität Ulm; Zentrum für Seltene Erkrankungen Ulm im Kompetenzzentrum Seltene Erkrankungen Baden-Württemberg
  • F. Lehmann-Horn - Division of Neurophysiology, Universität Ulm; Zentrum für Seltene Erkrankungen Ulm im Kompetenzzentrum Seltene Erkrankungen Baden-Württemberg
  • J. Bernauer - Zentrum für Seltene Erkrankungen Ulm im Kompetenzzentrum Seltene Erkrankungen Baden-Württemberg; Institut für Informatik, Hochschule Ulm

GMDS 2014. 59. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (GMDS). Göttingen, 07.-10.09.2014. Düsseldorf: German Medical Science GMS Publishing House; 2014. DocAbstr. 305

doi: 10.3205/14gmds066, urn:nbn:de:0183-14gmds0664

Published: September 4, 2014

© 2014 Pflugrad et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution License (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.en). You are free: to Share – to copy, distribute and transmit the work, provided the original author and source are credited.


Outline

Text

Einleitung und Fragestellung: Etwa 5% der Bevölkerung sind von einer Seltenen Erkrankung (SE) betroffen, von denen bislang fast 7.000 verschiedene Ausprägungen beschrieben sind. Trotz des Zusatzes „selten“ ergeben sich daraus rund 4 Millionen Betroffene alleine in Deutschland. Für einen großen Teil der SE besteht ein Mangel an geeigneten Informationen zu Experten, Diagnose- oder Behandlungsmöglichkeiten, nicht-medizinischen Leistungen und Selbsthilfe-Initiativen.

Verfügbare Informationen werden durch Portale wie Orphanet, der größten europäischen Datenbank zu Seltenen Erkrankungen, zusammengestellt [1]. Bei der Suche nach neuen Experten sowie der Aktualisierung der bestehenden Register sind diese Portale in hohem Maße auf Umfragen, die Selbstregistrierung der Experten oder Empfehlungen durch Dritte angewiesen. Vor diesem Hintergrund entwickelt das Kompetenzzentrum Seltene Erkrankungen Baden-Württemberg ein System, das mittels automatisierter Literaturrecherche Experten zu Seltenen Erkrankungen identifizieren und deren Expertise validieren soll, um somit die genannten manuellen Methoden zu ergänzen.

Bisherige Ansätze einer automatisierten Expertensuche, beispielsweise durch Tang et al. [2], Crowder et al. [3] oder Liu et al. [4], waren bisher vorwiegend im Bereich der Computerwissenschaften angesiedelt und versuchten, Experten innerhalb von Unternehmen oder akademischen Netzwerken zu finden. Das vorliegende Projekt überträgt und erweitert diese Methoden auf den medizinischen Bereich unter besonderer Beachtung von Transparenz und Verifizierbarkeit.

Material und Methoden: In der ersten Phase wird ein System zur automatisierten Generierung und Aktualisierung von Expertenprofilen entwickelt. Die hierfür relevanten Daten werden durch periodische Analysen der über PubMed zugänglichen Publikationen zu Seltenen Erkrankungen erlangt. Zusätzliche Informationsquellen, beispielsweise Leitlinienregister, sollen im weiteren Verlauf des Projekts ebenfalls untersucht werden. Autoren relevanter Dokumente werden mit der jeweiligen Erkrankung, den mit der Publikation assoziierten MeSH-Begriffen (Medical Subject Headings) sowie weiteren Metadaten verknüpft.

Im Fokus stehen hierbei Kennzahlen wie die Anzahl der Publikationen eines Autors unter Berücksichtigung der jeweiligen Position als Erstautor, Letztautor oder Koautor, welche als Indikator für die Stärke der Assoziation zur SE gesehen werden kann, sowie die Analyse der jeweils relevanten MeSH-Begriffe. Letztere dienen außerdem dazu, den professionellen Fokus eines Autors, beispielsweise Diagnostik, Therapie oder Grundlagenforschung einzugrenzen. Die so entstandenen Expertenprofile können dann von Profilern traditioneller Expertenregister genutzt werden, um neue Experten zu finden oder zusätzliche Informationen über bereits erfasste Experten zu erlangen. Letztendlich sollen die Profile mit Kontaktinformationen der Experten angereichert und hilfesuchenden Patienten als Suchoption zur Verfügung gestellt werden können, wobei stets ersichtlich sein soll, wie die präsentierten Informationen zustande kamen.

Für die Extraktion der für Seltene Erkrankungen relevanten Publikationen aus PubMed wurde ein Thesaurus erstellt, in dem die Krankheitsbezeichnungen des Orphadata Verzeichnisses mit Synonymen aus MeSH, UMLS, OMIM und SNOMED CT ergänzt wurden und welcher als Begriffsreferenz für Suchanfragen an die Medline- Datenbank dient. Der Thesaurus enthielt in seiner ersten Fassung 6.771 Erkrankungen mit insgesamt 27.198 Suchbegriffen.

Im Rahmen der ersten Suchläufe wurde eine restriktive Suchstrategie gewählt, um eine hohe Spezifität zu erreichen. Jeder im Thesaurus hinterlegte Suchbegriff wird in PubMed auf die Felder „Title“ oder „MeSH Major Topic“ angewendet. Untersuchungen verschiedener Suchstrategien bezüglich Sensitivität und Spezifität für ausgewählte Erkrankungen finden derzeit statt.

Die extrahierten Daten wurden in einer Staging-Datenbank abgelegt, die wiederum als Ausgangspunkt für die Generierung von Expertenprofilen dient. Ausgewählte Beispielprofile sollen im Rahmen eines "Proof of Concept" die Nutzbarkeit des Ansatzes bestätigen. Alle Autoreneinträge mit übereinstimmenden Nachnamen und Initialen wurden jeweils zu einer einzelnen Autorentität zusammengefasst und deren Daten entsprechend aggregiert. Die Vornamen wurden aufgrund uneinheitlicher Repräsentation nicht berücksichtigt. Da mehrere Autoren dieselben zur Unterscheidung genutzten Namensmerkmale teilen bzw. die Namen von Autoren in verschiedenen Publikationen unterschiedlich repräsentiert sein können, ist dieser Ansatz zu ungenau für eine generelle Anwendung, für eine erste Analyse ausgewählter Beispielprofile jedoch ausreichend, bevor präzisere Methoden zur Profilgenerierung zum Einsatz kommen.

Ergebnisse: Im Rahmen der ersten Analysen wurden Suchläufe zu 2.606 Krankheitsentitäten mit insgesamt 10.368 Suchbegriffen durchgeführt. Dabei konnten 1.259.751 Publikationen mit 5.438.607 Autoreneinträgen aus PubMed extrahiert werden, welche sich auf 1.306.714 Autorentitäten verdichten ließen.

Eine Analyse der Anzahl der gefundenen Publikationen zu jeder untersuchten Krankheitsentität ergab, dass für 1017 Entitäten keine Ergebnisse gefunden wurden, was auf einen erheblichen Verbesserungsbedarf bei der Gestaltung der Suchbegriffe und der angewandten Suchstrategie hinweist. Für weitere 893 Erkrankungen konnten zwischen 1 und 100 Publikationen gefunden werden, bei 456 Erkrankungen ergaben sich bis zu 1.000. Die Anzahl der Erkrankungen mit mehr als 1.000 extrahierten Publikationen belief sich auf 240. Auf die Autorentitäten bezogene Analysen zeigten auf, dass 696.216 der Entitäten mit einer, weitere 417.420 mit bis zu fünf Publikationen in PubMed referenziert sind. Für 110 Entitäten wurden mehr als 500 Publikationen verzeichnet, was einerseits tatsächlich auf Autoren mit sehr hoher Publikationsaktivität zurückzuführen ist, in anderen Fällen jedoch die Effekte der fehlenden Namensdesambiguierung aufzeigt. Autorentitäten waren durchschnittlich mit ein bis zwei Erkrankungen assoziiert, was auf eine hohe Spezialisierung der einzelnen Experten auf wenige Seltene Erkrankungen hindeutet. Bei der Anzahl der assoziierten MeSH-Deskriptoren lag der Median bei 10 je Publikation, 16 je Autorentität und 199 je Erkrankung.

In einer genaueren Untersuchung des generierten Expertenprofils eines Ulmer Experten für seltene Anämien sowie einer dazugehörigen Erkrankung, der Kongenitalen Dyserythropoetischen Anämie (CDA), konnten die erwarteten Zusammenhänge dargestellt werden. Die Betrachtung der häufigsten assoziierten Erkrankungen, MeSH-Deskriptoren und Fachzeitschriften des Autors ließ auf die Tätigkeit im Bereich der Anämien schließen, ein Ranking der am häufigsten zu der Erkrankung publizierenden Autoren bestätigte wiederum dessen Expertise.

Diskussion: Der Ansatz einer automatisierten bibliometrischen Analyse erlaubt die Identifikation von Experten zu spezifischen Seltenen Erkrankungen sowie Rückschlüsse über deren Tätigkeitsfeld und Expertise. Eine erste Evaluation bestätigt das Potential für die weitere Entwicklung des Systems mit dem Ziel einer Ergänzung traditioneller Expertenverzeichnisse und letztendlich als Hilfestellung für den individuellen Patienten. Kritische Verbesserungen umfassen die Gestaltung der Suchalgorithmen und eine effektive Namensdesambiguierung [5].

Ein grundlegendes Problem der bibliometrischen Analyse ist die immanente Einschränkung auf Autoren wissenschaftlicher Publikationen, sodass Experten, die nicht publizieren, nicht als solche identifiziert werden können. Das Projekt bietet daher keine umfassende Verzeichnung aller Experten, unternimmt jedoch die ersten Schritte auf einem neuen Weg zu einer noch besseren Identifizierung von Experten für Seltene Erkrankungen.


Literatur

1.
INSERM 1997. Orphanet: an online rare disease and orphan drug data base. Available from: http://www.orpha.net [zuletzt aufgerufen am 31.3.2014] External link
2.
Tang, Jie, et al. ArnetMiner: An Expertise Oriented Search System for Web Community. Semantic Web Challenge. 2007.
3.
Crowder R, Hughes G and Hall W. An agent based approach to finding expertise - Practical Aspects of Knowledge Management. Berlin Heidelberg: Springer; 2002. p.179-88.
4.
Liu P, Ye Y, Liu K. Building a Semantic Repository of Academic Experts: Wireless Communications, Networking and Mobile Computing 2008. WiCOM'08 - 4th International Conference on IEEE, 2008.
5.
Tang J, et al. A unified probabilistic framework for name disambiguation in digital library. Knowledge and Data Engineering, IEEE Transactions on 24.6. 2012: 975-87.