gms | German Medical Science

GMDS 2015: 60. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V. (GMDS)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie

06.09. - 09.09.2015, Krefeld

Komponenten eines Expertensuchsystems zu Seltenen Erkrankungen auf der Basis bibliometrischer Daten und automatisierter Internetsuche

Meeting Abstract

  • Marina Schwarzkopf - Institut für Informatik, Hochschule Ulm, Deutschland
  • Hannes Dangelmaier - Institut für Informatik, Hochschule Ulm, Deutschland
  • Andreas Pflugrad - Division of Neurophysiology, Universität Ulm, Deutschland; Institut für Informatik, Hochschule Ulm, Deutschland
  • Jochen Bernauer - Institut für Informatik, Hochschule Ulm, Deutschland

GMDS 2015. 60. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (GMDS). Krefeld, 06.-09.09.2015. Düsseldorf: German Medical Science GMS Publishing House; 2015. DocAbstr. 264

doi: 10.3205/15gmds032, urn:nbn:de:0183-15gmds0325

Veröffentlicht: 27. August 2015

© 2015 Schwarzkopf et al.
Dieser Artikel ist ein Open-Access-Artikel und steht unter den Lizenzbedingungen der Creative Commons Attribution 4.0 License (Namensnennung). Lizenz-Angaben siehe http://creativecommons.org/licenses/by/4.0/.


Gliederung

Text

Einleitung: Seltene Erkrankungen (SE) betreffen etwa 6-8% der Bevölkerung [1]. Bislang sind fast 7.000 verschiedene SE beschrieben. Die Bereitstellung von Informationen zu Experten, Diagnose- oder Behandlungsmöglichkeiten in Portalen und Registern wurde in den letzten Jahren stetig weiterentwickelt. Diesen liegen jedoch hauptsächlich manuelle Registrierprozesse zugrunde. Um diese Auskunftssysteme zu ergänzen, wurde ein bibliometriebasiertes Expertensuchsystem entwickelt, welches Autoren relevanter Fachartikel aus Literaturdatenbanken als Experten identifiziert [2]. Patienten, Ärzte und manuell geführte Expertenregister sollen so bei der Suche nach Experten und weiterführenden Informationen unterstützt werden. Ein ähnlicher Ansatz wird ebenfalls von Expertscape (http://www.expertscape.com) verfolgt, jedoch ist dieser für SE nicht spezifisch genug, und es fehlt eine Namensdesambiguierung. Dieser Beitrag stellt die Systemkomponenten der entwickelten Suchumgebung und des dazugehörigen Datenkonzepts dar.

Material und Methoden: Um relevante Faktoren und Voraussetzungen zu finden, wurden innerhalb einer Ist-Analyse die aus Literaturdatenbanken verfügbaren Daten betrachtet. Für das mögliche Einsatzpotenzial wurde auf der Basis von Anwendungsfällen aus Benutzersicht ein Soll-Konzept entwickelt [3]. Dieses orientiert sich am EN ISO 9241-110 Standard zur Gebrauchstauglichkeit von Systemen mit Mensch-Computer-Interaktion. Durch dieses hybride Vorgehen wurden die Kernanforderungen Benutzerfreundlichkeit, Performanz, Erweiterbarkeit, Transparenz und zielgruppengerechte Darstellung ermittelt.

Für die Konstruktion der Suchumgebung mussten folgende Komponenten entwickelt und integriert werden:

1.
ein Thesaurus zu SE, welcher hierarchische Begriffsstrukturen für die systemeigene Suche nach Publikationen sowie für die nutzerseitige Suche nach relevanten Krankheitsbezeichnungen zur Verfügung stellt,
2.
eine Datenbasis als Extrakt von PubMed, welche Metadaten zu SE-spezifischen Publikationen enthält und mit dem Thesaurus verknüpft,
3.
ein System zur Extraktion von Lokalisierungsinformationen aus Affiliationseinträgen von PubMed,
4.
ein Desambiguierungssystem, welches Autorennamen möglichst eindeutig auf Autoren abbildet,
5.
eine für verschiedene Nutzergruppen geeignete Benutzeroberfläche,
6.
einen WebCrawler zur Vervollständigung von Kontaktdaten und zur Identifikation von Webseiten mit weiterführenden Informationen zu Experten sowie
7.
eine für die Suche optimierte Datenbasis.

Die Umsetzung und Integration der einzelnen Komponenten erfolgte systematisch mithilfe aufeinander aufbauender Modellierungsschritte. Der Informationsbedarf zukünftiger Anwender wurde anhand von Patientenanfragen an die am Projekt beteiligten Zentren für Seltene Erkrankungen (ZSE) gemeinsam mit Ärzten ermittelt. Zusammen mit der zugrundeliegenden Datenbasis ergab sich so zunächst ein abstraktes semantisches Datenmodell. Das darauf basierende logische Datenmodell berücksichtigt Anforderungen an das operative System und die Datenstruktur, um Performanz, Transparenz und Erweiterbarkeit zu gewährleisten. Diese werden im daraus resultierenden physischen Datenmodell zusammen mit Aspekten des Datentransfers und der Partitionierung weiter umgesetzt.

Ergebnisse: Die unterschiedlichen Komponenten wurden prototypisch in einem Gesamtsystem realisiert.

1.
Der Thesaurus zu SE integriert Benennungen von SE aus Orphadata [4], den Medical Subject Headings (MesH), dem Unified Medical Language System, sowie hierarchische Begriffsbeziehungen aus Orphadata und MesH. Er enthält derzeit 25.000 deutsche und englische Benennungen zu 6.779 Seltenen Erkrankungen.
2.
Auf der Grundlage des Thesaurus wurden mittels der PubMed-API mehrfach automatisierte Suchläufe durchgeführt und Daten zur Publikationsaktivität von Autoren gewonnen. Hierbei wurden unterschiedliche Metadaten zu etwa 3,8 Mio. Artikeln und deren Autoren extrahiert.
3.
Es wurden zudem Funktionen entwickelt, um für eine Autorenschaft Informationen zu Ländern, Städten, Institutionen und Abteilungen aus PubMed-Affiliationseinträgen zu extrahieren und auf Standardvokabulare abzubilden.
4.
Da in PubMed Autorennamen nicht einheitlich dargestellt und auch nicht eindeutig personalisierten Autoren zuordnet werden, mussten Algorithmen entwickelt werden, um gleiche oder ähnliche Autorennamen zu gruppieren und innerhalb solcher Gruppen zwischen verschiedenen personalisierten Autoren zu unterscheiden. Hierzu wurde ein Namensvergleich mit Hilfe von String-Ähnlichkeitsmaßen entwickelt, der in [5] beschrieben ist. Zu jedem so identifizierten Autor stehen dann Informationen zu den von ihm beforschten Erkrankungen, über Institutionen, Koautoren und MeSH-Begriffe in Verbindung mit entsprechenden Häufigkeitsangaben zur Verfügung. Sie machen im Wesentlichen das Expertenprofil eines Autors aus.
5.
Zu den wichtigsten Funktionen der Oberfläche gehört es, (a) SE zu identifizieren, (b) Experten für eine SE zu finden, (c) deren Daten zur Publikationstätigkeit darzustellen und (d) Links zu relevanten Webseiten mit Kontaktdaten und weiteren Informationen zur Person zu präsentieren. Das System soll durch Patienten, deren Angehörige und Ärzte gleichermaßen nutzbar sein, weshalb ein besonderer Fokus auf der Benutzerfreundlichkeit und einem intuitiven Informationsdesign liegt. Um (a) zu unterstützen, enthält der SE-Thesaurus unterschiedliche Benennungen von SE und verschiedene hierarchische Bezüge. Da seitens des Suchsystems keine Bewertung der Expertise eines Autors vorgenommen wird, obliegt es bezüglich (c) dem Nutzer, die Expertenprofile entsprechend der gegebenen Attribute zu filtern. Typischerweise betreffen diese die Anzahl der Publikationen, den Publikationstyp und -zeitraum sowie den Standort der beteiligten Institutionen bzw. deren Entfernung zum Suchenden. Informationen zu (d) liefert der integrierte WebCrawler.
6.
Die Aufgabe des integrierten WebCrawlers besteht darin, Kontaktdaten von Experten zu vervollständigen und relevante Webseiten mit weiterführenden Informationen zur deren Expertise zu finden. Dazu wird die Google Custom Search API unter Berücksichtigung von aus Erfahrung gewonnenen Suchkriterien zur Unterscheidung von Klinikwebseiten und sonstigen Webseiten eingesetzt. Der Fokus liegt hierbei insbesondere auf institutionsbezogenen Webseiten. Die WebCrawling-Funktionen sollen einerseits im Hintergrund die beschriebene Datenbasis vervollständigen, werden aber auch in die Suchoberfläche integriert, damit sie online genutzt werden können.
7.
Expertenlisten, die zu verschiedenen SE erstellt wurden, zeigten auf, dass der Datentransfer aus der bibliometrischen Datenbasis im Allgemeinen sehr rechenintensiv ist. Um eine für die interaktive Nutzung notwendige Performanz zu erreichen, wurde eine suchoptimierte Datenbasis generiert, bei der die typischen Anwendungsfälle der Expertensuche berücksichtigt und dafür entsprechende Zusammenstellungen und Aggregationen erzeugt wurden.

Diskussion: Der Einsatz einer bibliometriebasierten Identifizierung von Experten in Verbindung mit Seltenen Erkrankungen ist innovativ und hat das Potential, manuelle Registriermethoden zu ergänzen. Informationssuchenden wird über die existierenden Portale hinaus eine weitere Möglichkeit zur Recherche und Kontaktaufnahme geboten. Die prototypische Oberfläche wurde unter Berücksichtigung der Anforderungen für Benutzerfreundlichkeit erstellt, bedarf für die weitere Ausgestaltung jedoch noch detaillierterer Usability-Tests und Feedback durch die verschiedenen Nutzergruppen (von Patienten, Ärzten, Lotsen der ZSE und weiteren zukünftigen Nutzern). Sie ist unabdingbar zur eigenständigen Verifizierung der gesammelten Daten, weiteren Performanztests mit einer größeren Nutzerzahl und der Optimierung und Evaluierung des Gesamtsystems.

Parallel zur Entwicklung des Systems wird evaluiert, inwieweit die Experten, die durch den bibliometrischen Ansatz identifiziert werden, mit den in Orphanet registrierten übereinstimmen, und welche Ergebnisse eine intuitive und manuelle Suche nach Experten über Internetsuchmaschinen liefert.


Literatur

1.
Kaplan W, Wirtz VJ, Mantel-Teeuwisse A, Stolk P, Duthey B, Laing R. Priority medicines for Europe and the World 2013 update. World Health Organization; 2013. S. 148
2.
Pflugrad A, Jurkat-Rott K, Lehmann-Horn F, Bernauer J. Towards the automated generation of expert profiles for rare diseases through bibliometric analysis. Studies in health technology and informatics. 2014; 198:47–54.
3.
Bauer A, Günzel H. Data-Warehouse-Systeme: Architektur, Entwicklung, Anwendung. Heidelberg: Dpunkt.verlag; 2013. S. 413, 414
4.
Orphadata. Free access data from Orphanet. Data version 1.1.4 / 4.1.3. cINSERM; 1997. Available on: http://www.orphadata.org Externer Link
5.
Pflugrad A, Bernauer J. Nutzung von String-Ähnlichkeitsmaßen in Talend Open Studio zur Desambiguierung von Autorennamen aus PubMed. Forum der Medizin_Dokumentation und Medizin_Informatik. 03/2015; 17(1):17-18.