gms | German Medical Science

GMDS 2014: 59. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V. (GMDS)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie

07. - 10.09.2014, Göttingen

Support Vector Machine (SVM) basierte Berechnung des Expertengrads von medizinischen Texten

Meeting Abstract

Search Medline for

  • R. Zowalla - Hochschule Heilbronn, Medizinische Informatik, Heilbronn
  • M. Wiesner - Hochschule Heilbronn, Medizinische Informatik, Heilbronn
  • D. Pfeifer - Hochschule Heilbronn, Medizinische Informatik, Heilbronn

GMDS 2014. 59. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (GMDS). Göttingen, 07.-10.09.2014. Düsseldorf: German Medical Science GMS Publishing House; 2014. DocAbstr. 99

doi: 10.3205/14gmds065, urn:nbn:de:0183-14gmds0653

Published: September 4, 2014

© 2014 Zowalla et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution License (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.en). You are free: to Share – to copy, distribute and transmit the work, provided the original author and source are credited.


Outline

Text

Einleitung und Fragestellung: In der heutigen Informationsgesellschaft spielt das Internet eine zentrale Rolle in der Wissens- und Informationsbeschaffung. Immer mehr Menschen informieren sich mit Hilfe des Internet über das Thema Gesundheit [1]. Als Laie medizinische Fachtermini oder Zusammenhänge zu verstehen, ist jedoch schwierig. Deshalb ist es in diesem Kontext besonders wichtig, aus der großen Menge an Informationen diejenigen herauszufinden, die zum einen inhaltlich korrekt sind und zum anderen dem Fachwissen des jeweiligen Benutzers entsprechen [2].

In diesem Zusammenhang kann es von Vorteil sein, den medizinischen Expertengrad eines Textdokuments vollautomatisch zu bestimmen. Ein solches System kann dann beispielsweise für die individuell angepasste Berechnung von Empfehlungen eines Health Recommender Systems verwendet werden [3].

Dieser Beitrag beschreibt ein Verfahren, welches auf Basis einer Support Vector Machine (SVM) den Expertengrad von medizinischen Texten berechnen kann.

Material und Methoden: Das Konzept der SVMs stammt aus dem Bereich des maschinellen Lernens und hat sich im Bereich der Textklassifikation bewährt [4].

Um Text mit Hilfe einer SVM klassifizieren zu können, sind vorverarbeitende Schritte notwendig. Zunächst werden die erfassten medizinischen Texte aufbereitet und von Auszeichnungssprachen bereinigt. In einem weiteren Schritt wird dann die Technik der Stoppwortfilterung sowie Stammformreduktion auf die Texte angewendet. Danach werden die zu klassifizierenden Texte in sogenannte Dokumentenvektoren transformiert. Um eine solche Transformation durchzuführen, werden zunächst diejenigen Terme bestimmt, die ein Textdokument innerhalb einer Kollektion auszeichnen (Features). Die Auswahl dieser Features erfolgt hierbei über die sogenannte „Feature-Selection“. Eine Studie von Yang & Pedersen zeigt, dass sich insbesondere die Feature-Selection Verfahren Information Gain (IG), Document Frequency (DF) und Chi-Quadrat (CHI-2) für die Textklassifikation eignen [5]. Auf Basis einer großen Dokumentenkollektion wird die SVM darauf trainiert, zwischen laien-kompatiblen und experten-kompatiblen Vektoren zu unterscheiden. Nach dieser Trainingsphase kann der Klassifikator dann auf noch nicht klassifizierte Texte angewandt werden, um deren Expertengrad mit hoher Genauigkeit zu berechnen. Als Maß für die Genauigkeit eines Klassifikators hat sich die sogenannte „Accuracy“ durchgesetzt [6]. Diese berechnet sich aus dem Verhältnis der korrekt klassifizierten Texte zur Gesamtheit aller Dokumente in der Kollektion.

Zum Aufbau einer Dokumentenkollektion wurden insgesamt 15915 Artikel von Internetseiten automatisiert erfasst. Hierbei entstammen 9640 den Kategorien „Medizin“ und „Medizinreport“ aus dem deutschen Ärzteblatt (DÄ). Ferner wurden 5088 Artikel aus der Apothekenumschau (AU) sowie 601 respektive 586 Artikel von den Webseiten der Informationsanbieter IQWiG und Onmeda erfasst. Dabei wurde die Annahme getroffen, dass Artikel des deutschen Ärzteblatt als Expertenmaterial, Artikel der Apothekenumschau, des IQWiG und von Onmeda als Laientexte einzustufen sind.

Zur Evaluation des Klassifikators wurden zwei Datenkollektionen angelegt. Jede Datenkollektion besteht hierbei aus einem Trainings- und einem Testkorpus, die disjunkt zueinander sind. Im Nachfolgenden werden diese näher dargestellt; Angaben in Klammern beschreiben die exakte Anzahl an Artikeln pro Datenquelle.

Trainingskorpus 1 umfasst insgesamt 10000 Artikel (DÄ 5000, AU 4465, Onmeda 544). Der dazugehörige Testkorpus 1 besteht aus 1202 Texten (DÄ 601, IQWiG 601). Trainingskorpus 2 umfasst ebenfalls insgesamt 10000 Artikel (DÄ 5000, AU 4200, Onmeda 400, IQWiG 400). Der dazugehörige Testkorpus 2 besteht aus 1200 Texten (DÄ 600, Onmeda 180, IQWiG 200).

Ergebnisse: Zunächst wurde untersucht, welches Feature-Selection Verfahren das beste Ergebnis in Bezug auf die Accuracy liefert. Anschließend erfolgte eine Optimierung der SVM-Parameter nach Hsu & Chang [5] sowie die Evaluation des Klassifikators. Zur Bestimmung des geeignetsten Feature-Selection Verfahrens für die gegebenen Korpora wurde der sogenannte cross-validation Modus der SVM mit Standardparametern für die zuvor erwähnten Methoden (vergleiche [5]) wie auch ohne Feature-Selection ausgeführt. Gleichzeitig wurde die Anzahl der berücksichtigen „besten“ Features schrittweise erhöht. Dabei zeigte sich, dass für beide Datenkollektionen die Verfahren IG und DF die besten und stabilsten Ergebnisse erzielen. CHI-2 weist hingegen mit wachsender Anzahl an Features Instabilitäten auf. In einem nächsten Schritt wurden daher nur noch IG und DF näher betrachtet.

In den Tests wurde das System mit beiden Datenkollektion unter Verwendung eines RBF-Kernel (vergleiche [6]) jeweils mit Standardparametern sowie mit den optimierten Parametern trainiert. Zur Feature-Selection wurden jeweils die „besten“ 5000 Features berücksichtigt. Die nachfolgende Darstellung der Kontingenztafeln erfolgt in verkürzter Form unter Angabe der Anzahl der korrekt als Laie (TP), inkorrekt als Laie (FP), korrekt als Experte (TN) und inkorrekt als Experte (FN) klassifizierten Dokumente.

Für Datenkollektion 1 ergibt sich ohne Parameteroptimierung für DF eine Accuracy von 61,39% (TP=248,FP=353,TN=490,FN=111) und für IG eine Accuracy von 61,39% (TP=251,FP=350,TN=488,FN=113). Mit optimierten Parametern steigt die Accuracy für DF auf 74,62% (TP=386,FP=215,TN=511,FN=90) und für IG auf 70,29% (TP=342,FP=259,TN=503,FN=98).

In Datenkollektion 2 ergibt sich ohne Parameteroptimierung für DF eine Accuracy von 85,08% (TP=577,FP=23,TN=444,FN=156) und für IG eine Accuracy von 84,58% (TP=574,FP=26,TN=441,FN=159). Mit optimierten Parametern steigt die Accuracy für DF auf 89,66% (TP=587,FP=17,TN=466,FN=134) und für IG auf 87,41% (TP=583,FP=17,TN=466,FN=134).

Es ist ersichtlich, dass sich die Parameteroptimierung in beiden Dokumentenkollektionen positiv auf das Klassifikationsergebnis auswirkt.

Diskussion: Alle Texte wurden vollautomatisiert aus verschiedenen Onlineressourcen bezogen. Eine Prüfung der erfassten Inhalte erfolgte stichprobenhaft, sodass Störartefakte (z.B. www, HTML) enthalten sein können. Die initiale Zuweisung einer Klasse für die Artikel wurde anhand manueller Stichproben vergeben. Demnach ist nicht sicher, dass jedes Dokument inhaltlich tatsächlich der vergebenen Kategorie entspricht. Darüber hinaus besteht ein Ungleichgewicht in der Verteilung der erfassten Onlinetexte. Zum einen wurde nur eine einzige Quelle für Expertenmaterial herangezogen, zum anderen ist der ist der Anteil an IQWiG- und Onmeda-Texten im Vergleich zur Apothekenumschau gering. Ferner wurden unterschiedliche Textlängen ebenfalls nicht berücksichtigt. Der große Umfang der Stichprobe sollte diesen potentiellen Effekt jedoch abmildern.

Durch den relativ hohen Anteil an Apothekenumschau Artikeln in den Trainingskorpora ist es möglich, dass vorwiegend Terme als Feature selektiert wurden, die besonders indikativ für den „Laien-Typ“ Apothekenumschau sind. Der Klassifikator unterscheidet in diesem Fall nicht zwischen „Laie“ und „Experte“, sondern eher zwischen „Apothekenumschau“ und „Experte“. Der Anteil an fälschlicherweise als Expertentext eingestuften Laiendokumenten ist in beiden Datenkollektionen ähnlich hoch. Dies ist möglicherweise auf das ausschließliche Training mit Ärzteblatt-Artikeln zurückzuführen. Eine weitere Quelle für medizinische Fachartikel wäre hilfreich, um diesem Problem zu begegnen und somit die Klassifikationsgenauigkeit weiter zu verbessern.

Dennoch zeigt sich, dass die Klassifikation von Texten zur Bestimmung des Expertengrads mittels einer SVM brauchbare Ergebnisse liefert. Erste Voruntersuchungen mit einem kleinen englischsprachigen Korpus liefern Indizien dafür, dass das entwickelte System auch für die englische Sprache verwendet werden kann.


Literatur

1.
Cline RJ, Haynes KM. Consumer health information seeking on the Internet: The state of the art. Health Educ Res. 2001;16:671-92. doi:10.1093/her/16.6.671 External link
2.
Eysenbach G, Jadad AR. Evidence-based patient choice and consumer health informatics in the Internet age. J Med Internet Res. 2001;3:e19. doi:10.2196/jmir.3.2.e19. External link
3.
Wiesner M, Pfeifer D. Health Recommender Systems: Concepts, Requirements, Technical Basics and Challenges. International Journal of Environmental Research and Public Health. 2014;11(3):2580-607. doi:10.3390/ijerph110302580 External link
4.
Joachims T. Text Categorization with Support Vector Machines: Learning with Many Relevant Features. Heidelberg, Germany: Springer; 1998.
5.
Yang Yiming, Pedersen Jan O. A Comparative Study on Feature Selection in Text Categorization. International Conference on Machine Learning. 1997. 412-20.
6.
Hsu CW, Chang CC, Lin CJ. A Practical Guide to Support Vector Classification / Department of Computer Science, National Taiwan University. Version: 2003. http://www.csie.ntu.edu.tw/~cjlin/papers.html. 2003. Forschungsbericht External link