gms | German Medical Science

GMDS 2015: 60. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V. (GMDS)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie

06.09. - 09.09.2015, Krefeld

Identifikation krankheitsbezogener Fragestellungen auf Twitter zum Einsatz für die personalisierte Medizin

Meeting Abstract

Search Medline for

  • Dennis Kluge - Charité - Universitätsmedizin Berlin, Deutschland
  • Benjamin Voigt - Charité - Universitätsmedizin Berlin, Deutschland
  • Thomas Wetzel - Charité - Universitätsmedizin Berlin, Deutschland

GMDS 2015. 60. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (GMDS). Krefeld, 06.-09.09.2015. Düsseldorf: German Medical Science GMS Publishing House; 2015. DocAbstr. 261

doi: 10.3205/15gmds031, urn:nbn:de:0183-15gmds0312

Published: August 27, 2015

© 2015 Kluge et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License. See license information at http://creativecommons.org/licenses/by/4.0/.


Outline

Text

Einleitung: Bei der personalisierten Medizin handelt es sich um einen relativ jungen Begriff. In der Literatur lässt sich derzeit keine einheitliche Definition des Begriffes identifizieren und somit ist eine trennscharfe Abgrenzung nicht möglich [1]. Oft wird die personalisierte Medizin mit der individuellen Pharmakotherapie aufgrund von genetischen Eigenschaften eines Patienten gleichgesetzt. Um die Möglichkeiten der personalisierten Medizin auszuschöpfen, sollte jedoch die Bedeutung wesentlich weiter gefasst werden. So könnte der Begriff als optimierte Medizin und Gesundheitsversorgung eines Individuums aufgrund aller zur Verfügung stehenden Informationen verstanden werden.

Globalisierung in Form von grenzüberschreitenden sozialen Medien und personalisierte Medizin scheinen auf den ersten Blick betrachtet gegenläufige Trends zu sein. Zwei Entwicklungen verdeutlichen jedoch die Relevanz von sozialen Medien für die personalisierte Medizin [2]. Soziale Medien instrumentalisieren das Internet zu einem Werkzeug, welches zum Aufbau und zur Erhaltung von Beziehungen, so auch zwischen Arzt und Patient, verwendet wird. Weiterhin sind Dienste verfügbar, die ohne größeren Aufwand medizinisch relevante digitale Daten bereitstellen. Aktuelle medizinisch relevante Anwendungen sind u.a. die patientenzentrierte Forschung, bei der die Initiative, Planung und Umsetzung medizinischer Forschung entscheidend von der Patientenseite ausgeht, sowie die Quantified-Self Bewegung in der gesundheitsrelevante Daten selbst erfasst, geteilt und ausgewertet werden.

Am Beispiel der Demenz soll die Bedeutung von krankheitsbezogenen Fragestellungen in sozialen Netzwerken durch deren automatisierte Analyse und Kategorisierung anhand ausgewählter Kriterien für die personalisierte Medizin untersucht werden. Ziel ist es, eine Rangordnung der Fragestellungen von Patienten und Angehörigen zu generieren, um besser auf aktuelle Interessen und Bedürfnisse von Patientengruppen einzugehen zu können.

Material und Methoden: Twitter ist ein Microblogging-Dienst, der mit 288.000.000 Nutzern zu den momentan größten sozialen Netzwerken gehört. Über Twitter kann jeder Nutzer Kurzmitteilungen verfassen, sogenannte “Tweets”, die über eine Webseite oder Applikation gelesen werden können. Weltweit werden auf diese Art über 500.000.000 Tweets täglich verfasst.

Ein Tweet besteht aus maximal 140 Unicode-Zeichen, zusätzliche können Bilder und Videos referenziert werden. Durch das Voranstellen eines Hashtags (#) lassen sich Wörter markieren und mit allen anderen Tweets, die das gleiche Wort markiert haben, vernetzen. Ebenso lassen sich Nutzer durch das Hinzufügen eines @ markieren. Der markierte Nutzer wird so direkt von dem Tweet in Kenntnis gesetzt und eine Art Konversation initialisiert, an der jedoch auch alle anderen Twitter-Nutzer partizipieren können. Nebst dieser besonderen Eigenschaften enthält jeder Tweet Metainformationen, die beispielsweise Lokation, Zeitstempel oder weiterführende Informationen zum Autor enthalten.

Die besonderen Eigenschaften eines Tweets ermöglichen einen Informationsgewinn über die Kurzmitteilung selbst hinaus. So wurde beispielsweise gezeigt, dass das politische Meinungsbild auf Twitter mit der Realität korreliert [3]. Die Chance zur Identifizierung momentaner Meinungsbilder und Bedürfnisse aus Tweets, ist der Grund dafür, diese Tweets als primäre Datenquelle zu untersuchen.

Seit dem 15.12.2014 Tweets wurde über die von Twitter bereitgestellten und öffentlich zugänglichen Schnittstellen kontinuierlich akquiriert. Der Dienst bietet eine Streaming-API an, worüber in Echtzeit Tweets zu spezifizierten Themen verarbeitet werden können. Die so gespeicherten Tweets zeichnen sich dadurch aus, dass sie die markierten Wörter “#Demenz” oder “#Alzheimer” enthalten. Bis zum jetzigen Zeitpunkt wurden 1.001.821 Tweets persistiert.

Im Folgenden wird die Verarbeitung der gesammelten Daten und die dabei verwendeten Methoden skizziert. Generell sei angemerkt, dass es sich dabei um Modelle aus dem Bereich der Computerlinguistik, insbesondere dem “Natural Language Processing”, und dem Maschinellen Lernen handelt. Die Verarbeitung der Tweets gliedert sich grob in die Teilschritte:

  • Identifizieren der Sprache (language identification)
  • Bereinigung der Daten (normalization)
  • Segmentierung der Texte (tokenization)
  • Erhebung relevanter Eigenschaften (feature extraction)
  • Cluster-Analyse (clustering)
  • Erstellen der Rangordnung (ranking)

Die Erfassung der Tweets beschränkt sich nicht auf eine Sprache, so dass der Bestand multilingual ist. Dies resultiert aus der Interpretation der Schlagwörter, so ist “#Alzheimer” nicht als eindeutig Deutsch zu identifizieren. Zur Identifizierung der Sprache wurde ein Algorithmus auf Basis von Markow-Ketten verwendet.

Ein Großteil der Tweets enthält neben URLs eine Vielzahl an Emoticons und sonstigen Sonderzeichen. Die Normalisierung sorgt dafür, dass die weiterzuverarbeitenden Texte ausschließlich aus alphanumerischen Zeichen bestehen.

Da die zu betrachtenden Features auf einzelnen Teilaspekten des Textes beruhen, werden aus diesen Tokens gebildet. Die zusammen mit den extrahierten Tokens und weiteren Metadaten erstellte Feature-Matrix wird mit Hilfe des K-Median-Algorithmus kategorisiert werden.

Es stellt sich heraus, dass die Zeichenlimitierung der Tweets besondere Herausforderungen mit sich bringt. Die Analyse semantischer Aussagen ist mit steigender Textlänge genauer. Zudem ist es elementar bei der inhaltlichen Verarbeitung die genaue Sprache des Tweets zu identifizieren. Verfahren zur Identifikation von Sprachen auf Textdokumente sind derzeit jedoch noch sehr ungenau [4].

Ergebnisse: Im Zuge der Umsetzung wurde ein Aggregator implementiert, welcher als Daemon Tweets zu den genannten Schlagworten sammelt und in einer NoSQL-Datenbank persistiert. Eine besondere Anforderung stellt die Robustheit des Systems dar, sodass eine größtmögliche, kontinuierliche Menge an Tweets ohne Unterbrechungen als Datengrundlage dient. Derzeit läuft der Dienst seit 2 Monaten stabil.

Zudem konnten erste Teile der Pipeline implementiert und umgesetzt werden. Dies umfasst die Teile der Normalisierung, Tokenisierung und des Clusterings. Die genutzten Clustering-Algorithmen umfassen K-Means, K-Median und DBSCAN. Die Fertigstellung der Pipeline und den damit verbundenen Frameworks ist für den Herbst dieses Jahres geplant.

Erste Experimente mit den aufgelisteten Clustering-Verfahren zeigen das Potential auf. Hierfür wurden unterschiedliche Feature-Extraktionen einbezogen, bestehend aus Merkmalen der Texte, der Metadaten und der Kombination beider. Es zeigt sich, dass gerade das dichtebasierte Verfahren DBSCAN geeignet ist und zu gleichverteilten Clustern führt.

Diskussion: Die begrenzte Textlänge der Tweets führt zu algorithmischen Herausforderungen. Insbesondere die Sprachidentifikation, welche elementar für weiterführende semantische Analysen ist, führt wegen der Kürze der Tweets zu Problemen. Derzeit sind dafür noch keine zuverlässigen Lösungsmethoden bekannt. Daher ist zu untersuchen welche Verfahren am geeignetsten sind um zu einer zuverlässigen Sprachidentifikation zu führen.

Des Weiteren ist die Evidenz der extrahierten Cluster zu evaluieren. Durch die vollautomatisierte Generierung der einzelnen Cluster kann die medizinische Relevanz nur durch entsprechende Domänenexperten bewertet werden. Im Anschluss soll eine Kategorisierung anhand festgelegter Kriterien für die personalisierte Medizin erfolgen.


Literatur

1.
Niederlag W, Lemke HU, Rienhoff O. Personalisierte Medizin und individuelle Gesundheitsversorgung. Onkologe. 2011 Apr 17: 413–419.
2.
Christen M, Vayena E. Gesünder Leben dank sozialen Netzen? Zeitschrift für Datenrecht und Informationssicherheit. 2014 Jun: S16
3.
Tumasjan A, Sprenger T0, Sandner PG, Welpe IM. Predicting Elections with Twitter: What 140 Characters Reveal about Political Sentiment. Proc. 4th Intl. AAAI Conf. on Weblogs and Social Media (ICWSM). 2010.
4.
Baldwin T, Lui M. Language Identification: The Long and the Short of the Matter. HLT '10 Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics. 2010. p. 229-237.