gms | German Medical Science

GMDS 2015: 60. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V. (GMDS)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie

06.09. - 09.09.2015, Krefeld

Aufbereitung von Genexpressionsdaten für die Systemmedizin

Meeting Abstract

  • Matthias Ganzinger - Universität Heidelberg, Heidelberg, Deutschland
  • Christian Haux - Universität Heidelberg, Heidelberg, Deutschland
  • Petra Knaup-Gregori - Universität Heidelberg, Heidelberg, Deutschland

GMDS 2015. 60. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (GMDS). Krefeld, 06.-09.09.2015. Düsseldorf: German Medical Science GMS Publishing House; 2015. DocAbstr. 201

doi: 10.3205/15gmds067, urn:nbn:de:0183-15gmds0676

Published: August 27, 2015

© 2015 Ganzinger et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License. See license information at http://creativecommons.org/licenses/by/4.0/.


Outline

Text

Einleitung: Die Systemmedizin hat sich zum Ziel gesetzt, individuelle Therapieentscheidungen für Patienten auf Basis möglichst aller verfügbaren Datenquellen zu treffen. Zu den Datenquellen gehören beispielsweise Genotypdaten, Phänotypdaten, klinische Daten oder Daten über den Lebensstil des Patienten. Die Daten werden zu einem krankheitsspezifischen Modell zusammengefasst, indem entsprechende Patientenkohorten möglichst umfassend beschrieben und die zugehörigen Daten analysiert werden. Durch Interferenz des Krankheitsmodells mit dem individuellen Modell eines Patienten können so aus den Daten der Kohorte geeignete Behandlungspfade abgeleitet werden.

Die Berücksichtigung von Genotypdaten stellt bei diesem Vorgehen eine besondere Herausforderung dar: Werden Microarrays zur Erfassung des Genoms verwendet, entstehen zehntausende Messwerte, bei der Anwendung von Next-Generation-Sequencing-Verfahren ist die Anzahl noch um Größenordnungen höher. Diese hohe Anzahl an Variablen erschwert die Auswertung der Daten: Zum einen sind sehr große Fallzahlen für signifikante Ergebnisse erforderlich, zum anderen steigt das zu verarbeitende Datenvolumen für größere Kollektive drastisch an. Eine Möglichkeit die Komplexität der Daten zu reduzieren, ist die Auswahl von Genen oder anderen Messpunkten in genomischen Daten, die eine spezifische Kohorte möglichst gut von anderen Patientengruppen abgrenzen. Bei diesem sogenannten Feature-Selection-Verfahren werden zunächst die zu trennenden Klassen des Kollektivs definiert, beispielsweise Patienten, die auf eine Therapie ansprechen und solche, die dies nicht tun.

In diesem Beitrag wird untersucht, inwieweit sich das Discriminant Fuzzy Pattern (DFP)-Verfahren zur Feature-Selection in der Systemmedizin eignet. Die Arbeit wurde im Rahmen des Systemmedizin-Forschungsprojektes „Clinically applicable, omics-based assessment of survival, side effects, and targets in multiple myeloma” (CLIOMMICS) mit dem Multiplen Myelom als Beispielerkrankung durchgeführt [1]. Das Multiple Myelom ist eine schwer heilbare maligne Erkrankung der Plasmazellen im Knochenmark mit einer Inzidenz von 4-6 Erkrankungen pro 100.000 Einwohner pro Jahr. Das mediane Alter bei Diagnose liegt bei 66 Jahren [2]. Die durch das DFP-Verfahren angestrebte Klassifikation ist das Ansprechen von Patienten auf eine Therapielinie.

Methoden: Grundlage für diese erste Untersuchung sind 72 Microarray-Datensätze mit Genexpressionsprofilen von Patienten, die mit dem Multiplen Myelom diagnostiziert wurden. Die Daten wurden mit dem Affymetrix Human Genome U133 Plus 2.0 Array erhoben und mit Methoden aus dem R-Paket Bioconductor aufbereitet, insbesondere Normalisierung der Messwerten und zur Verminderung des Rauschens. Die Daten werden mit Informationen zum Ansprechen der Patienten auf ein standardisiertes Therapieschema (Chemotherapie in Kombination mit autologer Stammzelltranfusion) angereichert.

Zur Feature-Selection wird das Discriminant Fuzzy Pattern (DFP)-Verfahren angewandt [3]. Dieses Verfahren wurde für die Erkennung von Patienten mit Krankheitsrisiken im Rahmen von Vorsorgeuntersuchungen beschrieben. Im Gegensatz zu diesem ursprünglichen Einsatzzweck, bei dem die Genome von gesunden Personen mit denen von kranken verglichen wurden, wird das Verfahren hier auf die Klassen Therapieansprechen und Resistenz angewandt.

Vereinfacht dargestellt, wird beim DFP für jede Klasse die Verteilung der Messwerte über alle Proben berechnet. Sodann werden die die Messwerte unter Berücksichtigung eines Schwellwertes ζ diskretisiert, indem den Messwerten die Kategorien niedrig, mittel oder hoch zugeordnet werden. Im nächsten Schritt werden dann diejenigen Messpunkte ausgewählt, die innerhalb einer Klasse ein Mindestmaß π an gleich kategorisierten Werten enthält. So entsteht eine Matrix, welche diejenigen Features enthält, welche zur Trennung zwischen den Klassen herangezogen werden. Zur Erstellung des DFP wird das gleichnamige Bioconductor-Paket verwendet [4].

Ergebnisse: Nach Aufbereitung der Microarray-Daten entsteht eine Matrix mit 54.676 Messwerten pro Probe. Zu den Proben liegen Klassifikationen der verschiedenen Stufen des Behandlungsverlaufs in vier Stufen von nicht-Ansprechen bis zum vollständigen Ansprechen auf die Therapie vor. Zur Vereinfachung wird zunächst nur der Beurteilungszeitpunkt nach der Stammzellreinfusion betrachtet. Das Klassierungssystem wird ebenfalls zunächst vereinfacht, indem sämtliche Klassen mit beliebig starkem Ansprechen des Patienten zu einer Klasse zusammengefasst werden. Somit ergeben sich die beiden Klassen „Ansprechen“ mit 34 Patienten und „kein Ansprechen“ mit 38 Patienten.

Für die Anwendung des DFP-Verfahrens werden verschiedene Varianten für die Schwellwerte berechnet. Dazu werden für ζ und π jeweils Werte zwischen 0,5 und 0,7 gewählt. Für ζ=0.5 und π=0.6 ergibt sich beispielsweise ein Satz von 102 Features zur Trennung zwischen den beiden Klassen.

Diskussion: Die Anwendung des DFP-Verfahrens hat erfolgversprechende erste Ergebnisse geliefert. Es ist gelungen, das Verfahren so zu parametrisieren, dass die große Anzahl von über 50.000 Messwerten eines Microarrays auf einen besser handhabbaren Umfang reduziert wird. In den nächsten Schritten muss nun die Qualität des Verfahrens untersucht werden. Dazu werden die Daten der vorliegenden Kohorte in Test- und Trainingsdaten unterteilt. Aus den Trainingsdaten werden die Feature-Muster gewonnen und anschließend auf die Testdaten angewandt.

Das skizzierte Verfahren könnte schließlich eine Komponente in einer Software-Architektur zur Unterstützung der Systemmedizin werden: Durch die Feature-Selection werden genomische Daten so aufbereitet, dass sie zusammen mit komplementären Daten wie klinischen Daten in eine Komponente zur Entscheidungsunterstützung einfließen können und so zu einer individualisierten Therapieentscheidung beitragen.

CLIOMMICS wird vom Bundesministerium für Bildung und Forschung (BMBF) im Rahmen der e:Med-Initiative unter dem Förderkennzeichen 01ZX1309A gefördert.


Literatur

1.
Ganzinger M, Goldschmidt H, Knaup P. An IT Platform for Systems Medicine. Stud Health Technol Inform (Studies in health technology and informatics). 2014:1247.
2.
Moehler T, Goldschmidt H. Multiple Myeloma. Berlin, Heidelberg: Springer; 2011. (Recent Results in Cancer Research; vol 183).
3.
Díaz F, Fdez-Riverola F, Corchado JM. gene-CBR: A CASE-BASED REASONIG TOOL FOR CANCER DIAGNOSIS USING MICROARRAY DATA SETS. Computational Intelligence. 2006; 22(3-4):254–68.
4.
Glez-Peña D, Alvarez R, Díaz F, Fdez-Riverola F. DFP: a Bioconductor package for fuzzy profile identification and gene reduction of microarray data. BMC Bioinformatics. 2009; 10(37):37.