Artikel
Auf dem Weg zur Routine: Clusterverfahren zur Auswertung von Microarray-Experimenten
Suche in Medline nach
Autoren
Veröffentlicht: | 14. September 2004 |
---|
Gliederung
Text
Einleitung
Entwicklungsprozesse von Lebewesen werden durch die differentielle Aktivität von Genen gesteuert. Mit der Technologie der Microarrays steht den Lebenswissenschaften eine viel versprechende Hochdurchsatztechnologie für die Erforschung der Gen-Aktivität in Krankheitsverläufen zur Verfügung. Ebenso viel versprechend ist das breite Methodenspektrum für die Auswertung von Microarray Experimenten, an dem Clusterverfahren mit den verschiedensten Methoden, Metriken und Optionen einen hohen Anteil haben. Im Zuge des Versuchs, bioinformatorisch zu einer routinemäßigen Auswertung von Microarray Experimenten zu kommen, ist pragmatischen Ansätzen zunächst der Vorrang zu geben. Die Analysesoftware gEn0M [Ref. 1], [Ref. 2] bietet dem Experimentator drei Verfahren zur Clusterung an, die für die Auswertung von Microarray Experimenten der Affymetrix™ Technologie nützlich und nachvollziehbar sind.
Methoden
Clusterung von Genen mit ähnlichen Expressionsprofilen
Das erste Verfahren dient der Clusterung von Genen über mindestens zwei Messpunkte in Zeit oder Dosis. Es werden Gene zusammengefasst, die ein ähnliches Expressionsprofil in einer Zeitreihe oder Dosisfolge zeigen. Die Normalisierung der Expressionswerte der zu vergleichenden Arrays ist über den Median, Mittelwert und/oder Standardabweichung optional möglich.
In einer Zeitreihe wird für jedes Gen/EST (Probe Set) die Steigung der Expression zwischen Zeitpunkt t0 und t1 ermittelt und in eine verkettete Liste eingetragen. Dieser Vorgang wird für alle weiteren Zeitpunkte des Experimentes (t1,...,tn) wiederholt. Jedes Listenelement enthält damit für jedes Gen n Steigungen, die das Expressionsprofil des Gens charakterisieren.
Die Ähnlichkeit zwischen den einzelnen Gen-Expressionsprofilen wird mit Hilfe der Minkowski Metrik (Gleichung 1) berechnet.
Gleichung 1: Minkowski Metrik zur Berechnung der Ähnlichkeit zwischen zwei Genen [Abb. 1]
Für r = 2 ergibt sich aus der Minkowski Metrik der Euklidische Abstand. Damit werden n Ähnlichkeitsmatrizen aller Gene zwischen ti und tj ( i < j ) ermittelt und miteinander addiert. Der kleinste Wert der Summenmatrix kennzeichnet die beiden Gene mit dem ähnlichsten Expressionsverhalten über den Zeitraum t0 bis tn. Diese Gene werden zusammengefasst und erneut der Abstand zu allen anderen Genen ermittelt. Aus Speichergründen wird mit Listen gearbeitet, in denen einzelne Elemente nach ihrer Neuberechnung ersetzt werden, bis letztlich nach Zusammenfassungen und Neuberechnungen nur noch ein Listenelement vorhanden ist. Die berechneten Gen-Cluster werden in einem Dendrogramm absteigend nach ihrer Ähnlichkeit visualisiert ([Abb. 2] links). Einzelne Gene können ausgewählt und mit ihren Expressionsprofilen ([Abb. 2] rechts oben) und zusätzlichen Gen-Informationen dargestellt werden ([Abb. 2] rechts unten).
Clusterung von Genen eines Arrays mit ähnlichen Expressionswerten
Die Software gEn0M bietet wie etwa auch Genespring von Silicon Genetics (http://www.silicongenetics.com/cgi/SiG.cgi/index.smf) die Clusterung der Gene eines Arrays auf der Grundlage ihrer Expressionswerte an. Diesem Verfahren liegt die eingangs beschriebene Minkowski-Methode in vereinfachter Form zugrunde. Zeitabhängigkeiten oder Dosisveränderungen bleiben unberücksichtigt. Gene mit ähnlicher Expression werden gruppiert. Für die Visualisierung ähnlicher Gene werden eine Dendrogramm- sowie eine Balkengrafik verwendet.
Clusterung von ähnlichen Arrays
Die Clusterung von Arrays ist z. B. zur Überprüfung der Güte von Replikaten unverzichtbar. Die Einbeziehung mindestens eines geeigneten Kontrollarrays in die Ähnlichkeitsbetrachtung ist dazu notwendig.
Alle Arrays werden paarweise miteinander verglichen. Dazu werden Gen für Gen J Quotienten aus beiden Expressionswerten gebildet und über J gemittelt - wahlweise als Mittelwert oder als Median. Der gemittelte Wert s [ 0 ≤ s ≤ 100] gibt die Ähnlichkeit zweier Arrays [%] an. Beim paarweisen Vergleich von m Arrays ergeben sich
Ähnlichkeiten, die im Balkendiagramm dargestellt werden. Abbildung 3 [Abb. 3] links zeigt die Ähnlichkeiten zwischen einer Kontrolle und 4 Individuen-Replikaten: Kontrolle vs. Array 1, Kontrolle vs. Array 2, u.s.w. Deutlich sichtbar ist die gleichmäßig verminderte Ähnlichkeit zwischen der Kontrolle und den 4 Replikaten (Balken 1-4) im Gegensatz zu den Individuen-Replikaten untereinander (Balken 5-10). Nach Auswahl eines bestimmten Vergleiches werden die zugehörige Ähnlichkeitsverteilung als Histogramm ([Abb. 3] rechts oben) sowie der Scatterplot der Expressionswerte der beiden Arrays ([Abb. 3] rechts unten) unter Angabe des Bestimmtheitsmaßes r2 dargestellt. Die größte Ähnlichkeit zweier Arrays zeigt sich als enge Punktwolke um die XY-Diagonale mit r2
1.
Ergebnisse
Es wurden 3 Clusterverfahren für die Experimentauswertung von Microarrays implementiert und zur Auswertung klinischer Experimente herangezogen. Die Clusterung ähnlicher Arrays ergab für Replikate genomisch gleicher Tiere Ähnlichkeiten von [80-87%] mit Bestimmtheitsmaßen von [0,94-0,98]. Die Clusterung von Genen mit ähnlichen Expressionsprofilen wurde zunächst für Housekeeping-Gene wie Beta-Actin und Gap-DH untersucht.
Diskussion
Auf dem Weg zur routinemäßigen Auswertung von Genexpressions-Experimenten spielt die Einbindung von Clusteralgorithmen eine wesentliche Rolle. Dabei sind für den Experimentator nachvollziehbare Algorithmen und damit interpretierbare Ergebnisse wichtiger als das Angebot einer unüberschaubaren Vielfalt aus Clustermethoden, -metriken und Optionen. In der klinischen Forschung fokussiert sich die Nachfrage auf die Möglichkeit der Clusterung von Arrays, um die Güte von Replikaten gegen eine Kontrolle zu prüfen sowie auf die Clusterung von Gen-Expressionsprofilen in Zeitreihenexperimenten, um die Co-Expression von Genen zu untersuchen. gEn0M wird dieser Nachfrage gerecht und bietet zur Analyse von Microarray Experimenten geeignete Verfahren und Visualisierungen an.
Danksagung
Dieses Projekt wird vom Bundesministerium für Bildung und Forschung gefördert (FKZ 01ZZ0108).
Literatur
- 1.
- Glass Ä, Gierl L. Genomic Models for Diseases developed with gEn0M. In: Glocker M, editor. Functional Genomics Approaches in Autoimmune Diseases. New York: Kluwer Academic/Plenum Publishers; 2004: subm. Jan.
- 2.
- Scheel T, Bansemer S. gEn0M - an Affymetrix Analyse Tool. In: German Conference on Bioinformatics; 2003; München; 2003: 8-9.