gms | German Medical Science

49. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (gmds)
19. Jahrestagung der Schweizerischen Gesellschaft für Medizinische Informatik (SGMI)
Jahrestagung 2004 des Arbeitskreises Medizinische Informatik (ÖAKMI)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie
Schweizerische Gesellschaft für Medizinische Informatik (SGMI)

26. bis 30.09.2004, Innsbruck/Tirol

Auf dem Weg zur Routine: Clusterverfahren zur Auswertung von Microarray-Experimenten

Meeting Abstract (gmds2004)

Suche in Medline nach

  • corresponding author presenting/speaker Thomas Scheel - Universität Rostock, Rostock, Deutschland
  • Lothar Gierl - Universität Rostock, Rostock, Deutschland
  • Änne Glass - Universität Rostock, Rostock, Deutschland

Kooperative Versorgung - Vernetzte Forschung - Ubiquitäre Information. 49. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (gmds), 19. Jahrestagung der Schweizerischen Gesellschaft für Medizinische Informatik (SGMI) und Jahrestagung 2004 des Arbeitskreises Medizinische Informatik (ÖAKMI) der Österreichischen Computer Gesellschaft (OCG) und der Österreichischen Gesellschaft für Biomedizinische Technik (ÖGBMT). Innsbruck, 26.-30.09.2004. Düsseldorf, Köln: German Medical Science; 2004. Doc04gmds336

Die elektronische Version dieses Artikels ist vollständig und ist verfügbar unter: http://www.egms.de/de/meetings/gmds2004/04gmds336.shtml

Veröffentlicht: 14. September 2004

© 2004 Scheel et al.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielfältigt, verbreitet und öffentlich zugänglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Gliederung

Text

Einleitung

Entwicklungsprozesse von Lebewesen werden durch die differentielle Aktivität von Genen gesteuert. Mit der Technologie der Microarrays steht den Lebenswissenschaften eine viel versprechende Hochdurchsatztechnologie für die Erforschung der Gen-Aktivität in Krankheitsverläufen zur Verfügung. Ebenso viel versprechend ist das breite Methodenspektrum für die Auswertung von Microarray Experimenten, an dem Clusterverfahren mit den verschiedensten Methoden, Metriken und Optionen einen hohen Anteil haben. Im Zuge des Versuchs, bioinformatorisch zu einer routinemäßigen Auswertung von Microarray Experimenten zu kommen, ist pragmatischen Ansätzen zunächst der Vorrang zu geben. Die Analysesoftware gEn0M [1], [2] bietet dem Experimentator drei Verfahren zur Clusterung an, die für die Auswertung von Microarray Experimenten der Affymetrix™ Technologie nützlich und nachvollziehbar sind.

Methoden

Clusterung von Genen mit ähnlichen Expressionsprofilen

Das erste Verfahren dient der Clusterung von Genen über mindestens zwei Messpunkte in Zeit oder Dosis. Es werden Gene zusammengefasst, die ein ähnliches Expressionsprofil in einer Zeitreihe oder Dosisfolge zeigen. Die Normalisierung der Expressionswerte der zu vergleichenden Arrays ist über den Median, Mittelwert und/oder Standardabweichung optional möglich.

In einer Zeitreihe wird für jedes Gen/EST (Probe Set) die Steigung der Expression zwischen Zeitpunkt t0 und t1 ermittelt und in eine verkettete Liste eingetragen. Dieser Vorgang wird für alle weiteren Zeitpunkte des Experimentes (t1,...,tn) wiederholt. Jedes Listenelement enthält damit für jedes Gen n Steigungen, die das Expressionsprofil des Gens charakterisieren.

Die Ähnlichkeit zwischen den einzelnen Gen-Expressionsprofilen wird mit Hilfe der Minkowski Metrik (Gleichung 1) berechnet.

Formel 1

Gleichung 1: Minkowski Metrik zur Berechnung der Ähnlichkeit zwischen zwei Genen [Abb. 1]

Für r = 2 ergibt sich aus der Minkowski Metrik der Euklidische Abstand. Damit werden n Ähnlichkeitsmatrizen aller Gene zwischen ti und tj ( i < j ) ermittelt und miteinander addiert. Der kleinste Wert der Summenmatrix kennzeichnet die beiden Gene mit dem ähnlichsten Expressionsverhalten über den Zeitraum t0 bis tn. Diese Gene werden zusammengefasst und erneut der Abstand zu allen anderen Genen ermittelt. Aus Speichergründen wird mit Listen gearbeitet, in denen einzelne Elemente nach ihrer Neuberechnung ersetzt werden, bis letztlich nach Zusammenfassungen und Neuberechnungen nur noch ein Listenelement vorhanden ist. Die berechneten Gen-Cluster werden in einem Dendrogramm absteigend nach ihrer Ähnlichkeit visualisiert ([Abb. 2] links). Einzelne Gene können ausgewählt und mit ihren Expressionsprofilen ([Abb. 2] rechts oben) und zusätzlichen Gen-Informationen dargestellt werden ([Abb. 2] rechts unten).

Clusterung von Genen eines Arrays mit ähnlichen Expressionswerten

Die Software gEn0M bietet wie etwa auch Genespring von Silicon Genetics (http://www.silicongenetics.com/cgi/SiG.cgi/index.smf) die Clusterung der Gene eines Arrays auf der Grundlage ihrer Expressionswerte an. Diesem Verfahren liegt die eingangs beschriebene Minkowski-Methode in vereinfachter Form zugrunde. Zeitabhängigkeiten oder Dosisveränderungen bleiben unberücksichtigt. Gene mit ähnlicher Expression werden gruppiert. Für die Visualisierung ähnlicher Gene werden eine Dendrogramm- sowie eine Balkengrafik verwendet.

Clusterung von ähnlichen Arrays

Die Clusterung von Arrays ist z. B. zur Überprüfung der Güte von Replikaten unverzichtbar. Die Einbeziehung mindestens eines geeigneten Kontrollarrays in die Ähnlichkeitsbetrachtung ist dazu notwendig.

Alle Arrays werden paarweise miteinander verglichen. Dazu werden Gen für Gen J Quotienten aus beiden Expressionswerten gebildet und über J gemittelt - wahlweise als Mittelwert oder als Median. Der gemittelte Wert s [ 0 ≤ s ≤ 100] gibt die Ähnlichkeit zweier Arrays [%] an. Beim paarweisen Vergleich von m Arrays ergeben sich Formel 2 Ähnlichkeiten, die im Balkendiagramm dargestellt werden. Abbildung 3 [Abb. 3] links zeigt die Ähnlichkeiten zwischen einer Kontrolle und 4 Individuen-Replikaten: Kontrolle vs. Array 1, Kontrolle vs. Array 2, u.s.w. Deutlich sichtbar ist die gleichmäßig verminderte Ähnlichkeit zwischen der Kontrolle und den 4 Replikaten (Balken 1-4) im Gegensatz zu den Individuen-Replikaten untereinander (Balken 5-10). Nach Auswahl eines bestimmten Vergleiches werden die zugehörige Ähnlichkeitsverteilung als Histogramm ([Abb. 3] rechts oben) sowie der Scatterplot der Expressionswerte der beiden Arrays ([Abb. 3] rechts unten) unter Angabe des Bestimmtheitsmaßes r2 dargestellt. Die größte Ähnlichkeit zweier Arrays zeigt sich als enge Punktwolke um die XY-Diagonale mit r2 Formel 3 1.

Ergebnisse

Es wurden 3 Clusterverfahren für die Experimentauswertung von Microarrays implementiert und zur Auswertung klinischer Experimente herangezogen. Die Clusterung ähnlicher Arrays ergab für Replikate genomisch gleicher Tiere Ähnlichkeiten von [80-87%] mit Bestimmtheitsmaßen von [0,94-0,98]. Die Clusterung von Genen mit ähnlichen Expressionsprofilen wurde zunächst für Housekeeping-Gene wie Beta-Actin und Gap-DH untersucht.

Diskussion

Auf dem Weg zur routinemäßigen Auswertung von Genexpressions-Experimenten spielt die Einbindung von Clusteralgorithmen eine wesentliche Rolle. Dabei sind für den Experimentator nachvollziehbare Algorithmen und damit interpretierbare Ergebnisse wichtiger als das Angebot einer unüberschaubaren Vielfalt aus Clustermethoden, -metriken und Optionen. In der klinischen Forschung fokussiert sich die Nachfrage auf die Möglichkeit der Clusterung von Arrays, um die Güte von Replikaten gegen eine Kontrolle zu prüfen sowie auf die Clusterung von Gen-Expressionsprofilen in Zeitreihenexperimenten, um die Co-Expression von Genen zu untersuchen. gEn0M wird dieser Nachfrage gerecht und bietet zur Analyse von Microarray Experimenten geeignete Verfahren und Visualisierungen an.

Danksagung

Dieses Projekt wird vom Bundesministerium für Bildung und Forschung gefördert (FKZ 01ZZ0108).


Literatur

1.
Glass Ä, Gierl L. Genomic Models for Diseases developed with gEn0M. In: Glocker M, editor. Functional Genomics Approaches in Autoimmune Diseases. New York: Kluwer Academic/Plenum Publishers; 2004: subm. Jan.
2.
Scheel T, Bansemer S. gEn0M - an Affymetrix Analyse Tool. In: German Conference on Bioinformatics; 2003; München; 2003: 8-9.