gms | German Medical Science

49. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (gmds)
19. Jahrestagung der Schweizerischen Gesellschaft für Medizinische Informatik (SGMI)
Jahrestagung 2004 des Arbeitskreises Medizinische Informatik (ÖAKMI)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie
Schweizerische Gesellschaft für Medizinische Informatik (SGMI)

26. bis 30.09.2004, Innsbruck/Tirol

Vergleichende Untersuchungen von multiplen Testverfahren zur Auswertung von Genexpressionsdaten

Meeting Abstract (gmds2004)

Suche in Medline nach

  • corresponding author presenting/speaker Claudia Hemmelmann - Institut für Medizinische Statistik, Informatik und Dokumentation, Universität Jena, Jena, Deutschland
  • Manfred Horn - Institut für Medizinische Statistik, Informatik und Dokumentation, Universität Jena, Jena, Deutschland
  • Volker Guiard - Forschungsinstitut für die Biologie landwirtschaftlicher Nutztiere, Dummerstorf, Deutschland
  • Rüdiger Vollandt - Institut für Medizinische Statistik, Informatik und Dokumentation, Universität Jena, Jena, Deutschland

Kooperative Versorgung - Vernetzte Forschung - Ubiquitäre Information. 49. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (gmds), 19. Jahrestagung der Schweizerischen Gesellschaft für Medizinische Informatik (SGMI) und Jahrestagung 2004 des Arbeitskreises Medizinische Informatik (ÖAKMI) der Österreichischen Computer Gesellschaft (OCG) und der Österreichischen Gesellschaft für Biomedizinische Technik (ÖGBMT). Innsbruck, 26.-30.09.2004. Düsseldorf, Köln: German Medical Science; 2004. Doc04gmds082

Die elektronische Version dieses Artikels ist vollständig und ist verfügbar unter: http://www.egms.de/de/meetings/gmds2004/04gmds082.shtml

Veröffentlicht: 14. September 2004

© 2004 Hemmelmann et al.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielf&aauml;ltigt, verbreitet und &oauml;ffentlich zug&aauml;nglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Gliederung

Text

Einleitung

Bei der Auswertung von Genexpressionsdaten handelt es sich um ein Problem mit multiplen Endpunkten (Ein- oder Zweistichprobenproblem). Betrachten wir z.B. die Daten von Golub et al. [3]. Hier untersucht man 27 Patienten mit akuter lymph. Leukämie (ALL) und 11 Patienten mit akuter myol. Leukämie (AML), und betrachtet dabei 7129 Gene. Es stellt sich die Frage: Bei welchen Genen gibt es Unterschiede in der Expression (ALL/AML)?

Allgemein lassen sich bei k Endpunkten k Nullhypothesen H1,...,Hk formulieren, z.B. Hi: µii (i=1,...,k). Wir bezeichnen im Folgenden mit R die zufällige Anzahl der abgelehnten Hypothesen und mit V die zufällige Anzahl der irrtümlich abgelehnten Hypothesen (V≤R). Außerdem definieren wir V/R=0 für R=0.

Bislang kontrollierte man bei multiplen Testverfahren das Eintreten von Fehlern 1. Art durch die Forderung FWE=P(V>0)≤α. Dieses Kriterium erscheint bei großem k als zu streng. Eine Verallgemeinerung hiervon ist, dass man P(V>u)≤α (u≥0) gewährleistet. Eine weitere Möglichkeit ist, P(V/R>γ)≤α (0<γ<1) zu fordern. Neuerdings setzt sich bei hochdimensionalen Daten mehr und mehr die Forderung FDR=E(V/R)≤α durch. Im Folgenden wollen wir nur verschiedene FDR-kontrollierende Verfahren betrachten und deren Power vergleichen. Dabei interessieren verschiedene Powertypen, nämlich die Any-Pair Power (Wahrscheinlichkeit mindestens eine falsche Hypothese abzulehnen), die All-Pairs Power (Wahrscheinlichkeit alle falschen Hypothesen abzulehnen) und die Per-Pair Power (Wahrscheinlichkeit eine bestimmte falsche Hypothese abzulehnen). Die Höhe der Power hängt von verschiedenen Faktoren ab (z.B. Anzahl der Hypothesen, Anteil der falschen Hypothesen, Korrelation der Endpunkte). Diese Abhängigkeiten sollen untersucht werden, da ihre Kenntnis wichtig ist für die Auswahl geeigneter Tests.

Methoden

Benjamini und Hochberg [1] haben die FDR-Kontrolle eingeführt und ein entsprechendes Verfahren vorgeschlagen. Dabei betrachtet man die geordneten p-Werte p(1)≤…≤p(k) und bestimmt r=max{i: p(i)≤α·i/k}. Wenn ein solches r existiert lehnt man die Hypothesen H(1),...,H(r) ab, ansonsten wird keine Hypothese abgelehnt. Es wurde gezeigt, dass dieses Verfahren bei Unabhängigkeit bzw. positiver Abhängigkeit gewährleistet, dass FDR≤π0α≤α, wobei π0 die unbekannte relative Zahl an wahren Hypothesen ist. Offenbar ließe sich bei Kenntnis von π0 die FDR besser ausschöpfen. Aus diesem Grunde wurde nach Verfahren gesucht, die π0 schätzen, siehe z.B. [2].

In Simulationen haben wir folgende Verfahren auf ihre Eigenschaften untersucht und miteinander verglichen: Verfahren von Benjamini und Hochberg [1] (BH), Verfahren von Benjamini et al. [2] (BKY), eine Modifizierung von BH (BH*), wobei wir zunächst den Anteil π0 der wahren Hypothesen nach Storey [4] schätzen und anschließend BH zum Niveau α'=α/π0 durchführen, und SAM von Tusher et al. [5]. Betrachtet wurden k-dimensionale Normalverteilungen. Es wurden vor allem Situationen mit unterschiedlichen Korrelationen zwischen den Endpunkten und unterschiedlichen Anzahlen falscher Hypothesen simuliert und verglichen. Außerdem wurde der Einfluss von k untersucht.

Ergebnisse

In Simulationen konnte nachgewiesen werden, dass BH und BKY die Forderung FDR≤α auch bei Abhängigkeit erfüllen, selbst bei gemischten (positiven und negativen) Korrelationen.

In Abbildung 1 [Abb. 1] ist die Per-pair Power in Abhängigkeit von der Anzahl m der falschen Hypothesen für zwei verschiedene Werte Δ (Erwartungswerte der falschen Hypothesen) dargestellt. Es zeigt sich, dass die Powerwerte von SAM nie geringer und meist höher sind als die der anderen Verfahren. Dies gilt für alle drei Powertypen. Ist Δ genügend groß, so fallen die Powerwerte der anderen drei Verfahren zusammen. Für kleines Δ dagegen zeigt sich, dass BH* den Verfahren BKY und BH deutlich überlegen ist, wenn m≥250.

Wendet man diese 4 Verfahren auf die eingangs beschriebenen Daten von Golub et al. [3] an, so erhält man mit SAM 838 signifikante Gene, mit BH* 722, mit BKY 499 und mit BH 488. Diese Anzahlen entsprechen in ihrer Reihenfolge den Powerergebnissen der Simulationen.

Diskussion

SAM und BH*, die Verfahren mit der höchsten Power, verwenden die gleiche Schätzung von π0, die auf der Gleichverteilung der p-Werte unter der Nullhypothese beruht. Die zugrundeliegenden simulierten Daten waren schwach korreliert. Bei hohen Korrelationen ist diese Schätzmethode allerdings nicht gut. Dann sollte man das Zweistufenverfahren BKY verwenden. Bei BKY wendet man in der ersten Stufe BH an. Die Anzahl der Signifikanzen, die man dabei erhält, ist ein Schätzwert für die Zahl der falschen Hypothesen.


Literatur

1.
Benjamini Y, Hochberg Y. Controlling the False Discovery Rate: a Practical and Powerful Approach to Multiple Testing. Journal of the Royal Statistical Society, Series B 1995;57:289-300.
2.
Benjamini Y, Krieger A, Yekutieli D. Two staged linear step up FDR controlling procedure. Tel Aviv: University; 2001.
3.
Golub TR, Slonim DK, Tamayo P, Huard C, Gaasenbeek M, Mesirov JP, et al. Molecular classification of cancer: Class discovery and class prediction by gene expression monitoring. Science 1999;286(5439):531-537.
4.
Storey JD. A direct approach to false discovery rates. Journal of the Royal Statistical Society, Series B 2002;64:479-498.
5.
Tusher VG, Tibshirani R, Chu G. Significance analysis of microarrays applied to the ionizing radiation response. Proceedings of the National Academy of Sciences of the United States of America 2001;98(9):5116-5121.