gms | German Medical Science

51. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V. (gmds)

10. - 14.09.2006, Leipzig

Vergleich von Methoden zur Schätzung des Anteils wahrer Hypothesen bei multiplen Testverfahren

Meeting Abstract

Suche in Medline nach

  • Mario Walther - Friedrich Schiller Universität Jena, Jena

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (gmds). 51. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie. Leipzig, 10.-14.09.2006. Düsseldorf, Köln: German Medical Science; 2006. Doc06gmds308

Die elektronische Version dieses Artikels ist vollständig und ist verfügbar unter: http://www.egms.de/de/meetings/gmds2006/06gmds093.shtml

Veröffentlicht: 1. September 2006

© 2006 Walther.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielf&aauml;ltigt, verbreitet und &oauml;ffentlich zug&aauml;nglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Gliederung

Text

Einleitung

Ausgangspunkt unserer Betrachtungen sind multiple Testverfahren. In der Literatur findet man eine Vielzahl von Verfahren, die die FWE (familywise error rate) oder die FDR (false discovery rate) kontrollieren. Neben diesen klassischen Fehlerarten ist man bemüht neuere Verfahren zu entwickeln, die die so genannten gFWE (generalized familywise error rate) oder FDP (false discovery proportion) kontrollieren. Von mehreren dieser Verfahren ist aber bekannt, dass die kontrollierte Fehlerrate die vorgegebene Signifikanzschranke α gar nicht ausschöpfen und sogar durch π0α begrenzt wird, wenn π0 den Anteil der wahren Hypothesen bezeichnet (vgl. [1]). Die Power solcher Verfahren ließe sich also erhöhen, wenn π0 bekannt wäre, insbesondere bei kleinem π0. Bei der Anwendung solcher Testverfahren ist es daher von Vorteil, vorher oder in einem ersten Schritt den Anteil der wahren Hypothesen zu schätzen oder zumindest nach oben zu begrenzen. Verschiedene derartige Vorgehensweisen existieren bereits in der Literatur (vgl. [2], [3], [4]). Diese und auch andere Methoden sollen verglichen werden. Es soll herausgefunden werden, in welchen Bereichen welche Schätzer am zuverlässigsten sind.

Methoden

Wir betrachten verschiedene Methoden zur Schätzung des Anteils π0 wahrer Hypothesen in einem multiplen Testproblem, welche auf der Grundlage der p-Werte basieren. Dabei geht man stets von der Annahme aus, dass die p-Werte unabhängig und unter H0 identisch verteilt sind. Eine dieser Methode ist die von Storey (vgl. [3]). Diese beruht auf der Berechnung der relativen Anzahl an p-Werten, die oberhalb einer Schranke λ mit 0<λ<1 liegen. Genauer bestimmt man für jedes 0<λ<1 den Quotienten π(λ)=#{pi>λ}/(m(1-λ)) für i=1,…,m, wobei m die Anzahl der Hypothesen bezeichnet. Häufig wählt man λ=0,5 und schätzt den wahren Anteil indem man π0=π(λ) setzt. Eine alternative Möglichkeit ist dasjenige λ* zu bestimmen, für welches der mittlere quadratische Fehler MSE(λ) zwischen wahrem π0 und π(λ) minimal wird und wählt als Schätzwert für π0 schließlich π(λ*). In vielen Fällen ist aber die Verteilung der p-Werte unbekannt und daher schätzt man den mittleren quadratischen Fehler MSE(λ) unter Verwendung eines Bootstrap-Verfahrens.

Bei den Methoden von Benjamini und Hochberg (vgl. [1]) und Hsueh et al. (vgl. [5]) kommt man auf unterschiedliche Weise über den Größenunterschied zwischen den p-Werten zu Schätzern für den Anteil π0 wahrer Hypothesen. Eine weitere Methode ist die Schätzung von π0 mittels kubischer Splines (vgl. [4]). Hierbei wird ein kubischer Spline mit 3 Freiheitsgraden an die Werte (λ,π(λ)) angepasst und man wählt als Schätzwert für π0 den Wert des kubischen Splines an der Stelle 1. Langaas et al. (siehe [6]) betrachteten folgende Schätzmethode für π0. Ausgangspunkt hierbei ist die Dichtefunktion f der Verteilungen der einzelnen p-Werte. Diese besitzt unter der Annahme der Unabhängigkeit und Gleichverteilung die Gestalt f(p)=π 0 +(1-π 0 )h(p) für 0≤p≤0. Dabei ist h die unbekannte Dichte der Verteilung eines p-Wertes, wenn die Alternativhypothese wahr ist. Die in [6] vorgestellte Methode schätzt dann die Funktion f auf Grundlage der p-Werte durch eine konvexe und monoton fallende Dichtefunktion. Der Wert dieser Funktion an der Stelle 1 liefert dann einen Schätzwert für π0.

Die verschiedenen Schätzverfahren werden zunächst in Computersimulationen auf künstlich erzeugte m-dimensionale Daten angewandt, bei denen der Anteil π0 der wahren Hypothesen bekannt ist. Hinsichtlich der erzeugten Daten gehen wir zunächst von normalverteilten Daten mit unterschiedlicher Korrelationsstruktur aus. Zum einen betrachten wir den Fall unabhängiger bis hochkorrelierter Daten und zum anderen den Fall, wenn die Korrelationsmatrix eine vorgegebene Blockstruktur besitzt. Als Testverfahren wählen wir beispielhaft den t-Test sowie den Wilcoxon-Test. Für unterschiedlich vorgegebene Anteile wahrer Hypothesen werden die Schätzmethoden miteinander verglichen.

Ergebnisse und Ausblick

Ein Vergleich zeigt, mit welchen Methoden der Anteil π0 wahrer Hypothesen unterschätzt oder überschätzt wird. Ziel ist es zu erreichen, das wahre π0 zu überschätzen, um somit die Power der einzelnen Testverfahren zu erhöhen. Aus einer großen Zahl von Schätzwerten lässt sich auch die Streuung der Schätzwerte als Maß für die Zuverlässigkeit der jeweiligen Methode ermitteln. Vor allem mit wachsender Korrelation sind die Streuungen groß und die Schätzgenauigkeiten niedrig (vgl. Abbildung 1 [Abb. 1]). Ebenso verhält es sich mit wachsendem Anteil π0, wobei die Methode von Benjamini & Hochberg in unserem Falle eine Ausnahme ist. Dieses Verfahren beispielsweise nicht zu empfehlen, da die Streuung den wahren Anteil π0 nicht überdeckt wie Abbildung 1 [Abb. 1] zeigt.

Durch Kombination verschiedener Ansätze soll versucht werden, verbesserte Schätzverfahren zu entwickeln, die wir hier vorstellen wollen. Die verschiedenen Schätzmethoden sollen auch auf reale Daten (EEG- und Proteinexpressionsdaten) angewandt und dabei auf ihre praktische Verwendbarkeit getestet werden.

Danksagung

Diese Arbeit wird unterstützt durch die Deutsche Forschungsgesellschaft (Projekt VO 683/2-1).


Literatur

1.
Benjamini Y, Hochberg Y. On the adaptive control of false discovery rate in multiple testing with independent statistics. Journal of Educational and Behavioral Statistics. 2000; 25; 06-83
2.
Benjamini Y, Krierger AM, Yekutieli D. Adaptive linear step-up procedures that control the fals discovery rate. Research paper 01-03. Department of Statistics and OR, Tel Aviv University. Tel Aviv. Israel.
3.
Storey JD. A direct approach to false discovery rates. Journal of the Royal Statistical Society. Series B. 2002; 64; 479-498.
4.
Storey JD, Tibshiriani R. Statistical significance for genome-wide experiments. Proceedings of the National Academy of Sciences USA. 2003; 100; 3889-3894.
5.
Hsueh H, Chen JJ, Kodell RL. Comparison of methods for estimating the number of true null hypothesis in multiple testing. Journal of Biopharmaceutical Statistics. 2003; 13; 679-689.
6.
Langaas M, Lindqnist BH, Ferkingstad E. Estimating the proportion of true null hypotheses, with application to DNA microarray data. Journal of the Royal Statistical Society. Series B. 2005; 67; 555-573.