gms | German Medical Science

50. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (gmds)
12. Jahrestagung der Deutschen Arbeitsgemeinschaft für Epidemiologie (dae)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie
Deutsche Arbeitsgemeinschaft für Epidemiologie

12. bis 15.09.2005, Freiburg im Breisgau

Multiples Testen mit datengewichteten P-Werten bei binären Daten

Meeting Abstract

Search Medline for

  • Ernst Schuster - Universitaet Leipzig, Leipzig

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie. Deutsche Arbeitsgemeinschaft für Epidemiologie. 50. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (gmds), 12. Jahrestagung der Deutschen Arbeitsgemeinschaft für Epidemiologie. Freiburg im Breisgau, 12.-15.09.2005. Düsseldorf, Köln: German Medical Science; 2005. Doc05gmds287

The electronic version of this article is the complete one and can be found online at: http://www.egms.de/en/meetings/gmds2005/05gmds265.shtml

Published: September 8, 2005

© 2005 Schuster.
This is an Open Access article distributed under the terms of the Creative Commons Attribution License (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.en). You are free: to Share – to copy, distribute and transmit the work, provided the original author and source are credited.


Outline

Text

Für normalverteilte Daten schlugen Westfall et al. [1] eine multiple Prozedur mit datenabhängig gewichteten P-Werten vor, die das multiple Niveau α (engl. familywise type I error α in the strong sense) einhält unter jeder Kombination von wahren und falschen Hypothesen. In [2] wurde eine multiple Prozedur mit einem multivariaten Test für Genexpressionsanalysen entwickelt. Auch für nicht-normalverteilte Daten wurde von Kropf et al. [3] eine entsprechende multiple Prozedur vorgeschlagen. Im Vortrag wird eine solche Prozedur für binäre Daten vorgestellt.

Gegeben seien zwei Populationen (z.B. Patienten mit einer speziellen Erkrankung und Kontrollen) von denen Stichproben von p binären Merkmalen vorliegen. Dabei wird von der Modellannahme ausgegangen, dass sich die beiden multivariaten Bernoulli Verteilungen nur durch Verschiebeparameter μ i unterscheiden:

Equation 1 und Equation 2 mit Equation 3

Diese Modellannahme besitzt eine gewisse Analogie zur Annahme gleicher Kovarianzmatrizen bei multivariaten Mittelwertvergleichen und scheint mir deshalb durchaus plausibel. Von Interesse sind nun die lokalen Nullhypothesen H i , dass die eindimensionalen Randverteilungen gleich sind, die Equation 4 entsprechen. Aus obiger Modellannahme folgt, dass die multivariate Verteilung aller Merkmale zu wahren lokalen Nullhypothesen in beiden Populationen gleich ist.

Gegeben seien n (1) Fälle aus der ersten Population und n (2) Fälle aus der zweiten Population: Equation 5. Werden die „Ereignisse“ mit 1 kodiert, ergeben sich die folgenden mittleren Ereignisraten Equation 6 für Equation 7, die in der folgenden Prozedur mit datenabhängig gewichteten P-Werten verwendet werden:

1. Berechne die P-Werte Equation 8 der exakten Fisher-Tests,

2. die Gewichte Equation 9 und gewichtete P-Werte Equation 10

3. Ordne die Variablen danach Equation 11

4. Lehne die so geordneten Hypothesen H (j) solange ab wie Equation 12

Stoppe bei der ersten nichtsignifikanten Variablen.

Beh.: Diese Prozedur hält für obiges Modell das multiple Niveau α ein.

Um den Beweis zu skizzieren, betrachten wir vorerst nur Variablen mit Indizes aus der Menge M 0 aller Indizes zu wahren lokalen Nullhypothesen. Alle Teildatenvektoren mit Indizes aus M 0 sind aus derselben |M 0 |-dimensionalen Verteilung (s.o.), deshalb sind alle Permutationen der Gruppenzugehörigkeit gleich wahrscheinlich. In der Klasse aller dieser Permutationen sind Equation 13 unverändert. Deshalb zeigt eine kurze Rechnung, dass Q (1) das Niveau α einhält. Weil das für jede solche Klasse gilt, auf die man bedingen kann, gilt es auch unbedingt.

Wenn nur wahre Nullhypothesen vorliegen ist damit der Beweis skizziert. Weil das aber im Allgemeinen nicht der Fall ist, werden alle Variablen nach gewichteten P-Werten geordnet. Sei i 0 der erste Index aus M 0 in dieser Ordnung. Indizes vor i 0 können keinen Fehler 1. Art verursachen (,weil sie keine wahren Nullhypothesen sind). Weil der Wert von Q i in der Permutationsklasse nur vom Merkmal i abhängt, wird weder der Wert noch „die Reihenfolge der Q i untereinander für Equation 14 “ durch die anderen Variablen beeinflusst. Deshalb wird auch in diesem Fall das multiple Niveau eingehalten.

Die Güte der Prozedur könnte dann hoch sein, wenn, ausgehend von einer gleichmäßig niedrigen Ereignisrate aller Merkmale, diese Rate für einzelne Merkmale in einer Gruppe erhöht ist.


Literatur

1.
Westfall PH, Kropf S, and Finos L Weighted FWE-controlling methods in high-dimensional situations. In Benjamini,Y., Bretz,F. and Sarkar,S.K. (eds), Recent Developments in Multiple Comparison Procedures., IML Lecture Notes - Monograph series, 47, 143-154
2.
Schuster, E, Kropf, S and Roeder, I. Micro Array Based Gene Expression Analysis using Parametric Multivariate Tests per Gene - A Generalized Application of Multiple Procedures with Data-driven Order of Hypotheses. Biometrical Journal, 46, 687-696.
3.
Kropf S, Läuter J, Eszlinger M, Krohn K, Paschke R. Nonparametric multiple test procedures with data-driven order of hypotheses and with weighted hypotheses. JSPI 2004; 125: 31-47