gms | German Medical Science

50. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (gmds)
12. Jahrestagung der Deutschen Arbeitsgemeinschaft für Epidemiologie (dae)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie
Deutsche Arbeitsgemeinschaft für Epidemiologie

12. bis 15.09.2005, Freiburg im Breisgau

Statistische Aspekte bei der Vorbereitung von genomweiten Assoziationsstudien

Meeting Abstract

Suche in Medline nach

  • Stefan Wagenpfeil - Klinikum r.d. Isar, TU München, München

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie. Deutsche Arbeitsgemeinschaft für Epidemiologie. 50. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (gmds), 12. Jahrestagung der Deutschen Arbeitsgemeinschaft für Epidemiologie. Freiburg im Breisgau, 12.-15.09.2005. Düsseldorf, Köln: German Medical Science; 2005. Doc05gmds075

Die elektronische Version dieses Artikels ist vollständig und ist verfügbar unter: http://www.egms.de/de/meetings/gmds2005/05gmds057.shtml

Veröffentlicht: 8. September 2005

© 2005 Wagenpfeil.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielf&aauml;ltigt, verbreitet und &oauml;ffentlich zug&aauml;nglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Gliederung

Text

Einleitung und Fragestellung

Genotyp- und Haplotypanalysen sind weit verbreitet in der genetischen Epidemiologie bei der Analyse von Assoziationsstudien. Dabei werden neben den populationsbasierten Untersuchungen wie in [1] zunehmend auch in klinischen Studien genetische Risikofaktoren zusätzlich zu den klassischen Outcomes untersucht, vergleiche etwa [2]. Üblicherweise wird in diesem Zusammenhang vorausgesetzt, dass die Zahl p der möglichen Einflußgrößen, wie etwa genetische Marker oder single nucleotide polymorphisms (SNP’s), auf den Outcome wesentlich kleiner ist als die Zahl n der Personen im Untersuchungskollektiv. Dies ändert sich essentiell bei genomweiten Assoziationsstudien, wenn 600.000 SNP’s und damit ebensoviel mögliche Einflußgrößen zur Verfügung stehen, also p >> n. Die Fragen, die sich daraus ableiten, lassen sich in zwei Bereiche einteilen:

1.
Wie können Studien vom Design p >> n analysiert werden ?
2.
Welche Aussagekraft haben diese Studien ?

Material und Methoden

Ein klassischer Ansatz für die Behandlung multipler statistischer Testprobleme ist die Bonferroni-Korrektur. Für moderates p (p ≈ 100) wird in [3] ein simultanes Inferenzverfahren vorgestellt. Es ist jedoch nicht zu erwarten, dass diese klassischen Ansätze des multiplen Testens bei p ≈ 600.000 aufgrund der extrem klein werdenden lokalen Signifikanzniveaus zu befriedigenden Ergebnissen führen. Vielmehr werden in einem wegweisenden Editorial [4] Bayes-Verfahren für diese Problematik vorgeschlagen, wobei sich die Diskussion auf die Wahl von adäquaten priori-Verteilungen konzentriert. Eine Alternative bieten die in einer sehr gelungenen Übersicht [5] dargestellten regularisierten Regressionsansätze, die die sogenannte ‚ridge regression’ als Spezialfall enthalten. Dort für die Analyse von Genexpressionsdaten besprochenen, eignen sich diese Verfahren in analoger Weise für die Analyse von genomweiten Assoziationsstudien. In beiden Fällen sind aus statistischer Sicht p >> n – Probleme zu lösen. Wegen ihrer hohen Flexibilität konzentrieren wir uns für unsere Vorbereitungen zunächst auf die Regularisierungsansätze.

Genomweite Assoziationsstudien können neue Kandidatengene oder SNP’s für komplexe genetische Erkrankungen hervorbringen. In diesem Sinne eignen sie sich als Screening-Verfahren bzw. als explorative Untersuchungsansätze. Zur Bestätigung von Krankheitszusammenhängen sind in darauf folgenden Schritten ergänzende spezifische Studien notwendig.

Ergebnisse

Es stehen eine Vielzahl von Verfahren zur Analyse von p >> n – Problemen aus unterschiedlichen statistischen Bereichen zur Verfügung. Die Statistik leistet hier einen essentiellen Beitrag, um eine Inflationierung des Signifikanzniveaus zu verhindern.

Erste Erfahrungen bei der Implementierung und Umsetzung der beschriebenen Ansätzen sollen insbesondere im Hinblick auf die klinische Interpretierbarkeit gesammelt werden. Aus technischer Sicht ist auf entsprechende Rechenkapazitäten zu achten.

Diskussion

Da die Allele von benachbarten SNP’s in bestimmten Bereichen des Genoms nicht unabhängig voneinander auftreten, kann die Berücksichtigung einer Abhängigkeitsstruktur eine mögliche Verbesserung und einen Informationsgewinn bei der Analyse von genomweiten Assoziationsstudien bedeuten. Die Abhängigkeit von SNP’s wird üblicherweise in sogenannten linkage disequilibrium (LD)-plots wie in Abbildung 1 [Abb. 1] für 15 SNP’s des Gens CAMK2G dargestellt. Der hier verwendete Lewontin’s Disequilibriumkoeffizint D’ ist ein Maß für die statistische Unabhängigkeit zwischen zwei SNP’s, wobei D’ = 0 statistische Unabhängigkeit bedeutet. Näheres hierzu findet sich etwa in [6]. Einen wertvollen Beitrag für die Zukunft kann man sich auch aus dem im Moment laufende HapMap-Projekt erhoffen [7].

Danksagung

Den Teilnehmern des GEM München möchte ich für die vielen anregenden und intensiven Diskussionen bei den Meetings danken.


Literatur

1.
Weidinger S, Klopp N, Wagenpfeil S, Rümmler L, Schedel M, Kabesch M, Schäfer T, Darsow U, Jakob T, Behrendt H, Wichmann E, Ring J, Illig T. Association of a STAT 6 haplotype with elevated serum IgR levels in a population based cohort of white adults. Journal of Medical Genetics 2004; 41: 658-63.
2.
Riemenschneider M, Klopp N, Xiang W, Wagenpfeil S, Vollmert C, Müller U, Förstl H, Illig T, Kretzschmar H, Kurz A. Prion Protein codon 129 polymorphism and risk of Alzheimer's Disease. Neurology 2004; 63: 364-6.
3.
Gilbert PB. A modified false discovery rate multiple-comparisons procedure for discrete data, applied to human immunodeficiency virus genetics. Appl Statist 2005; 54: 143-58.
4.
Thomas DC, Clayton DG. Editorial: Betting Odds and Genetic Associations. Journal of the National Cancer Institute 2004; 96: 421-3.
5.
Hastie T, Tibshirani R. Efficient quadratic regularization for expression arrays. Biostatistics 2004; 5: 329-40.
6.
Ott J. Analysis of Human Genetic Linkage. Baltimore and London: The Johns Hopkins University Press; 1999.
7.
The International HapMap Consortium. The International HapMap Project. Nature 2003; 426: 789-96.