gms | German Medical Science

Kongress Medizin und Gesellschaft 2007

17. bis 21.09.2007, Augsburg

Regularisierte Regression als statistischer Modellrahmen für genomweite Assoziationsstudien

Meeting Abstract

Search Medline for

  • Stefan Wagenpfeil - Klinikum r.d. Isar, TU München, München

Kongress Medizin und Gesellschaft 2007. Augsburg, 17.-21.09.2007. Düsseldorf: German Medical Science GMS Publishing House; 2007. Doc07gmds438

The electronic version of this article is the complete one and can be found online at: http://www.egms.de/en/meetings/gmds2007/07gmds438.shtml

Published: September 6, 2007

© 2007 Wagenpfeil.
This is an Open Access article distributed under the terms of the Creative Commons Attribution License (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.en). You are free: to Share – to copy, distribute and transmit the work, provided the original author and source are credited.


Outline

Text

Einleitung / Hintergrund: In der genetischen Epidemiologie werden neben den bekannten Kanditatengenansätzen zunehmend genomweite Assoziationsuntersuchungen bei Familienstudien, Fall-Kontroll- bzw. populationsbasierten Studien durchgeführt. Aus statistischer Sicht besteht für genomweite Ansätze ein wesentliches Problem darin, dass die Zahl p der durchzuführenden statistischen Tests bzw. der zu schätzenden Parameter in einem statistischen Modellkontext in der Regel wesentlich größer ist als die Zahl n der Studienteilnehmer (p >> n). Dies ist z.B. dann der Fall, wenn die Genotypdaten aus p = 500.000 SNP's (single nucleotide polymorphisms) bestehen, die bei jeweils n = 1.000 Personen zusammen mit einer Reihe von Phänotypdaten erhoben werden. Klassische Regressionsansätze sind hierfür nicht geeignet.

Material und Methoden: Die regularisierte Regression kann als Verallgemeinerung der klassischen Regressionsansätze betrachtet werden, bei der die zu schätzenden Parameter der unabhängigen Einflußgrößen wie z.B. die SNP-Variablen nicht frei, sondern im Rahmen einer zusätzlichen Penalisierung geschätzt werden. Damit können Regressionsmodelle so modifiziert werden, dass sie für (p>>n) – Probleme geeignet sind, wie sie bei genomweiten Assoziationsstudien auftreten. Hierfür müssen im Kern hochdimensionale lineare Gleichungssysteme gelöst werden, vergleiche etwa Hastie/Tibshirani [1]. Dazu wird ein numerisch effizientes Verfahren vorgestellt, wobei eine neue, analytische Lösung für das aus dieser speziellen KQ (Kleinste Quadrate)-Schätzung resultierende Inversionsproblem angegeben wird.

Ergebnisse: Simulationsuntersuchungen zeigen, dass sich die benötigte Rechenzeit und Speicherkapazität gegenüber den bisherigen Verfahren zur Bestimmung der KQ-Schätzer im Rahmen der regularisierten Regression drastisch reduziert. Ferner ist der vorgestellte Ansatz numerisch stabiler und damit weniger anfällig für Rundungsfehler.

Diskussion / Schlussfolgerungen: Das vorgestellten Verfahren liefert einen praktikablen Ansatz zur Analyse von genomweiten Assoziationsstudien im Kontext eines einheitlichen, statistischen Modellrahmens. Der Modellrahmen ist äußerst flexibel und erlaubt die Modellierung unterschiedlicher Phänotypdaten (qualitativ, quantitativ) sowie verschiedener genetischer Modelle. Die Brauchbarkeit der Ergebnisse muss sich in weiteren Vergleichen mit anderen statistischen Verfahren zur Lösung von (p>>n) - Problemen sowie anschließenden funktionellen und molekularbiologischen Untersuchungen erweisen.


Literatur

1.
Hastie T, Tibshirani R. Efficient quadratic regularization for expression arrays. Biostatistics. 2004;5:329-40.