gms | German Medical Science

Kongress Medizin und Gesellschaft 2007

17. bis 21.09.2007, Augsburg

Selektion von Hauptkomponenten im Fall sehr vieler Variabler

Meeting Abstract

Search Medline for

  • Nils Lehmann - Institut für Medizinische Informatik, Biometrie und Epidemiologie, Universitätsklinikum Essen, Essen

Kongress Medizin und Gesellschaft 2007. Augsburg, 17.-21.09.2007. Düsseldorf: German Medical Science GMS Publishing House; 2007. Doc07gmds237

The electronic version of this article is the complete one and can be found online at: http://www.egms.de/en/meetings/gmds2007/07gmds237.shtml

Published: September 6, 2007

© 2007 Lehmann.
This is an Open Access article distributed under the terms of the Creative Commons Attribution License (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.en). You are free: to Share – to copy, distribute and transmit the work, provided the original author and source are credited.


Outline

Text

Hintergrund: Die Festlegung der reduzierten Dimension, also der Anzahl für die nachfolgende Analyse zurückbehaltener Hauptkomponenten, erfolgt nach wie vor nach heuristisch motivierten Kriterien [2]. Fortschritte in der Eigenwertstatistik zufälliger Wishartmatrizen [3], [7] zeigen Wege zu einer inferentiellen Herangehensweise auf. Der Spezialfall sehr vieler Variabler [4] ist in vielen potentiellen Anwendungen der Hauptkomponentenanalyse realisiert, insbesondere in Genexpressionsanalyse und Proteomics. Der Beitrag bietet zudem einen kurzen Überblick über Ergebnisse der Zufallsmatrixtheorie, die in Zusammenhang mit Hauptkomponentenanalyse stehen.

Material und Methoden: Die Verteilungen der größten, zweitgrößten etc. Eigenwerte von Kovarianzmatrizen können aus der Verbundwahrscheinlichkeitsverteilung der Eigenwerte von Wishartmatrizen hergeleitet werden. Die resultierenden Ausdrücke beinhalten jedoch im Fall sehr vieler Variabler orthogonale Polynome hoher Ordnung, was die praktische Anwendung erschwert. Eine Entwicklung der Verbundwahrscheinlichkeitsverteilung in n/p, wobei n (endlich) die Zahl der Beobachtungen und p (gegen unendlich) die Zahl der Variablen bezeichnet, führt zu einer erheblichen Vereinfachung.

Ergebnisse: Es wird gezeigt, dass im Fall sehr vieler Variabler (ebenso im Fall sehr vieler Beobachtungen) nach einer linearen Transformation der Eigenwerte diese entsprechend der Verbundwahrscheinlichkeit der Eigenwerte in einem aus der Physik bekannten Ensemble von Zufallsmatrizen verteilt sind. Dies erlaubt Berechnung von Perzentilen der Eigenwerteverteilungen mit Computeralgebrasystemen wie Maple.

Diskussion: Die Theorie der Zufallsmatrizen (z.B. Mehta [5]) ist ein sehr aktives Forschungsgebiet, dessen elegante Methoden und weitreichende Resultate Statistiker ebenso faszinieren wie Physiker und Ingenieure [6], [1], [8]. Sie verknüpft lineare Algebra, Maßtheorie und Wahrscheinlichkeitstheorie unter Verwendung teils innovativer Integrationstechniken, und ist somit ein elementares Bindeglied zwischen Matrizen und Statistik. Eine aktuelle Herausforderung ist die Anwendung der Methoden auf Korrelationsmatrizen.


Literatur

1.
Forrester PJ, Snaith NC, Verbaarschot JJM. Developments in random matrix theory. J Phys A: Math Gen. 2003;36:R1-R10.
2.
Jackson EJ. A users guide to principal components. New York: Wiley; 1991.
3.
Johnstone IM. On the distribution of the largest eigenvalue in principal components analysis. Ann Stat. 2001;29:295-327.
4.
Lehmann N. Principal components selection given extensively many variables. Stat Prob Lett. 2005;74.51-8.
5.
Mehta ML. Random Matrices. 3rd ed. Amsterdam: Elsevier/Academic Press; 2004.
6.
Muirhead RJ. Aspects of Multivariate Statistical Theory. New York: Wiley; 1982.
7.
Soshnikov A. A note on universality of the distribution of the largest eigenvalues in certain sample covariance matrices. J Stat Phys. 2002;108:1033-56.
8.
Tulino AM, Verdu S. Random Matrix Theory and Wireless Communications. Delft: now Publishers; 2004.