gms | German Medical Science

Kongress Medizin und Gesellschaft 2007

17. bis 21.09.2007, Augsburg

Selektion von Hauptkomponenten im Fall sehr vieler Variabler

Meeting Abstract

Suche in Medline nach

  • Nils Lehmann - Institut für Medizinische Informatik, Biometrie und Epidemiologie, Universitätsklinikum Essen, Essen

Kongress Medizin und Gesellschaft 2007. Augsburg, 17.-21.09.2007. Düsseldorf: German Medical Science GMS Publishing House; 2007. Doc07gmds237

Die elektronische Version dieses Artikels ist vollständig und ist verfügbar unter: http://www.egms.de/de/meetings/gmds2007/07gmds237.shtml

Veröffentlicht: 6. September 2007

© 2007 Lehmann.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielf&aauml;ltigt, verbreitet und &oauml;ffentlich zug&aauml;nglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Gliederung

Text

Hintergrund: Die Festlegung der reduzierten Dimension, also der Anzahl für die nachfolgende Analyse zurückbehaltener Hauptkomponenten, erfolgt nach wie vor nach heuristisch motivierten Kriterien [2]. Fortschritte in der Eigenwertstatistik zufälliger Wishartmatrizen [3], [7] zeigen Wege zu einer inferentiellen Herangehensweise auf. Der Spezialfall sehr vieler Variabler [4] ist in vielen potentiellen Anwendungen der Hauptkomponentenanalyse realisiert, insbesondere in Genexpressionsanalyse und Proteomics. Der Beitrag bietet zudem einen kurzen Überblick über Ergebnisse der Zufallsmatrixtheorie, die in Zusammenhang mit Hauptkomponentenanalyse stehen.

Material und Methoden: Die Verteilungen der größten, zweitgrößten etc. Eigenwerte von Kovarianzmatrizen können aus der Verbundwahrscheinlichkeitsverteilung der Eigenwerte von Wishartmatrizen hergeleitet werden. Die resultierenden Ausdrücke beinhalten jedoch im Fall sehr vieler Variabler orthogonale Polynome hoher Ordnung, was die praktische Anwendung erschwert. Eine Entwicklung der Verbundwahrscheinlichkeitsverteilung in n/p, wobei n (endlich) die Zahl der Beobachtungen und p (gegen unendlich) die Zahl der Variablen bezeichnet, führt zu einer erheblichen Vereinfachung.

Ergebnisse: Es wird gezeigt, dass im Fall sehr vieler Variabler (ebenso im Fall sehr vieler Beobachtungen) nach einer linearen Transformation der Eigenwerte diese entsprechend der Verbundwahrscheinlichkeit der Eigenwerte in einem aus der Physik bekannten Ensemble von Zufallsmatrizen verteilt sind. Dies erlaubt Berechnung von Perzentilen der Eigenwerteverteilungen mit Computeralgebrasystemen wie Maple.

Diskussion: Die Theorie der Zufallsmatrizen (z.B. Mehta [5]) ist ein sehr aktives Forschungsgebiet, dessen elegante Methoden und weitreichende Resultate Statistiker ebenso faszinieren wie Physiker und Ingenieure [6], [1], [8]. Sie verknüpft lineare Algebra, Maßtheorie und Wahrscheinlichkeitstheorie unter Verwendung teils innovativer Integrationstechniken, und ist somit ein elementares Bindeglied zwischen Matrizen und Statistik. Eine aktuelle Herausforderung ist die Anwendung der Methoden auf Korrelationsmatrizen.


Literatur

1.
Forrester PJ, Snaith NC, Verbaarschot JJM. Developments in random matrix theory. J Phys A: Math Gen. 2003;36:R1-R10.
2.
Jackson EJ. A users guide to principal components. New York: Wiley; 1991.
3.
Johnstone IM. On the distribution of the largest eigenvalue in principal components analysis. Ann Stat. 2001;29:295-327.
4.
Lehmann N. Principal components selection given extensively many variables. Stat Prob Lett. 2005;74.51-8.
5.
Mehta ML. Random Matrices. 3rd ed. Amsterdam: Elsevier/Academic Press; 2004.
6.
Muirhead RJ. Aspects of Multivariate Statistical Theory. New York: Wiley; 1982.
7.
Soshnikov A. A note on universality of the distribution of the largest eigenvalues in certain sample covariance matrices. J Stat Phys. 2002;108:1033-56.
8.
Tulino AM, Verdu S. Random Matrix Theory and Wireless Communications. Delft: now Publishers; 2004.