gms | German Medical Science

53. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V. (GMDS)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie

15. bis 18.09.2008, Stuttgart

IT-Tools für die Auswertung multivariater Daten in der klinischen Forschung und Diagnostik

Meeting Abstract

Suche in Medline nach

  • Tingting Song - The Rockefeller University, New York, NY, USA
  • Jose F. Morales - The Rockefeller University, New York, NY, USA
  • Knut M. Wittkowski - The Rockefeller University, New York, NY, USA

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie. 53. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (gmds). Stuttgart, 15.-19.09.2008. Düsseldorf: German Medical Science GMS Publishing House; 2008. DocMI7-5

Die elektronische Version dieses Artikels ist vollständig und ist verfügbar unter: http://www.egms.de/de/meetings/gmds2008/08gmds137.shtml

Veröffentlicht: 10. September 2008

© 2008 Song et al.
Dieser Artikel ist ein Open Access-Artikel und steht unter den Creative Commons Lizenzbedingungen (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.de). Er darf vervielf&aauml;ltigt, verbreitet und &oauml;ffentlich zug&aauml;nglich gemacht werden, vorausgesetzt dass Autor und Quelle genannt werden.


Gliederung

Text

Einleitung und Fragestellung

Nur selten kann der Schweregrad oder die Aktivität einer Krankheit durch eine einzige Variable oder die Expression eines einzigen Genes beschrieben werden. Mit Ausnahme seltener Mendel’scher Erkrankungen ist das genetische Risiko durch eine Vielzahl von Genorten bestimmt. Für die meisten Krankheiten sind die genetischen, genomischen, und Umwelt-Komponenten in nicht-linearer Weise miteinander gekoppelt. Damit ist die relative Bedeutung der einzelnen Parameter für den Gesamt-Phänotyp nicht nur unbekannt, sondern variiert auch mit dem Schweregrad der Krankheit. Nichtparametrische statistische Methoden sind Problemen der klinischen Forschung und Diagnostik oft besser angepasst als Verfahren basierend auf dem „linearen Modell“, weil sie auf realistischeren Annahmen beruhen. Beispiele für uni- und spezielle bi-variate Fragestellungen sind der Median und Kaplan-Meier-Kurven. Einer breiteren Anwendung nichtparametrischer Methoden in der klinischen Forschung stand bisher der Mangel an praktikablen Algorithmen und einer einheitlichen Theorie entgegen. Neue theoretische Ergebnisse und Tools ermöglichen alternative Strategien zur integrativen Auswertung komplexer genetischer, genomischer, epidemiologischer und phänotypischer Daten. An der Rockefeller Universität wurden effiziente und flexible Algorithmen auf der Basis von u-Statistiken entwickelt, welche theoretische Ergebnisse für multivariate Daten auf Problemen der klinischen Forschung und Diagnostik erweitern. Ein Netz von PCs hilft bei der Suche nach einer Assoziation von Kombination genetischer Faktoren, mRNA Profilen und/oder Umweltfaktoren mit einem komplexen Phänotyp (http://muStat.rockefeller.edu).

Material und Methoden

Um statistische Verfahren basierend auf dem linearen Modell sinnvoll anwenden zu können, muss jede Variable einer „linearisierenden“ Transformation unterzogen werden, damit die Daten zu einem Score additiv zusammengefasst werden können.

Rangtests basieren auf der schwächeren und realistischeren Annahme, dass für jede der Variablen „mehr“ entweder „besser“ oder „schlechter“ ist (sofern alle anderen Variablen unverändert bleiben). Diese „Polarität“ einer Variablen kann bekannt (konfirmative Statistik) oder unbekannt sein (explorative Statisik). Beispiele für univariate Daten sind die Tests von Wilcoxon, Kruskal-Wallis, Friedman und ihre Verallgemeinerungen [1]. Bei multivariaten Daten [2] wächst jedoch die Zahl der möglichen Rangpermutationen mit der Fakultät der Zahl von Beobachtungen. Wenn die Auswertung von 100 Beobachtungen eine Sekunde dauert, muß man auf das Ergebnis bei 110 Beobachtungen 1012 Jahre warten!

U-Tests sind den Ranktests eng verwandt. Bereits 1948 verallgemeinerte Hoeffding u-Statistiken auf multivariate Daten [3], jedoch wurden diese Ergebnisse nur für Spezialfälle in die Praxis umgesetzt, z.B. als Gehan Test [4]. für zensierte Daten. U-Statistiken basieren auf der Auswertung aller paarweisen Ordnungen. Bei multivariaten Daten sind zwei Patienten geordnet, wenn einer in mindestens einer Variablen „besser“ und in keiner Variablen „schlechter“ ist [5], [6]. Für univariate Daten ist diese Ordnung vollständig. Bei multivariaten Daten sind die Ergebnisse ähnlich, jedoch haben u-Statistiken den Vorteil, dass der Rechenaufwand nur mit dem Quadrat der Zahl der Profile steigt, wie der Tübinger Psychologen Thomas Deuchler bereits 1914 (für univariate Daten) gezeigt hat [7]. Im obigen Beispiel erhält man das Ergebnis von 110 Profilen nach 1,21 Sekunden.

Die Wahl der IT-Tools hängt von der Komplexität der Fragestellung ab:

  • Wenn die Zahl der Patienten klein und die Polarität der Variablen bekannt ist, lassen sich µ-Scores (u-Scores für multivariate Daten) mit Tabellenkalkulationsprogrammen berechnen (muStat.rockefeller.edu).
  • Für größere Datensätze stehen für R (cran.r-project.org/web/packages/muStat) und S-PLUS (csan.insightful.com/PackageDetails.aspx?Package=mustat) Pakete zur Verfügung.
  • Bei explorativen Fragestellungen sind die relevanten Variablen (Gene, Loci, Umweltfaktoren) und deren Polarität meist unbekannt. Damit steigt der Bedarf an Rechenkapazität exponentiell. Deshalb wurden die PCs des Krankenhauses der Rockefeller Universität zu einem grid zusammengeschlossen und die Software unter Verwendung der Programmiersprache C optimiert. Wissenschaftler können Datensätze für explorative Auswertungen „hochladen“ (muStat.rockefeller.edu).

Wenn Informationen über den Zusammenhang von Variablen zur Verfügung stehen, kann der Informationsgehalt von µ-Scores vergessert werden, indem man die paarweisen Ordnungen zunächst für die Variablen eines untergeordneten (Sub-) Faktors berechnet und die Ergebnisse dann in der nächsten Stufe zusammenfasst. Insbesondere können mehrere rechts-, intervall- oder doppelt zensierte Variablen zusammengefasst werden.

Ergebnisse

Mutationen in einem von mindestens 13 Gene verursacht Fanoni Anämie (FA), indem sie die Reparatur von Chromosomenbrüchen stören. Die Symptome von Patienten mit FA (Abbildung 1 [Abb. 1]) variieren stark [8]. Abbildung 2 [Abb. 2] zeigt, dass die letzten sieben Regionen zum Schweregrad von FA wenig beitragen. Hierarchise µ-Scores diskriminieren besser zwischen heterozygoten und homozygoten Patienten.

Diskussion

Univariate Verfahren unterschätzen den Schweregrad von heterozygoten Patienten, die unter einer Kombination von Beeinträchtigungen leiden. Der Informationsgehalt von (nicht-hierarchischen) µ-Scores fällt mit der Zahl der Variablen. Hierarchische µ-Scores erlauben es, diesen Informationsverlust zu reduzieren.

Danksagung

Gefördert mit Mitteln des U.S. National Center for Research Ressources (NCRR), UL1 RR024143.


Literatur

1.
Wittkowski KM. Friedman-type statistics and consistent multiple comparisons for unbalanced designs. J Am Statist Assoc. 1988;83:1163-70.
2.
Susser E, Desvarieux M, Wittkowski KM. Reporting sexual risk behavior for HIV: a practical risk index and a method for improving risk indices. Am J Public Health. 1998;88:671-4.
3.
Hoeffding W. A class of statistics with asymptotically normal distribution. Ann Math Statist. 1948;19:293-325.
4.
Gehan EA. A generalised two-sample Wilcoxon test for doubly censored samples. Biometrika 1965;52:650-3.
5.
Wittkowski KM, Lee E, Nussbaum R, Chamian FN, Krueger JG. Combining several ordinal measures in clinical studies. Statistics in Medicine. 2004;23:1579-92.
6.
Wittkowski KM. An extension to Wittkowski. J Am Statist Assoc. 1992;87:258.
7.
Deuchler G. Über die Methoden der Korrelationsrechnung in der Pädagogik und Psychologie. Z pädagog Psychol. 1914;15:114-131, 145-159, 229-42.
8.
Morales JF, Song T, Auerbach AD, Wittkowski KM. Phenotyping genetic diseases using an extension of μ-scores for multivariate data. Statist Appl Genet Mol Biol. submitted.