Artikel
Identifizierung potentieller Genotypisierungsfehler mittels Haplotypbetrachtung
Suche in Medline nach
Autoren
Veröffentlicht: | 8. September 2005 |
---|
Gliederung
Text
In der genetischen Epidemiologie sind Genotypisierungsfehler ein grundsätzliches Problem, mit negativen Auswirkungen auf die Gültigkeit und/oder die Power von Kopplungs- und Assoziationsstudien. Diese Problematik verstärkt sich bei der haplotypbasierten Assoziationsanalyse, da für eine korrekte Bestimmung eines m-Marker-Haplotyps alle m Marker korrekt typisiert sein müssen. Wir haben eine statistische Methode entwickelt, die potentielle Genotypisierungsfehler mit Hilfe der wahrscheinlichsten Haplotyperklärung einer Familie aufdeckt. Wir betrachten Trio-Samples mit Multi-Marker Genotypen ohne Phaseninformation. Mit Hilfe des EM-Algorithmus werden Haplotypfrequenzen geschätzt und die Likelihood der wahrscheinlichsten Haplotyperklärung jedes Trios bestimmt. Es ist nun möglich, dass diese Likelihood bei einem Trio sehr stark von einem einzigen Marker abhängt, in dem Sinne, dass eine wesentlich wahrscheinlichere Haplotyperklärung existiert, wenn man den Genotyp eines Markers als unbekannt betrachtet. In diesem Fall wird der betroffene Marker als potentiell falsch angesehen. Diese Grundidee wurde in unserer FAMHAP Software (http://www.uni-bonn.de/~umte70e/becker.html) systematisch umgesetzt, d.h. für alle Fenster benachbarter Marker unter einer vorgegebenen Größe wird in jedem Trio jeder Marker als unbekannt angesehen und der entsprechende Anstieg der Likelihood der wahrscheinlichsten Haplotyperklärung berechnet. Anstiege, die einen gewissen Grenzwert überschreiten, werden als Signal, d.h. als Hinweis auf einen Fehler, bezeichnet. Die Performance dieses Ansatzes, auch in Abhängigkeit vom verwendeten Grenzwert, wurde mit verschiedenen Ansätzen überprüft. So wurden basierend auf der Halotypverteilung eines realen Datensatzes mittels Simulation Sensitivität und Spezifität der Fehlererkennung bestimmt. Dabei erwies sich die Methode als effizient. Zusätzlich wurden Genotypen mit starkem Hinweis auf eine Fehltypisierung eines realen Datensatzes durch Sequenzierung neu bestimmt. Dabei konnte in ca. 90% der Fälle die ursprüngliche Typisierung tatsächlich als falsch identifiziert werden.