Haplotypes ¡ 02-‑223 ¡How ¡to ¡Analyze ¡Your ¡Own ¡Genome ¡ Fall ¡2013 ¡
Single ¡Nucleo2de ¡Polymorphism ¡(SNP) ¡ GATCTTCGTACTGAGT GATCTTCGTACTGAGT C p GATTTTCGTACGGAAT C m GATTTTCGTACTGAGT GATCTTCGTACTGAAT a diploid individual GATTTTCGTACGGAAT GATTTTCGTACGGAAT GATCTTCGTACTGAAT chromosome � • SNP: “Binary” nucleotide substitutions at a single locus on a chromosome � • each variant is called an "allele” � • Haplotype: a stretch of consecutive nucleotides that lie on the same chromosome �
Haplotype ¡and ¡Genotype ¡ • Haplotype: ¡a ¡collec<on ¡of ¡alleles ¡derived ¡from ¡the ¡same ¡ chromosome ¡ Genotypes � Haplotypes � 2 � 1 � 3 � 1 � 3 � 2 � 1 � 6 � 1 � 6 � 9 � 1 � 5 � 9 � 1 � 5 � 4 � 1 � 7 � 1 � 7 � 4 � 1 � 9 � 9 � 1 � Haplotype � 6 � 2 � 6 � 2 � 9 � 1 � 7 � 9 � 1 � 7 � Re-construction � 2 � 1 � 2 � 1 � 2 � 2 � 1 � 2 � 7 � 7 � 1 � 2 � 6 � 1 � 4 � 1 � 4 � 6 � 1 � 7 � 7 � 1 � 1 � 8 � 1 � 8 � 1 � 8 � 1 � 8 � 1 � 4 � 1 � 4 � 1 � 0 � 1 � 0 � 1 � 0 � 1 � 0 � Chromosome phase is unknown � Chromosome phase is known �
Phase ¡ambiguity ¡ -‑-‑ ¡haplotype ¡reconstruc2on ¡for ¡individuals ¡ T G C p A ATGC C T C m A sequencing Heterozygous diploid individual TC TG AA Genotype g T G pairs of alleles with association of A C T alleles to chromosomes unknown A T T A C G A haplotype h ≡ ( h 1 , h 2 ) possible associations of alleles to chromosome
Why ¡Haplotypes? ¡ • Haplotypes ¡have ¡a ¡greater ¡power ¡for ¡discrimina<ng ¡genomic ¡ regions ¡ – Consider ¡ J ¡binary ¡markers ¡(e.g., ¡SNPs) ¡in ¡a ¡genomic ¡region ¡ – There ¡are ¡2 J ¡possible ¡haplotypes ¡ ¡ • but ¡in ¡fact, ¡far ¡fewer ¡are ¡seen ¡in ¡human ¡popula<on ¡ – SNPs ¡have ¡only ¡two ¡alleles, ¡whereas ¡haplotypes ¡have ¡a ¡larger ¡number ¡ of ¡alleles ¡ – Good ¡gene<c ¡marker ¡for ¡popula<on, ¡evolu<on ¡and ¡hereditary ¡diseases ¡ ¡
Haplotypes ¡and ¡SNPs ¡ GATCTTCGTACTGAGT GATCTTCGTACTGAGT Haplotype GATTTTCGTACGGAAT CTG 3/8 GATTTTCGTACTGAGT TGA 3/8 GATCTTCGTACTGAAT CTA 2/8 GATTTTCGTACGGAAT GATTTTCGTACGGAAT GATCTTCGTACTGAAT chromosome � • ¡ ¡SNPs ¡can ¡dis<nguish ¡between ¡two ¡groups ¡of ¡individuals ¡(a ¡group ¡with ¡C, ¡ another ¡group ¡with ¡T) ¡ • ¡ ¡Haplotypes ¡can ¡dis<nguish ¡between ¡three ¡groups ¡of ¡individuals ¡(each ¡group ¡ with ¡CTG, ¡TGA, ¡and ¡CTA) ¡
Haplotypes ¡and ¡SNPs ¡ GATCTTCGTACTGAGT GATCTTCGTACTGAGT Haplotype GATTTTCGTACGGAAT CTG 3/8 healthy GATTTTCGTACTGAGT TGA 3/8 healthy GATCTTCGTACTGAAT disease X CTA 2/8 GATTTTCGTACGGAAT GATTTTCGTACGGAAT GATCTTCGTACTGAAT chromosome � • ¡ ¡Haplotypes ¡can ¡have ¡a ¡greater ¡power ¡to ¡detect ¡disease-‑related ¡genome ¡ region ¡
Haplotype ¡Analyses ¡ • Haplotype ¡analyses ¡ – Linkage ¡disequilibrium ¡assessment ¡ – Disease-‑gene ¡discovery ¡ – Gene<c ¡demography ¡ – Chromosomal ¡evolu<on ¡studies ¡
Inferring ¡Haplotypes ¡ • Genotype: ¡AT//AA//CG ¡ – Maternal ¡genotype: ¡TA//AA//CC ¡ – Paternal ¡genotype: ¡TT//AA//CG ¡ – Then ¡the ¡haplotype ¡is ¡AAC/TAG. ¡ • Genotype: ¡AT//AA//CG ¡ – Maternal ¡genotype: ¡AT//AA//CG ¡ – Paternal ¡genotype: ¡AT//AA//CG ¡ – Cannot ¡determine ¡unique ¡haplotype ¡ • Problem : ¡How ¡can ¡we ¡determine ¡haplotypes ¡without ¡parental ¡ genotypes ¡
Haplotype ¡Inference ¡(Phasing) ¡ Given ¡mul<locus ¡genotypes ¡at ¡a ¡set ¡of ¡SNPs ¡for ¡many ¡individuals, ¡ • phasing ¡means ¡ Reconstruct ¡haplotypes ¡for ¡all ¡individuals ¡ – – Es<mate ¡frequencies ¡of ¡all ¡possible ¡haplotypes ¡ • Haplotype ¡reconstruc<on ¡algorithm ¡ – Clark’s ¡parsimony ¡algorithm ¡ (Clark, ¡Mol. ¡Biol. ¡Evol. ¡1990) ¡ – PHASE ¡ (Li ¡and ¡Stephens, ¡Gene<cs ¡2003) ¡ • Recovers ¡haplotypes ¡ • It ¡also ¡ – Es<mate ¡recombina<on ¡rate, ¡recombina<on ¡hotspots ¡ – Impute ¡missing ¡genotypes ¡
Iden2fiability ¡ Genotypes of 14 individual 21 2 222 02 02 1 111 22 Genotype 11 0 000 01 representations 02 1 111 22 21 2 222 02 0/0 0 02 1 111 22 1/1 1 11 0 000 01 02 1 111 22 0/1 2 21 2 222 02 22 2 222 21 21 1 222 02 02 1 111 22 22 2 222 21 21 2 222 02 || | ||| ||
Iden2fiability ¡ 01 1 111 00 01 1 101 00 11 0 000 01 11 0 010 01 11 0 000 01 01 1 000 00 || | ||| || 01 1 111 00 01 1 111 00 8 � 11 0 000 01 00 1 111 11 00 1 111 11 01 1 000 00 00 1 111 11 11 0 010 01 11 0 000 01 11 0 000 01 11 0 000 01 11 0 000 01 11 0 000 01 || | ||| || 1 � 11 0 000 01 01 1 111 00 01 1 111 00 01 1 000 00 00 1 111 11 00 1 111 11 11 1 000 01 00 1 111 11 01 1 000 00 11 0 000 01 1 � 01 1 111 00 01 0 111 00 || | ||| || 11 � 11 0 000 01 11 0 000 01 11 1 000 01 || | ||| || 00 1 111 11 11 0 000 11 00 1 111 11 00 1 111 11 01 1 000 00 01 1 111 00 01 1 111 00 1 � || | ||| || 11 0 000 01 01 1 000 00 11 0 000 01 11 0 000 01 11 0 000 01 10 � 01 1 000 00 11 0 000 01 11 0 000 01 || | ||| || 01 1 111 00 00 1 111 11 8 � || | ||| || 01 1 111 00 01 1 111 00 01 1 000 00 00 1 111 11 00 1 111 11 11 0 000 01 00 1 111 11 00 1 111 11 01 1 101 00 01 1 111 00 01 1 111 00 7 � 11 0 000 01 1 � 11 0 000 01 11 0 000 01 || | ||| || || | ||| || 11 0 000 01 00 1 111 11 00 1 111 11 01 1 000 00 11 0 000 01 11 0 000 01 00 1 111 11 01 0 111 00 1 � 01 1 000 00 || | ||| || 11 1 000 01 11 1 000 01 Parsimonious solution � 11 0 000 01 01 1 111 00 01 1 111 00 00 1 111 11 00 1 111 11 00 1 111 11 00 1 111 11 01 1 000 00 6 � 01 1 111 00 01 1 111 00 || | ||| || 11 0 000 01 11 0 000 01 11 0 000 11 00 1 111 11 00 1 111 01 00 1 111 01 1 � 01 1 111 00 01 1 111 00 || | ||| || 11 0 000 01 11 0 000 01
Haplotype ¡Reconstruc2on ¡Algorithm ¡by ¡ Clark ¡(1990) ¡ Choose ¡individuals ¡that ¡are ¡homozygous ¡at ¡every ¡locus ¡(e.g. ¡TT//AA//CC) ¡ • – Haplotype: ¡TAC ¡ Choose ¡individuals ¡that ¡are ¡heterozygous ¡at ¡just ¡one ¡locus ¡(e.g. ¡TT//AA// • CG) ¡ – Haplotypes: ¡TAC ¡or ¡TAG ¡ Tally ¡the ¡resul<ng ¡known ¡haplotypes. ¡ • For ¡each ¡known ¡haplotype, ¡look ¡at ¡all ¡remaining ¡unresolved ¡cases: ¡is ¡there ¡ • a ¡combina<on ¡to ¡make ¡this ¡haplotype? ¡ – Known ¡haplotype: ¡TAC ¡ • Unresolved ¡pa^ern: ¡AT//AA//CG ¡ • Inferred ¡haplotype: ¡TAC/AAG. ¡Add ¡to ¡list. ¡ – Known ¡haplotype: ¡TAC ¡and ¡TAG ¡ • Unresolved ¡pa^ern: ¡AT//AA//CG ¡ • Inferred ¡haplotypes: ¡TAC ¡and ¡TAG. ¡Add ¡both ¡to ¡list. ¡ Con<nue ¡un<l ¡all ¡haplotypes ¡have ¡been ¡recovered ¡or ¡no ¡new ¡haplotypes ¡ • can ¡be ¡found ¡this ¡way. ¡
Problems: ¡Clark ¡(1990) ¡ • Many ¡unresolved ¡haplotypes ¡at ¡the ¡end ¡ • Ignores ¡recombina<on ¡ – Error ¡in ¡haplotype ¡inference ¡if ¡a ¡crossover ¡of ¡two ¡actual ¡haplotypes ¡is ¡ iden<cal ¡to ¡another ¡true ¡haplotype ¡ – Frequency ¡of ¡such ¡errors ¡depends ¡on ¡recombina<on ¡rate ¡ • Clark ¡(1990): ¡algorithm ¡"performs ¡well" ¡even ¡with ¡small ¡ sample ¡sizes. ¡
PHASE ¡ (Stephens ¡et ¡al., ¡AJHG ¡2001) ¡ • A ¡sta<s<cal ¡approach ¡for ¡finding ¡haplotypes ¡from ¡SNP ¡data ¡ collected ¡for ¡a ¡popula<on ¡of ¡individuals ¡ • Assume ¡haplotypes ¡of ¡ancestor ¡chromosomes ¡and ¡treat ¡modern ¡ individuals’ ¡chromosomes ¡as ¡a ¡mosaic ¡of ¡ancestor ¡chromosomes ¡ • However, ¡ancestor ¡chromosomes ¡cannot ¡be ¡observed! ¡ • Key ¡idea: ¡ ¡ – Haplotype ¡of ¡each ¡individual ¡is ¡a ¡mosaic ¡of ¡other ¡individuals’ ¡haplotypes ¡ – unresolved ¡haplotypes ¡are ¡similar ¡to ¡known ¡haplotypes ¡
PHASE ¡ (Stephens ¡et ¡al., ¡AJHG ¡2001) ¡ • Treat ¡unknown ¡haplotypes ¡as ¡unobserved ¡random ¡quan<<es ¡ and ¡es<mate ¡p(haplotypes ¡| ¡genotypes ¡). ¡ • Future ¡haplotype ¡ h ¡is ¡obtained ¡by ¡applying ¡a ¡random ¡number ¡ of ¡muta<ons, ¡ s ¡(sampled ¡from ¡geometric ¡distribu<on), ¡to ¡a ¡ randomly ¡chosen ¡exis<ng ¡haplotype, ¡ r α ¡ ¡
Recommend
More recommend