Midterm ¡Review ¡ 02-‑223 ¡Personalized ¡Medicine: ¡ Understanding ¡Your ¡Own ¡Genome ¡ Fall ¡2014 ¡
Term ¡Paper ¡ • Term ¡paper ¡ideas ¡ – Survey ¡of ¡a ¡parFcular ¡disease ¡that ¡has ¡a ¡geneFc ¡component ¡ • HunFngton ¡disease ¡– ¡we ¡know ¡what ¡mutaFon ¡causes ¡this ¡disease ¡but ¡ how ¡much ¡is ¡known ¡about ¡the ¡biological ¡mechanism ¡behind ¡how ¡this ¡ mutaFon ¡gives ¡rise ¡to ¡the ¡disease? ¡ • Type ¡I ¡& ¡II ¡diabetes, ¡asthma, ¡Crohn’s ¡disease, ¡cysFc ¡fibrosis ¡etc. ¡ • Cancer ¡– ¡some ¡cancer ¡types ¡are ¡more ¡related ¡than ¡others, ¡e.g., ¡breast ¡ & ¡ovarian ¡cancer ¡ – Data ¡analysis ¡(using ¡Matlab, ¡C, ¡soVware ¡packages, ¡etc.) ¡ • Find ¡genes ¡with ¡hidden ¡Markov ¡models ¡from ¡human ¡genome ¡ ¡ • Download ¡Hapmap ¡data ¡and ¡perform ¡haplotype ¡inference ¡with ¡ PHASE/fastPHASE ¡soVware ¡ • PopulaFon ¡structure ¡analysis ¡of ¡mulF-‑populaFon ¡hapmap ¡data. ¡ Cluster ¡individuals ¡into ¡populaFon ¡groups ¡ • HapMap ¡expression ¡quanFtaFve ¡trait ¡locus ¡(eQTL) ¡mapping ¡with ¡ regression ¡analysis ¡ – Discussion ¡and ¡survey ¡of ¡ethical ¡and ¡legal ¡issues ¡ • What ¡happened ¡to ¡23andme? ¡Direct-‑to-‑consumer ¡geneFc ¡tests? ¡ ¡ ¡ • Whole-‑genome ¡sequencing ¡as ¡a ¡geneFc ¡test? ¡ • Patent ¡and ¡genomes ¡
Proposal ¡ • Title, ¡team ¡members ¡ • 2-‑3 ¡sentences ¡for ¡each ¡of ¡the ¡following ¡ – Problem ¡statement ¡ – Approach ¡ – Resources ¡you ¡plan ¡to ¡use ¡ • 1 ¡inch ¡margin ¡11pt ¡font ¡size, ¡half ¡a ¡page ¡
Terminology ¡ • Allele: ¡different ¡forms ¡of ¡geneFc ¡ Individual ¡1 ¡ C ¡ variaFons ¡at ¡a ¡given ¡gene ¡or ¡ geneFc ¡locus ¡ A ¡ G ¡ – Locus ¡1 ¡has ¡two ¡alleles, ¡A ¡and ¡T, ¡ Locus ¡2 ¡ and ¡Locus ¡2 ¡has ¡two ¡alleles, ¡C ¡and ¡ G ¡ A ¡ Locus ¡1 ¡ • Genotype: ¡specific ¡allelic ¡make-‑up ¡ of ¡an ¡individual’s ¡genome ¡ C ¡ Individual ¡2 ¡ – Individual ¡1 ¡has ¡genotype ¡AA ¡at ¡ Locus ¡1 ¡and ¡genotype ¡CG ¡at ¡Locus ¡ A ¡ C ¡ 2 ¡ Locus ¡2 ¡ T ¡ • Heterozygous/Homozygous ¡ Locus ¡1 ¡ – Locus ¡1 ¡of ¡Individual ¡1 ¡is ¡ homozygous, ¡and ¡Locus ¡2 ¡is ¡ heterozygous ¡
Advantages ¡of ¡SNPs ¡in ¡Popula>on ¡Gene>cs ¡ Studies ¡ • Abundance: ¡high ¡frequency ¡on ¡the ¡genome ¡ • PosiFon: ¡throughout ¡the ¡genome ¡ ¡ – coding ¡region, ¡intron ¡region, ¡promoter ¡site ¡ • Ease ¡of ¡genotyping ¡(high-‑throughput ¡genotyping) ¡ • SNPs ¡account ¡for ¡around ¡90% ¡of ¡human ¡genomic ¡variaFon ¡ • However, ¡only ¡two ¡alleles ¡at ¡each ¡locus, ¡less ¡informaFve ¡than ¡ microsatellites. ¡(Use ¡haplotypes!) ¡
Gene>c ¡Polymorphisms ¡ • InserFon/deleFon ¡of ¡a ¡secFon ¡of ¡DNA ¡ – Minisatellites: ¡repeated ¡base ¡paferns ¡(several ¡hundred ¡base ¡pairs) ¡ – Microsatellites: ¡2-‑4 ¡nucleoFdes ¡repeated ¡ – Presence ¡or ¡absence ¡of ¡Alu ¡segments ¡ – Many ¡alleles, ¡very ¡informaFve ¡because ¡of ¡the ¡high ¡heterozygosity ¡(the ¡ chance ¡that ¡a ¡randomly ¡selected ¡person ¡will ¡be ¡heterozygous) ¡
Working ¡with ¡SNP ¡Data ¡in ¡Prac>ce ¡ • At ¡each ¡locus, ¡SNPs ¡are ¡represented ¡as ¡0 ¡or ¡1. ¡ – A/T/C/G ¡lefers ¡are ¡converted ¡to ¡0 ¡or ¡1 ¡for ¡minor/major ¡alleles ¡ – Genotypes ¡at ¡each ¡locus ¡of ¡each ¡individual ¡are ¡coded ¡as ¡ • 0 ¡: ¡minor ¡allele ¡homozygous ¡ • 1: ¡heterozygous ¡ • 2: ¡major ¡allele ¡homozygous ¡ • Given ¡genotype ¡data ¡for ¡ N ¡individuals ¡ • For ¡each ¡locus, ¡we ¡can ¡define ¡minor ¡allele ¡frequency ¡as ¡follows: ¡ ¡ (Minor ¡allele ¡frequency) ¡= ¡(the ¡number ¡of ¡minor ¡alleles ¡in ¡the ¡ populaFon)/(total ¡number ¡of ¡alleles ¡in ¡the ¡populaFon) ¡ • Typically, ¡SNPs ¡with ¡a ¡very ¡low ¡minor ¡allele ¡frequency ¡are ¡discarded, ¡ since ¡they ¡don’t ¡contain ¡sufficient ¡informaFon ¡about ¡geneFc ¡diversity ¡
Technology ¡and ¡Genomes ¡ • What ¡are ¡the ¡things ¡that ¡we ¡learned ¡about ¡genomes ¡with ¡ introducFon ¡of ¡each ¡of ¡the ¡new ¡technology? ¡ – Sanger ¡sequencing ¡(e.g., ¡human ¡genome ¡sequencing ¡project) ¡ – SNP ¡array ¡(e.g., ¡HapMap ¡project) ¡ – Next ¡generaFon ¡sequencing ¡technology ¡(e.g., ¡1000 ¡genome ¡project) ¡
HMMs ¡and ¡Gene ¡Structure ¡ • NucleoFdes ¡{A,C,G,T} ¡are ¡the ¡observables ¡and ¡labels ¡{intergenic, ¡start/stop, ¡ coding} ¡are ¡the ¡unobserved ¡states. ¡ • Different ¡states ¡generate ¡nucleoFdes ¡at ¡different ¡frequencies ¡ • A ¡simple ¡HMM ¡for ¡unspliced ¡genes: ¡ ¡ ¡ AAAGC ¡ATG ¡CAT ¡TTA ¡ACG ¡AGA ¡GCA ¡CAA ¡GGG ¡CTC ¡TAA ¡TGCCG ¡ • The ¡sequence ¡of ¡states ¡is ¡an ¡annotaFon ¡of ¡the ¡generated ¡string ¡– ¡each ¡ nucleoFde ¡is ¡generated ¡in ¡intergenic, ¡start/stop, ¡coding ¡state ¡
Linkage ¡Disequilibrium ¡in ¡SNP ¡Data ¡ • r 2 ¡in ¡SNP ¡data ¡from ¡a ¡populaFon ¡of ¡individuals ¡(Black: ¡ r 2 =1, ¡ white: ¡ r 2 =0) ¡ genome ¡ genome ¡
Haplotype ¡and ¡Genotype ¡ • Haplotype: ¡a ¡collecFon ¡of ¡alleles ¡derived ¡from ¡the ¡same ¡ chromosome ¡ Genotypes � Haplotypes � 2 � 1 � 3 � 1 � 3 � 2 � 1 � 6 � 1 � 6 � 9 � 1 � 5 � 1 � 5 � 9 � 4 � 1 � 7 � 1 � 7 � 4 � 1 � 9 � 9 � 1 � Haplotype � 2 � 6 � 6 � 2 � 9 � 1 � 7 � 9 � 1 � 7 � Re-construction � 2 � 1 � 2 � 1 � 2 � 2 � 1 � 2 � 7 � 7 � 1 � 2 � 6 � 1 � 4 � 1 � 4 � 6 � 1 � 7 � 7 � 1 � 1 � 8 � 1 � 8 � 1 � 8 � 1 � 8 � 1 � 4 � 1 � 4 � 1 � 0 � 1 � 0 � 1 � 0 � 1 � 0 � Chromosome phase is unknown � Chromosome phase is known �
Haplotypes ¡from ¡SNP ¡Array? ¡ T G C p A ATGC C T C m A sequencing Heterozygous diploid individual TC TG AA Genotype g T G pairs of alleles with association of A C T alleles to chromosomes unknown A T T A C G A haplotype h ≡ ( h 1 , h 2 ) possible associations of alleles to chromosome
Why ¡Haplotypes? ¡ • Haplotypes ¡have ¡a ¡greater ¡power ¡ for ¡discriminaFng ¡genomic ¡ regions ¡ – Consider ¡ J ¡binary ¡markers ¡(e.g., ¡SNPs) ¡in ¡a ¡genomic ¡region ¡ – There ¡are ¡2 J ¡possible ¡haplotypes ¡ ¡ – SNPs ¡have ¡only ¡two ¡alleles, ¡whereas ¡haplotypes ¡have ¡a ¡larger ¡number ¡ of ¡alleles ¡ – Good ¡geneFc ¡marker ¡for ¡populaFon, ¡evoluFon ¡and ¡hereditary ¡diseases ¡ ¡
Haplotypes ¡and ¡SNPs ¡ GATCTTCGTACTGAGT GATCTTCGTACTGAGT Haplotype GATTTTCGTACGGAAT CTG 3/8 GATCTTCGTACTGAGT TGA 3/8 GATCTTCGTACTGAAT CTA 2/8 GATTTTCGTACGGAAT GATTTTCGTACGGAAT GATCTTCGTACTGAAT chromosome � ¡ ¡SNPs ¡can ¡disFnguish ¡between ¡two ¡groups ¡of ¡individuals ¡(a ¡group ¡with ¡C, ¡ • another ¡group ¡with ¡T) ¡ ¡ ¡Haplotypes ¡can ¡disFnguish ¡between ¡three ¡groups ¡of ¡individuals ¡(each ¡group ¡ • with ¡CTG, ¡TGA, ¡and ¡CTA) ¡
Reducing ¡Genotyping ¡Costs ¡with ¡Tag ¡SNPs ¡ • Nearby ¡SNPs ¡in ¡the ¡genome ¡are ¡in ¡linkage ¡disequilibrium ¡(LD), ¡ and ¡thus ¡contain ¡redundant ¡informaFon. ¡ • If ¡we ¡knew ¡which ¡SNPs ¡are ¡in ¡LD, ¡we ¡can ¡pre-‑select ¡the ¡ representaFve ¡SNPs ¡for ¡each ¡LD ¡block ¡of ¡chromosome, ¡and ¡ genotype ¡only ¡for ¡those ¡SNPs. ¡ r 2 ¡values ¡ ¡ (black: ¡ r 2 =1, ¡white: ¡ r 2 =0) ¡ Genome ¡ These ¡two ¡SNPs ¡are ¡in ¡high ¡LD ¡ and ¡thus ¡are ¡redundant ¡
Recommend
More recommend