Course ¡Overview ¡ 02-‑715 ¡Advanced ¡Topics ¡in ¡Computa8onal ¡ Genomics ¡
Course ¡Overview ¡ • Instructor: ¡Seyoung ¡Kim ¡(Lane ¡Center ¡for ¡Computa8onal ¡ Biology, ¡CMU) ¡ • Course ¡Website: ¡ www.cs.cmu.edu/~sssykim/teaching/f11.html ¡ • Loca8on: ¡ ¡ – 9115 ¡GHC ¡(first ¡2 ¡weeks ¡un8l ¡Sept ¡8) ¡ ¡ – 6115 ¡GHC ¡(star8ng ¡from ¡the ¡3 rd ¡week) ¡ • Time: ¡Tuesday ¡& ¡Thursday ¡1:30-‑2:50pm ¡ • Office ¡hours: ¡Tuesday ¡3:000-‑4:00pm ¡
Grading ¡ • Write-‑ups ¡for ¡required ¡reading ¡(30%) ¡ – Summary ¡of ¡contribu8ons, ¡cri8que ¡(weaknesses), ¡ques8ons. ¡ – Under ¡400 ¡words ¡for ¡each ¡paper. ¡ – Submit ¡to ¡blackboard/dropbox ¡by ¡midnight ¡the ¡day ¡before ¡the ¡class. ¡ • Late ¡submission ¡policy: ¡70% ¡before ¡the ¡class, ¡0% ¡words. ¡ • Class ¡par8cipa8on ¡(20%) ¡ • Paper ¡presenta8on ¡(20%) ¡ • Final ¡project ¡(30%) ¡ – One-‑page ¡project ¡proposal: ¡due ¡Nov ¡1st ¡in ¡class. ¡ – Poster ¡session: ¡the ¡last ¡day ¡of ¡the ¡course. ¡ – Final ¡project ¡report: ¡due ¡Dec ¡14th. ¡
Overview ¡ • Next-‑genera8on ¡sequencing ¡technology ¡ • Gene8c ¡polymorphisms ¡ • Popula8on ¡gene8cs ¡review ¡ – Haplotype ¡inference, ¡recombina8on ¡rate ¡es8ma8on, ¡linkage ¡ disequilibrium, ¡tag ¡SNPs ¡ • From ¡Human ¡Genome ¡Sequencing ¡Project ¡to ¡HapMap ¡Project ¡ to ¡1000 ¡Genome ¡Project ¡ ¡
Decline ¡in ¡Sequencing ¡Costs ¡ Science 331:666-668, 2011 5 ¡
Improvement ¡in ¡Sequencing ¡Technologies ¡
DNA ¡sequencing ¡– ¡vectors ¡ DNA Shake DNA fragments Known Vector location Circular genome + = (bacterium, plasmid) (restriction site) Adopted ¡from ¡hdp://www.cs.utoronto.ca/~brudno/csc2431w10/2431_lec1.ppt ¡
Method ¡to ¡sequence ¡longer ¡regions ¡ genomic segment cut many times at random ( Shotgun ) Get two reads from each segment ̃500 bp ̃500 bp Adopted ¡from ¡hdp://www.cs.utoronto.ca/~brudno/csc2431w10/2431_lec1.ppt ¡
Reconstruc8ng ¡the ¡Sequence ¡ ¡ (Fragment ¡Assembly) ¡ reads Cover region with ̃7-fold redundancy (7X) Overlap reads and extend to reconstruct the original genomic region Adopted ¡from ¡hdp://www.cs.utoronto.ca/~brudno/csc2431w10/2431_lec1.ppt ¡
DefiniAon ¡of ¡Coverage ¡ C Length ¡of ¡genomic ¡segment: ¡ L ¡ Number ¡of ¡reads: ¡ ¡ ¡ n ¡ Length ¡of ¡each ¡read: ¡ ¡ l ¡ DefiniAon: ¡ ¡Coverage ¡ ¡ C ¡= ¡n ¡l ¡/ ¡L ¡ How ¡much ¡coverage ¡is ¡enough? ¡ ¡ Lander-‑Waterman ¡model: ¡ ¡Assuming ¡uniform ¡distribu8on ¡of ¡reads, ¡C=10 ¡results ¡in ¡1 ¡gapped ¡ region ¡/1,000,000 ¡nucleo8des ¡ Adopted ¡from ¡hdp://www.cs.utoronto.ca/~brudno/csc2431w10/2431_lec1.ppt ¡
Depth ¡of ¡Coverage ¡and ¡Physical ¡Coverage ¡ • Single-‑end ¡sequencing ¡ • Paired-‑end ¡sequencing ¡ • Paired-‑end ¡sequencing ¡
Next ¡GeneraAon ¡Sequencing ¡(NGS) ¡based ¡ methods ¡ • RNA-‑Seq: ¡methods ¡for ¡determining ¡mRNA ¡abundance ¡and ¡ sequence ¡content ¡ – Rare ¡transcripts ¡discovery ¡ – Alterna8ve ¡splicing ¡event ¡detec8on ¡ – Transcript ¡sequence ¡varia8on ¡detec8on ¡
Next ¡GeneraAon ¡Sequencing ¡(NGS) ¡based ¡ methods ¡ • ChIP-‑Seq: ¡methods ¡for ¡measuring ¡genome-‑wide ¡profiles ¡of ¡ immunoprecipitated ¡DNA-‑protein ¡complexes ¡
Overview ¡ • Next-‑genera8on ¡sequencing ¡technology ¡ • Gene8c ¡polymorphisms ¡ • From ¡Human ¡Genome ¡Sequencing ¡Project ¡to ¡HapMap ¡Project ¡ to ¡1000 ¡Genome ¡Project ¡ ¡ • Popula8on ¡gene8cs ¡review ¡ – Haplotype ¡inference, ¡recombina8on ¡rate ¡es8ma8on, ¡linkage ¡ disequilibrium, ¡tag ¡SNPs ¡
2011: ¡1000 ¡Genome ¡Project ¡ T ¡ T ¡ A ¡ T ¡ 2001: ¡Human ¡Genome ¡ Sequencing ¡Project ¡ C ¡ T ¡ T ¡ A ¡ A ¡ A ¡
Why ¡GeneAc ¡VariaAons? ¡ • Gene8c ¡varia8ons ¡can ¡be ¡ – Causal ¡varia8ons ¡that ¡influence ¡phenotypes ¡such ¡as ¡disease ¡ suscep8bility, ¡drug ¡response: ¡finding ¡them ¡can ¡be ¡the ¡first ¡key ¡steps ¡to ¡ cures ¡in ¡medicine. ¡ – Used ¡to ¡find ¡signatures ¡of ¡evolu8on, ¡posi8ve ¡selec8on. ¡ – Giving ¡insights ¡on ¡popula8on ¡structure. ¡
GeneAc ¡VariaAons ¡ • Types ¡of ¡gene8c ¡varia8ons ¡ – Single ¡nucleo8de ¡polymorphisms ¡(SNPs) ¡ • Widely ¡used ¡as ¡gene8c ¡markers ¡ • Highly ¡abundant ¡in ¡genomes ¡ – Structural ¡variants: ¡inser8ons/dele8ons, ¡duplica8ons, ¡copy ¡number ¡ varia8ons ¡
Other ¡GeneAc ¡VariaAons ¡ • Copy ¡Number ¡Varia8on ¡ – DNA ¡segment ¡whose ¡numbers ¡ differ ¡in ¡different ¡genomes ¡ • Kilobases ¡to ¡megabases ¡in ¡size ¡ – Usually ¡two ¡copies ¡of ¡all ¡ ¡ autosomal ¡regions, ¡one ¡per ¡ chromosome ¡ – Varia8on ¡due ¡to ¡dele8on ¡or ¡ duplica8on ¡
Variant ¡Frequencies ¡from ¡1000 ¡Genome ¡Pilot ¡ Project ¡
Terminology ¡ • Allele: ¡different ¡forms ¡of ¡gene8c ¡varia8ons ¡at ¡a ¡given ¡gene ¡or ¡ gene8c ¡locus ¡ • Genotype: ¡specific ¡allelic ¡make-‑up ¡of ¡an ¡individual’s ¡genome ¡ • Heterozygous/Homozygous ¡
DetecAng ¡Genome ¡AlteraAons ¡
Working ¡with ¡SNP ¡Data ¡in ¡PracAce ¡ • At ¡each ¡locus, ¡SNPs ¡are ¡represented ¡as ¡0 ¡or ¡1. ¡ – A/T/C/G ¡leders ¡are ¡converted ¡to ¡0 ¡or ¡1 ¡for ¡minor/major ¡alleles ¡ – Genotypes ¡at ¡each ¡locus ¡of ¡each ¡individual ¡are ¡coded ¡as ¡ • 0 ¡: ¡minor ¡allele ¡homozygous ¡ • 1: ¡heterozygous ¡ • 2: ¡major ¡allele ¡homozygous ¡ • Given ¡genotype ¡data ¡for ¡ N ¡individuals ¡ • (Minor ¡allele ¡frequency) ¡= ¡(the ¡number ¡of ¡individuals ¡with ¡minor ¡ alleles)/(total ¡number ¡of ¡individuals) ¡
Sequencing ¡vs. ¡SNP ¡Genotyping ¡ • Sequencing ¡a ¡whole ¡genome ¡is ¡much ¡more ¡costly ¡than ¡ genotyping ¡a ¡small ¡number ¡of ¡gene8c ¡loci ¡for ¡SNPs ¡
A ¡LiYle ¡Bit ¡of ¡History ¡ • 2001: ¡A ¡dran ¡of ¡human ¡genome ¡sequence ¡become ¡available ¡ • 2001: ¡The ¡Interna8onal ¡SNP ¡Map ¡Working ¡Group ¡publishes ¡a ¡SNP ¡ Map ¡of ¡1.42 ¡million ¡SNPs ¡that ¡contained ¡all ¡SNPs ¡iden8fied ¡so ¡far ¡ • 2005: ¡HapMap ¡Phase ¡I ¡ – Genotype ¡at ¡least ¡one ¡common ¡SNP ¡(MAF>5%) ¡every ¡5kb ¡across ¡270 ¡ individuals ¡ – Geographic ¡diversity ¡ • 30 ¡trios ¡from ¡Yoruba ¡in ¡Ibadan, ¡Nigeria ¡(YRI) ¡ • 30 ¡trios ¡of ¡European ¡ancestry ¡living ¡in ¡Utah ¡(CEPH) ¡ • 45 ¡unrelated ¡Han ¡Chinese ¡in ¡Beijing ¡(CHB) ¡ • 45 ¡nrelated ¡Japanese ¡(JPT) ¡ – 1.3 ¡million ¡SNPs ¡
A ¡LiYle ¡Bit ¡of ¡History ¡ • 2007: ¡HapMap ¡Phase ¡II ¡ – Genotype ¡addi8onal ¡2.1 ¡million ¡SNPs ¡for ¡the ¡same ¡individuals ¡ – SNP ¡density ¡about ¡1 ¡per ¡kb ¡ – Es8mated ¡to ¡contain ¡25-‑35% ¡of ¡all ¡9-‑10 ¡million ¡common ¡SNPs ¡in ¡ assembled ¡human ¡genome. ¡ • 2010: ¡HapMap ¡Phase ¡III ¡ – 1184 ¡individuals ¡from ¡11 ¡popula8ons, ¡including ¡HapMap ¡Phase ¡I, ¡II ¡ samples ¡ – Rare ¡variants ¡(MAF=0.05-‑0.5%), ¡low ¡frequency ¡variants ¡(MAF=0.5%-‑5%) ¡ – Copy ¡number ¡varia8ons, ¡resequencing ¡of ¡selected ¡regions ¡ • 2010 ¡: ¡1000 ¡Genome ¡Pilot ¡Project ¡ – A ¡more ¡complete ¡characteriza8on ¡of ¡human ¡gene8c ¡varia8ons ¡ ¡
Linkage ¡Disequilibrium ¡in ¡HapMap ¡Data ¡ • r 2 ¡in ¡HapMap ¡Data ¡ genome ¡ genome ¡
Recommend
More recommend