course overview
play

Course Overview 02-715 Advanced Topics in Computa8onal - PowerPoint PPT Presentation

Course Overview 02-715 Advanced Topics in Computa8onal Genomics Course Overview Instructor: Seyoung Kim (Lane Center for Computa8onal Biology, CMU)


  1. Course ¡Overview ¡ 02-­‑715 ¡Advanced ¡Topics ¡in ¡Computa8onal ¡ Genomics ¡

  2. Course ¡Overview ¡ • Instructor: ¡Seyoung ¡Kim ¡(Lane ¡Center ¡for ¡Computa8onal ¡ Biology, ¡CMU) ¡ • Course ¡Website: ¡ www.cs.cmu.edu/~sssykim/teaching/f11.html ¡ • Loca8on: ¡ ¡ – 9115 ¡GHC ¡(first ¡2 ¡weeks ¡un8l ¡Sept ¡8) ¡ ¡ – 6115 ¡GHC ¡(star8ng ¡from ¡the ¡3 rd ¡week) ¡ • Time: ¡Tuesday ¡& ¡Thursday ¡1:30-­‑2:50pm ¡ • Office ¡hours: ¡Tuesday ¡3:000-­‑4:00pm ¡

  3. Grading ¡ • Write-­‑ups ¡for ¡required ¡reading ¡(30%) ¡ – Summary ¡of ¡contribu8ons, ¡cri8que ¡(weaknesses), ¡ques8ons. ¡ – Under ¡400 ¡words ¡for ¡each ¡paper. ¡ – Submit ¡to ¡blackboard/dropbox ¡by ¡midnight ¡the ¡day ¡before ¡the ¡class. ¡ • Late ¡submission ¡policy: ¡70% ¡before ¡the ¡class, ¡0% ¡words. ¡ • Class ¡par8cipa8on ¡(20%) ¡ • Paper ¡presenta8on ¡(20%) ¡ • Final ¡project ¡(30%) ¡ – One-­‑page ¡project ¡proposal: ¡due ¡Nov ¡1st ¡in ¡class. ¡ – Poster ¡session: ¡the ¡last ¡day ¡of ¡the ¡course. ¡ – Final ¡project ¡report: ¡due ¡Dec ¡14th. ¡

  4. Overview ¡ • Next-­‑genera8on ¡sequencing ¡technology ¡ • Gene8c ¡polymorphisms ¡ • Popula8on ¡gene8cs ¡review ¡ – Haplotype ¡inference, ¡recombina8on ¡rate ¡es8ma8on, ¡linkage ¡ disequilibrium, ¡tag ¡SNPs ¡ • From ¡Human ¡Genome ¡Sequencing ¡Project ¡to ¡HapMap ¡Project ¡ to ¡1000 ¡Genome ¡Project ¡ ¡

  5. Decline ¡in ¡Sequencing ¡Costs ¡ Science 331:666-668, 2011 5 ¡

  6. Improvement ¡in ¡Sequencing ¡Technologies ¡

  7. DNA ¡sequencing ¡– ¡vectors ¡ DNA Shake DNA fragments Known Vector location Circular genome + = (bacterium, plasmid) (restriction site) Adopted ¡from ¡hdp://www.cs.utoronto.ca/~brudno/csc2431w10/2431_lec1.ppt ¡

  8. Method ¡to ¡sequence ¡longer ¡regions ¡ genomic segment cut many times at random ( Shotgun ) Get two reads from 
 each segment ̃500 bp ̃500 bp Adopted ¡from ¡hdp://www.cs.utoronto.ca/~brudno/csc2431w10/2431_lec1.ppt ¡

  9. Reconstruc8ng ¡the ¡Sequence ¡ ¡ (Fragment ¡Assembly) ¡ reads Cover region with ̃7-fold redundancy (7X) Overlap reads and extend to reconstruct the original genomic region Adopted ¡from ¡hdp://www.cs.utoronto.ca/~brudno/csc2431w10/2431_lec1.ppt ¡

  10. DefiniAon ¡of ¡Coverage ¡ C Length ¡of ¡genomic ¡segment: ¡ L ¡ Number ¡of ¡reads: ¡ ¡ ¡ n ¡ Length ¡of ¡each ¡read: ¡ ¡ l ¡ DefiniAon: ¡ ¡Coverage ¡ ¡ C ¡= ¡n ¡l ¡/ ¡L ¡ How ¡much ¡coverage ¡is ¡enough? ¡ ¡ Lander-­‑Waterman ¡model: ¡ ¡Assuming ¡uniform ¡distribu8on ¡of ¡reads, ¡C=10 ¡results ¡in ¡1 ¡gapped ¡ region ¡/1,000,000 ¡nucleo8des ¡ Adopted ¡from ¡hdp://www.cs.utoronto.ca/~brudno/csc2431w10/2431_lec1.ppt ¡

  11. Depth ¡of ¡Coverage ¡and ¡Physical ¡Coverage ¡ • Single-­‑end ¡sequencing ¡ • Paired-­‑end ¡sequencing ¡ • Paired-­‑end ¡sequencing ¡

  12. Next ¡GeneraAon ¡Sequencing ¡(NGS) ¡based ¡ methods ¡ • RNA-­‑Seq: ¡methods ¡for ¡determining ¡mRNA ¡abundance ¡and ¡ sequence ¡content ¡ – Rare ¡transcripts ¡discovery ¡ – Alterna8ve ¡splicing ¡event ¡detec8on ¡ – Transcript ¡sequence ¡varia8on ¡detec8on ¡

  13. Next ¡GeneraAon ¡Sequencing ¡(NGS) ¡based ¡ methods ¡ • ChIP-­‑Seq: ¡methods ¡for ¡measuring ¡genome-­‑wide ¡profiles ¡of ¡ immunoprecipitated ¡DNA-­‑protein ¡complexes ¡

  14. Overview ¡ • Next-­‑genera8on ¡sequencing ¡technology ¡ • Gene8c ¡polymorphisms ¡ • From ¡Human ¡Genome ¡Sequencing ¡Project ¡to ¡HapMap ¡Project ¡ to ¡1000 ¡Genome ¡Project ¡ ¡ • Popula8on ¡gene8cs ¡review ¡ – Haplotype ¡inference, ¡recombina8on ¡rate ¡es8ma8on, ¡linkage ¡ disequilibrium, ¡tag ¡SNPs ¡

  15. 2011: ¡1000 ¡Genome ¡Project ¡ T ¡ T ¡ A ¡ T ¡ 2001: ¡Human ¡Genome ¡ Sequencing ¡Project ¡ C ¡ T ¡ T ¡ A ¡ A ¡ A ¡

  16. Why ¡GeneAc ¡VariaAons? ¡ • Gene8c ¡varia8ons ¡can ¡be ¡ – Causal ¡varia8ons ¡that ¡influence ¡phenotypes ¡such ¡as ¡disease ¡ suscep8bility, ¡drug ¡response: ¡finding ¡them ¡can ¡be ¡the ¡first ¡key ¡steps ¡to ¡ cures ¡in ¡medicine. ¡ – Used ¡to ¡find ¡signatures ¡of ¡evolu8on, ¡posi8ve ¡selec8on. ¡ – Giving ¡insights ¡on ¡popula8on ¡structure. ¡

  17. GeneAc ¡VariaAons ¡ • Types ¡of ¡gene8c ¡varia8ons ¡ – Single ¡nucleo8de ¡polymorphisms ¡(SNPs) ¡ • Widely ¡used ¡as ¡gene8c ¡markers ¡ • Highly ¡abundant ¡in ¡genomes ¡ – Structural ¡variants: ¡inser8ons/dele8ons, ¡duplica8ons, ¡copy ¡number ¡ varia8ons ¡

  18. Other ¡GeneAc ¡VariaAons ¡ • Copy ¡Number ¡Varia8on ¡ – DNA ¡segment ¡whose ¡numbers ¡ differ ¡in ¡different ¡genomes ¡ • Kilobases ¡to ¡megabases ¡in ¡size ¡ – Usually ¡two ¡copies ¡of ¡all ¡ ¡ autosomal ¡regions, ¡one ¡per ¡ chromosome ¡ – Varia8on ¡due ¡to ¡dele8on ¡or ¡ duplica8on ¡

  19. Variant ¡Frequencies ¡from ¡1000 ¡Genome ¡Pilot ¡ Project ¡

  20. Terminology ¡ • Allele: ¡different ¡forms ¡of ¡gene8c ¡varia8ons ¡at ¡a ¡given ¡gene ¡or ¡ gene8c ¡locus ¡ • Genotype: ¡specific ¡allelic ¡make-­‑up ¡of ¡an ¡individual’s ¡genome ¡ • Heterozygous/Homozygous ¡

  21. DetecAng ¡Genome ¡AlteraAons ¡

  22. Working ¡with ¡SNP ¡Data ¡in ¡PracAce ¡ • At ¡each ¡locus, ¡SNPs ¡are ¡represented ¡as ¡0 ¡or ¡1. ¡ – A/T/C/G ¡leders ¡are ¡converted ¡to ¡0 ¡or ¡1 ¡for ¡minor/major ¡alleles ¡ – Genotypes ¡at ¡each ¡locus ¡of ¡each ¡individual ¡are ¡coded ¡as ¡ • 0 ¡: ¡minor ¡allele ¡homozygous ¡ • 1: ¡heterozygous ¡ • 2: ¡major ¡allele ¡homozygous ¡ • Given ¡genotype ¡data ¡for ¡ N ¡individuals ¡ • (Minor ¡allele ¡frequency) ¡= ¡(the ¡number ¡of ¡individuals ¡with ¡minor ¡ alleles)/(total ¡number ¡of ¡individuals) ¡

  23. Sequencing ¡vs. ¡SNP ¡Genotyping ¡ • Sequencing ¡a ¡whole ¡genome ¡is ¡much ¡more ¡costly ¡than ¡ genotyping ¡a ¡small ¡number ¡of ¡gene8c ¡loci ¡for ¡SNPs ¡

  24. A ¡LiYle ¡Bit ¡of ¡History ¡ • 2001: ¡A ¡dran ¡of ¡human ¡genome ¡sequence ¡become ¡available ¡ • 2001: ¡The ¡Interna8onal ¡SNP ¡Map ¡Working ¡Group ¡publishes ¡a ¡SNP ¡ Map ¡of ¡1.42 ¡million ¡SNPs ¡that ¡contained ¡all ¡SNPs ¡iden8fied ¡so ¡far ¡ • 2005: ¡HapMap ¡Phase ¡I ¡ – Genotype ¡at ¡least ¡one ¡common ¡SNP ¡(MAF>5%) ¡every ¡5kb ¡across ¡270 ¡ individuals ¡ – Geographic ¡diversity ¡ • 30 ¡trios ¡from ¡Yoruba ¡in ¡Ibadan, ¡Nigeria ¡(YRI) ¡ • 30 ¡trios ¡of ¡European ¡ancestry ¡living ¡in ¡Utah ¡(CEPH) ¡ • 45 ¡unrelated ¡Han ¡Chinese ¡in ¡Beijing ¡(CHB) ¡ • 45 ¡nrelated ¡Japanese ¡(JPT) ¡ – 1.3 ¡million ¡SNPs ¡

  25. A ¡LiYle ¡Bit ¡of ¡History ¡ • 2007: ¡HapMap ¡Phase ¡II ¡ – Genotype ¡addi8onal ¡2.1 ¡million ¡SNPs ¡for ¡the ¡same ¡individuals ¡ – SNP ¡density ¡about ¡1 ¡per ¡kb ¡ – Es8mated ¡to ¡contain ¡25-­‑35% ¡of ¡all ¡9-­‑10 ¡million ¡common ¡SNPs ¡in ¡ assembled ¡human ¡genome. ¡ • 2010: ¡HapMap ¡Phase ¡III ¡ – 1184 ¡individuals ¡from ¡11 ¡popula8ons, ¡including ¡HapMap ¡Phase ¡I, ¡II ¡ samples ¡ – Rare ¡variants ¡(MAF=0.05-­‑0.5%), ¡low ¡frequency ¡variants ¡(MAF=0.5%-­‑5%) ¡ – Copy ¡number ¡varia8ons, ¡resequencing ¡of ¡selected ¡regions ¡ • 2010 ¡: ¡1000 ¡Genome ¡Pilot ¡Project ¡ – A ¡more ¡complete ¡characteriza8on ¡of ¡human ¡gene8c ¡varia8ons ¡ ¡

  26. Linkage ¡Disequilibrium ¡in ¡HapMap ¡Data ¡ • r 2 ¡in ¡HapMap ¡Data ¡ genome ¡ genome ¡

Recommend


More recommend