Course ¡Overview ¡ 02-‑715 ¡Advanced ¡Topics ¡in ¡Computa8onal ¡ Genomics ¡
Course ¡Overview ¡ • Instructor: ¡Seyoung ¡Kim ¡(Lane ¡Center ¡for ¡Computa8onal ¡ Biology, ¡CMU) ¡ • Course ¡Website: ¡www.cs.cmu.edu/~sssykim/teaching/s13/ s13.html ¡ • Loca8on: ¡DH ¡2105 ¡ • Time: ¡Monday, ¡Wednesday, ¡& ¡Friday: ¡3:30-‑4:20pm ¡ • Office ¡hours: ¡Friday ¡4:30-‑5:30pm ¡
Grading ¡ • Write-‑ups ¡for ¡required ¡reading ¡(30%) ¡ – Star8ng ¡the ¡2 nd ¡week ¡ – Summary ¡of ¡contribu8ons, ¡cri8que ¡(strengths ¡and ¡weaknesses). ¡ – Under ¡300 ¡words ¡for ¡each ¡paper. ¡ – Submit ¡to ¡blackboard ¡by ¡midnight ¡the ¡day ¡before ¡the ¡class. ¡ • Late ¡submission ¡policy: ¡70% ¡before ¡the ¡class, ¡0% ¡a\erwards. ¡ • Class ¡par8cipa8on ¡(20%) ¡ • Paper ¡presenta8on ¡(30%) ¡ • Final ¡project ¡(20%) ¡ – One-‑page ¡project ¡proposal: ¡due ¡March ¡18 ¡in ¡class. ¡ – Project ¡presenta8on: ¡the ¡last ¡week ¡of ¡the ¡course. ¡ – Final ¡project ¡report: ¡due ¡May ¡10th. ¡
Overview ¡ • Next-‑genera8on ¡sequencing ¡technology ¡ • Gene8c ¡polymorphisms ¡ • Popula8on ¡gene8cs ¡review ¡ – Haplotype ¡inference, ¡recombina8on ¡rate ¡es8ma8on, ¡linkage ¡ disequilibrium, ¡tag ¡SNPs ¡ • From ¡Human ¡Genome ¡Sequencing ¡Project ¡to ¡HapMap ¡Project ¡ to ¡1000 ¡Genome ¡Project ¡ ¡
Decline ¡in ¡Sequencing ¡Costs ¡ Science 331:666-668, 2011 5 ¡
DNA ¡sequencing ¡– ¡vectors ¡ DNA Shake DNA fragments Known Vector location Circular genome + = (bacterium, plasmid) (restriction site) Adopted ¡from ¡hbp://www.cs.utoronto.ca/~brudno/csc2431w10/2431_lec1.ppt ¡
Method ¡to ¡sequence ¡longer ¡regions ¡ genomic segment cut many times at random ( Shotgun ) Get two reads from each segment ̃500 bp ̃500 bp Adopted ¡from ¡hbp://www.cs.utoronto.ca/~brudno/csc2431w10/2431_lec1.ppt ¡
Reconstruc8ng ¡the ¡Sequence ¡ ¡ (Fragment ¡Assembly) ¡ reads Cover region with ̃7-fold redundancy (7X) Overlap reads and extend to reconstruct the original genomic region Adopted ¡from ¡hbp://www.cs.utoronto.ca/~brudno/csc2431w10/2431_lec1.ppt ¡
Defini=on ¡of ¡Coverage ¡ C Length ¡of ¡genomic ¡segment: ¡ L ¡ Number ¡of ¡reads: ¡ ¡ ¡ n ¡ Length ¡of ¡each ¡read: ¡ ¡ l ¡ Defini=on: ¡ ¡ Coverage ¡ ¡ C ¡= ¡n ¡l ¡/ ¡L ¡ How ¡much ¡coverage ¡is ¡enough? ¡ ¡ Lander-‑Waterman ¡model: ¡ ¡ Assuming ¡uniform ¡distribu8on ¡of ¡reads, ¡C=10 ¡results ¡in ¡1 ¡gapped ¡ region ¡/1,000,000 ¡nucleo8des ¡ Adopted ¡from ¡hbp://www.cs.utoronto.ca/~brudno/csc2431w10/2431_lec1.ppt ¡
Depth ¡of ¡Coverage ¡and ¡Physical ¡Coverage ¡ • Single-‑end ¡sequencing ¡ • Paired-‑end ¡sequencing ¡ • Paired-‑end ¡sequencing ¡
Next ¡Genera=on ¡Sequencing ¡(NGS) ¡based ¡ methods ¡ • RNA-‑Seq: ¡methods ¡for ¡determining ¡mRNA ¡abundance ¡and ¡ sequence ¡content ¡ – Rare ¡transcripts ¡discovery ¡ – Alterna8ve ¡splicing ¡event ¡detec8on ¡ – Transcript ¡sequence ¡varia8on ¡detec8on ¡
Next ¡Genera=on ¡Sequencing ¡(NGS) ¡based ¡ methods ¡ • ChIP-‑Seq: ¡methods ¡for ¡measuring ¡genome-‑wide ¡profiles ¡of ¡ immunoprecipitated ¡DNA-‑protein ¡complexes ¡
Overview ¡ • Next-‑genera8on ¡sequencing ¡technology ¡ • Gene8c ¡polymorphisms ¡ • From ¡Human ¡Genome ¡Sequencing ¡Project ¡to ¡HapMap ¡Project ¡ to ¡1000 ¡Genome ¡Project ¡ ¡
Why ¡Gene=c ¡Varia=ons? ¡ • Gene8c ¡varia8ons ¡can ¡be ¡ – Used ¡to ¡find ¡signatures ¡of ¡evolu8on, ¡posi8ve ¡selec8on. ¡ – Giving ¡insights ¡on ¡popula8on ¡structure. ¡ – Causal ¡varia8ons ¡that ¡influence ¡phenotypes ¡such ¡as ¡disease ¡ suscep8bility, ¡drug ¡response: ¡finding ¡them ¡can ¡be ¡the ¡first ¡key ¡steps ¡to ¡ cures ¡in ¡medicine. ¡
Gene=c ¡Varia=ons ¡ • Types ¡of ¡gene8c ¡varia8ons ¡ – Single ¡nucleo8de ¡polymorphisms ¡(SNPs) ¡ • Widely ¡used ¡as ¡gene8c ¡markers ¡ • Highly ¡abundant ¡in ¡genomes ¡ – Structural ¡variants: ¡inser8ons/dele8ons, ¡duplica8ons, ¡copy ¡number ¡ varia8ons ¡
Other ¡Gene=c ¡Varia=ons ¡ • Copy ¡Number ¡Varia8on ¡ – DNA ¡segment ¡whose ¡numbers ¡ differ ¡in ¡different ¡genomes ¡ • Kilobases ¡to ¡megabases ¡in ¡size ¡ – Usually ¡two ¡copies ¡of ¡all ¡ ¡ autosomal ¡regions, ¡one ¡per ¡ chromosome ¡ – Varia8on ¡due ¡to ¡dele8on ¡or ¡ duplica8on ¡
Variant ¡Frequencies ¡from ¡1000 ¡Genome ¡Pilot ¡ Project ¡
Terminology ¡ • Allele: ¡different ¡forms ¡of ¡gene8c ¡varia8ons ¡at ¡a ¡given ¡gene ¡or ¡ gene8c ¡locus ¡ • Genotype: ¡specific ¡allelic ¡make-‑up ¡of ¡an ¡individual’s ¡genome ¡ • Heterozygous/Homozygous ¡
Terminology ¡ • Haplotype: ¡A ¡collec8on ¡of ¡alleles ¡derived ¡from ¡the ¡same ¡ chromosome ¡ Genotypes � Haplotypes � 2 � 1 � 3 � 1 � 3 � 2 � 1 � 6 � 1 � 6 � 9 � 1 � 5 � 1 � 5 � 9 � 4 � 1 � 7 � 1 � 7 � 4 � 1 � 9 � 9 � 1 � Haplotype � 2 � 6 � 6 � 2 � 9 � 1 � 7 � 9 � 1 � 7 � Re-construction � 2 � 1 � 2 � 1 � 2 � 2 � 1 � 2 � 7 � 7 � 1 � 2 � 6 � 1 � 4 � 1 � 4 � 6 � 1 � 7 � 7 � 1 � 1 � 8 � 1 � 8 � 1 � 8 � 1 � 8 � 1 � 4 � 1 � 4 � 1 � 0 � 1 � 0 � 1 � 0 � 1 � 0 � Chromosome phase is unknown � Chromosome phase is known �
Working ¡with ¡SNP ¡Data ¡in ¡Prac=ce ¡ • At ¡each ¡locus, ¡SNPs ¡are ¡represented ¡as ¡0 ¡or ¡1. ¡ – A/T/C/G ¡lebers ¡are ¡converted ¡to ¡0 ¡or ¡1 ¡for ¡minor/major ¡alleles ¡ – Genotypes ¡at ¡each ¡locus ¡of ¡each ¡individual ¡are ¡coded ¡as ¡ • 0 ¡: ¡minor ¡allele ¡homozygous ¡ • 1: ¡heterozygous ¡ • 2: ¡major ¡allele ¡homozygous ¡ • Given ¡genotype ¡data ¡for ¡ N ¡individuals ¡ • (Minor ¡allele ¡frequency) ¡= ¡(the ¡number ¡of ¡individuals ¡with ¡minor ¡ alleles)/(total ¡number ¡of ¡individuals) ¡
Detec=ng ¡Genome ¡Altera=ons ¡with ¡SNP ¡Arrays ¡ (Affymetrix ¡GeneChip ¡Probe ¡Array) ¡
Detec=ng ¡Genome ¡Altera=ons ¡with ¡Next ¡ Genera=on ¡Sequencing ¡Technology ¡
Sequencing ¡vs. ¡SNP ¡Genotyping ¡ • Sequencing ¡a ¡whole ¡genome ¡is ¡much ¡more ¡costly ¡than ¡ genotyping ¡a ¡small ¡number ¡of ¡gene8c ¡loci ¡for ¡SNPs ¡
Linkage ¡Disequilibrium ¡in ¡HapMap ¡Data ¡ • r 2 ¡in ¡HapMap ¡Data ¡ genome ¡ genome ¡
Using ¡Reference ¡Datasets ¡for ¡Genotype ¡ Imputa=on ¡ • Reference ¡data: ¡dense ¡SNP ¡ data ¡from ¡HapMap ¡III ¡ • New ¡data: ¡SNP ¡data ¡for ¡ individuals ¡in ¡a ¡given ¡study ¡ • Data ¡a\er ¡imputa8on ¡
Using ¡Reference ¡Datasets ¡for ¡Genotype ¡ Imputa=on ¡ • Reference ¡data: ¡sequence ¡ data ¡from ¡1000 ¡genome ¡ project ¡ • New ¡data: ¡SNP ¡data ¡for ¡ individuals ¡in ¡a ¡given ¡study ¡ • Data ¡a\er ¡imputa8on ¡
Genotype ¡Imputa=on ¡ PHASE ¡can ¡be ¡used ¡for ¡imputa8on! ¡
Overview ¡ • Next-‑genera8on ¡sequencing ¡technology ¡ • Gene8c ¡polymorphisms ¡ • From ¡Human ¡Genome ¡Sequencing ¡Project ¡to ¡HapMap ¡Project ¡ to ¡1000 ¡Genome ¡Project ¡ ¡
Recommend
More recommend