Genome ¡Sequencing: ¡Introduc2on ¡ to ¡Fragment ¡Assembly ¡ Lecture ¡5: ¡September ¡4, ¡2012 ¡ ¡
Review ¡from ¡Last ¡Lecture ¡
Sample ¡Prepara2on ¡ Fragments ¡
Sample ¡Prepara2on ¡ Fragments ¡ Sequencing ¡ Next ¡Genera2on ¡Sequencing ¡(NGS) ¡ ACGTAGAATCGACCATG ACGTAGAATACGTAGAA GGGACGTAGAATACGAC Reads ¡
Sample ¡Prepara2on ¡ Fragments ¡ Sequencing ¡ Reads ¡ ACGTAGAATACGTAGAA Assembly ¡ ACGTAGAATCGACCATG GGGACGTAGAATACGAC ACGTAGAATACGTAGAAACAGATTAGAGAG… Con2gs ¡
Sample ¡Prepara2on ¡ Fragments ¡ Sequencing ¡ “…the ¡ability ¡to ¡determine ¡DNA ¡ sequences ¡is ¡star2ng ¡to ¡outrun ¡ the ¡ability ¡of ¡researchers ¡to ¡ Reads ¡ store, ¡transmit ¡and ¡especially ¡to ¡ analyze ¡the ¡data.” ¡ Assembly ¡ ¡ -‑ ¡New ¡York ¡Times, ¡November ¡30, ¡2011 ¡ Con2gs ¡ Analysis ¡ 6 ¡
Sample ¡Prepara2on ¡ Fragments ¡ Sequencing ¡ Reads ¡ Assembly ¡ Con2gs ¡ Analysis ¡
Algorithms ¡for ¡Fragment ¡ Assembly ¡
Whole ¡Genome ¡Shotgun ¡Sequencing ¡ Genome ¡ Genome ¡amplified ¡and ¡sliced ¡into ¡ smaller ¡fragments ¡(>=600bp) ¡ Build ¡consensus ¡sequence ¡from ¡overlap ¡
Tradi2onal ¡(“Sanger”) ¡Sequencing ¡ • Sequence ¡shotgun ¡fragments ¡of ¡length ¡600 ¡bp ¡ using ¡Sanger ¡sequencing. ¡ • Fragment ¡Assembly ¡is ¡accomplished ¡using ¡ “overlap-‑layout-‑consensus” ¡approach: ¡ ¡ • overlap : ¡matching ¡all ¡possible ¡reads ¡and ¡finding ¡any ¡ overlapping. ¡ • layout : ¡finding ¡order ¡of ¡reads ¡along ¡DNA ¡and ¡ pu_ng ¡them ¡together. ¡ • consensus : ¡deriving ¡how ¡sequence ¡will ¡appear ¡ based ¡on ¡layout. ¡
Overlap-‑Layout-‑Consensus ¡Approach ¡ • Build ¡an ¡overlap ¡graph ¡where ¡each ¡node ¡ represents ¡a ¡read. ¡An ¡edge ¡exists ¡between ¡two ¡ reads ¡if ¡they ¡overlap ¡ • Traverse ¡the ¡graph ¡to ¡find ¡unambiguous ¡paths ¡ which ¡form ¡the ¡con2gs ¡
Problems! ¡ • The ¡main ¡problem ¡with ¡this ¡approach ¡is ¡that ¡it ¡is ¡ very, ¡very, ¡very ¡slow ¡ and ¡will ¡only ¡work ¡on ¡small ¡ genomes ¡or ¡low ¡coverage. ¡ • Not ¡commonly ¡used ¡for ¡complete ¡assembly, ¡ however, ¡some ¡sobware ¡tools ¡s2ll ¡use ¡this ¡ approach: ¡ – Celera: ¡genome ¡assembler ¡for ¡454, ¡PacBio, ¡and ¡Illumina ¡ data ¡ ¡ – LOCAS : ¡Resequencing ¡genomes. ¡ – HapAssembler: ¡for ¡sequencing ¡highly ¡polymorphic ¡ genomes ¡
Problems! ¡ Unfortunately, ¡overlap-‑layout-‑consensus ¡ approach ¡will ¡ not ¡work ¡for ¡NGS ¡data ¡or ¡ significantly ¡large ¡genomes: ¡ – There ¡is ¡too ¡much ¡data. ¡ ¡Calcula2ng ¡the ¡ overlap ¡for ¡each ¡pair ¡of ¡reads ¡would ¡take ¡ way ¡to ¡much ¡2me. ¡ ¡ – There ¡has ¡to ¡be ¡a ¡new ¡method ¡for ¡fragment ¡ assembly. ¡
De ¡Bruijn ¡Graph ¡Approach ¡to ¡ Assembly ¡
De ¡Bruijn ¡Graph ¡for ¡Assembly ¡ • Introduced ¡in ¡1989. ¡ ¡ Pevzner. ¡J ¡Biomol ¡Struct ¡Dyn ¡(1989) ¡7:63—73. ¡ ¡ Iduly ¡& ¡Waterman. ¡J. ¡Comput ¡Biol ¡(1995) ¡2:291—306. ¡ ¡ • Adapted ¡for ¡next ¡genera2on ¡sequencing ¡data. ¡ ¡ Euler-‑SR : ¡Chaisson ¡& ¡Pevzner. ¡Genome ¡Res. ¡(2008) ¡18:324—30. ¡ Velvet : ¡Zerbino ¡& ¡Birney. ¡Genome ¡Res. ¡(2008) ¡18:821—29. ¡ ALLPATHS : ¡Butler ¡et ¡al. ¡Genome ¡Res. ¡(2008) ¡18(5):810—20. ¡ ABySS : ¡Simpson ¡et ¡al. ¡Genome ¡Res ¡(2009) ¡19:1117—1123. ¡ ¡
De ¡Bruijn ¡Graph ¡Construc2on ¡ Choose ¡a ¡value ¡of ¡ ! . ¡ I. II. For ¡each ¡ ! -‑mer ¡that ¡exists ¡in ¡any ¡sequence ¡ create ¡an ¡edge ¡with ¡one ¡vertex ¡ ¡labeled ¡as ¡the ¡ prefix ¡and ¡one ¡vertex ¡labeled ¡as ¡the ¡suffix. ¡ III. Glue ¡all ¡ver2ces ¡that ¡have ¡the ¡same ¡label. ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ (Pevzner, ¡Tang ¡& ¡Tesler, ¡2004) ¡
De ¡Bruijn ¡Graph ¡Construc2on ¡ GTCT ATTCG CTA ATTCA CTA ATTCG ¡ ATTC ¡ TTCG ¡ ATTCA ¡ TTCA ¡ ATTC ¡ (Pevzner, ¡Tang ¡& ¡Tesler, ¡2004) ¡
De ¡Bruijn ¡Graph ¡Construc2on ¡ GTCT ATTCG CTA ATTCA CTA ATTCG ¡ ATTC ¡ TTCG ¡ ATTCA ¡ TTCA ¡ ATTC ¡ (Pevzner, ¡Tang ¡& ¡Tesler, ¡2004) ¡
De ¡Bruijn ¡Graph ¡Construc2on ¡ GTCT ATTCG CTA ATTCA CTA TTCG ¡ ATTCG ¡ ATTC ¡ ATTCA ¡ TTCA ¡ (Pevzner, ¡Tang ¡& ¡Tesler, ¡2004) ¡
Challenges ¡in ¡Fragment ¡Assembly ¡ ¡ • Repeats ¡in ¡the ¡genome. ¡ ¡ ACCAGTT GACTGGGAT CCTTTTTAAA GACTGGGAT TTTAACGCG CAGTT GACTG TGGGAT CC ¡ TGGGAT TT • Sequencing ¡errors, ¡which ¡vary ¡by ¡plamorm. ¡ ¡ TGGGAATT TGGGA C TT Subs2tu2on ¡ ¡ TGGGA -- T Dele2on ¡ Inser2on ¡ TGGGAA CTTA TT • Size ¡of ¡the ¡data, ¡e.g. ¡1.5 ¡billion ¡reads . ¡
De ¡Bruijn ¡Graph ¡of ¡a ¡Genome ¡ Example ¡Genome: ¡ ¡ ¡ABCDEFGHICDEFGKL ¡ Example ¡Genome: ¡ ¡ ¡ ABCDEFGHICDEFGKL ( ! ¡−1) -‑mers ¡ ! -‑mers ¡ ABC HIC ABCD HICD BCD ICD BCDE ICDE CDE FGK CDEF EFGK DEF GKL DEFG FGKL ¡ EFG ¡ EFGH GHI GHIC
De ¡Bruijn ¡Graph ¡of ¡a ¡Genome ¡ Example ¡Genome: ¡ ¡ ¡ABCDEFGHICDEFGKL ¡ Example ¡Genome: ¡ ¡ ¡ ABCDEFGHICDEFGKL GHI HIC ICD FGH CDE ABC BCD DEF EFG FGK GKL
De ¡Bruijn ¡Graph ¡of ¡a ¡Genome ¡ Bulges ¡(undirected ¡cycles) ¡and ¡ whirls ¡(directed ¡cycles) ¡ Example ¡Genome: ¡ ¡ ¡ABCDEFGHICDEFGKL ¡ occur ¡because ¡of ¡sequencing ¡errors ¡or ¡repeats ¡in ¡the ¡ genome. ¡ GHI HIC ICD FGH CDE ABC BCD DEF EFG FGK GKL
De ¡Bruijn ¡Graph ¡of ¡a ¡Genome ¡ Example ¡Genome: ¡ ¡ ¡ABCDEFGHICDEFGKL ¡ Example ¡Genome: ¡ ¡ ¡ ABCDEFGHICDEFGKL GHI HIC 2 ¡ ICD FGH CDE ABC BCD DEF EFG FGK GKL 1 ¡ 3 ¡
Typical ¡De ¡Bruijn ¡Graph ¡ … ¡ However, ¡this ¡is ¡over ¡a ¡billion ¡ver2ces ¡(for ¡ a ¡very ¡small ¡bacteria ¡genome). ¡
De ¡Bruijn ¡Graph ¡of ¡a ¡Genome ¡ Example ¡Genome: ¡ ¡ ¡ABCDEFGHICDEFGKL ¡ Example ¡Genome: ¡ ¡ ¡ ABCDEFGHICDEFGKL GHI HIC 2 ¡ ICD FGH CDE ABC BCD DEF EFG FGK GKL 1 ¡ 3 ¡
De ¡Bruijn ¡Graph ¡of ¡a ¡Genome ¡ Example ¡Genome: ¡ ¡ ¡ABCDEFGHICDEFGKL ¡ Example ¡Genome: ¡ ¡ ¡ ABCDEFGHICDEFGKL CDE ABC BCD DEF EFG FGK GKL
De ¡Bruijn ¡Graph ¡of ¡a ¡Genome ¡ Example ¡Genome: ¡ ¡ ¡ABCDEFGHICDEFGKL ¡ Resul2ng ¡Erroneous ¡Genome: ¡ ¡ ¡ ABCDEFGKL CDE ABC BCD DEF EFG FGK GKL 1 ¡
Paired-‑end ¡Reads ¡ • Random ¡fragment ¡with ¡an ¡approximately ¡ known ¡size. ¡ • Both ¡ends ¡are ¡sequenced. ¡ • Specified ¡prior ¡to ¡data ¡acquisi2on. ¡ ACTATAAT ¡ ACCGCGAT ¡ Insert ¡Size ¡
Standard ¡(Mul2-‑cell) ¡Data ¡ ¡ Coverage ¡ (Chitsaz ¡et ¡al., ¡2011) ¡
Single-‑cell ¡Data ¡ ¡ Coverage ¡ Coverage ¡ (Chitsaz ¡et ¡al., ¡2011) ¡
Detangling ¡the ¡de ¡Bruijn ¡Graph ¡ Even ¡using ¡mate-‑pair ¡informa2on, ¡the ¡de ¡Bruijn ¡ graph ¡is ¡highly ¡tangled. ¡ ¡ ¡ There ¡are ¡the ¡following ¡op2ons ¡for ¡detangling ¡ the ¡de ¡Bruijn ¡graph: ¡ 1. Error ¡correc2on ¡of ¡reads. ¡ 2. Bulge ¡and ¡whirl ¡removal. ¡ 32 ¡
Detangling ¡the ¡de ¡Bruijn ¡Graph ¡ Even ¡using ¡mate-‑pair ¡informa2on, ¡the ¡de ¡Bruijn ¡ graph ¡is ¡highly ¡tangled. ¡ ¡ ¡ There ¡are ¡the ¡following ¡op2ons ¡for ¡detangling ¡ the ¡de ¡Bruijn ¡graph: ¡ PROBLEM! ¡ ¡ 1. Error ¡correc2on ¡of ¡reads ¡ Both ¡inevitably ¡ ¡ end-‑up ¡causing ¡ 2. Bulge ¡and ¡whirl ¡removal ¡ errors ¡rather ¡than ¡ correcHng ¡then. ¡ 33 ¡
Assembly ¡Demonstra2on ¡
Recommend
More recommend