improving on the accuracy of a genome assembly
play

Improving on the Accuracy of a Genome Assembly Lecture - PowerPoint PPT Presentation

Improving on the Accuracy of a Genome Assembly Lecture 6: September 6, 2012 Review from Last Lecture Sample PreparaCon Fragments Sequencing Reads


  1. Improving ¡on ¡the ¡Accuracy ¡of ¡a ¡ Genome ¡Assembly ¡ Lecture ¡6: ¡September ¡6, ¡2012 ¡ ¡

  2. Review ¡from ¡Last ¡Lecture ¡

  3. Sample ¡PreparaCon ¡ Fragments ¡ Sequencing ¡ Reads ¡ Assembly ¡ ConCgs ¡ Analysis ¡

  4. Sample ¡PreparaCon ¡ Fragments ¡ Sequencing ¡ Reads ¡ Assembly ¡ ConCgs ¡ Analysis ¡

  5. CalculaCng ¡N50 ¡ 1. Take ¡a ¡list ¡L ¡of ¡posiCve ¡integers ¡ ¡ 2. Create ¡another ¡list ¡L’, ¡which ¡is ¡idenCcal ¡to ¡L, ¡ except ¡that ¡every ¡element ¡n ¡in ¡L ¡has ¡been ¡ replaced ¡with ¡n ¡copies ¡of ¡itself ¡ ¡ 3. The ¡median ¡of ¡L’ ¡is ¡the ¡N50 ¡of ¡L ¡

  6. Other ¡EvaluaCons ¡ • Number ¡of ¡inserCons, ¡deleCons, ¡and ¡ subsCtuCon ¡errors ¡in ¡an ¡assembly ¡ • misassembly ¡of ¡conCgs ¡(chimeric ¡indels) ¡ >=500 ¡bp ¡

  7. Other ¡EvaluaCons ¡ • Number ¡of ¡inserCons, ¡deleCons, ¡and ¡ subsCtuCon ¡errors ¡in ¡an ¡assembly ¡ • misassembly ¡of ¡conCgs ¡(chimeric ¡indels) ¡ >=500 ¡bp ¡

  8. EvaluaCon ¡Programs ¡ • BLAT ¡is ¡commonly ¡used ¡but ¡requires ¡some ¡ work: ¡ – Run ¡BLAT ¡ – Write ¡a ¡program ¡that ¡parses ¡the ¡output; ¡count ¡ mismatches ¡and ¡indels. ¡ – Can ¡be ¡tricky ¡to ¡detect ¡misassemblies. ¡ • Plantagora ¡is ¡commonly ¡used. ¡ • New ¡programs ¡are ¡developed ¡all ¡the ¡Cme. ¡

  9. Assembly ¡Errors ¡

  10. Fragment ¡Assembly ¡Errors ¡ • The ¡number ¡of ¡subsCtuCon ¡errors, ¡inserCons ¡and ¡ deleCons ¡can ¡be ¡significantly ¡large. ¡ – ~9000 ¡errors ¡in ¡assembly ¡of ¡ E.coli ¡ with ¡Velvet. ¡ ¡ – 20 ¡to ¡30 ¡errors ¡for ¡every ¡100,000 ¡bp ¡with ¡SOAPdenovo. ¡ • Important ¡for ¡disCnguishing ¡between ¡true ¡variaCon ¡ and ¡arCfacts ¡of ¡the ¡assembly. ¡ • But ¡why ¡do ¡assembly ¡errors ¡occur? ¡ ¡

  11. Detangling ¡the ¡de ¡Bruijn ¡Graph ¡ Even ¡using ¡mate-­‑pair ¡informaCon, ¡the ¡de ¡Bruijn ¡ graph ¡is ¡highly ¡tangled. ¡ ¡ ¡ There ¡are ¡the ¡following ¡opCons ¡for ¡detangling ¡ the ¡de ¡Bruijn ¡graph: ¡ 1. Error ¡correcCon ¡of ¡reads ¡ 2. Bulge ¡and ¡whirl ¡removal ¡

  12. Ingredients ¡For ¡a ¡Good ¡Assembly ¡ • Coverage: ¡high ¡coverage ¡is ¡required ¡and ¡ biased ¡coverage ¡will ¡fragment ¡the ¡assembly ¡ ¡ 12 ¡

  13. Ingredients ¡for ¡a ¡Good ¡Assembly ¡ • Read ¡length: ¡reads ¡and ¡mates ¡must ¡be ¡longer ¡ than ¡the ¡repeats ¡ 13 ¡

  14. Ingredients ¡For ¡a ¡Good ¡Assembly ¡ • Read ¡Quality: ¡errors ¡obscure ¡overlaps. ¡ ¡High ¡ error ¡rates ¡require ¡short ¡k-­‑mers, ¡which ¡leads ¡ to ¡hairball ¡regions ¡ 14 ¡

  15. Error ¡CorrecCon ¡of ¡Reads ¡

  16. Assembly ¡from ¡NGS ¡data ¡ billions ¡ billions ¡ Next ¡ of ¡ of ¡ GeneraCon ¡ bad ¡ good ¡ ConCgs ¡ Sequencer ¡ reads ¡ reads ¡ ¡ ¡ CorrecCon ¡ Assembly ¡ • K -­‑spectrum ¡approach ¡(Chaisson ¡ et ¡al ., ¡ Bioinforma1cs ¡2008 ) ¡ • SHREC ¡(Shroder ¡ et ¡al ., ¡ Bioinforma1cs ¡ 2009) ¡ • RepCle ¡(Yang ¡and ¡Aluru, ¡2010) ¡ 16 ¡

  17. Read ¡Error ¡CorrecCon ¡ • Principle: ¡ – Use ¡the ¡coverage ¡redundancy ¡to ¡correct ¡ erroneous ¡reads ¡ ¡ AGGATGACCAGGATTAGGACCAGT Probably ¡due ¡to ¡an ¡ error ¡sequencing ¡ GATGACCAGGATTAGGACCAGTTC GATGACCAGGATTAGGACCAGTTC ATGACCAGGATTAGGACCAGTTCA ACCAGGATT C GGACCAGTTCATTC ACCAGGATTAGGACCAGTTCATTC ACCAGGATTAGGACCAGTTCATTC CCAGGATTAGGACCAGTTCATTCA 17 ¡

  18. Importance ¡of ¡Error ¡CorrecCon ¡ Bartonella ¡Henselae ¡ (bacteria ¡that ¡can ¡ ¡ cause ¡illness ¡in ¡humans) ¡ ¡ Avg ¡ Max ¡ N50 ¡ N75 ¡ Con(gs ¡ Con(g ¡ Con(g ¡ Before ¡ 4474 ¡ 29042 ¡ 8260 ¡ 3144 ¡ 374 ¡ ¡Aher ¡ 7094 ¡ ¡ 79281 ¡ 17397 ¡ 4675 ¡ 231 ¡ • Assembled ¡with ¡330X ¡coverage, ¡ ¡36bp ¡Illumina ¡reads ¡ ¡

  19. Effects ¡of ¡EC ¡of ¡Reads ¡ • Error ¡correcCon ¡of ¡reads ¡will ¡greatly ¡reduce ¡ the ¡“noise” ¡in ¡the ¡data. ¡ • The ¡de ¡Bruijn ¡graph ¡on ¡error ¡corrected ¡reads ¡ will ¡be ¡greatly ¡simplified; ¡allowing ¡it ¡to ¡be ¡ easier ¡to ¡find ¡a ¡ ¡path ¡in ¡the ¡graph. ¡ • Works ¡well ¡in ¡99% ¡percent ¡of ¡cases ¡but ¡in ¡1% ¡ of ¡cases ¡will ¡ create ¡an ¡assembly ¡error ¡ rather ¡ than ¡correct ¡one. ¡ 19 ¡

  20. Error ¡CorrecCon ¡of ¡ConCgs ¡

  21. De ¡Bruijn ¡Graph ¡of ¡a ¡Genome ¡ Example ¡Genome: ¡ ¡ ¡ABCDEFGHICDEFGKL ¡ Example ¡Genome: ¡ ¡ ¡ ABCDEFGHICDEFGKL ( ! ¡−1) -­‑mers ¡ ! -­‑mers ¡ ABC HIC ABCD HICD BCD ICD BCDE ICDE CDE FGK CDEF EFGK DEF GKL DEFG FGKL ¡ EFG ¡ EFGH GHI GHIC

  22. De ¡Bruijn ¡Graph ¡of ¡a ¡Genome ¡ Example ¡Genome: ¡ ¡ ¡ABCDEFGHICDEFGKL ¡ Example ¡Genome: ¡ ¡ ¡ ABCDEFGHICDEFGKL GHI HIC 2 ¡ ICD FGH CDE ABC BCD DEF EFG FGK GKL 1 ¡ 3 ¡

  23. Typical ¡De ¡Bruijn ¡Graph ¡ … ¡

  24. De ¡Bruijn ¡Graph ¡of ¡a ¡Genome ¡ Example ¡Genome: ¡ ¡ ¡ABCDEFGHICDEFGKL ¡ Example ¡Genome: ¡ ¡ ¡ ABCDEFGHICDEFGKL GHI HIC 2 ¡ ICD FGH CDE ABC BCD DEF EFG FGK GKL 1 ¡ 3 ¡

  25. De ¡Bruijn ¡Graph ¡of ¡a ¡Genome ¡ Example ¡Genome: ¡ ¡ ¡ABCDEFGHICDEFGKL ¡ Example ¡Genome: ¡ ¡ ¡ ABCDEFGHICDEFGKL CDE ABC BCD DEF EFG FGK GKL

  26. De ¡Bruijn ¡Graph ¡of ¡a ¡Genome ¡ Example ¡Genome: ¡ ¡ ¡ABCDEFGHICDEFGKL ¡ ResulCng ¡Erroneous ¡Genome: ¡ ¡ ¡ ABCDEFGKL CDE ABC BCD DEF EFG FGK GKL 1 ¡

  27. Sample ¡PreparaCon ¡ Fragments ¡ Sequencing ¡ Reads ¡ Assembly ¡ ConCgs ¡ Analysis ¡

  28. Sample ¡PreparaCon ¡ Fragments ¡ Reads ¡ Sequencing ¡ SEQuel ¡ Reads ¡ ConCgs ¡ Assembly ¡ Analysis ¡ Refined ¡ConCgs ¡

  29. SEQuel ¡Algorithm ¡ I. Align ¡each ¡of ¡the ¡input ¡reads ¡to ¡each ¡of ¡the ¡iniCal ¡ . ¡ conCgs. ¡ ¡ ¡ ¡ ¡

  30. SEQuel ¡Algorithm ¡ I. Align ¡each ¡of ¡the ¡input ¡reads ¡to ¡each ¡of ¡the ¡iniCal ¡ . ¡ conCgs. ¡ ¡ ¡ ¡ ¡

  31. SEQuel ¡Algorithm ¡ I. Align ¡each ¡of ¡the ¡input ¡reads ¡to ¡each ¡of ¡the ¡iniCal ¡ . ¡ conCgs. ¡ ¡ ¡ ¡ ¡

  32. SEQuel ¡Algorithm ¡ I. Align ¡each ¡of ¡the ¡input ¡reads ¡to ¡each ¡of ¡the ¡iniCal ¡ . ¡ conCgs. ¡ ¡ 1 ¡ ¡ 22 ¡ 1 ¡ 24 ¡ 4 ¡ 23 ¡ 5 ¡ 27 ¡ 16 ¡ 1 ¡ 2 ¡ 22 ¡ 2 ¡ 22 ¡ 25 ¡ 4 ¡ ¡ 15 ¡ 7 ¡ 24 ¡ 7 ¡ 17 ¡ 18 ¡ 10 ¡ 10 ¡ 17 ¡ ¡ 18 ¡ 16 ¡ 19 ¡

  33. SEQuel ¡Algorithm ¡ I. Align ¡each ¡of ¡the ¡input ¡reads ¡to ¡each ¡of ¡the ¡iniCal ¡ conCgs. ¡ . ¡ II. Build ¡the ¡posiConal ¡de ¡Bruijn ¡graph ¡for ¡each ¡set ¡of ¡ reads. ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡

  34. PosiConal ¡De ¡Bruijn ¡Graph ¡ A ¡posiConal ¡ ! -­‑mer ¡is ¡a ¡ ! -­‑mer ¡with ¡an ¡approximate ¡ posiCon. ¡ ¡ ¡ ¡ I. Choose ¡a ¡value ¡of ¡ ¡ and ¡Δ. ¡ II. Each ¡posiConal ¡-­‑mer ¡ () ¡ is ¡an ¡edge ¡between ¡two ¡posiConal ¡ (–mers: ¡ (pre)ix) ¡and ¡ (suf)ix) . ¡ III. PosiConal ¡–mers, ¡ () ¡and ¡ (’) ¡are ¡glued ¡if ¡and ¡ ¡that ¡have ¡ the ¡same ¡label. ¡

  35. De ¡Bruijn ¡Graph ¡of ¡a ¡Genome ¡ Example ¡Genome: ¡ ¡ ¡ABCDEFGHICDEFGKL ¡ Example ¡Genome: ¡ ¡ ¡ ABCDEFGHICDEFGKL GHI HIC ICD FGH CDE ABC BCD DEF EFG FGK GKL

  36. PosiConal ¡De ¡Bruijn ¡Graph ¡ Example ¡Genome: ¡ ¡ ¡ ABCDEFGHICDEFGKL ABCD,1 ICDE,8 BCDE,2 CDEF,9 CDEF,3 Positional DEFG,10 DEFG,4 ! -­‑mers ¡ EFGK,11 EFGH,5 FGKL,12 FGHI,6 HICD,7

  37. PosiConal ¡De ¡Bruijn ¡Graph ¡ Example ¡Genome: ¡ ¡ ¡ ABCDEFGHICDEFGKL ABC,1 BCD,2 CDE,3 DEF,4 GHI,7 FGH,6 EFG,5 … ¡ CDE,10 DEF,11 EFG,12 HIC,8 FGK,13 ICD,9

  38. 24 ¡ 1 ¡ 5 ¡ 27 ¡ 22 ¡ 2 ¡ 25 ¡ 4 ¡ 7 ¡ 24 ¡ 17 ¡ 10 ¡ 18 ¡ 19 ¡

Recommend


More recommend