Improving ¡on ¡the ¡Accuracy ¡of ¡a ¡ Genome ¡Assembly ¡ Lecture ¡6: ¡September ¡6, ¡2012 ¡ ¡
Review ¡from ¡Last ¡Lecture ¡
Sample ¡PreparaCon ¡ Fragments ¡ Sequencing ¡ Reads ¡ Assembly ¡ ConCgs ¡ Analysis ¡
Sample ¡PreparaCon ¡ Fragments ¡ Sequencing ¡ Reads ¡ Assembly ¡ ConCgs ¡ Analysis ¡
CalculaCng ¡N50 ¡ 1. Take ¡a ¡list ¡L ¡of ¡posiCve ¡integers ¡ ¡ 2. Create ¡another ¡list ¡L’, ¡which ¡is ¡idenCcal ¡to ¡L, ¡ except ¡that ¡every ¡element ¡n ¡in ¡L ¡has ¡been ¡ replaced ¡with ¡n ¡copies ¡of ¡itself ¡ ¡ 3. The ¡median ¡of ¡L’ ¡is ¡the ¡N50 ¡of ¡L ¡
Other ¡EvaluaCons ¡ • Number ¡of ¡inserCons, ¡deleCons, ¡and ¡ subsCtuCon ¡errors ¡in ¡an ¡assembly ¡ • misassembly ¡of ¡conCgs ¡(chimeric ¡indels) ¡ >=500 ¡bp ¡
Other ¡EvaluaCons ¡ • Number ¡of ¡inserCons, ¡deleCons, ¡and ¡ subsCtuCon ¡errors ¡in ¡an ¡assembly ¡ • misassembly ¡of ¡conCgs ¡(chimeric ¡indels) ¡ >=500 ¡bp ¡
EvaluaCon ¡Programs ¡ • BLAT ¡is ¡commonly ¡used ¡but ¡requires ¡some ¡ work: ¡ – Run ¡BLAT ¡ – Write ¡a ¡program ¡that ¡parses ¡the ¡output; ¡count ¡ mismatches ¡and ¡indels. ¡ – Can ¡be ¡tricky ¡to ¡detect ¡misassemblies. ¡ • Plantagora ¡is ¡commonly ¡used. ¡ • New ¡programs ¡are ¡developed ¡all ¡the ¡Cme. ¡
Assembly ¡Errors ¡
Fragment ¡Assembly ¡Errors ¡ • The ¡number ¡of ¡subsCtuCon ¡errors, ¡inserCons ¡and ¡ deleCons ¡can ¡be ¡significantly ¡large. ¡ – ~9000 ¡errors ¡in ¡assembly ¡of ¡ E.coli ¡ with ¡Velvet. ¡ ¡ – 20 ¡to ¡30 ¡errors ¡for ¡every ¡100,000 ¡bp ¡with ¡SOAPdenovo. ¡ • Important ¡for ¡disCnguishing ¡between ¡true ¡variaCon ¡ and ¡arCfacts ¡of ¡the ¡assembly. ¡ • But ¡why ¡do ¡assembly ¡errors ¡occur? ¡ ¡
Detangling ¡the ¡de ¡Bruijn ¡Graph ¡ Even ¡using ¡mate-‑pair ¡informaCon, ¡the ¡de ¡Bruijn ¡ graph ¡is ¡highly ¡tangled. ¡ ¡ ¡ There ¡are ¡the ¡following ¡opCons ¡for ¡detangling ¡ the ¡de ¡Bruijn ¡graph: ¡ 1. Error ¡correcCon ¡of ¡reads ¡ 2. Bulge ¡and ¡whirl ¡removal ¡
Ingredients ¡For ¡a ¡Good ¡Assembly ¡ • Coverage: ¡high ¡coverage ¡is ¡required ¡and ¡ biased ¡coverage ¡will ¡fragment ¡the ¡assembly ¡ ¡ 12 ¡
Ingredients ¡for ¡a ¡Good ¡Assembly ¡ • Read ¡length: ¡reads ¡and ¡mates ¡must ¡be ¡longer ¡ than ¡the ¡repeats ¡ 13 ¡
Ingredients ¡For ¡a ¡Good ¡Assembly ¡ • Read ¡Quality: ¡errors ¡obscure ¡overlaps. ¡ ¡High ¡ error ¡rates ¡require ¡short ¡k-‑mers, ¡which ¡leads ¡ to ¡hairball ¡regions ¡ 14 ¡
Error ¡CorrecCon ¡of ¡Reads ¡
Assembly ¡from ¡NGS ¡data ¡ billions ¡ billions ¡ Next ¡ of ¡ of ¡ GeneraCon ¡ bad ¡ good ¡ ConCgs ¡ Sequencer ¡ reads ¡ reads ¡ ¡ ¡ CorrecCon ¡ Assembly ¡ • K -‑spectrum ¡approach ¡(Chaisson ¡ et ¡al ., ¡ Bioinforma1cs ¡2008 ) ¡ • SHREC ¡(Shroder ¡ et ¡al ., ¡ Bioinforma1cs ¡ 2009) ¡ • RepCle ¡(Yang ¡and ¡Aluru, ¡2010) ¡ 16 ¡
Read ¡Error ¡CorrecCon ¡ • Principle: ¡ – Use ¡the ¡coverage ¡redundancy ¡to ¡correct ¡ erroneous ¡reads ¡ ¡ AGGATGACCAGGATTAGGACCAGT Probably ¡due ¡to ¡an ¡ error ¡sequencing ¡ GATGACCAGGATTAGGACCAGTTC GATGACCAGGATTAGGACCAGTTC ATGACCAGGATTAGGACCAGTTCA ACCAGGATT C GGACCAGTTCATTC ACCAGGATTAGGACCAGTTCATTC ACCAGGATTAGGACCAGTTCATTC CCAGGATTAGGACCAGTTCATTCA 17 ¡
Importance ¡of ¡Error ¡CorrecCon ¡ Bartonella ¡Henselae ¡ (bacteria ¡that ¡can ¡ ¡ cause ¡illness ¡in ¡humans) ¡ ¡ Avg ¡ Max ¡ N50 ¡ N75 ¡ Con(gs ¡ Con(g ¡ Con(g ¡ Before ¡ 4474 ¡ 29042 ¡ 8260 ¡ 3144 ¡ 374 ¡ ¡Aher ¡ 7094 ¡ ¡ 79281 ¡ 17397 ¡ 4675 ¡ 231 ¡ • Assembled ¡with ¡330X ¡coverage, ¡ ¡36bp ¡Illumina ¡reads ¡ ¡
Effects ¡of ¡EC ¡of ¡Reads ¡ • Error ¡correcCon ¡of ¡reads ¡will ¡greatly ¡reduce ¡ the ¡“noise” ¡in ¡the ¡data. ¡ • The ¡de ¡Bruijn ¡graph ¡on ¡error ¡corrected ¡reads ¡ will ¡be ¡greatly ¡simplified; ¡allowing ¡it ¡to ¡be ¡ easier ¡to ¡find ¡a ¡ ¡path ¡in ¡the ¡graph. ¡ • Works ¡well ¡in ¡99% ¡percent ¡of ¡cases ¡but ¡in ¡1% ¡ of ¡cases ¡will ¡ create ¡an ¡assembly ¡error ¡ rather ¡ than ¡correct ¡one. ¡ 19 ¡
Error ¡CorrecCon ¡of ¡ConCgs ¡
De ¡Bruijn ¡Graph ¡of ¡a ¡Genome ¡ Example ¡Genome: ¡ ¡ ¡ABCDEFGHICDEFGKL ¡ Example ¡Genome: ¡ ¡ ¡ ABCDEFGHICDEFGKL ( ! ¡−1) -‑mers ¡ ! -‑mers ¡ ABC HIC ABCD HICD BCD ICD BCDE ICDE CDE FGK CDEF EFGK DEF GKL DEFG FGKL ¡ EFG ¡ EFGH GHI GHIC
De ¡Bruijn ¡Graph ¡of ¡a ¡Genome ¡ Example ¡Genome: ¡ ¡ ¡ABCDEFGHICDEFGKL ¡ Example ¡Genome: ¡ ¡ ¡ ABCDEFGHICDEFGKL GHI HIC 2 ¡ ICD FGH CDE ABC BCD DEF EFG FGK GKL 1 ¡ 3 ¡
Typical ¡De ¡Bruijn ¡Graph ¡ … ¡
De ¡Bruijn ¡Graph ¡of ¡a ¡Genome ¡ Example ¡Genome: ¡ ¡ ¡ABCDEFGHICDEFGKL ¡ Example ¡Genome: ¡ ¡ ¡ ABCDEFGHICDEFGKL GHI HIC 2 ¡ ICD FGH CDE ABC BCD DEF EFG FGK GKL 1 ¡ 3 ¡
De ¡Bruijn ¡Graph ¡of ¡a ¡Genome ¡ Example ¡Genome: ¡ ¡ ¡ABCDEFGHICDEFGKL ¡ Example ¡Genome: ¡ ¡ ¡ ABCDEFGHICDEFGKL CDE ABC BCD DEF EFG FGK GKL
De ¡Bruijn ¡Graph ¡of ¡a ¡Genome ¡ Example ¡Genome: ¡ ¡ ¡ABCDEFGHICDEFGKL ¡ ResulCng ¡Erroneous ¡Genome: ¡ ¡ ¡ ABCDEFGKL CDE ABC BCD DEF EFG FGK GKL 1 ¡
Sample ¡PreparaCon ¡ Fragments ¡ Sequencing ¡ Reads ¡ Assembly ¡ ConCgs ¡ Analysis ¡
Sample ¡PreparaCon ¡ Fragments ¡ Reads ¡ Sequencing ¡ SEQuel ¡ Reads ¡ ConCgs ¡ Assembly ¡ Analysis ¡ Refined ¡ConCgs ¡
SEQuel ¡Algorithm ¡ I. Align ¡each ¡of ¡the ¡input ¡reads ¡to ¡each ¡of ¡the ¡iniCal ¡ . ¡ conCgs. ¡ ¡ ¡ ¡ ¡
SEQuel ¡Algorithm ¡ I. Align ¡each ¡of ¡the ¡input ¡reads ¡to ¡each ¡of ¡the ¡iniCal ¡ . ¡ conCgs. ¡ ¡ ¡ ¡ ¡
SEQuel ¡Algorithm ¡ I. Align ¡each ¡of ¡the ¡input ¡reads ¡to ¡each ¡of ¡the ¡iniCal ¡ . ¡ conCgs. ¡ ¡ ¡ ¡ ¡
SEQuel ¡Algorithm ¡ I. Align ¡each ¡of ¡the ¡input ¡reads ¡to ¡each ¡of ¡the ¡iniCal ¡ . ¡ conCgs. ¡ ¡ 1 ¡ ¡ 22 ¡ 1 ¡ 24 ¡ 4 ¡ 23 ¡ 5 ¡ 27 ¡ 16 ¡ 1 ¡ 2 ¡ 22 ¡ 2 ¡ 22 ¡ 25 ¡ 4 ¡ ¡ 15 ¡ 7 ¡ 24 ¡ 7 ¡ 17 ¡ 18 ¡ 10 ¡ 10 ¡ 17 ¡ ¡ 18 ¡ 16 ¡ 19 ¡
SEQuel ¡Algorithm ¡ I. Align ¡each ¡of ¡the ¡input ¡reads ¡to ¡each ¡of ¡the ¡iniCal ¡ conCgs. ¡ . ¡ II. Build ¡the ¡posiConal ¡de ¡Bruijn ¡graph ¡for ¡each ¡set ¡of ¡ reads. ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡
PosiConal ¡De ¡Bruijn ¡Graph ¡ A ¡posiConal ¡ ! -‑mer ¡is ¡a ¡ ! -‑mer ¡with ¡an ¡approximate ¡ posiCon. ¡ ¡ ¡ ¡ I. Choose ¡a ¡value ¡of ¡ ¡ and ¡Δ. ¡ II. Each ¡posiConal ¡-‑mer ¡ () ¡ is ¡an ¡edge ¡between ¡two ¡posiConal ¡ (–mers: ¡ (pre)ix) ¡and ¡ (suf)ix) . ¡ III. PosiConal ¡–mers, ¡ () ¡and ¡ (’) ¡are ¡glued ¡if ¡and ¡ ¡that ¡have ¡ the ¡same ¡label. ¡
De ¡Bruijn ¡Graph ¡of ¡a ¡Genome ¡ Example ¡Genome: ¡ ¡ ¡ABCDEFGHICDEFGKL ¡ Example ¡Genome: ¡ ¡ ¡ ABCDEFGHICDEFGKL GHI HIC ICD FGH CDE ABC BCD DEF EFG FGK GKL
PosiConal ¡De ¡Bruijn ¡Graph ¡ Example ¡Genome: ¡ ¡ ¡ ABCDEFGHICDEFGKL ABCD,1 ICDE,8 BCDE,2 CDEF,9 CDEF,3 Positional DEFG,10 DEFG,4 ! -‑mers ¡ EFGK,11 EFGH,5 FGKL,12 FGHI,6 HICD,7
PosiConal ¡De ¡Bruijn ¡Graph ¡ Example ¡Genome: ¡ ¡ ¡ ABCDEFGHICDEFGKL ABC,1 BCD,2 CDE,3 DEF,4 GHI,7 FGH,6 EFG,5 … ¡ CDE,10 DEF,11 EFG,12 HIC,8 FGK,13 ICD,9
24 ¡ 1 ¡ 5 ¡ 27 ¡ 22 ¡ 2 ¡ 25 ¡ 4 ¡ 7 ¡ 24 ¡ 17 ¡ 10 ¡ 18 ¡ 19 ¡
Recommend
More recommend