metagenomics
play

Metagenomics 02-715 Advanced Topics in Computa8onal Genomics - PowerPoint PPT Presentation

Metagenomics 02-715 Advanced Topics in Computa8onal Genomics Metagenomics Popula8on sequencing Goal: recover the genomic sequences of the species in


  1. Metagenomics 02-­‑715 ¡Advanced ¡Topics ¡in ¡Computa8onal ¡ Genomics ¡

  2. Metagenomics • Popula8on ¡sequencing ¡ • Goal: ¡recover ¡the ¡genomic ¡sequences ¡of ¡the ¡species ¡in ¡ ¡ gene8cally ¡diverse ¡environmental ¡samples ¡ – Human ¡gut, ¡honey ¡bees, ¡corals, ¡ecosystems ¡ – Cancer ¡tumor ¡cells, ¡pathogen ¡popula8ons ¡such ¡as ¡HIV ¡viral ¡strains ¡ – Poten8al ¡discovery ¡of ¡new ¡species ¡

  3. Metagenomics • Challenges ¡ – Assembly ¡of ¡a ¡large ¡number ¡of ¡rela8vely ¡short ¡and ¡noisy ¡reads ¡of ¡the ¡ DNA ¡in ¡a ¡sample ¡from ¡next ¡genera8on ¡sequencers ¡ – Uncertainty ¡of ¡the ¡popula8on’s ¡size ¡and ¡composi8on ¡ – Uneven ¡coverage ¡across ¡species: ¡coverage ¡is ¡affected ¡by ¡the ¡species’ ¡ frequency ¡in ¡the ¡sample ¡ – Reconstruc8ng ¡sequences ¡even ¡for ¡the ¡low-­‑coverage ¡species ¡

  4. Single Genome Sequencing • The ¡sequence ¡assembly ¡algorithm ¡for ¡single ¡genome ¡sequencing ¡ does ¡not ¡work ¡well ¡for ¡metagenome ¡assembly, ¡in ¡the ¡presence ¡of ¡ sequencing ¡errors ¡

  5. Genovo • De ¡novo ¡sequence ¡assembler ¡ ¡ • Model-­‑based ¡approach ¡ – a ¡genera8ve ¡probabilis8c ¡model ¡of ¡read ¡genera8on ¡from ¡ environmental ¡samples ¡is ¡specified ¡ – Captures ¡the ¡uncertainty ¡of ¡the ¡popula8on ¡structure ¡and ¡noise ¡model ¡ of ¡the ¡sequencing ¡technology ¡ – Chinese ¡restaurant ¡process ¡for ¡the ¡unknown ¡number ¡of ¡genomes ¡in ¡ the ¡sample ¡

  6. Generative Model for Metagenome Assembly • Genera8ve ¡models ¡for ¡ – Con$gs ¡{ b so } ¡for ¡leVers ¡at ¡posi8ons ¡ o ¡of ¡con8g ¡ s – Reads ¡ x i ’s ¡within ¡con8g ¡number ¡ s i ¡and ¡star8ng ¡loca8on ¡ o i ¡within ¡the ¡ con8g ¡ – Alignment ¡ y i ¡(orienta8on, ¡inser8ons, ¡dele8ons) ¡for ¡matching ¡ x i ¡to ¡the ¡ con8g ¡ • Assume ¡an ¡infinite ¡number ¡of ¡con8gs ¡in ¡prior, ¡but ¡in ¡the ¡ posterior ¡only ¡a ¡finite ¡number ¡of ¡con8gs ¡are ¡supported ¡by ¡ reads ¡ Con8g ¡ Read ¡

  7. Generative Model for Metagenome Assembly I • Con8gs: ¡Infinitely ¡many ¡leVers ¡in ¡infinitely ¡many ¡con8gs ¡are ¡ sampled ¡uniformly ¡ – Assume ¡an ¡infinite ¡number ¡of ¡con8gs ¡with ¡infinite ¡number ¡of ¡ nucleo8des ¡in ¡each ¡con8g ¡

  8. Generative Model for Metagenome Assembly II • Assignment ¡of ¡reads ¡to ¡con8gs: ¡ N ¡empty ¡reads ¡are ¡par88oned ¡ between ¡the ¡con8gs ¡ – Assignment ¡of ¡reads ¡to ¡con8gs ¡using ¡Chinese ¡restaurant ¡process ¡ (preferen8al ¡aVachment) ¡ • N -i,s : ¡the ¡number ¡of ¡reads ¡in ¡con8g ¡(cluster) ¡ s , ¡excluding ¡read ¡ i • The ¡probability ¡of ¡assigning ¡the ¡given ¡read ¡to ¡a ¡new ¡con8g ¡is ¡ propor8onal ¡to ¡ α ¡ ¡

  9. Generative Model for Metagenome Assembly III • Read ¡posi8on/alignment ¡within ¡the ¡con8g ¡ s i – Reads ¡are ¡assigned ¡a ¡star8ng ¡point ¡ o i ¡within ¡each ¡con8g ¡ • The ¡loca8ons ¡ o i ¡are ¡centered ¡at ¡0 ¡and ¡can ¡be ¡both ¡nega8ve ¡and ¡ posi8ve ¡from ¡the ¡symmetric ¡geometric ¡distribu8on ¡ ¡

  10. Generative Model for Metagenome Assembly IV – Each ¡read ¡is ¡assigned ¡a ¡length ¡ l i • ¡ L is ¡an ¡arbitrary ¡distribu8on ¡ – the ¡alignment ¡ y i ¡and ¡read ¡leVers ¡ x i for ¡each ¡read ¡is ¡generated ¡from ¡ • A ¡is ¡the ¡noise ¡model ¡known ¡for ¡the ¡sequencing ¡technology ¡(454, ¡ Illumina, ¡etc.): ¡noise ¡can ¡be ¡introduced ¡through ¡inser8ons, ¡ dele8ons, ¡mismatches ¡ • Log ¡likelihood ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡is ¡given ¡as ¡

  11. Learning Algorithm • Iterated ¡condi8onal ¡modes ¡(ICM) ¡algorithm ¡ – Maximize ¡local ¡condi8onal ¡probabili8es ¡sequen8ally: ¡hill-­‑climbing ¡ method ¡ – Find ¡MAP ¡solu8on ¡ – Iterate ¡un8l ¡convergence ¡(200-­‑300 ¡itera8ons) ¡ ¡ – Ini8aliza8on: ¡each ¡read ¡is ¡in ¡its ¡own ¡con8g ¡ • Consensus ¡sequence ¡ – Given ¡aligned ¡reads ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡, ¡where ¡ a so b ¡is ¡the ¡ number ¡of ¡reads ¡that ¡align ¡to ¡the ¡loca8on ¡

  12. Learning Algorithm • Read ¡mapping ¡( s i , o i , y i ) ¡for ¡(con8g, ¡coordinate, ¡alignment) ¡ – Sample ¡from ¡the ¡joint ¡posterior ¡ • Alignment ¡ y i : ¡for ¡each ¡loca8on ¡and ¡con8g, ¡use ¡Smith-­‑Waterman ¡ algori8hm ¡ • Given ¡the ¡best ¡alignment ¡ y so * ¡at ¡each ¡loca8on ¡and ¡con8g, ¡ determine ¡the ¡read ¡mapping ¡by ¡sampling ¡from ¡ – N s : ¡the ¡number ¡of ¡reads ¡in ¡each ¡con8g ¡ • Filtering ¡some ¡of ¡the ¡mappings ¡( s i , o i , y i ) ¡by ¡10-­‑mer ¡matching ¡

  13. Learning Algorithm • Global ¡moves ¡to ¡improve ¡convergence ¡ – Merge: ¡merge ¡two ¡con8gs ¡whose ¡ends ¡overlaps, ¡if ¡it ¡improves ¡the ¡ likelihood ¡ – Center: ¡change ¡the ¡coordinate ¡system ¡of ¡each ¡sequence ¡to ¡maximize ¡ the ¡ p ( o ) ¡component ¡of ¡the ¡likelihood ¡

  14. Learning Algorithm

  15. Evaluation Metric • BLAST ¡profile ¡ – Es8ma8on ¡of ¡the ¡number ¡of ¡genome ¡bases ¡that ¡the ¡con8g ¡spans ¡ – BLAST ¡the ¡con8gs ¡and ¡score ¡each ¡nucleo8des ¡in ¡the ¡con8gs ¡based ¡on ¡ the ¡BLAST ¡scores ¡ • PFAM ¡profile ¡ – The ¡total ¡number ¡of ¡decoded ¡amino ¡acids ¡matched ¡by ¡PFAM ¡profiles ¡ ader ¡decoding ¡the ¡con8gs ¡into ¡protein ¡sequences ¡and ¡annota8ng ¡ them ¡with ¡PFAM ¡profile ¡detec8on ¡tools ¡ – Examine ¡the ¡func8onal ¡annota8on ¡of ¡the ¡con8gs ¡

  16. Evaluation Metric • Likelihood-­‑based ¡scores ¡ • L: ¡the ¡total ¡length ¡of ¡all ¡con8gs ¡ • S: ¡the ¡number ¡of ¡con8gs ¡ – First ¡term: ¡penaliza8on ¡for ¡read ¡errors ¡ – Second ¡term: ¡penaliza8on ¡for ¡con8g ¡length ¡for ¡the ¡trade-­‑off ¡between ¡ con8g ¡length ¡and ¡accuracy ¡for ¡a ¡good ¡assembly ¡ – Third ¡term: ¡ensuring ¡a ¡minimal ¡overlap ¡of ¡ V 0 ¡bases ¡between ¡two ¡ consecu8ve ¡reads ¡ ¡ ¡

  17. Experiments Synthe8c ¡datasets ¡ • – 454-­‑250bp ¡reads ¡ – The ¡dataset ¡was ¡composed ¡of ¡the ¡following ¡sequences ¡(in ¡parenthesis, ¡number ¡of ¡ reads) ¡ • Acidianus ¡filamentous ¡virus ¡1 ¡(14505) ¡ • Akabane ¡virus ¡segment ¡L ¡(4247) ¡ • Akabane ¡virus ¡segment ¡M ¡(2636) ¡ • Black ¡queen ¡cell ¡virus ¡(5309) ¡ • Cactus ¡virus ¡X ¡(3523) ¡ • Chinese ¡wheat ¡mosaic ¡virus ¡RNA1 ¡(3300) ¡ • Chinese ¡wheat ¡mosaic ¡virus ¡RNA2 ¡(1649) ¡ • Cucurbit ¡aphid-­‑borne ¡yellows ¡virus ¡(2183) ¡ • Equine ¡arteri8s ¡virus ¡(4832) ¡ • Goose ¡paramyxovirus ¡SF02 ¡(4714) ¡ ¡ • Human ¡papillomavirus ¡-­‑ ¡1 ¡(1846) ¡ • Okra ¡mosaic ¡virus ¡(1016) ¡ • ¡Pariacoto ¡virus ¡RNA1 ¡(240) ¡

  18. Experiments • Datasets ¡

  19. Results • Evalua8on ¡based ¡on ¡BLAST ¡profiles ¡

  20. Results • Evalua8on ¡of ¡methods ¡based ¡on ¡PFAM ¡

  21. Results • Evalua8on ¡based ¡on ¡reads’ ¡consistency ¡in ¡assembly ¡

  22. Human Gut Microbiome Studies (Qin et al., Nature, 2010) • MetaHIT ¡(Metagenomics ¡of ¡the ¡human ¡intes8nal ¡tract) ¡project ¡ – Characterize ¡the ¡content, ¡diversity, ¡and ¡func8on ¡of ¡the ¡gut ¡microbiome ¡ among ¡different ¡individuals ¡ – The ¡gut ¡microbiomes ¡contribute ¡to ¡energy ¡harvest ¡from ¡food ¡ – Changes ¡of ¡gut ¡microbiome ¡may ¡be ¡associated ¡with ¡bowel ¡diseases ¡or ¡ obesity ¡

Recommend


More recommend