Metagenomics 02-‑715 ¡Advanced ¡Topics ¡in ¡Computa8onal ¡ Genomics ¡
Metagenomics • Popula8on ¡sequencing ¡ • Goal: ¡recover ¡the ¡genomic ¡sequences ¡of ¡the ¡species ¡in ¡the ¡ gene8cally ¡diverse ¡environmental ¡samples ¡ – Human ¡gut, ¡honey ¡bees, ¡corals, ¡ecosystems ¡ – Cancer ¡tumor ¡cells, ¡pathogen ¡popula8ons ¡such ¡as ¡HIV ¡viral ¡strains ¡ • Why ¡metagenomics? ¡ – Discovery ¡of ¡new ¡species ¡ – Understanding ¡disease ¡progression ¡in ¡cancer ¡
Metagenomics • Challenges ¡ – Assembly ¡of ¡a ¡large ¡number ¡of ¡rela8vely ¡short ¡and ¡noisy ¡reads ¡of ¡the ¡ DNA ¡in ¡a ¡sample ¡from ¡next ¡genera8on ¡sequencers ¡ – Uncertainty ¡of ¡the ¡popula8on’s ¡size ¡and ¡composi8on ¡ – Uneven ¡coverage ¡across ¡species: ¡coverage ¡is ¡affected ¡by ¡the ¡species’ ¡ frequency ¡in ¡the ¡sample ¡ – Reconstruc8ng ¡sequenes ¡even ¡for ¡the ¡low-‑coverage ¡species ¡
Genovo • De ¡novo ¡sequence ¡assembler ¡ ¡ • Model-‑based ¡approach ¡ – a ¡genera8ve ¡probabilis8c ¡model ¡of ¡read ¡genera8on ¡from ¡ environmental ¡samples ¡is ¡specified ¡ – Captures ¡the ¡uncertainty ¡of ¡the ¡popula8on ¡structure ¡and ¡noise ¡model ¡ of ¡the ¡sequencing ¡technology ¡ – Chinese ¡restaurant ¡process ¡for ¡the ¡unknown ¡number ¡of ¡genomes ¡in ¡ the ¡sample ¡
Generative Model for Metagenome Assembly • Genera8ve ¡models ¡for ¡ – Con8gs ¡{ b so } ¡for ¡leXers ¡at ¡posi8ons ¡ o ¡of ¡con8g ¡ s – Reads ¡ x i ’s ¡within ¡con8g ¡number ¡ s i ¡and ¡star8ng ¡loca8on ¡ o i ¡within ¡the ¡ con8g ¡ – Alignment ¡ y i ¡(orienta8on, ¡inser8ons, ¡dele8ons) ¡for ¡matching ¡ x i ¡to ¡the ¡ con8g ¡ • Assume ¡an ¡infinite ¡number ¡of ¡con8gs ¡in ¡prior, ¡but ¡in ¡the ¡ posterior ¡only ¡a ¡finite ¡number ¡of ¡con8gs ¡are ¡supported ¡by ¡ reads ¡
Generative Model for Metagenome Assembly I • Con8gs: ¡Infinitely ¡many ¡leXers ¡in ¡infinitely ¡many ¡con8gs ¡are ¡ sampled ¡uniformly ¡ – Assume ¡an ¡infinite ¡number ¡of ¡con8gs ¡with ¡infinite ¡number ¡of ¡ nucleo8des ¡in ¡each ¡con8g ¡
Generative Model for Metagenome Assembly II • Assignment ¡of ¡reads ¡to ¡con8gs: ¡ N ¡empty ¡reads ¡are ¡par88oned ¡ between ¡the ¡con8gs ¡ – Assignment ¡of ¡reads ¡to ¡con8gs ¡using ¡Chinese ¡restaurant ¡process ¡ (preferen8al ¡aXachment) ¡ • N -i,s : ¡the ¡number ¡of ¡reads ¡in ¡con8g ¡ s , ¡excluding ¡read ¡ i • The ¡probability ¡of ¡assigning ¡the ¡given ¡read ¡to ¡a ¡new ¡con8g ¡is ¡ propor8onal ¡to ¡ α ¡ ¡
Generative Model for Metagenome Assembly III • Read ¡posi8on/alignment ¡within ¡the ¡con8g ¡ s i – Reads ¡are ¡assigned ¡a ¡star8ng ¡point ¡ o i ¡within ¡each ¡con8g ¡ • The ¡loca8ons ¡ o i ¡are ¡centered ¡at ¡0 ¡and ¡can ¡be ¡both ¡nega8ve ¡and ¡ posi8ve ¡from ¡the ¡symmetric ¡geometric ¡distribu8on ¡ ¡
Generative Model for Metagenome Assembly IV – Each ¡read ¡is ¡assigned ¡a ¡length ¡ l i • ¡ L is ¡an ¡arbitrary ¡distribu8on ¡ – the ¡alignment ¡ y i ¡for ¡each ¡read ¡is ¡generated ¡ • A ¡is ¡the ¡noise ¡model ¡known ¡for ¡the ¡sequencing ¡technology ¡(454, ¡ Illumina, ¡etc.): ¡noise ¡can ¡be ¡introduced ¡through ¡inser8ons, ¡ dele8ons, ¡mismatches ¡ • Log ¡likelihood ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡is ¡given ¡as ¡
Learning Algorithm • Iterated ¡condi8onal ¡modes ¡(ICM) ¡algorithm ¡ – Maximize ¡local ¡condi8onal ¡probabili8es ¡sequen8ally: ¡hill-‑climbing ¡ method ¡ – Find ¡MAP ¡solu8on ¡ – Iterate ¡un8l ¡convergence ¡(200-‑300 ¡itera8ons) ¡ ¡ – Ini8aliza8on: ¡each ¡read ¡is ¡in ¡its ¡own ¡con8g ¡ • Consensus ¡sequence ¡ – Given ¡aligned ¡reads ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡, ¡where ¡ a so b ¡is ¡the ¡ number ¡of ¡reads ¡that ¡align ¡to ¡the ¡loca8on ¡
Learning Algorithm • Read ¡mapping ¡( s i , o i , y i ) ¡ – Sample ¡from ¡the ¡joint ¡posterior ¡ • Alignment ¡ y i : ¡for ¡each ¡loca8on ¡and ¡con8g, ¡use ¡Smith-‑Waterman ¡ algori8hm ¡ • Given ¡the ¡best ¡alignment ¡ y so * ¡at ¡each ¡loca8on ¡and ¡con8g, ¡ determine ¡the ¡read ¡mapping ¡by ¡sampling ¡from ¡ – N s : ¡the ¡number ¡of ¡reads ¡in ¡each ¡con8g ¡ • Filtering ¡some ¡of ¡the ¡mappings ¡( s i , o i , y i ) ¡by ¡10-‑mer ¡matching ¡
Learning Algorithm • Global ¡moves ¡to ¡improve ¡convergence ¡ – Merge: ¡merge ¡two ¡con8gs ¡whose ¡ends ¡overlaps, ¡if ¡it ¡improves ¡the ¡ likelihood ¡ – Center: ¡change ¡the ¡coordinate ¡system ¡of ¡each ¡sequence ¡to ¡maximize ¡ the ¡ p ( o ) ¡component ¡of ¡the ¡likelihood ¡
Evaluation Metric • BLAST ¡profile ¡ – Es8ma8on ¡of ¡the ¡number ¡of ¡genome ¡bases ¡that ¡the ¡con8g ¡spans ¡ – BLAST ¡the ¡con8gs ¡and ¡score ¡each ¡nucleo8des ¡in ¡the ¡con8gs ¡based ¡on ¡ the ¡BLAST ¡scores ¡ • PFAM ¡profile ¡ – The ¡total ¡number ¡of ¡decoded ¡amino ¡acids ¡matched ¡by ¡PFAM ¡profiles ¡ aeer ¡decoding ¡the ¡con8gs ¡into ¡protein ¡sequences ¡and ¡annota8ng ¡ them ¡with ¡PFAM ¡profile ¡detec8on ¡tools ¡ – Examine ¡the ¡func8onal ¡annota8on ¡of ¡the ¡con8gs ¡
Evaluation Metric • Likelihood-‑based ¡scores ¡ – First ¡term: ¡penaliza8on ¡for ¡read ¡errors ¡ – Second ¡term: ¡penaliza8on ¡for ¡con8g ¡length ¡for ¡the ¡trade-‑off ¡between ¡ con8g ¡length ¡and ¡accuracy ¡for ¡a ¡good ¡assembly ¡ – Third ¡term: ¡ensuring ¡a ¡minimal ¡overlap ¡of ¡ V 0 ¡bases ¡between ¡two ¡ consecu8ve ¡reads ¡ ¡ ¡
Experiments Synthe8c ¡datasets ¡ • – 454-‑250bp ¡reads ¡ – The ¡dataset ¡was ¡composed ¡of ¡the ¡following ¡sequences ¡(in ¡parenthesis, ¡number ¡of ¡ reads) ¡ • Acidianus ¡filamentous ¡virus ¡1 ¡(14505) ¡ • Akabane ¡virus ¡segment ¡L ¡(4247) ¡ • Akabane ¡virus ¡segment ¡M ¡(2636) ¡ • Black ¡queen ¡cell ¡virus ¡(5309) ¡ • Cactus ¡virus ¡X ¡(3523) ¡ • Chinese ¡wheat ¡mosaic ¡virus ¡RNA1 ¡(3300) ¡ • Chinese ¡wheat ¡mosaic ¡virus ¡RNA2 ¡(1649) ¡ • Cucurbit ¡aphid-‑borne ¡yellows ¡virus ¡(2183) ¡ • Equine ¡arteri8s ¡virus ¡(4832) ¡ • Goose ¡paramyxovirus ¡SF02 ¡(4714) ¡ ¡ • Human ¡papillomavirus ¡-‑ ¡1 ¡(1846) ¡ • Okra ¡mosaic ¡virus ¡(1016) ¡ • ¡Pariacoto ¡virus ¡RNA1 ¡(240) ¡
Experiments • Datasets ¡
Results • Evalua8on ¡based ¡on ¡BLAST ¡profiles ¡
Results • Evalua8on ¡of ¡methods ¡based ¡on ¡PFAM ¡
Results • Evalua8on ¡based ¡on ¡reads’ ¡consistency ¡in ¡assembly ¡
Human Gut Microbiome Studies (Qin et al., Nature, 2010) • MetaHIT ¡(Metagenomics ¡of ¡the ¡human ¡intes8nal ¡tract) ¡project ¡ – Characterize ¡the ¡content, ¡diversity, ¡and ¡func8on ¡of ¡the ¡gul ¡microbiome ¡ among ¡different ¡individuals ¡ – The ¡gut ¡microbiomes ¡contri ¡ute ¡to ¡energy ¡harvst ¡from ¡food ¡ – Changes ¡of ¡gut ¡microbiome ¡may ¡be ¡associated ¡with ¡bowel ¡diseases ¡or ¡ obesity ¡
Recommend
More recommend