Evolution 02-‑715 ¡Advanced ¡Topics ¡in ¡Computa8onal ¡ Genomics ¡
Terminology Synteny: ¡the ¡condi8on ¡of ¡two ¡or ¡more ¡genes ¡being ¡located ¡on ¡the ¡same ¡ • chromosome ¡across ¡species ¡whether ¡or ¡not ¡there ¡is ¡demonstrable ¡linkage ¡ between ¡them. ¡ Orthologous ¡genes: ¡two ¡or ¡more ¡genes ¡that ¡diverged ¡aGer ¡ ¡a ¡specia8on ¡ • event ¡ – The ¡history ¡of ¡genes ¡reflect ¡the ¡history ¡of ¡species ¡ – E.g., ¡alpha ¡hemoglobin ¡in ¡man ¡and ¡mouse ¡ Paralogous ¡genes: ¡two ¡or ¡more ¡genes ¡that ¡diverged ¡aGer ¡a ¡duplica8on ¡ • event ¡ – E.g., ¡alpha ¡and ¡beta ¡hemoglobin ¡ Gene ¡family: ¡the ¡set ¡of ¡all ¡genes ¡descended ¡from ¡a ¡single ¡gene ¡in ¡the ¡last ¡ • common ¡ancestor ¡of ¡all ¡species. ¡
Drosophila 12 Species Genomes Conserved ¡homologues: ¡conserved ¡in ¡all ¡species ¡as ¡orthologues ¡or ¡paralogues ¡ • Patch ¡homologues ¡with ¡melanogaster: ¡conserved ¡in ¡at ¡least ¡two ¡species ¡but ¡not ¡found ¡in ¡all ¡species ¡ • Patch ¡homologues ¡without ¡D. ¡melanogaster ¡homologue ¡ • Lineage ¡specific: ¡found ¡only ¡in ¡a ¡single ¡lineage ¡ ¡ • Evolu8on ¡of ¡genes ¡and ¡genomes ¡on ¡the ¡Drosophila ¡phylogeny. ¡Nature, ¡2007. ¡
SPIMAP (Rasmussen& Kellis,Mol. Biol. Evol. 2011.) • Bayesian ¡method ¡for ¡reconstruc8ng ¡gene ¡tress ¡in ¡the ¡ presence ¡of ¡known ¡species ¡trees ¡ • Es8mates ¡gene ¡duplica8on ¡and ¡loss ¡rates, ¡specia8on ¡8mes, ¡ and ¡subs8tuion ¡rates ¡given ¡genome ¡sequence ¡data ¡for ¡ mul8ple ¡species ¡and ¡species ¡tree ¡
Phylogenomic Pipeline
SPIMAP’s Generative Model • Assumes ¡the ¡following ¡informa8on ¡is ¡given ¡ – Species ¡tree ¡(S) ¡ – Prior ¡informa8on ¡on ¡ ¡ • duplica8on ¡and ¡loss ¡rates ¡θ t ¡= ¡(λ, ¡μ) ¡ • Subs8tu8on ¡rate ¡θ b =(α,β) ¡ • Then, ¡SPIMAP ¡specifies ¡genera8ve ¡model ¡for ¡ – Gene ¡tree ¡topology ¡(T) ¡ – Gene ¡tree ¡branch ¡lengths ¡(l) ¡ – Mapping ¡between ¡species ¡tree ¡and ¡gene ¡tree ¡(R) ¡
SPIMAP’s Generative Model
SPIMAP’s Generative Model • Genera8ng ¡tree ¡topology ¡given ¡duplica8on ¡and ¡loss ¡rates ¡(λ, ¡ μ) ¡ – Set ¡the ¡root ¡node ¡of ¡the ¡gene ¡tree ¡to ¡the ¡root ¡of ¡the ¡species ¡tree ¡ – Recursively ¡visits ¡each ¡node ¡to ¡generate ¡child ¡nodes ¡according ¡to ¡ bifurca8on ¡and ¡duplica8on ¡processes ¡ • Surviving ¡nodes ¡ • Ex8nct ¡nodes ¡ • Doomed ¡nodes ¡
SPIMAP’s Generative Model • Genera8ng ¡Subs8tu8on ¡Rates ¡ – Gene-‑specific ¡rate ¡g j ¡for ¡each ¡gene ¡i ¡ – Species-‑specific ¡rate ¡s k ¡for ¡each ¡species ¡k ¡ • Branch ¡lengths ¡in ¡gene ¡trees ¡as ¡a ¡func8on ¡of ¡subs8tu8on ¡rates ¡and ¡ 8me ¡ – l(v k ): ¡branch ¡length ¡between ¡node ¡v k ¡and ¡its ¡parent ¡in ¡the ¡tree ¡ – t(v k ): ¡elapsed ¡8me ¡to ¡v k ¡since ¡its ¡parent ¡
SPIMAP’s Generative Model • SPIMAP ¡finds ¡a ¡maximum ¡a ¡posteriori ¡(MAP) ¡es8mate ¡of ¡the ¡ the ¡parameters ¡ – Gene ¡tree ¡topology ¡(T) ¡ – Gene ¡tree ¡branch ¡lengths ¡(l) ¡ – Mapping ¡between ¡species ¡tree ¡and ¡gene ¡tree ¡(R) ¡ – Data ¡(D) ¡ – ¡Duplica8on/loss ¡rate ¡and ¡subs8tu8on ¡rate ¡θ ¡
Reconciliation between Gene and Species Trees • Specia8on ¡(round ¡nodes) ¡and ¡duplica8on ¡events ¡(starred ¡ nodes) ¡in ¡the ¡gene ¡tree ¡are ¡mapped ¡to ¡the ¡bifurca8on ¡points ¡ (u k ’s) ¡in ¡the ¡species ¡tree ¡
Model Prior Prior ¡on ¡the ¡branch ¡length ¡as ¡a ¡marginal ¡probability ¡aGer ¡integra8ng ¡out ¡ • gene ¡rate ¡g ¡ Decomposi8on ¡with ¡respect ¡to ¡each ¡subtree ¡τ ¡with ¡respect ¡to ¡specia8on ¡ • node ¡ Condi8oning ¡on ¡branch ¡8me ¡t ¡ • Each ¡term ¡in ¡the ¡above ¡equa8on ¡is ¡defined ¡as ¡ • The ¡integral ¡is ¡computed ¡as ¡Monte ¡Carlo ¡integra8on ¡ ¡ •
Factoring Gene Tree • Each ¡branch ¡in ¡the ¡species ¡tree ¡is ¡processed ¡separately. ¡The ¡ 8me ¡points ¡for ¡duplica8on ¡events ¡are ¡treated ¡as ¡hidden. ¡
Implicit Speciation Nodes
Learning Algorithm • Tree ¡search ¡ – Subtree ¡pruning ¡and ¡regraGing ¡to ¡propose ¡new ¡tree ¡topologies ¡T ¡ – For ¡the ¡given ¡tree ¡topology, ¡Newton-‑Rahpson ¡method ¡is ¡used ¡to ¡ es8mate ¡branch ¡lengths ¡ ¡ • Es8mate ¡other ¡model ¡parameters ¡using ¡EM ¡algorithm ¡
Species and Phylogenies in Datasets • 16 ¡fungal ¡species ¡ • 12 ¡Drosophila ¡species ¡
Estimating Substitution Rates • Data ¡for ¡coding ¡sequences ¡are ¡used ¡ • Op8on ¡1: ¡ – One-‑to-‑one ¡orthologous ¡gene ¡trees ¡that ¡are ¡congruent ¡to ¡the ¡species ¡ tree ¡ – Fungi: ¡739 ¡confident ¡one-‑to-‑one ¡orthologous ¡families ¡ – Drosophila: ¡5,154 ¡one-‑to-‑one ¡families ¡ • Op8on ¡2: ¡ – Use ¡gene ¡counts ¡for ¡genes ¡that ¡are ¡present ¡within ¡gene ¡family ¡clusters ¡ which ¡contain ¡duplica8on ¡and ¡loss. ¡
Evaluation Metric I • The ¡ ¡ability ¡to ¡infer ¡syntenic ¡orthologs ¡ ¡ – pairs ¡of ¡genes ¡that ¡are ¡highly ¡likely ¡to ¡be ¡orthologous ¡given ¡their ¡ surrounding ¡conserved ¡gene ¡order ¡ – Syntenic ¡gene ¡pairs ¡should ¡appear ¡within ¡the ¡reconstructed ¡gene ¡tree ¡ such ¡that ¡their ¡most ¡recent ¡common ¡ancestor ¡is ¡a ¡specia8on. ¡
Results from 16 Fungi
Evaluation Metric II • Duplica8on/loss ¡inferred ¡across ¡the ¡clade ¡ – Inferring ¡gene ¡families ¡only ¡from ¡sequences ¡tend ¡to ¡overes8mate ¡ duplica8on/loss ¡rates. ¡(many ¡duplica8ons ¡early ¡on, ¡and ¡many ¡losses ¡ later) ¡
Evaluation Metric III • Duplica8on ¡Consistency ¡Score ¡ – Characterize ¡the ¡plausibility ¡of ¡the ¡inferred ¡duplica8ons ¡ – For ¡each ¡inferred ¡duplica8on, ¡compute ¡ • A, ¡B: ¡the ¡set ¡of ¡species ¡represented ¡in ¡descendants ¡of ¡the ¡ duplica8on ¡event ¡
Duplication Consistency Score Duplica8on ¡ event ¡ Species ¡
Duplication Consistency Score
Summary • SPIMAP ¡incorporates ¡in ¡a ¡unified ¡framework ¡models ¡for ¡gene ¡ duplica8on ¡and ¡loss, ¡gene-‑ ¡and ¡species-‑ ¡specific ¡rate ¡ varia8ons, ¡and ¡sequence ¡subs8tu8on. ¡ – Bayesian ¡model ¡and ¡empirical ¡Bayesian ¡method ¡ – Ignores ¡incomplete ¡lineage ¡sor8ng ¡
Recommend
More recommend