alternative splicing rna seq
play

Alternative Splicing, RNA-Seq 02-715 Advanced Topics in - PowerPoint PPT Presentation

Alternative Splicing, RNA-Seq 02-715 Advanced Topics in Computa8onal Genomics Alternative Splicing Pre-mRNAs can be spliced and different combina8ons of exons lead


  1. Alternative Splicing, RNA-Seq 02-­‑715 ¡Advanced ¡Topics ¡in ¡Computa8onal ¡ Genomics ¡

  2. Alternative Splicing • Pre-­‑mRNAs ¡can ¡be ¡spliced ¡and ¡different ¡combina8ons ¡of ¡ exons ¡lead ¡to ¡different ¡transcripts ¡ • Pre-­‑mRNA ¡CasseCe ¡Exon ¡

  3. High-Throughput Data • Exon ¡abundance ¡ measurements ¡ • mRNA ¡abundance ¡(gene ¡ expression) ¡ measurements ¡

  4. Tissue-specific Expressions of Exons • ¡Clustering ¡exon ¡ measurements ¡for ¡27 ¡ mouse ¡8ssues ¡

  5. Motivation • Are ¡any ¡8ssue/condi8on-­‑specific ¡alterna8ve ¡splicing ¡paCerns ¡ that ¡underlie ¡the ¡observed ¡high-­‑throughput ¡exon ¡abundance ¡ measurements? ¡ • How ¡can ¡we ¡take ¡advantage ¡of ¡gene ¡expression ¡data ¡in ¡ addi8on ¡to ¡exon ¡abundance ¡data? ¡ • How ¡can ¡we ¡dis8nguish ¡between ¡varia8ons ¡in ¡true ¡alterna8ve ¡ splicing ¡in ¡condi8ons/8ssue-­‑types ¡and ¡the ¡background ¡noise? ¡

  6. Proposed Approach • Advantages ¡of ¡probabilis8c ¡modeling ¡ – More ¡flexible ¡than ¡conven8onal ¡matrix ¡factoriza8on ¡methods ¡such ¡as ¡ PCA ¡and ¡factor ¡analysis ¡ – Provides ¡means ¡to ¡incorporate ¡prior ¡knowledge ¡ • Supervised ¡vs. ¡unsupervised ¡learning ¡ – Supervised ¡approach: ¡the ¡condi8on/8ssue ¡types ¡are ¡assumed ¡to ¡be ¡ known ¡and ¡we ¡try ¡to ¡look ¡for ¡paCerns ¡that ¡dis8nguish ¡among ¡the ¡ condi8ons/8ssue-­‑types ¡ – Unsupervised ¡approach: ¡the ¡condi8on/8ssue ¡types ¡are ¡not ¡known ¡ (e.g., ¡PCA) ¡ – Semi-­‑supervised ¡learning? ¡ ¡

  7. Probabilistic Matrix Factorization • Observed ¡measurements ¡ e ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡[0,1]: ¡observa8on ¡for ¡exon ¡ e ¡( e =1,…, E ) ¡and ¡condi8on ¡ t ¡( t =1, – x t ∈ …, T ) ¡ – νte ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡R: ¡expression ¡level ¡of ¡gene ¡corresponding ¡to ¡exon ¡e ¡and ¡ ∈ condi8on ¡t ¡ • Factor ¡model ¡for ¡exon ¡abundance ¡ x t e ¡ • C : ¡the ¡number ¡of ¡latent ¡factors ¡ • λ c ={ λ c,1 , ¡…, ¡ λ c,T }: ¡the ¡ c -­‑th ¡factor ¡describing ¡underlying ¡alterna8ve ¡ splicing ¡signal ¡ • m c e : ¡exon-­‑specific ¡weight ¡(exon ¡ e ) ¡for ¡the ¡ c -­‑th ¡factor ¡ ¡ ¡ ¡ ¡ ¡ ¡

  8. Sparsity Constraint • Not ¡all ¡of ¡the ¡alterna8ve-­‑splicing ¡signals ¡( λ c ‘s) ¡are ¡present ¡in ¡ each ¡exon ¡abundance ¡measurements ¡( x e ={ x 1 e ,…, ¡ x T e }) • Enforcing ¡sparsity ¡by ¡introducing ¡another ¡layer ¡of ¡latent ¡ variables ¡ s c e ’s ¡ e ¡ =0: ¡the ¡corresponding ¡alterna8ve-­‑splicing ¡signal ¡is ¡not ¡present ¡in ¡ – s c the ¡given ¡exon ¡ e ¡ =+1: ¡the ¡corresponding ¡alterna8ve-­‑splicing ¡signal ¡is ¡present ¡with ¡ – s c posi8ve ¡weight ¡ e ¡ =-­‑1: ¡the ¡corresponding ¡alterna8ve-­‑splicing ¡signal ¡is ¡present ¡with ¡ – s c nega8ve ¡weight ¡ – Sparse ¡prior: ¡ ¡

  9. Model for Exon Abundance Measurements • Pudng ¡it ¡together, ¡we ¡have ¡a ¡mixture ¡model ¡

  10. Incorporating Gene Expression Data • If ¡the ¡expression ¡of ¡a ¡gene ¡is ¡absent ¡in ¡condi8on ¡t, ¡the ¡ corresponding ¡entry ¡for ¡exon-­‑abundance ¡measurements ¡ should ¡be ¡ignored, ¡or ¡modeled ¡as ¡background ¡model. ¡ • Introduce ¡an ¡indicator ¡variable ¡ n t e ¡to ¡model ¡whether ¡gene ¡ e ¡is ¡ expressed ¡or ¡not ¡under ¡condi8on ¡ t ¡ ¡

  11. Probabilistic Model for Detecting Alternative Splicing Signals • Graphical ¡model ¡representa8on ¡

  12. Learning the Model • EM ¡algorithm ¡ e , ¡ s c e , ¡ m c e ‘ s ¡are ¡unobserved ¡latent ¡variables ¡ – n t – In ¡order ¡to ¡improve ¡the ¡efficiency ¡of ¡the ¡E-­‑step, ¡introduce ¡varia8onal ¡ approxima8on ¡

  13. Learning the Model • Some ¡issues ¡that ¡need ¡to ¡be ¡considered ¡ – The ¡varia8onal ¡EM ¡algorithm ¡converges ¡to ¡the ¡local ¡minimum ¡(no ¡ guarantee ¡for ¡global ¡op8mum) ¡ – The ¡results ¡can ¡be ¡sensi8ve ¡to ¡ini8aliza8on ¡method ¡ – The ¡number ¡of ¡factors ¡ C ¡needs ¡to ¡be ¡pre-­‑specified ¡ • Also ¡can ¡be ¡determined ¡by ¡cross ¡valida8on ¡ – The ¡sparsity ¡level ¡ P ( s c e =0) ¡needs ¡to ¡be ¡specified ¡by ¡the ¡user ¡

  14. Incorporating Prior Knowledge • If ¡there ¡are ¡known ¡alterna8ve-­‑splicing ¡signals, ¡one ¡can ¡fix ¡ λ c ‘s ¡ for ¡those ¡known ¡factors ¡and ¡learn ¡the ¡weights ¡along ¡with ¡the ¡ factors ¡and ¡weights ¡for ¡other ¡unknown ¡signals ¡ • Also, ¡the ¡known ¡ λ c ‘s ¡can ¡be ¡used ¡to ¡ini8alize ¡the ¡varia8onal ¡ EM ¡algorithm ¡

  15. Dataset • Dataset ¡of ¡Fagnani ¡et ¡al. ¡(2007) ¡ – 3707 ¡casseCe ¡exons ¡measured ¡across ¡27 ¡mouse ¡8ssues ¡ – CNS, ¡muscle, ¡embryo, ¡and ¡diges8ve ¡8ssues ¡ • Comparison ¡of ¡methods ¡such ¡as ¡SVD, ¡supervised ¡learning ¡ methods ¡

  16. SVD Analysis Eigen-­‑exons ¡

  17. Enrichment Analysis • Comparison ¡of ¡different ¡methods ¡

  18. Results from Probabilistic Model • Varying ¡the ¡number ¡of ¡alterna8ve-­‑splicing ¡signals ¡

  19. Regulatory Features Associated with Alternative Splicing Signals • Enriched ¡mo8fs ¡ – Nova ¡YCAY ¡mo8fs: ¡enriched ¡in ¡the ¡downstream ¡introns ¡of ¡exons ¡ associated ¡with ¡increased ¡inclusion ¡in ¡CNS ¡and ¡downstream ¡of ¡exons ¡ downregulated ¡in ¡those ¡8ssues ¡ – Fox ¡mo8f ¡variants: ¡associated ¡with ¡inclusion ¡in ¡muscle ¡and ¡brain ¡ 8ssues ¡when ¡appearing ¡in ¡the ¡downstream ¡intron ¡ – CU-­‑rich ¡mo8fs: ¡enriched ¡in ¡up ¡and ¡downstream ¡of ¡exons ¡exhibi8ng ¡ splicing ¡changes ¡in ¡several ¡8ssue ¡groups ¡including ¡CNS ¡

  20. RNA-Seq • Transcriptome ¡sequencing ¡provides ¡ – Access ¡to ¡rare ¡transcripts ¡ ¡ – Nucleo8de-­‑resolu8on ¡of ¡transcripts ¡ – Detec8on ¡of ¡novel ¡transcripts, ¡alterna8ve-­‑splicing ¡paCerns ¡ – Allele-­‑specific ¡transcript ¡abundance ¡

  21. RNA-Seq for HapMap3 Individuals (Montgomery et al., Nature, 2010) • RNA-­‑Seq ¡for ¡mRNAs ¡of ¡60 ¡HapMap3 ¡individuals ¡ • Mapping ¡the ¡reads ¡ – 86% ¡of ¡the ¡reads ¡map ¡to ¡known ¡exons ¡in ¡Ensembl ¡ – 15% ¡of ¡the ¡read ¡pairs ¡span ¡more ¡than ¡one ¡exon ¡ • Assembling ¡the ¡exons ¡and ¡reads ¡into ¡isoforms ¡and ¡transcripts ¡ • 90,064 ¡exons, ¡15,967 ¡transcripts, ¡10,777 ¡genes ¡

  22. Alternative Splicing and eQTLs • eQTLs ¡are ¡enriched ¡in ¡first, ¡second, ¡and ¡last ¡exons ¡ ¡

  23. Alternative Splicing and Genetic Variation • The ¡gene8c ¡varia8on ¡ affects ¡both ¡transcript ¡ abundance ¡and ¡ transcript ¡diversity ¡ ¡

  24. Alternative Splicing and Genetic Variation • The ¡gene8c ¡varia8on ¡ affects ¡the ¡transcript ¡ abundance ¡but ¡not ¡the ¡ diversity ¡

Recommend


More recommend