Alternative Splicing, RNA-Seq 02-‑715 ¡Advanced ¡Topics ¡in ¡Computa8onal ¡ Genomics ¡
Alternative Splicing • Pre-‑mRNAs ¡can ¡be ¡spliced ¡and ¡different ¡combina8ons ¡of ¡ exons ¡lead ¡to ¡different ¡transcripts ¡ • Pre-‑mRNA ¡CasseCe ¡Exon ¡
High-Throughput Data • Exon ¡abundance ¡ measurements ¡ • mRNA ¡abundance ¡(gene ¡ expression) ¡ measurements ¡
Tissue-specific Expressions of Exons • ¡Clustering ¡exon ¡ measurements ¡for ¡27 ¡ mouse ¡8ssues ¡
Motivation • Are ¡any ¡8ssue/condi8on-‑specific ¡alterna8ve ¡splicing ¡paCerns ¡ that ¡underlie ¡the ¡observed ¡high-‑throughput ¡exon ¡abundance ¡ measurements? ¡ • How ¡can ¡we ¡take ¡advantage ¡of ¡gene ¡expression ¡data ¡in ¡ addi8on ¡to ¡exon ¡abundance ¡data? ¡ • How ¡can ¡we ¡dis8nguish ¡between ¡varia8ons ¡in ¡true ¡alterna8ve ¡ splicing ¡in ¡condi8ons/8ssue-‑types ¡and ¡the ¡background ¡noise? ¡
Proposed Approach • Advantages ¡of ¡probabilis8c ¡modeling ¡ – More ¡flexible ¡than ¡conven8onal ¡matrix ¡factoriza8on ¡methods ¡such ¡as ¡ PCA ¡and ¡factor ¡analysis ¡ – Provides ¡means ¡to ¡incorporate ¡prior ¡knowledge ¡ • Supervised ¡vs. ¡unsupervised ¡learning ¡ – Supervised ¡approach: ¡the ¡condi8on/8ssue ¡types ¡are ¡assumed ¡to ¡be ¡ known ¡and ¡we ¡try ¡to ¡look ¡for ¡paCerns ¡that ¡dis8nguish ¡among ¡the ¡ condi8ons/8ssue-‑types ¡ – Unsupervised ¡approach: ¡the ¡condi8on/8ssue ¡types ¡are ¡not ¡known ¡ (e.g., ¡PCA) ¡ – Semi-‑supervised ¡learning? ¡ ¡
Probabilistic Matrix Factorization • Observed ¡measurements ¡ e ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡[0,1]: ¡observa8on ¡for ¡exon ¡ e ¡( e =1,…, E ) ¡and ¡condi8on ¡ t ¡( t =1, – x t ∈ …, T ) ¡ – νte ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡R: ¡expression ¡level ¡of ¡gene ¡corresponding ¡to ¡exon ¡e ¡and ¡ ∈ condi8on ¡t ¡ • Factor ¡model ¡for ¡exon ¡abundance ¡ x t e ¡ • C : ¡the ¡number ¡of ¡latent ¡factors ¡ • λ c ={ λ c,1 , ¡…, ¡ λ c,T }: ¡the ¡ c -‑th ¡factor ¡describing ¡underlying ¡alterna8ve ¡ splicing ¡signal ¡ • m c e : ¡exon-‑specific ¡weight ¡(exon ¡ e ) ¡for ¡the ¡ c -‑th ¡factor ¡ ¡ ¡ ¡ ¡ ¡ ¡
Sparsity Constraint • Not ¡all ¡of ¡the ¡alterna8ve-‑splicing ¡signals ¡( λ c ‘s) ¡are ¡present ¡in ¡ each ¡exon ¡abundance ¡measurements ¡( x e ={ x 1 e ,…, ¡ x T e }) • Enforcing ¡sparsity ¡by ¡introducing ¡another ¡layer ¡of ¡latent ¡ variables ¡ s c e ’s ¡ e ¡ =0: ¡the ¡corresponding ¡alterna8ve-‑splicing ¡signal ¡is ¡not ¡present ¡in ¡ – s c the ¡given ¡exon ¡ e ¡ =+1: ¡the ¡corresponding ¡alterna8ve-‑splicing ¡signal ¡is ¡present ¡with ¡ – s c posi8ve ¡weight ¡ e ¡ =-‑1: ¡the ¡corresponding ¡alterna8ve-‑splicing ¡signal ¡is ¡present ¡with ¡ – s c nega8ve ¡weight ¡ – Sparse ¡prior: ¡ ¡
Model for Exon Abundance Measurements • Pudng ¡it ¡together, ¡we ¡have ¡a ¡mixture ¡model ¡
Incorporating Gene Expression Data • If ¡the ¡expression ¡of ¡a ¡gene ¡is ¡absent ¡in ¡condi8on ¡t, ¡the ¡ corresponding ¡entry ¡for ¡exon-‑abundance ¡measurements ¡ should ¡be ¡ignored, ¡or ¡modeled ¡as ¡background ¡model. ¡ • Introduce ¡an ¡indicator ¡variable ¡ n t e ¡to ¡model ¡whether ¡gene ¡ e ¡is ¡ expressed ¡or ¡not ¡under ¡condi8on ¡ t ¡ ¡
Probabilistic Model for Detecting Alternative Splicing Signals • Graphical ¡model ¡representa8on ¡
Learning the Model • EM ¡algorithm ¡ e , ¡ s c e , ¡ m c e ‘ s ¡are ¡unobserved ¡latent ¡variables ¡ – n t – In ¡order ¡to ¡improve ¡the ¡efficiency ¡of ¡the ¡E-‑step, ¡introduce ¡varia8onal ¡ approxima8on ¡
Learning the Model • Some ¡issues ¡that ¡need ¡to ¡be ¡considered ¡ – The ¡varia8onal ¡EM ¡algorithm ¡converges ¡to ¡the ¡local ¡minimum ¡(no ¡ guarantee ¡for ¡global ¡op8mum) ¡ – The ¡results ¡can ¡be ¡sensi8ve ¡to ¡ini8aliza8on ¡method ¡ – The ¡number ¡of ¡factors ¡ C ¡needs ¡to ¡be ¡pre-‑specified ¡ • Also ¡can ¡be ¡determined ¡by ¡cross ¡valida8on ¡ – The ¡sparsity ¡level ¡ P ( s c e =0) ¡needs ¡to ¡be ¡specified ¡by ¡the ¡user ¡
Incorporating Prior Knowledge • If ¡there ¡are ¡known ¡alterna8ve-‑splicing ¡signals, ¡one ¡can ¡fix ¡ λ c ‘s ¡ for ¡those ¡known ¡factors ¡and ¡learn ¡the ¡weights ¡along ¡with ¡the ¡ factors ¡and ¡weights ¡for ¡other ¡unknown ¡signals ¡ • Also, ¡the ¡known ¡ λ c ‘s ¡can ¡be ¡used ¡to ¡ini8alize ¡the ¡varia8onal ¡ EM ¡algorithm ¡
Dataset • Dataset ¡of ¡Fagnani ¡et ¡al. ¡(2007) ¡ – 3707 ¡casseCe ¡exons ¡measured ¡across ¡27 ¡mouse ¡8ssues ¡ – CNS, ¡muscle, ¡embryo, ¡and ¡diges8ve ¡8ssues ¡ • Comparison ¡of ¡methods ¡such ¡as ¡SVD, ¡supervised ¡learning ¡ methods ¡
SVD Analysis Eigen-‑exons ¡
Enrichment Analysis • Comparison ¡of ¡different ¡methods ¡
Results from Probabilistic Model • Varying ¡the ¡number ¡of ¡alterna8ve-‑splicing ¡signals ¡
Regulatory Features Associated with Alternative Splicing Signals • Enriched ¡mo8fs ¡ – Nova ¡YCAY ¡mo8fs: ¡enriched ¡in ¡the ¡downstream ¡introns ¡of ¡exons ¡ associated ¡with ¡increased ¡inclusion ¡in ¡CNS ¡and ¡downstream ¡of ¡exons ¡ downregulated ¡in ¡those ¡8ssues ¡ – Fox ¡mo8f ¡variants: ¡associated ¡with ¡inclusion ¡in ¡muscle ¡and ¡brain ¡ 8ssues ¡when ¡appearing ¡in ¡the ¡downstream ¡intron ¡ – CU-‑rich ¡mo8fs: ¡enriched ¡in ¡up ¡and ¡downstream ¡of ¡exons ¡exhibi8ng ¡ splicing ¡changes ¡in ¡several ¡8ssue ¡groups ¡including ¡CNS ¡
RNA-Seq • Transcriptome ¡sequencing ¡provides ¡ – Access ¡to ¡rare ¡transcripts ¡ ¡ – Nucleo8de-‑resolu8on ¡of ¡transcripts ¡ – Detec8on ¡of ¡novel ¡transcripts, ¡alterna8ve-‑splicing ¡paCerns ¡ – Allele-‑specific ¡transcript ¡abundance ¡
RNA-Seq for HapMap3 Individuals (Montgomery et al., Nature, 2010) • RNA-‑Seq ¡for ¡mRNAs ¡of ¡60 ¡HapMap3 ¡individuals ¡ • Mapping ¡the ¡reads ¡ – 86% ¡of ¡the ¡reads ¡map ¡to ¡known ¡exons ¡in ¡Ensembl ¡ – 15% ¡of ¡the ¡read ¡pairs ¡span ¡more ¡than ¡one ¡exon ¡ • Assembling ¡the ¡exons ¡and ¡reads ¡into ¡isoforms ¡and ¡transcripts ¡ • 90,064 ¡exons, ¡15,967 ¡transcripts, ¡10,777 ¡genes ¡
Alternative Splicing and eQTLs • eQTLs ¡are ¡enriched ¡in ¡first, ¡second, ¡and ¡last ¡exons ¡ ¡
Alternative Splicing and Genetic Variation • The ¡gene8c ¡varia8on ¡ affects ¡both ¡transcript ¡ abundance ¡and ¡ transcript ¡diversity ¡ ¡
Alternative Splicing and Genetic Variation • The ¡gene8c ¡varia8on ¡ affects ¡the ¡transcript ¡ abundance ¡but ¡not ¡the ¡ diversity ¡
Recommend
More recommend