Introduc)on ¡to ¡the ¡Analysis ¡of ¡ ¡ RNA-‑seq ¡Data ¡ Lecture ¡9: ¡September ¡18, ¡2012 ¡ ¡
Introduc)on ¡
What ¡is ¡RNA-‑seq? ¡ • RNA-‑seq ¡refers ¡to ¡the ¡method ¡of ¡using ¡Next ¡ Genera)on ¡Sequencing ¡(NGS) ¡technology ¡ to ¡measure ¡RNA ¡levels. ¡ • Is ¡used ¡to ¡evaluate ¡the ¡“expression ¡level” ¡of ¡ a ¡gene ¡(or ¡“gene ¡expression”). ¡ • Many ¡events ¡can ¡control ¡the ¡expression ¡ level ¡of ¡a ¡gene ¡so ¡simply ¡looking ¡at ¡the ¡ genome ¡and ¡annota)ng ¡a ¡gene ¡is ¡not ¡ enough ¡informa)on. ¡
Item ¡to ¡be ¡sequenced: ¡ 1. Extract ¡all ¡mRNA. ¡ 2. Prepare ¡a ¡library ¡of ¡ ¡ fragments. ¡ 3. Sequence ¡fragments. ¡ 4. Analysis, ¡analysis, ¡ analysis. ¡ ¡ 4 ¡
Not ¡all ¡gene)c ¡code ¡is ¡transcribed ¡and ¡translated, ¡ and ¡the ¡rate ¡of ¡transcrip)on ¡will ¡affect ¡the ¡ amount ¡of ¡protein ¡being ¡made. ¡ • The ¡goal ¡is ¡to ¡es)mate ¡the ¡amount ¡of ¡protein ¡ that ¡will ¡be ¡made. ¡ 5 ¡
Splicing ¡ • A ¡very ¡important ¡modifica)on ¡of ¡eukaryo)c ¡pre-‑ mRNA ¡is ¡splicing. ¡ • The ¡majority ¡of ¡eukaryo)c ¡pre-‑mRNAs ¡consist ¡of ¡ alterna)ng ¡segments ¡called ¡ exons ¡and ¡ introns . ¡ ¡ • During ¡splicing, ¡an ¡RNA-‑protein ¡complex ¡called ¡a ¡ spliceosome ¡will ¡remove ¡an ¡intron ¡and ¡splice ¡ together ¡the ¡neighboring ¡exon ¡regions. ¡ • The ¡spliced ¡together ¡exons ¡create ¡the ¡code ¡that ¡ will ¡be ¡translated ¡into ¡proteins. ¡ 6 ¡
From ¡pre-‑mRNA ¡to ¡mRNA ¡ mRNA ¡that ¡will ¡be ¡sequenced ¡ 7 ¡
Alterna)ve ¡Splicing ¡ • Some ¡introns ¡or ¡exons ¡can ¡be ¡either ¡removed ¡ or ¡retained ¡in ¡mature ¡mRNA. ¡ • This ¡is ¡referred ¡to ¡as ¡ alterna.ve ¡splicing ¡and ¡it ¡ creates ¡a ¡series ¡of ¡different ¡transcripts ¡from ¡a ¡ single ¡gene. ¡ • These ¡different ¡transcripts ¡can ¡be ¡poten)ally ¡ translated ¡into ¡different ¡proteins, ¡splicing ¡ extends ¡the ¡complexity ¡of ¡eukaryo)c ¡gene ¡ expression. ¡ 8 ¡
Alterna)ve ¡Splicing ¡ exon 1 exon 2 exon 3 exon 4 exon 5 Isoform 1 Isoform 2 Isoform 3
Alterna)ve ¡Splicing ¡Con)nued ¡ ¡ • Extensive ¡RNA ¡processing ¡is ¡considered ¡an ¡ evolu)onary ¡advantage ¡that ¡is ¡made ¡possible ¡ by ¡the ¡nucleus ¡of ¡eukaryotes. ¡ • In ¡ prokaryotes ¡transcrip)on ¡and ¡transla)on ¡ happen ¡together, ¡while ¡in ¡eukaryotes ¡the ¡ nuclear ¡membrane ¡separates ¡the ¡two ¡ processes, ¡giving ¡)me ¡for ¡RNA ¡processing ¡to ¡ occur. ¡ • Approximately ¡40% ¡of ¡human ¡genes ¡produce ¡ different ¡proteins ¡because ¡of ¡alterna)ve ¡ splicing. ¡ 10 ¡
11 ¡
Splicing ¡Junc)on ¡ • The ¡consensus ¡sequence ¡within ¡the ¡intron ¡ region ¡creates ¡a ¡splicing ¡junc)on ¡that ¡is ¡more ¡ easily ¡iden)fiable ¡from ¡a ¡computa)onal ¡ perspec)ve. ¡ • Referred ¡to ¡as ¡“canonical ¡splicing ¡forms”. ¡ • GU-‑AG ¡is ¡the ¡most ¡common ¡canonical ¡form ¡ but ¡there ¡are ¡others. ¡ 12 ¡
Two ¡main ¡purposes ¡of ¡RNA-‑seq ¡data: ¡ ¡ 1. Annota.on. ¡Detect ¡alterna)ve ¡splicing ¡ junc)ons, ¡and ¡annotate ¡genes ¡in ¡an ¡ iden)fied ¡genome. ¡ ¡ Requires ¡knowledge ¡or ¡ par2al ¡knowledge ¡of ¡genome. ¡ 2. Gene ¡Expression. ¡ ¡ ¡ Assemble ¡transcripts ¡and ¡ determine ¡the ¡number ¡of ¡each ¡such ¡ transcript . ¡ ¡Does ¡not ¡require ¡knowing ¡ genome ¡but ¡is ¡significantly ¡easier ¡if ¡you ¡do. ¡ 13 ¡
RNA ¡Splicing ¡and ¡Disease ¡ • Approximately ¡15% ¡of ¡the ¡muta)ons ¡that ¡ cause ¡gene)c ¡diseases ¡affect ¡pre-‑mRNA ¡ splicing. ¡ • Many ¡are ¡muta)ons ¡at ¡the ¡splice ¡sites, ¡the ¡ branch ¡point, ¡or ¡sequences ¡that ¡promote ¡ (enhancers) ¡or ¡inhibit ¡(silencers) ¡of ¡certain ¡ exons. ¡ • OMIM ¡(Online ¡Mendelian ¡Inheritance ¡Man) ¡is ¡ a ¡database ¡of ¡human ¡gene)c ¡and ¡disorders ¡at ¡ NCBI ¡website. ¡ 14 ¡
RNA-‑seq ¡Analysis ¡and ¡Tools ¡ • Alignment ¡ • Aligners ¡ • Differen)al ¡Expression ¡ • Splice ¡junc)on ¡detectors ¡ • Genome ¡Annota)on ¡ • De ¡novo ¡RNA ¡transcript ¡ assemblers ¡ • Isoform ¡Detec)on ¡ • Reference ¡guided ¡RNA ¡ • RNA ¡Quan)fica)on ¡ transcript ¡assemblers ¡ • Visualizers ¡ ¡ 15 ¡
Detec)on ¡of ¡Splice ¡Junc)ons ¡
Gene ¡Finding ¡Approaches ¡ ¡ • Similarity-‑based ¡approaches: ¡use ¡similarity ¡ between ¡sequences ¡(proteins, ¡DNA, ¡ESTs) ¡to ¡ annotate ¡sequences. ¡ • Compara)ve ¡genomics: ¡aligning ¡genomic ¡ sequences ¡from ¡different ¡species. ¡ ¡ • RNA-‑seq ¡data ¡to ¡detect ¡splicing ¡junc)ons ¡and ¡ construct ¡RNA ¡transcripts. ¡ ¡ 17 ¡
Gene ¡Finding ¡Approaches ¡ ¡ • Similarity-‑based ¡approaches: ¡use ¡similarity ¡ between ¡sequences ¡(proteins, ¡DNA, ¡ESTs) ¡to ¡ annotate ¡sequences. ¡ • Compara)ve ¡genomics: ¡aligning ¡genomic ¡ sequences ¡from ¡different ¡species. ¡ ¡ • RNA-‑seq ¡data ¡to ¡detect ¡splicing ¡junc.ons ¡ and ¡ construct ¡RNA ¡transcripts. ¡ ¡ 18 ¡
Alignment ¡of ¡RNA-‑seq ¡Reads ¡ exon ¡region ¡ exon ¡region ¡ Whenever ¡a ¡RNA-‑seq ¡read ¡spans ¡an ¡exon ¡boundary, ¡part ¡ of ¡the ¡read ¡will ¡not ¡map ¡con)guously ¡to ¡the ¡reference, ¡ ¡ which ¡ohen ¡causes ¡the ¡mapping ¡procedure ¡to ¡fail ¡for ¡that ¡ read. ¡ 19 ¡
Alignment ¡of ¡RNA-‑seq ¡Reads ¡ exon ¡region ¡ • Previous ¡methods ¡solve ¡this ¡problem ¡by ¡concatena)ng ¡ known ¡adjacent ¡exons ¡and ¡then ¡crea)ng ¡synthe)c ¡ sequence ¡fragments ¡from ¡these ¡spliced ¡transcripts ¡ ¡ 20 ¡
RNA-‑Seq ¡Alignment ¡Programs ¡ • GSNAP ¡(Genomic ¡Short-‑read ¡Nucleo)de ¡ Alignment ¡Program): ¡aligns ¡both ¡single-‑ ¡and ¡ paired-‑end ¡reads. ¡Uses ¡a ¡probabilis)c ¡model ¡ or ¡a ¡database ¡of ¡known ¡splice ¡sites. ¡ • MicroRazerS: ¡aligns ¡short ¡RNA-‑seq ¡reads. ¡ • Others: ¡BWA, ¡Bow)e, ¡OSA, ¡RUM, ¡PALMapper, ¡ many ¡more. ¡ 21 ¡
22 ¡
TopHat ¡is ¡a ¡fast ¡splice ¡junc)on ¡mapper ¡for ¡RNA-‑ Seq ¡reads. ¡It ¡aligns ¡RNA-‑Seq ¡reads ¡to ¡ mammalian-‑sized ¡genomes ¡using ¡the ¡ultra ¡high-‑ throughput ¡short ¡read ¡aligner ¡and ¡then ¡analyzes ¡ the ¡mapping ¡results ¡to ¡iden)fy ¡splice ¡junc)ons ¡ between ¡exons. ¡ 23 ¡
TopHat ¡(Trapnell ¡et ¡al., ¡2009) ¡ • TopHat ¡iden)fies ¡splice ¡sites ¡ ab ¡ini2o ¡by ¡large-‑ scale ¡mapping ¡of ¡RNA-‑seq ¡reads ¡ • Maps ¡reads ¡to ¡splice ¡sites ¡in ¡a ¡mammalian ¡ genome ¡at ¡a ¡rate ¡of ¡~2.2 ¡million ¡reads/hour ¡ – This ¡is ¡sufficient ¡to ¡process ¡an ¡en)re ¡RNA-‑seq ¡ experiment ¡in ¡a ¡couple ¡of ¡hours ¡on ¡a ¡standard ¡ desktop ¡computer. ¡ – No ¡high ¡performance ¡machine/server ¡is ¡needed ¡to ¡ run ¡TopHat. ¡ 24 ¡
25 ¡
Recommend
More recommend