introduc on to the analysis of rna seq data
play

Introduc)on to the Analysis of RNA-seq Data Lecture - PowerPoint PPT Presentation

Introduc)on to the Analysis of RNA-seq Data Lecture 9: September 18, 2012 Introduc)on What is RNA-seq? RNA-seq refers to the method


  1. Introduc)on ¡to ¡the ¡Analysis ¡of ¡ ¡ RNA-­‑seq ¡Data ¡ Lecture ¡9: ¡September ¡18, ¡2012 ¡ ¡

  2. Introduc)on ¡

  3. What ¡is ¡RNA-­‑seq? ¡ • RNA-­‑seq ¡refers ¡to ¡the ¡method ¡of ¡using ¡Next ¡ Genera)on ¡Sequencing ¡(NGS) ¡technology ¡ to ¡measure ¡RNA ¡levels. ¡ • Is ¡used ¡to ¡evaluate ¡the ¡“expression ¡level” ¡of ¡ a ¡gene ¡(or ¡“gene ¡expression”). ¡ • Many ¡events ¡can ¡control ¡the ¡expression ¡ level ¡of ¡a ¡gene ¡so ¡simply ¡looking ¡at ¡the ¡ genome ¡and ¡annota)ng ¡a ¡gene ¡is ¡not ¡ enough ¡informa)on. ¡

  4. Item ¡to ¡be ¡sequenced: ¡ 1. Extract ¡all ¡mRNA. ¡ 2. Prepare ¡a ¡library ¡of ¡ ¡ fragments. ¡ 3. Sequence ¡fragments. ¡ 4. Analysis, ¡analysis, ¡ analysis. ¡ ¡ 4 ¡

  5. Not ¡all ¡gene)c ¡code ¡is ¡transcribed ¡and ¡translated, ¡ and ¡the ¡rate ¡of ¡transcrip)on ¡will ¡affect ¡the ¡ amount ¡of ¡protein ¡being ¡made. ¡ • The ¡goal ¡is ¡to ¡es)mate ¡the ¡amount ¡of ¡protein ¡ that ¡will ¡be ¡made. ¡ 5 ¡

  6. Splicing ¡ • A ¡very ¡important ¡modifica)on ¡of ¡eukaryo)c ¡pre-­‑ mRNA ¡is ¡splicing. ¡ • The ¡majority ¡of ¡eukaryo)c ¡pre-­‑mRNAs ¡consist ¡of ¡ alterna)ng ¡segments ¡called ¡ exons ¡and ¡ introns . ¡ ¡ • During ¡splicing, ¡an ¡RNA-­‑protein ¡complex ¡called ¡a ¡ spliceosome ¡will ¡remove ¡an ¡intron ¡and ¡splice ¡ together ¡the ¡neighboring ¡exon ¡regions. ¡ • The ¡spliced ¡together ¡exons ¡create ¡the ¡code ¡that ¡ will ¡be ¡translated ¡into ¡proteins. ¡ 6 ¡

  7. From ¡pre-­‑mRNA ¡to ¡mRNA ¡ mRNA ¡that ¡will ¡be ¡sequenced ¡ 7 ¡

  8. Alterna)ve ¡Splicing ¡ • Some ¡introns ¡or ¡exons ¡can ¡be ¡either ¡removed ¡ or ¡retained ¡in ¡mature ¡mRNA. ¡ • This ¡is ¡referred ¡to ¡as ¡ alterna.ve ¡splicing ¡and ¡it ¡ creates ¡a ¡series ¡of ¡different ¡transcripts ¡from ¡a ¡ single ¡gene. ¡ • These ¡different ¡transcripts ¡can ¡be ¡poten)ally ¡ translated ¡into ¡different ¡proteins, ¡splicing ¡ extends ¡the ¡complexity ¡of ¡eukaryo)c ¡gene ¡ expression. ¡ 8 ¡

  9. Alterna)ve ¡Splicing ¡ exon 1 exon 2 exon 3 exon 4 exon 5 Isoform 1 Isoform 2 Isoform 3

  10. Alterna)ve ¡Splicing ¡Con)nued ¡ ¡ • Extensive ¡RNA ¡processing ¡is ¡considered ¡an ¡ evolu)onary ¡advantage ¡that ¡is ¡made ¡possible ¡ by ¡the ¡nucleus ¡of ¡eukaryotes. ¡ • In ¡ prokaryotes ¡transcrip)on ¡and ¡transla)on ¡ happen ¡together, ¡while ¡in ¡eukaryotes ¡the ¡ nuclear ¡membrane ¡separates ¡the ¡two ¡ processes, ¡giving ¡)me ¡for ¡RNA ¡processing ¡to ¡ occur. ¡ • Approximately ¡40% ¡of ¡human ¡genes ¡produce ¡ different ¡proteins ¡because ¡of ¡alterna)ve ¡ splicing. ¡ 10 ¡

  11. 11 ¡

  12. Splicing ¡Junc)on ¡ • The ¡consensus ¡sequence ¡within ¡the ¡intron ¡ region ¡creates ¡a ¡splicing ¡junc)on ¡that ¡is ¡more ¡ easily ¡iden)fiable ¡from ¡a ¡computa)onal ¡ perspec)ve. ¡ • Referred ¡to ¡as ¡“canonical ¡splicing ¡forms”. ¡ • GU-­‑AG ¡is ¡the ¡most ¡common ¡canonical ¡form ¡ but ¡there ¡are ¡others. ¡ 12 ¡

  13. Two ¡main ¡purposes ¡of ¡RNA-­‑seq ¡data: ¡ ¡ 1. Annota.on. ¡Detect ¡alterna)ve ¡splicing ¡ junc)ons, ¡and ¡annotate ¡genes ¡in ¡an ¡ iden)fied ¡genome. ¡ ¡ Requires ¡knowledge ¡or ¡ par2al ¡knowledge ¡of ¡genome. ¡ 2. Gene ¡Expression. ¡ ¡ ¡ Assemble ¡transcripts ¡and ¡ determine ¡the ¡number ¡of ¡each ¡such ¡ transcript . ¡ ¡Does ¡not ¡require ¡knowing ¡ genome ¡but ¡is ¡significantly ¡easier ¡if ¡you ¡do. ¡ 13 ¡

  14. RNA ¡Splicing ¡and ¡Disease ¡ • Approximately ¡15% ¡of ¡the ¡muta)ons ¡that ¡ cause ¡gene)c ¡diseases ¡affect ¡pre-­‑mRNA ¡ splicing. ¡ • Many ¡are ¡muta)ons ¡at ¡the ¡splice ¡sites, ¡the ¡ branch ¡point, ¡or ¡sequences ¡that ¡promote ¡ (enhancers) ¡or ¡inhibit ¡(silencers) ¡of ¡certain ¡ exons. ¡ • OMIM ¡(Online ¡Mendelian ¡Inheritance ¡Man) ¡is ¡ a ¡database ¡of ¡human ¡gene)c ¡and ¡disorders ¡at ¡ NCBI ¡website. ¡ 14 ¡

  15. RNA-­‑seq ¡Analysis ¡and ¡Tools ¡ • Alignment ¡ • Aligners ¡ • Differen)al ¡Expression ¡ • Splice ¡junc)on ¡detectors ¡ • Genome ¡Annota)on ¡ • De ¡novo ¡RNA ¡transcript ¡ assemblers ¡ • Isoform ¡Detec)on ¡ • Reference ¡guided ¡RNA ¡ • RNA ¡Quan)fica)on ¡ transcript ¡assemblers ¡ • Visualizers ¡ ¡ 15 ¡

  16. Detec)on ¡of ¡Splice ¡Junc)ons ¡

  17. Gene ¡Finding ¡Approaches ¡ ¡ • Similarity-­‑based ¡approaches: ¡use ¡similarity ¡ between ¡sequences ¡(proteins, ¡DNA, ¡ESTs) ¡to ¡ annotate ¡sequences. ¡ • Compara)ve ¡genomics: ¡aligning ¡genomic ¡ sequences ¡from ¡different ¡species. ¡ ¡ • RNA-­‑seq ¡data ¡to ¡detect ¡splicing ¡junc)ons ¡and ¡ construct ¡RNA ¡transcripts. ¡ ¡ 17 ¡

  18. Gene ¡Finding ¡Approaches ¡ ¡ • Similarity-­‑based ¡approaches: ¡use ¡similarity ¡ between ¡sequences ¡(proteins, ¡DNA, ¡ESTs) ¡to ¡ annotate ¡sequences. ¡ • Compara)ve ¡genomics: ¡aligning ¡genomic ¡ sequences ¡from ¡different ¡species. ¡ ¡ • RNA-­‑seq ¡data ¡to ¡detect ¡splicing ¡junc.ons ¡ and ¡ construct ¡RNA ¡transcripts. ¡ ¡ 18 ¡

  19. Alignment ¡of ¡RNA-­‑seq ¡Reads ¡ exon ¡region ¡ exon ¡region ¡ Whenever ¡a ¡RNA-­‑seq ¡read ¡spans ¡an ¡exon ¡boundary, ¡part ¡ of ¡the ¡read ¡will ¡not ¡map ¡con)guously ¡to ¡the ¡reference, ¡ ¡ which ¡ohen ¡causes ¡the ¡mapping ¡procedure ¡to ¡fail ¡for ¡that ¡ read. ¡ 19 ¡

  20. Alignment ¡of ¡RNA-­‑seq ¡Reads ¡ exon ¡region ¡ • Previous ¡methods ¡solve ¡this ¡problem ¡by ¡concatena)ng ¡ known ¡adjacent ¡exons ¡and ¡then ¡crea)ng ¡synthe)c ¡ sequence ¡fragments ¡from ¡these ¡spliced ¡transcripts ¡ ¡ 20 ¡

  21. RNA-­‑Seq ¡Alignment ¡Programs ¡ • GSNAP ¡(Genomic ¡Short-­‑read ¡Nucleo)de ¡ Alignment ¡Program): ¡aligns ¡both ¡single-­‑ ¡and ¡ paired-­‑end ¡reads. ¡Uses ¡a ¡probabilis)c ¡model ¡ or ¡a ¡database ¡of ¡known ¡splice ¡sites. ¡ • MicroRazerS: ¡aligns ¡short ¡RNA-­‑seq ¡reads. ¡ • Others: ¡BWA, ¡Bow)e, ¡OSA, ¡RUM, ¡PALMapper, ¡ many ¡more. ¡ 21 ¡

  22. 22 ¡

  23. TopHat ¡is ¡a ¡fast ¡splice ¡junc)on ¡mapper ¡for ¡RNA-­‑ Seq ¡reads. ¡It ¡aligns ¡RNA-­‑Seq ¡reads ¡to ¡ mammalian-­‑sized ¡genomes ¡using ¡the ¡ultra ¡high-­‑ throughput ¡short ¡read ¡aligner ¡and ¡then ¡analyzes ¡ the ¡mapping ¡results ¡to ¡iden)fy ¡splice ¡junc)ons ¡ between ¡exons. ¡ 23 ¡

  24. TopHat ¡(Trapnell ¡et ¡al., ¡2009) ¡ • TopHat ¡iden)fies ¡splice ¡sites ¡ ab ¡ini2o ¡by ¡large-­‑ scale ¡mapping ¡of ¡RNA-­‑seq ¡reads ¡ • Maps ¡reads ¡to ¡splice ¡sites ¡in ¡a ¡mammalian ¡ genome ¡at ¡a ¡rate ¡of ¡~2.2 ¡million ¡reads/hour ¡ – This ¡is ¡sufficient ¡to ¡process ¡an ¡en)re ¡RNA-­‑seq ¡ experiment ¡in ¡a ¡couple ¡of ¡hours ¡on ¡a ¡standard ¡ desktop ¡computer. ¡ – No ¡high ¡performance ¡machine/server ¡is ¡needed ¡to ¡ run ¡TopHat. ¡ 24 ¡

  25. 25 ¡

Recommend


More recommend