THE ¡RNA-‑SEQ ¡ANALYSIS ¡PIPELINE ¡ Alicia ¡Oshlack ¡ Murdoch ¡Childrens ¡Research ¡Ins5tute ¡
Two ¡ways ¡to ¡look ¡at ¡sequencing ¡data ¡ Sequence ¡of Posi5on ¡of ¡mapped ¡ (mapped) ¡read ¡ read ¡ • genome ¡sequencing ¡ ¡ • RNA-‑seq ¡ • variant ¡detec5on ¡ • ChIP-‑seq ¡ ¡ • Muta5on ¡detec5on ¡ • MeDIP-‑seq ¡for ¡DNA ¡methyla5on ¡ • genomic ¡rearrangements ¡ etc. ¡ • Bisulfite-‑seq ¡(methyla5on) ¡ • RNA ¡edi5ng ¡etc. ¡ 2 ¡
Two ¡ways ¡to ¡look ¡at ¡RNA-‑seq ¡data ¡ Sequence ¡of Posi5on ¡of ¡mapped ¡ (mapped) ¡read ¡ read ¡ • ¡Determining ¡genes/ • Expression ¡levels ¡ transcripts ¡ • Differen5al ¡expression ¡ 3 ¡
Benefits ¡and ¡opportuni5es ¡of ¡RNA-‑seq ¡ • All ¡transcripts ¡are ¡sequenced ¡not ¡just ¡ones ¡for ¡ which ¡probes ¡are ¡designed ¡(cf ¡microarrays) ¡ • Annota5on ¡of ¡new ¡exons, ¡transcribed ¡regions, ¡ genes ¡or ¡non-‑coding ¡RNAs ¡ • Whole ¡transcriptome ¡sequencing ¡ – The ¡ability ¡to ¡look ¡at ¡alterna5ve ¡splicing ¡ – Allele ¡specific ¡expression ¡ – RNA ¡edi5ng ¡
This ¡talk ¡ • Analysis ¡of ¡RNA-‑seq ¡data ¡for ¡the ¡purpose ¡of ¡ determining ¡differen5al ¡expression ¡ • How ¡much ¡are ¡expression ¡levels ¡changing ¡ between ¡samples? ¡
RNA-‑seq ¡ Pepke ¡et ¡al, ¡Nature ¡Methods, ¡2009 ¡
Raw ¡data ¡ • Short ¡sequence ¡reads ¡ • Quality ¡scores ¡ @SEQ_ID � GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT � + � !''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65 ¡
RNA-‑seq ¡analysis ¡steps ¡ Raw ¡sequence ¡reads ¡ Map ¡onto ¡genome ¡ Which ¡transcriptome? ¡ Annota5on ¡based ¡ Genome ¡guided ¡assembly ¡ De ¡novo ¡assembly ¡ Summarize ¡reads ¡to ¡transcripts ¡ Sta5s5cal ¡tes5ng: ¡Determine ¡ differen5ally ¡expressed ¡genes ¡ Systems ¡biology ¡
Map ¡reads ¡to ¡the ¡genome ¡ • Accuracy ¡vs ¡speed ¡ • Many ¡aligners ¡available ¡(BWA, ¡Bow5e, ¡ Novoalign,…) ¡
Sequencing ¡transcripts ¡not ¡the ¡genome ¡ Gene ¡ CDS ¡ CDS ¡ CDS ¡ CDS ¡ transcript ¡ CDS ¡ CDS ¡ CDS ¡ CDS ¡
Splice ¡site ¡mapping ¡ • Build ¡a ¡junc5on ¡library ¡from ¡ all ¡combina5ons ¡of ¡known ¡ exon ¡boundaries ¡ • Determine ¡where ¡splice ¡ junc5ons ¡occur ¡using ¡the ¡ data ¡itself ¡-‑ ¡unbiased ¡by ¡ annota5on. ¡ • Several ¡so]ware ¡packages ¡ to ¡do ¡this ¡such ¡as ¡TopHat, ¡ SplitSeek, ¡SpliceMap… ¡ Gerber ¡et ¡al, ¡Nat ¡Methods, ¡2011 ¡
Which ¡transcriptome ¡to ¡use? ¡
RNA-‑seq ¡analysis ¡steps ¡ Raw ¡sequence ¡reads ¡ Map ¡onto ¡genome ¡ Which ¡transcriptome? ¡ Annota5on ¡based ¡ Genome ¡guided ¡assembly ¡ De ¡novo ¡assembly ¡ Summarize ¡reads ¡to ¡transcripts ¡ Sta5s5cal ¡tes5ng: ¡Determine ¡ differen5ally ¡expressed ¡genes ¡ Systems ¡biology ¡
Op5on ¡1 ¡ • Use ¡annota5on ¡ – Works ¡well ¡for ¡human ¡and ¡mouse ¡but ¡it’s ¡only ¡as ¡ good ¡as ¡your ¡annota5on ¡ – No ¡novel ¡transcripts ¡are ¡analysed ¡
Op5on ¡2: ¡Genome ¡guided ¡transcript ¡ assembly ¡ • Uses ¡the ¡loca5on ¡and ¡density ¡of ¡reads ¡along ¡ the ¡genome ¡to ¡assemble ¡transcripts ¡ • E.g. ¡Cufflinks ¡ • Can’t ¡assemble ¡across ¡breaks ¡in ¡the ¡genome ¡ – Cancer, ¡poor ¡genomes ¡
Op5on ¡3: ¡De ¡novo ¡transcriptome ¡ assembly ¡ • Assemble ¡transcripts ¡from ¡the ¡data ¡without ¡using ¡a ¡ reference ¡genome ¡ • “Harder” ¡than ¡genome ¡assembly ¡ – Orders ¡of ¡magnitude ¡varia5on ¡in ¡coverage ¡ – Con5gs ¡are ¡short ¡ – Alterna5ve ¡isoforms/transcripts ¡have ¡overlapping ¡sequences ¡ – *Very* ¡computa5onally ¡intensive ¡ • So]ware ¡includes ¡ ¡ – Oases/velvet ¡ – TransAbyss ¡ – Trinity ¡ ¡ – … ¡
Example: ¡Annota5ng ¡the ¡chicken ¡W ¡ chromosome ¡ ¡ ¡Z ¡ ¡ ¡ ¡Z ¡ ¡ ¡Z ¡ ¡ ¡W ¡ Male ¡ Female ¡ Two ¡hypotheses ¡for ¡mechanisms ¡of ¡avian ¡sex ¡determina5on: ¡ 1. Dominant ¡ovary ¡determining ¡gene ¡on ¡W ¡(cf ¡mammals) ¡ 2. Dosage ¡of ¡Z-‑linked ¡genes ¡
There ¡is ¡an ¡annotated ¡chicken ¡genome ¡ • Chicken ¡W ¡chromosome ¡is ¡poorly ¡assembled ¡ • Are ¡genes ¡on ¡other ¡chromosomes ¡really ¡on ¡ the ¡W, ¡in ¡par5cular ¡the ¡random ¡chromosome? ¡ Chromosome Assembled Size inc. Estimated Estimated Size (Mb) random (Mb) Size (Mb) Genes (Ensembl) Z 69 70 80 796 W 0.24 0.89 18-54 46 Un_random 56 - - 1287
¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Experimental ¡design ¡ +12hour ¡Blastoderms ¡ Pooled ¡Samples ¡ 12 ¡Female ¡ ¡ ¡ PCR ¡Sexing ¡ 12 ¡Female ¡ RNA ¡ RNA-‑seq ¡ 12 ¡Male ¡ 12 ¡Male ¡ • Illumina ¡HiSeq2000 ¡ • Paired-‑end ¡100bp ¡ • 4 ¡lanes ¡ Stage ¡26 ¡paired ¡gonads ¡(day ¡4.5) ¡ • >80million ¡reads/ sample ¡ 16 ¡Female ¡gonads ¡ Hand ¡plate ¡for ¡PCR ¡Sexing ¡ 16 ¡Female ¡gonads ¡ 16 ¡Male ¡gonads ¡ RNA ¡ 16 ¡Male ¡gonads ¡
Defining ¡the ¡transcriptome ¡ • Annota5on ¡~20,000 ¡genes ¡ • Genome ¡guided ¡assembly ¡(Cufflinks) ¡~45,000 ¡ genes ¡ • De ¡novo ¡transcriptome ¡assembly ¡~2.5 ¡million ¡ transcripts ¡(Abyss ¡with ¡filtering)! ¡ A ¡combined ¡approach ¡ • Assemble ¡cufflink ¡genes ¡using ¡transcripts ¡from ¡ our ¡de ¡novo ¡assembly ¡
Annota5on ¡of ¡the ¡chicken ¡W ¡ combined ¡all ¡three ¡approaches ¡ Blastoderm Coverage W/W_random Chromsome Abyss Transcripts Gonads Coverage Un_random Chromosome Cufflinks Transcripts Autosomes Ensembl Transcripts 391 Coverage RASA1 − W 0 Genome Abyss Cufflinks Ensembl 1000 1500 2000 2500 3000 3500 base position Full ¡list ¡of ¡W ¡genes/transcripts ¡for ¡differen5al ¡expression ¡
Summariza5on ¡ Take ¡your ¡“transcriptome” ¡and ¡add ¡ up ¡the ¡reads ¡
CDS ¡ CDS ¡ CDS ¡ CDS ¡ Exons ¡ Coding ¡Sequence ¡ Introns ¡ Splice ¡Junc5ons ¡ ¡Reads ¡in ¡exons ¡ ¡Exons ¡+ ¡junc5ons ¡ ¡All ¡reads ¡start ¡to ¡end ¡of ¡transcript ¡ ¡De ¡novo ¡methods ¡
CDS ¡ CDS ¡ CDS ¡ CDS ¡ Transcript ¡1 ¡ CDS ¡ CDS ¡ CDS ¡ CDS ¡ CDS ¡ CDS ¡ CDS ¡ Transcript ¡2 ¡ CDS ¡ CDS ¡ CDS ¡ CDS ¡ Transcript ¡3 ¡ Even ¡when ¡all ¡transcripts ¡are ¡“known” ¡summariza5on ¡or ¡expression ¡ quan5fica5on ¡is ¡difficult. ¡How ¡do ¡you ¡assign ¡reads ¡to ¡transcripts? ¡
Summariza5on ¡turns ¡mapped ¡reads ¡ into ¡a ¡table ¡of ¡counts ¡ Tag ¡ID � A1 � A2 � B1 � B2 � ENSG00000124208 � 478 � 619 � 4830 � 7165 � ENSG00000182463 � 27 � 20 � 48 � 55 � ENSG00000125835 � 132 � 200 � 560 � 408 � ENSG00000125834 � 42 � 60 � 131 � 99 � ENSG00000197818 � 21 � 29 � 52 � 44 � ENSG00000125831 � 0 � 0 � 0 � 0 � ENSG00000215443 � 4 � 4 � 9 � 7 � ENSG00000222008 � 30 � 23 � 0 � 0 � ENSG00000101444 � 46 � 63 � 54 � 53 � ENSG00000101333 � 2256 � 2793 � 2702 � 2976 � … � … ¡tens ¡of ¡thousands ¡more ¡tags ¡… � ** ¡very ¡high ¡dimensional ¡data ¡** ¡
RNA-‑seq ¡analysis ¡steps ¡ Raw ¡sequence ¡reads ¡ Map ¡onto ¡genome ¡ Which ¡transcriptome? ¡ Annota5on ¡based ¡ Genome ¡guided ¡assembly ¡ De ¡novo ¡assembly ¡ Summarize ¡reads ¡to ¡transcripts ¡ Sta5s5cal ¡tes5ng: ¡Determine ¡ differen5ally ¡expressed ¡genes ¡ Systems ¡biology ¡
Assessing ¡differen5al ¡expression ¡(DE) ¡ • Which ¡genes ¡are ¡changing ¡in ¡their ¡abundance ¡ between ¡samples? ¡ • Sta5s5cal ¡tests ¡for ¡DE ¡(edgeR) ¡
Normaliza5on ¡ Accoun5ng ¡for/removing ¡technical ¡ sources ¡of ¡varia5on ¡
Recommend
More recommend