Transcriptome ¡and ¡isoform ¡ reconstruc1on ¡with ¡short ¡reads ¡ ¡ Tangled ¡up ¡in ¡reads ¡ ¡
Topics ¡of ¡this ¡lecture ¡ ¡ • Mapping-‑based ¡reconstruc1on ¡methods ¡ – Case ¡study: ¡The ¡domes1c ¡dog ¡ • De-‑novo ¡reconstruc1on ¡method ¡ – Trinity ¡ ¡
Transcriptome ¡assembly ¡ Haas ¡and ¡Zody, ¡Nature ¡Biotechnology ¡28, ¡421–423 ¡(2010) ¡ ¡
Transcriptome ¡assembly ¡ Haas ¡and ¡Zody, ¡Nature ¡Biotechnology ¡28, ¡421–423 ¡(2010) ¡ ¡
Mapping-‑based ¡transcriptome ¡reconstruc1on ¡ RNA-seq Genome Annotation Read-aligner Splice-junction mapper Filtering read alignments Annotate genes Use existing annotation Augment annotation Estimate gene expresssion
Case ¡study: ¡The ¡transcriptome ¡of ¡the ¡domes1c ¡dog ¡
Case ¡study: ¡The ¡transcriptome ¡of ¡the ¡domes1c ¡dog ¡ Has shared an environment with humans for > 5000 years > Exposed to many of the same environ. influences Affected by many of the same diseases as man > Cancer > Heart disease Extensive breeding and selection > Many dog breeds are prone to certain diseases > Long haplotypes ideal for association studies Question: what genes are located in my region of interest? Requires a high quality genome...and detailed annotation!
Case ¡study: ¡The ¡transcriptome ¡of ¡the ¡domes1c ¡dog ¡ Recently, the Broad institute released an updated build, canFam3.1 85 Mb of additional sequence integrated 99.8% of euchromatic portion of genome covered, high quality Recovered 100s of GC-rich promoter regions Now approaches level of quality/completion of mouse or human > the annotation...not so much.
Case ¡study: ¡The ¡transcriptome ¡of ¡the ¡domes1c ¡dog ¡ strong discrepancy between well-annotated human genome and dog. Why? > largely homology-based > almost no isoform information > only few dog-specific gene annotations Majority of loci likely incomplete, many dog-specific genes probably missing
Case ¡study: ¡The ¡transcriptome ¡of ¡the ¡domes1c ¡dog ¡ 10 tissues at great depth (> 20 million reads) blood, brain, heart, kidney, liver, lung, muscle, ovary, skin, testes Stranded paired-end libraries Poly-A selected: default approach, recovers mostly protein-coding genes DSN prep: Targets all RNAs, but normalizes library to avoid strong biases An improved canine genome and a comprehensive catalogue of coding genes and non-coding transcripts . Hoeppner MP et al. PLoS One 2014 Mar 13;9(3):e91172
Mapping-‑based ¡transcriptome ¡reconstruc1on ¡ Align ¡reads ¡with ¡Tophat/Bow1e ¡ Reconstruct ¡transcripts ¡with ¡ Cufflinks ¡ Reconcile ¡de-‑novo ¡annota1on ¡ with ¡reference ¡ Annotate ¡novel ¡transcripts ¡ Quan1fy ¡
Mapping-‑based ¡transcriptome ¡reconstruc1on ¡ RNA-‑seq ¡ Reference ¡ Genome ¡
Case ¡study: ¡The ¡transcriptome ¡of ¡the ¡domes1c ¡dog ¡ Transcript reconstruction using cufflinks for both libraries 250000 ¡ 200000 ¡ 150000 ¡ Poly-‑A ¡ 100000 ¡ DSN ¡ 50000 ¡ ¡ 0 ¡ ¡ DSN recovers more transcripts than polyA Transcriptional diversity is highest in testes
Case ¡study: ¡The ¡transcriptome ¡of ¡the ¡domes1c ¡dog ¡
Case ¡study: ¡The ¡transcriptome ¡of ¡the ¡domes1c ¡dog ¡ Transcript reconstruction using cufflinks for both libraries
RNA ¡flavors ¡ Landscape ¡of ¡transcrip/on ¡in ¡human ¡ cells, ¡S ¡Djebali ¡ et ¡al. ¡ Nature ¡2012 ¡ ¡
Case ¡study: ¡The ¡transcriptome ¡of ¡the ¡domes1c ¡dog ¡ Augmented annotation and transcript classification
Several ¡soYwares ¡ • Cufflinks ¡ • Scripture ¡ • Ballgown ¡ • StringTie ¡
Transcriptome ¡assembly ¡ Haas ¡and ¡Zody, ¡Nature ¡Biotechnology ¡28, ¡421–423 ¡(2010) ¡ ¡
De-‑novo ¡transcriptome ¡assembly ¡ For the majority of species, there are no comprehensive genome sequences … Transcriptomics can inform a broad range of questions without reference à De-novo transcriptome assembly from extracted RNA ¡ ¡
De-‑novo ¡transcriptome ¡reconstruc1on ¡ RNA-seq Assembler Characterize Determine gene content Annotate Estimate gene expresssion
De-‑novo ¡transcriptome ¡assembly ¡ ¡ Manfred ¡Grabherr ¡ Brian ¡Haas ¡ Moran ¡Yassour ¡ Kers1n ¡Lindblad-‑Toh ¡ Aviv ¡Regev ¡ Nir ¡Friedman ¡ David ¡Eccles ¡ Alexie ¡Papanicolaou ¡ Michael ¡O` ¡ … ¡ ¡
The ¡k-‑mer ¡ -‑ K ¡consecu1ve ¡nucleo1des ¡ ¡ Reads ¡ K-‑mers ¡ Graph ¡
The ¡de ¡Bruijn ¡Graph ¡ -‑ Graph ¡of ¡overlapping ¡sequences ¡ -‑ Intended ¡for ¡cryptology ¡ -‑ Fixed ¡length ¡element: ¡ k ¡ ¡ CTTGGAA TTGGAAC TGGAACA GGAACAA GAACAAT
The ¡de ¡Bruijn ¡Graph ¡ -‑ Graph ¡has ¡“nodes” ¡and ¡“edges” ¡ ¡ G GGCAATTGACTTTT… CTTGGAACAAT TGAATT A GAAGGGAGTTCCACT…
Iyer ¡MK, ¡Chinnaiyan ¡AM ¡(2011) ¡ Nature ¡Biotechnology ¡ 29 , ¡599–600 ¡ ¡
Iyer ¡MK, ¡Chinnaiyan ¡AM ¡(2011) ¡ Nature ¡Biotechnology ¡ 29 , ¡599–600 ¡ ¡
Iyer ¡MK, ¡Chinnaiyan ¡AM ¡(2011) ¡ Nature ¡Biotechnology ¡ 29 , ¡599–600 ¡ ¡
Iyer ¡MK, ¡Chinnaiyan ¡AM ¡(2011) ¡ Nature ¡Biotechnology ¡ 29 , ¡599–600 ¡ ¡
Inchworm ¡Algorithm ¡ Decompose ¡all ¡reads ¡into ¡overlapping ¡Kmers ¡(25-‑mers) ¡ Iden1fy ¡seed ¡kmer ¡as ¡most ¡abundant ¡Kmer, ¡ignoring ¡low-‑complexity ¡kmers. ¡ Extend ¡kmer ¡at ¡3’ ¡end, ¡guided ¡by ¡coverage. ¡ G ¡ A ¡ GATTACA ¡ 9 ¡ T ¡ C ¡
Inchworm ¡Algorithm ¡ G ¡ 4 ¡ A ¡ GATTACA ¡ 9 ¡ T ¡ C ¡
Inchworm ¡Algorithm ¡ G ¡ 4 ¡ A ¡ 1 ¡ GATTACA ¡ 9 ¡ T ¡ C ¡
Inchworm ¡Algorithm ¡ G ¡ 4 ¡ A ¡ 1 ¡ GATTACA ¡ 9 ¡ T ¡ 0 ¡ C ¡
Inchworm ¡Algorithm ¡ G ¡ 4 ¡ A ¡ 1 ¡ GATTACA ¡ 9 ¡ T ¡ 0 ¡ C ¡ 4 ¡
Inchworm ¡Algorithm ¡ G ¡ 4 ¡ A ¡ 1 ¡ GATTACA ¡ 9 ¡ T ¡ 0 ¡ C ¡ 4 ¡
Inchworm ¡Algorithm ¡ G ¡ A ¡ 0 ¡ 5 ¡ T ¡ 1 ¡ G ¡ 4 ¡ C ¡ 0 ¡ A ¡ 1 ¡ GATTACA ¡ 9 ¡ T ¡ 0 ¡ G ¡ C ¡ 1 ¡ 4 ¡ A ¡ 1 ¡ T ¡ C ¡ 1 ¡ 1 ¡
Inchworm ¡Algorithm ¡ G ¡ A ¡ 0 ¡ 5 ¡ T ¡ 1 ¡ G ¡ 4 ¡ C ¡ 0 ¡ A ¡ 1 ¡ GATTACA ¡ 9 ¡ T ¡ 0 ¡ G ¡ C ¡ 1 ¡ 4 ¡ A ¡ 1 ¡ T ¡ C ¡ 1 ¡ 1 ¡
Inchworm ¡Algorithm ¡ A ¡ 5 ¡ G ¡ 4 ¡ GATTACA ¡ 9 ¡
Inchworm ¡Algorithm ¡ A ¡ 5 ¡ C ¡ G ¡ 0 ¡ 4 ¡ T ¡ 0 ¡ GATTACA ¡ A ¡ 9 ¡ 6 ¡ G ¡ 1 ¡
Inchworm ¡Algorithm ¡ A ¡ 5 ¡ G ¡ 4 ¡ GATTACA ¡ A ¡ 9 ¡ 6 ¡ A ¡ 7 ¡ Report ¡con1g: ¡ ¡ ¡ ¡ ¡ ¡ ….AAGATTACAGA…. ¡ ¡ Remove ¡assembled ¡kmers ¡from ¡catalog, ¡then ¡repeat ¡the ¡en1re ¡process. ¡
Inchworm ¡Con1gs ¡from ¡Alt-‑Spliced ¡Transcripts ¡ => ¡Minimal ¡lossless ¡representa1on ¡of ¡data ¡ ¡ + ¡
Chrysalis ¡ Integrate ¡isoforms ¡ via ¡k-‑1 ¡overlaps ¡
Chrysalis ¡ Integrate ¡isoforms ¡ via ¡k-‑1 ¡overlaps ¡
Chrysalis ¡ Integrate ¡isoforms ¡ via ¡k-‑1 ¡overlaps ¡ Verify ¡via ¡“welds” ¡
Chrysalis ¡ Integrate ¡isoforms ¡ Build ¡de ¡Bruijn ¡Graphs ¡ Build ¡de ¡Bruijn ¡Graphs ¡ via ¡k-‑1 ¡overlaps ¡ (ideally, ¡one ¡per ¡gene) ¡ (ideally, ¡one ¡per ¡gene) ¡ Verify ¡via ¡“welds” ¡
Completeness ¡and ¡coverage ¡as ¡func1on ¡of ¡read ¡counts ¡ Grabherr ¡et ¡al. ¡Nature ¡Biotechnology ¡29, ¡644–652 ¡(2011) ¡ ¡
Recommend
More recommend