transcriptome and isoform reconstruc1on with short reads
play

Transcriptome and isoform reconstruc1on with short reads - PowerPoint PPT Presentation

Transcriptome and isoform reconstruc1on with short reads Tangled up in reads Topics of this lecture Mapping-based reconstruc1on methods Case


  1. Transcriptome ¡and ¡isoform ¡ reconstruc1on ¡with ¡short ¡reads ¡ ¡ Tangled ¡up ¡in ¡reads ¡ ¡

  2. Topics ¡of ¡this ¡lecture ¡ ¡ • Mapping-­‑based ¡reconstruc1on ¡methods ¡ – Case ¡study: ¡The ¡domes1c ¡dog ¡ • De-­‑novo ¡reconstruc1on ¡method ¡ – Trinity ¡ ¡

  3. Transcriptome ¡assembly ¡ Haas ¡and ¡Zody, ¡Nature ¡Biotechnology ¡28, ¡421–423 ¡(2010) ¡ ¡

  4. Transcriptome ¡assembly ¡ Haas ¡and ¡Zody, ¡Nature ¡Biotechnology ¡28, ¡421–423 ¡(2010) ¡ ¡

  5. Mapping-­‑based ¡transcriptome ¡reconstruc1on ¡ RNA-seq Genome Annotation Read-aligner Splice-junction mapper Filtering read alignments Annotate genes Use existing annotation Augment annotation Estimate gene expresssion

  6. Case ¡study: ¡The ¡transcriptome ¡of ¡the ¡domes1c ¡dog ¡

  7. Case ¡study: ¡The ¡transcriptome ¡of ¡the ¡domes1c ¡dog ¡ Has shared an environment with humans for > 5000 years > Exposed to many of the same environ. influences Affected by many of the same diseases as man > Cancer > Heart disease Extensive breeding and selection > Many dog breeds are prone to certain diseases > Long haplotypes ideal for association studies Question: what genes are located in my region of interest? Requires a high quality genome...and detailed annotation!

  8. Case ¡study: ¡The ¡transcriptome ¡of ¡the ¡domes1c ¡dog ¡ Recently, the Broad institute released an updated build, canFam3.1 85 Mb of additional sequence integrated 99.8% of euchromatic portion of genome covered, high quality Recovered 100s of GC-rich promoter regions Now approaches level of quality/completion of mouse or human > the annotation...not so much.

  9. Case ¡study: ¡The ¡transcriptome ¡of ¡the ¡domes1c ¡dog ¡ strong discrepancy between well-annotated human genome and dog. Why? > largely homology-based > almost no isoform information > only few dog-specific gene annotations Majority of loci likely incomplete, many dog-specific genes probably missing

  10. Case ¡study: ¡The ¡transcriptome ¡of ¡the ¡domes1c ¡dog ¡ 10 tissues at great depth (> 20 million reads) blood, brain, heart, kidney, liver, lung, muscle, ovary, skin, testes Stranded paired-end libraries Poly-A selected: default approach, recovers mostly protein-coding genes DSN prep: Targets all RNAs, but normalizes library to avoid strong biases An improved canine genome and a comprehensive catalogue of coding genes and non-coding transcripts . Hoeppner MP et al. PLoS One 2014 Mar 13;9(3):e91172

  11. Mapping-­‑based ¡transcriptome ¡reconstruc1on ¡ Align ¡reads ¡with ¡Tophat/Bow1e ¡ Reconstruct ¡transcripts ¡with ¡ Cufflinks ¡ Reconcile ¡de-­‑novo ¡annota1on ¡ with ¡reference ¡ Annotate ¡novel ¡transcripts ¡ Quan1fy ¡

  12. Mapping-­‑based ¡transcriptome ¡reconstruc1on ¡ RNA-­‑seq ¡ Reference ¡ Genome ¡

  13. Case ¡study: ¡The ¡transcriptome ¡of ¡the ¡domes1c ¡dog ¡ Transcript reconstruction using cufflinks for both libraries 250000 ¡ 200000 ¡ 150000 ¡ Poly-­‑A ¡ 100000 ¡ DSN ¡ 50000 ¡ ¡ 0 ¡ ¡ DSN recovers more transcripts than polyA Transcriptional diversity is highest in testes

  14. Case ¡study: ¡The ¡transcriptome ¡of ¡the ¡domes1c ¡dog ¡

  15. Case ¡study: ¡The ¡transcriptome ¡of ¡the ¡domes1c ¡dog ¡ Transcript reconstruction using cufflinks for both libraries

  16. RNA ¡flavors ¡ Landscape ¡of ¡transcrip/on ¡in ¡human ¡ cells, ¡S ¡Djebali ¡ et ¡al. ¡ Nature ¡2012 ¡ ¡

  17. Case ¡study: ¡The ¡transcriptome ¡of ¡the ¡domes1c ¡dog ¡ Augmented annotation and transcript classification

  18. Several ¡soYwares ¡ • Cufflinks ¡ • Scripture ¡ • Ballgown ¡ • StringTie ¡

  19. Transcriptome ¡assembly ¡ Haas ¡and ¡Zody, ¡Nature ¡Biotechnology ¡28, ¡421–423 ¡(2010) ¡ ¡

  20. De-­‑novo ¡transcriptome ¡assembly ¡ For the majority of species, there are no comprehensive genome sequences … Transcriptomics can inform a broad range of questions without reference à De-novo transcriptome assembly from extracted RNA ¡ ¡

  21. De-­‑novo ¡transcriptome ¡reconstruc1on ¡ RNA-seq Assembler Characterize Determine gene content Annotate Estimate gene expresssion

  22. De-­‑novo ¡transcriptome ¡assembly ¡ ¡ Manfred ¡Grabherr ¡ Brian ¡Haas ¡ Moran ¡Yassour ¡ Kers1n ¡Lindblad-­‑Toh ¡ Aviv ¡Regev ¡ Nir ¡Friedman ¡ David ¡Eccles ¡ Alexie ¡Papanicolaou ¡ Michael ¡O` ¡ … ¡ ¡

  23. The ¡k-­‑mer ¡ -­‑ K ¡consecu1ve ¡nucleo1des ¡ ¡ Reads ¡ K-­‑mers ¡ Graph ¡

  24. The ¡de ¡Bruijn ¡Graph ¡ -­‑ Graph ¡of ¡overlapping ¡sequences ¡ -­‑ Intended ¡for ¡cryptology ¡ -­‑ Fixed ¡length ¡element: ¡ k ¡ ¡ CTTGGAA TTGGAAC TGGAACA GGAACAA GAACAAT

  25. The ¡de ¡Bruijn ¡Graph ¡ -­‑ Graph ¡has ¡“nodes” ¡and ¡“edges” ¡ ¡ G GGCAATTGACTTTT… CTTGGAACAAT TGAATT A GAAGGGAGTTCCACT…

  26. Iyer ¡MK, ¡Chinnaiyan ¡AM ¡(2011) ¡ Nature ¡Biotechnology ¡ 29 , ¡599–600 ¡ ¡

  27. Iyer ¡MK, ¡Chinnaiyan ¡AM ¡(2011) ¡ Nature ¡Biotechnology ¡ 29 , ¡599–600 ¡ ¡

  28. Iyer ¡MK, ¡Chinnaiyan ¡AM ¡(2011) ¡ Nature ¡Biotechnology ¡ 29 , ¡599–600 ¡ ¡

  29. Iyer ¡MK, ¡Chinnaiyan ¡AM ¡(2011) ¡ Nature ¡Biotechnology ¡ 29 , ¡599–600 ¡ ¡

  30. Inchworm ¡Algorithm ¡ Decompose ¡all ¡reads ¡into ¡overlapping ¡Kmers ¡(25-­‑mers) ¡ Iden1fy ¡seed ¡kmer ¡as ¡most ¡abundant ¡Kmer, ¡ignoring ¡low-­‑complexity ¡kmers. ¡ Extend ¡kmer ¡at ¡3’ ¡end, ¡guided ¡by ¡coverage. ¡ G ¡ A ¡ GATTACA ¡ 9 ¡ T ¡ C ¡

  31. Inchworm ¡Algorithm ¡ G ¡ 4 ¡ A ¡ GATTACA ¡ 9 ¡ T ¡ C ¡

  32. Inchworm ¡Algorithm ¡ G ¡ 4 ¡ A ¡ 1 ¡ GATTACA ¡ 9 ¡ T ¡ C ¡

  33. Inchworm ¡Algorithm ¡ G ¡ 4 ¡ A ¡ 1 ¡ GATTACA ¡ 9 ¡ T ¡ 0 ¡ C ¡

  34. Inchworm ¡Algorithm ¡ G ¡ 4 ¡ A ¡ 1 ¡ GATTACA ¡ 9 ¡ T ¡ 0 ¡ C ¡ 4 ¡

  35. Inchworm ¡Algorithm ¡ G ¡ 4 ¡ A ¡ 1 ¡ GATTACA ¡ 9 ¡ T ¡ 0 ¡ C ¡ 4 ¡

  36. Inchworm ¡Algorithm ¡ G ¡ A ¡ 0 ¡ 5 ¡ T ¡ 1 ¡ G ¡ 4 ¡ C ¡ 0 ¡ A ¡ 1 ¡ GATTACA ¡ 9 ¡ T ¡ 0 ¡ G ¡ C ¡ 1 ¡ 4 ¡ A ¡ 1 ¡ T ¡ C ¡ 1 ¡ 1 ¡

  37. Inchworm ¡Algorithm ¡ G ¡ A ¡ 0 ¡ 5 ¡ T ¡ 1 ¡ G ¡ 4 ¡ C ¡ 0 ¡ A ¡ 1 ¡ GATTACA ¡ 9 ¡ T ¡ 0 ¡ G ¡ C ¡ 1 ¡ 4 ¡ A ¡ 1 ¡ T ¡ C ¡ 1 ¡ 1 ¡

  38. Inchworm ¡Algorithm ¡ A ¡ 5 ¡ G ¡ 4 ¡ GATTACA ¡ 9 ¡

  39. Inchworm ¡Algorithm ¡ A ¡ 5 ¡ C ¡ G ¡ 0 ¡ 4 ¡ T ¡ 0 ¡ GATTACA ¡ A ¡ 9 ¡ 6 ¡ G ¡ 1 ¡

  40. Inchworm ¡Algorithm ¡ A ¡ 5 ¡ G ¡ 4 ¡ GATTACA ¡ A ¡ 9 ¡ 6 ¡ A ¡ 7 ¡ Report ¡con1g: ¡ ¡ ¡ ¡ ¡ ¡ ….AAGATTACAGA…. ¡ ¡ Remove ¡assembled ¡kmers ¡from ¡catalog, ¡then ¡repeat ¡the ¡en1re ¡process. ¡

  41. Inchworm ¡Con1gs ¡from ¡Alt-­‑Spliced ¡Transcripts ¡ => ¡Minimal ¡lossless ¡representa1on ¡of ¡data ¡ ¡ + ¡

  42. Chrysalis ¡ Integrate ¡isoforms ¡ via ¡k-­‑1 ¡overlaps ¡

  43. Chrysalis ¡ Integrate ¡isoforms ¡ via ¡k-­‑1 ¡overlaps ¡

  44. Chrysalis ¡ Integrate ¡isoforms ¡ via ¡k-­‑1 ¡overlaps ¡ Verify ¡via ¡“welds” ¡

  45. Chrysalis ¡ Integrate ¡isoforms ¡ Build ¡de ¡Bruijn ¡Graphs ¡ Build ¡de ¡Bruijn ¡Graphs ¡ via ¡k-­‑1 ¡overlaps ¡ (ideally, ¡one ¡per ¡gene) ¡ (ideally, ¡one ¡per ¡gene) ¡ Verify ¡via ¡“welds” ¡

  46. Completeness ¡and ¡coverage ¡as ¡func1on ¡of ¡read ¡counts ¡ Grabherr ¡et ¡al. ¡Nature ¡Biotechnology ¡29, ¡644–652 ¡(2011) ¡ ¡

Recommend


More recommend