visualising genome data
play

Visualising genome data Scott Beatson Australian Infectious - PowerPoint PPT Presentation

Visualising genome data Scott Beatson Australian Infectious Diseases Research Centre School of Chemistry and Molecular Biosciences University of Queensland Acknowledgements: Beatson group Bryan Nouri Mitchell


  1. Visualising ¡genome ¡data Scott Beatson Australian Infectious Diseases Research Centre School of Chemistry and Molecular Biosciences University of Queensland

  2. Acknowledgements: ¡Beatson ¡group ¡ Bryan ¡ Nouri ¡ Mitchell ¡SC ¡ Mitchell ¡S ¡ Kirs>n ¡ Nathan ¡ Nabil ¡

  3. Beatson ¡microbial ¡genomics ¡group ¡ • The ¡Australian ¡Infec1ous ¡Diseases ¡research ¡centre ¡(AID) ¡ links ¡> ¡ 50 ¡groups ¡in ¡molecular ¡microbiological ¡and ¡clinical ¡exper>se ¡ from ¡the ¡UQ ¡Facul>es ¡of ¡Science ¡and ¡Health ¡Sciences, ¡and ¡ UQCCR, ¡QCMRI, ¡IMB, ¡AIBN, ¡the ¡Diaman>na ¡Ins>tute ¡and ¡ QIMR. ¡ • Microbial ¡genomics ¡ is ¡a ¡key ¡research ¡strength ¡that ¡benefits ¡ from ¡closer ¡links ¡between ¡clinicians ¡and ¡molecular ¡ microbiologists. ¡ • My ¡group ¡ uses ¡sequencing ¡technologies ¡to ¡beOer ¡understand ¡ bacterial ¡pathogenesis ¡(pathogenomics), ¡virulence ¡factor ¡and ¡ an>bio>c ¡resistance ¡mobiliza>on, ¡and ¡the ¡spread ¡of ¡bacterial ¡ infec>ous ¡diseases ¡(genomic ¡epidemiology). ¡

  4. Microbial ¡genomics ¡in ¡the ¡Beatson ¡group ¡ BRIG: ¡ Circular ¡viewer ¡for ¡BLAST ¡comparisons, ¡bacterial ¡ genome ¡assembly ¡and ¡read-­‑mapping ¡visualisa>on. ¡ Alikhan ¡ et ¡al. , ¡BMC ¡Genomics. ¡2011 ¡Aug ¡8;12:402. ¡ ¡ Easyfig: ¡ easy ¡prepara>on ¡of ¡scaled ¡gene>c ¡loci ¡images ¡ for ¡bacterial ¡genome ¡comparisons. ¡ Sullivan ¡ et ¡al. , ¡Bioinforma>cs. ¡2011 ¡Apr ¡1;27(7):1009-­‑10. ¡ ¡ ¡ First ¡genome ¡sequence ¡for ¡the ¡globally ¡disseminated ¡ E. ¡ coli ¡ ST131 ¡clone ¡(454). ¡ ¡ Totsika ¡ et ¡al. , ¡PLoS ¡One. ¡2011;6(10):e26578 ¡ Puerperal ¡sepsis ¡(Streptococcus ¡pyogenes) ¡outbreak ¡ inves>ga>on ¡with ¡Illumina ¡sequencing ¡ Ben ¡Zakour ¡ et ¡al. , ¡J ¡Clin ¡Microbiol. ¡2012 ¡Jul;50(7):2224-­‑8 ¡

  5. Genomics ¡visualisa>on: ¡the ¡near ¡ future ¡ • Rich, ¡dynamic ¡visualisa>on ¡within ¡the ¡modern ¡ web ¡browser ¡ ¡ ¡ Web ¡browser ¡ Web ¡App ¡ Query ¡ ¡ NGS ¡analysis ¡ Framework ¡ func>on ¡ database ¡ + ¡CSS ¡

  6. ¡ ¡ ¡D3.js: ¡Data ¡Driven ¡Documents ¡ Web ¡App ¡ Framework ¡ + ¡ CSS ¡ D3: ¡Data-­‑Driven ¡Documents ¡ h:p://d3js.org/ ¡ Michael ¡Bostock, ¡Vadim ¡Ogievetsky, ¡Jeffrey ¡Heer ¡ IEEE ¡Trans. ¡Visualiza>on ¡& ¡Comp. ¡Graphics ¡(Proc. ¡InfoVis), ¡2011 ¡

  7. Why ¡use ¡data ¡visualisa>on? ¡ (Bad) ¡ Bioinforma>cian: ¡Here ¡are ¡your ¡VCF ¡files. ¡It ¡contains ¡informa>on ¡on ¡the ¡variants ¡ we ¡detected ¡from ¡you ¡NGS ¡data: ¡ ¡ ¡ ##fileformat=VCFv4.0 � ##fileDate=20090805 � ##source=myImputationProgramV3.1 � ##reference=1000GenomesPilot-NCBI36 � ##phasing=partial � ¡ ##INFO=<ID=NS,Number=1,Type=Integer,Description="Number of Samples With Data"> � ##INFO=<ID=DP,Number=1,Type=Integer,Description="Total Depth"> � ##INFO=<ID=AF,Number=.,Type=Float,Description="Allele Frequency"> � ##INFO=<ID=AA,Number=1,Type=String,Description="Ancestral Allele"> � ##INFO=<ID=DB,Number=0,Type=Flag,Description="dbSNP membership, build 129"> � ##INFO=<ID=H2,Number=0,Type=Flag,Description="HapMap2 membership"> � ##FILTER=<ID=q10,Description="Quality below 10"> � ##FILTER=<ID=s50,Description="Less than 50% of samples have data"> � ##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype"> � ##FORMAT=<ID=GQ,Number=1,Type=Integer,Description="Genotype Quality"> � ##FORMAT=<ID=DP,Number=1,Type=Integer,Description="Read Depth"> � ¡ ##FORMAT=<ID=HQ,Number=2,Type=Integer,Description="Haplotype Quality"> � #CHROM POS ID REF ALT QUAL FILTER INFO FORMAT NA00001 NA00002 NA00003 � 20 14370 rs6054257 G A 29 PASS NS=3;DP=14;AF=0.5;DB;H2 GT:GQ:DP:HQ 0|0:48:1:51,51 1|0:48:8:51,51 1/1:43:5:.,. � 20 17330 . T A 3 q10 NS=3;DP=11;AF=0.017 GT:GQ:DP:HQ 0|0:49:3:58,50 0|1:3:5:65,3 0/0:41:3 � 20 1110696 rs6040355 A G,T 67 PASS NS=2;DP=10;AF=0.333,0.667;AA=T;DB GT:GQ:DP:HQ 1|2:21:6:23,27 2|1:2:0:18,2 2/2:35:4 � ¡ 20 1230237 . T . 47 PASS NS=3;DP=13;AA=T GT:GQ:DP:HQ 0|0:54:7:56,60 0|0:48:4:51,51 0/0:61:2 � 21 1234567 microsat1 GTCT G,GTACT 50 PASS NS=3;DP=9;AA=G GT:GQ:DP 0/1:35:4 0/2:17:2 1/1:40:3 � ¡ … � (Excited) ¡ Biologist: ¡Thanks. ¡I ¡will ¡load ¡it ¡into ¡Excel ¡ ( ¡a ¡few ¡weeks ¡later) ¡ (Depressed, ¡Good) ¡ Biologist: ¡Can ¡you ¡give ¡me ¡the ¡SNPs ¡that ¡sa>sfy ¡this ¡<xyz> ¡criteria ¡ ( ¡a ¡few ¡hours ¡later) ¡ Biologist: ¡… ¡and ¡this ¡this ¡<xyz> ¡criteria ¡ ¡ ¡ ¡

  8. Alterna>ves: ¡choose ¡your ¡language ¡ Shiny ¡| ¡Easy ¡web ¡applicaEons ¡in ¡R ¡|h:p://www.rstudio.com/shiny/ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ Bokeh ¡ Matplotlib ¡WebAgg ¡ ¡ ¡ Python ¡interac>ve ¡visualiza>on ¡library ¡for ¡ Render ¡matplotlib ¡plots ¡directly ¡to ¡the ¡ ¡ large ¡datasets ¡that ¡na>vely ¡uses ¡the ¡latest ¡ web ¡browser. ¡ web ¡technologies ¡ ¡ ¡ In ¡current ¡development ¡branch ¡ hOp://github.com/Con>nuumIO/Bokeh ¡ ¡ ¡ ¡ ¡

  9. Large ¡genome ¡viewers ¡ • Integrated ¡Genomics ¡Viewer ¡(Broad ¡Ins>tute) ¡ – hOp://www.broadins>tute.org/igv/ ¡

  10. Small ¡genome ¡viewers ¡ • Artemis ¡& ¡Artemis ¡Comparison ¡Tool ¡(Sanger ¡Ins>tute) ¡ – hOp://www.sanger.ac.uk/resources/sopware/artemis/ ¡ – hOp://www.sanger.ac.uk/resources/sopware/act/ ¡ ¡ ACT ¡ Artemis ¡and ¡Bamview ¡

  11. E. ¡coli ¡ O25b-­‑ST131 ¡clone ¡ ¡ – ¡the ¡new ¡global ¡face ¡of ¡UPEC ¡ • Pandemic ¡ ¡ – Since ¡2008 ¡simultaneous ¡spread ¡and ¡high ¡prevalence ¡in ¡mul>ple ¡countries ¡on ¡ several ¡con>nents ¡(Europe, ¡Asia, ¡Africa, ¡North ¡America ¡and ¡recently ¡Australia) ¡ (Nicolas-­‑Chanoine ¡et ¡al ¡2008; ¡Coque ¡et ¡al ¡2008; ¡Clermont ¡et ¡al ¡2008; ¡Lau ¡et ¡al ¡2008 ) ¡ ¡ Rogers ¡et ¡al ¡2011 ¡

  12. BRIG ( B last R ing I mage G enerator) Alikhan, Petty, Ben Zakour, Beatson BMC Genomics. 2011 12:402 Totsika et al 2011 PLoS ONE

  13. BRIG ¡implementa>on ¡ • BRIG ¡is ¡cross-­‑plaqorm ¡and ¡is ¡wriOen ¡and ¡ requires ¡JAVA ¡1.6. ¡ ¡ • BRIG ¡uses ¡BLAST ¡for ¡genome ¡alignments. ¡ • JDOM ¡is ¡used ¡for ¡the ¡internal ¡data ¡structure ¡ ¡ and ¡CGView ¡for ¡Image ¡rendering. ¡Both ¡are ¡ bundled ¡in ¡the ¡package. ¡ • Screenshots ¡are ¡from ¡BRIG ¡in ¡Vista, ¡it ¡looks ¡a ¡ liOle ¡different ¡on ¡Linux ¡and ¡Mac. ¡

  14. Step ¡1: ¡specify ¡input ¡files ¡ Reference ¡sequence ¡appears ¡in ¡the ¡centre ¡of ¡ ring, ¡FASTA ¡or ¡Genbank/EMBL ¡ Pool ¡of ¡sequences ¡to ¡use ¡as ¡queries ¡ BLAST ¡op>ons ¡e.g ¡number ¡of ¡cores, ¡filter ¡on/off ¡

  15. Step ¡1: ¡specify ¡ring ¡serngs ¡ Image ¡>tle ¡ Legend ¡text ¡ BLAST ¡type ¡ Add ¡custom ¡annota>ons ¡ Sequences ¡shown ¡on ¡ this ¡ring ¡ Other ¡serngs ¡ Sequence ¡pool ¡

  16. Step ¡3: ¡Submit ¡and ¡wait ¡ Submit ¡image ¡to ¡render ¡ ¡

  17. GC ¡Content ¡ Coverage ¡ GC ¡Skew ¡ Con>g ¡boundaries ¡ (alterna>ng ¡ ¡red/blue) ¡ Custom ¡annota>ons ¡ Legend ¡showing ¡colour ¡ gradient ¡for ¡% ¡similarity ¡

  18. Comparison ¡of ¡five ¡M28 ¡isolates ¡Illumina ¡raw ¡reads ¡mapped ¡onto ¡MGAS ¡6180 ¡ R28 ¡protein ¡ encoded ¡by ¡RD2 ¡ (BRIG, ¡Alikhan ¡ et ¡al. ¡ BMC ¡Microbiology ¡2011) ¡

Recommend


More recommend