metagenomics using next genera2on sequencing technology
play

Metagenomics using Next Genera2on Sequencing technology - PowerPoint PPT Presentation

10. OIE Seminar, Berlin 07 th June 2013 Metagenomics using Next Genera2on Sequencing technology Mar2n Beer, Bernd Hoffmann, Ma=hias Scheuch, Dirk Hper C ARGE FLI Preview


  1. 10. OIE Seminar, Berlin 07 th June 2013 Metagenomics ¡using ¡Next ¡Genera2on ¡Sequencing ¡ technology ¡ ¡ Mar2n ¡Beer, ¡Bernd ¡Hoffmann, ¡Ma=hias ¡Scheuch, ¡Dirk ¡Höper ¡ ¡ ¡ C ARGE FLI

  2. Preview ¡ � ¡ Introduc2on ¡– ¡pathogen ¡detec2on ¡ � ¡The ¡metagenomic ¡approach ¡ � ¡Challenges ¡of ¡metagenomics ¡ � ¡From ¡sample ¡prepara2on ¡to ¡NGS ¡to ¡data ¡analysis ¡ � ¡Summary ¡and ¡conclusions ¡ ¡ Ins%tute ¡of ¡Diagnos%c ¡Virology ¡

  3. BTV, SBV and Usutu outbreak as „indicator “ West Nile Virus How ¡to ¡detect ¡the ¡unexpected ¡ or ¡unknown? ¡ EHDV ASFV CCHFV African Horse sickness Rift Valley Fever ?????? Ins%tute ¡of ¡Diagnos%c ¡Virology ¡

  4. What ¡is ¡Metagenomics ¡(1)? ¡ The basic definition of metagenomics is the analysis of genomic DNA from a whole community. Gilbert JA, Dupont CL (2011). Ann Rev Mar Sci 3: 347-71. 10.1146/annurev-marine-120709-142811 Ins%tute ¡of ¡Diagnos%c ¡Virology ¡

  5. What ¡is ¡Metagenomics ¡(2)? ¡ Metagenomics ¡is ¡the ¡applica0on ¡of ¡ modern ¡genomics ¡ techniques ¡ to ¡the ¡study ¡of ¡communi0es ¡of ¡microbial ¡ organisms ¡directly ¡in ¡their ¡natural ¡environments, ¡ bypassing ¡the ¡need ¡for ¡isola2on ¡and ¡lab ¡cul2va2on ¡ of ¡ individual ¡species. ¡ ¡ Chen ¡K, ¡Pachter ¡L ¡(2005). ¡PLoS ¡Comput ¡Biol ¡1(2): ¡e24. ¡doi:10.1371/journal.pcbi.0010024 ¡ Ins%tute ¡of ¡Diagnos%c ¡Virology ¡

  6. Why ¡Do ¡Metagenomic ¡Pathogen ¡Detec2on ¡(1)? ¡ Because every causative agent of infectious disease relies on nucleic acids (NAs) both for its genome and gene expression (only known exception so far are transmissible spongiform encephalopathies) AND Modern shotgun sequencing methods detect all NAs in a given sample with ± equal probability

  7. Why ¡Do ¡Metagenomic ¡Pathogen ¡Detec2on ¡(2)? ¡ Suppose ¡the ¡following ¡ • We ¡have ¡animals ¡suffering ¡from ¡an ¡unknown ¡disease ¡ • Standard ¡targeted ¡diagnos0cs ¡do ¡not ¡reveal ¡the ¡ causa0ve ¡agent ¡ • We ¡expect ¡as ¡the ¡causa2ve ¡agent ¡a ¡pathogen ¡ containing ¡nucleic ¡acids ¡ → ¡it ¡is ¡straighQorward ¡to ¡comprehensively ¡sequence ¡ total ¡NAs ¡from ¡these ¡animals ¡to ¡detect ¡the ¡pathogen ¡

  8. Why ¡Do ¡Metagenomic ¡Pathogen ¡Detec2on ¡(3)? ¡ Because ¡it ¡works! ¡

  9. Metagenomics ¡Workflow ¡ Sample ¡! ¡ NGS ¡method ¡! ¡ Data ¡analysis! ¡ Ins%tute ¡of ¡Diagnos%c ¡Virology ¡

  10. Next generation sequencing (NGS) For example: Roche Genome Sequencer Gs flex (up to 500 Mio. bp per run) - Read: short fragments (80 to 500 bp) - Contig: larger sequence pieces assembled from reads

  11. Key ¡Issues ¡for ¡Diagnos2c ¡Metagenomics ¡ • Pathogen ¡detec0on ¡in ¡a ¡metagenomic ¡dataset ¡is ¡ finding ¡the ¡needle ¡in ¡a ¡haystack ¡ Ins%tute ¡of ¡Diagnos%c ¡Virology ¡

  12. Key ¡Issues ¡for ¡Diagnos2c ¡Metagenomics ¡ Example ¡ • CaZle ¡genome: ¡2.97 ¡Gbp ¡ • pCV2 ¡genome: ¡1768 ¡b ¡ ¡ → ¡mass ¡ra0o ¡pCV2:CaZle ¡= ¡1:1,679,864 ¡ ¡ Zoom ¡1000 ¡X ¡

  13. Key ¡Issues ¡for ¡Diagnos2c ¡Metagenomics ¡ Sensi0vity ¡is ¡determined ¡by ¡ • the ¡ra0o ¡of ¡the ¡genome ¡sizes ¡(or ¡in ¡the ¡RNA ¡case ¡ genome/total ¡RNA) ¡and ¡ • the ¡copy ¡numbers ¡of ¡the ¡genomes ¡(RNA ¡molecules) ¡ 1. ¡Sensi2vity ¡can ¡easily ¡be ¡scaled ¡up ¡by ¡simply ¡producing ¡ more ¡sequences ¡to ¡yield ¡at ¡least ¡one ¡pathogen ¡read ¡ 2. ¡Choosing ¡the ¡appropriate ¡sample ¡material, ¡i.e. ¡material ¡ with ¡high ¡loads ¡of ¡pathogen ¡(and ¡minimum ¡host ¡genome) ¡ is ¡crucial ¡ ¡ Ins%tute ¡of ¡Diagnos%c ¡Virology ¡

  14. Key ¡Issues ¡for ¡Diagnos2c ¡Metagenomics ¡ • Huge ¡datasets ¡are ¡generated, ¡resul2ng ¡in ¡complex ¡ and ¡2me ¡consuming ¡data ¡analysis ¡ • Classifica0on ¡of ¡the ¡sequences ¡relies ¡on ¡finding ¡ similari0es ¡to ¡known ¡pathogens ¡ • Limited ¡read ¡length ¡(with ¡some ¡instruments) ¡ impedes ¡data ¡analysis ¡ • How ¡to ¡deal ¡with ¡unclassifiable ¡sequences: ¡are ¡they ¡ random ¡ar0ficial ¡or ¡natural ¡but ¡unknown ¡sequences? ¡ These ¡sequences ¡require ¡intense ¡manual ¡evalua2on ¡ Ins%tute ¡of ¡Diagnos%c ¡Virology ¡

  15. Sample ¡Choice ¡– ¡Sample ¡Prepara2on ¡ Ins%tute ¡of ¡Diagnos%c ¡Virology ¡

  16. Sample ¡Choice ¡ -­‑ Body ¡fluid/0ssue ¡material? ¡ -­‑ Preferably ¡the ¡matrix ¡with ¡the ¡ lowest ¡quan2ty ¡of ¡host ¡ nucleic ¡acids ¡(NA) ¡ -­‑ The ¡highest ¡possible ¡quan0ty ¡of ¡pathogen ¡NA ¡ -­‑ DNA ¡or ¡ RNA ? ¡ -­‑ RNA ¡is ¡to ¡be ¡preferred ¡over ¡DNA ¡because ¡all ¡replica0ng ¡ viruses ¡generate ¡RNA ¡but ¡only ¡a ¡few ¡generate ¡DNA ¡ Ins%tute ¡of ¡Diagnos%c ¡Virology ¡

  17. Sample ¡Choice ¡ Example ¡1 ¡ -­‑ Fish ¡are ¡dying ¡for ¡unknown ¡reason ¡ -­‑ Sample ¡from ¡metabolically ¡highly ¡ac0ve ¡gill ¡0ssue ¡ -­‑ DNA ¡virus ¡expected ¡ -­‑ Sequencing ¡library ¡from ¡RNA ¡ -­‑ 229,000 ¡sequencing ¡reads ¡ -­‑ 2 ¡reads ¡RNA ¡virus ¡( 0.00087% ) ¡

  18. Sample ¡Choice ¡ Example ¡2 ¡ -­‑ sequencing ¡RNA ¡isolated ¡from ¡serum ¡from ¡BVDV ¡ persistently ¡infected ¡caZle ¡ -­‑ 5% ¡viral ¡reads ¡

  19. Sample ¡Choice ¡ Example ¡3 ¡ -­‑ Schmallenberg ¡virus ¡samples ¡RNA ¡from ¡serum ¡ -­‑ 7/27,000 ¡( 0.026% ) ¡reads ¡orthobunyavirus ¡ -­‑ Library ¡only ¡sufficient ¡to ¡yield ¡a ¡total ¡of ¡approx. ¡ 85,000 ¡reads ¡

  20. Sample ¡Prepara2on ¡

  21. Sample ¡Prepara2on ¡ -­‑ Usually ¡high ¡background ¡of ¡host ¡nucleic ¡acids ¡ -­‑ Different ¡nuclease ¡diges0on ¡dependent ¡techniques ¡ for ¡the ¡deple0on ¡of ¡these: ¡ -­‑ DNase ¡SISPA ¡ -­‑ Vidisca ¡ -­‑ Kits ¡for ¡sample ¡normaliza2on ¡ ¡ -­‑ BUT: ¡nuclease ¡digest ¡means ¡risk ¡of ¡irreversible ¡ informa0on ¡loss ¡

  22. Sequencing ¡

  23. Sequencing ¡ -­‑ Various ¡technologies ¡available ¡ -­‑ Read ¡length ¡is ¡a ¡cri2cal ¡determinant ¡ -­‑ Sanger ¡with ¡too ¡low ¡throughput ¡ -­‑ Some ¡plaQorms ¡with ¡high ¡throughput ¡require ¡long ¡ sequencing ¡0me ¡ ¡ For ¡diagnos0cs ¡ 2me ¡necessary ¡0ll ¡comple0on ¡may ¡be ¡ an ¡issue ¡ ¡

  24. Sequencing: ¡Impact ¡of ¡Read ¡Length ¡ Success ¡of ¡read ¡classifica0on ¡depending ¡on ¡read ¡length ¡ (GCReoV-­‑Daten ¡Histogramm) ¡

  25. Sequencing: ¡Impact ¡of ¡Read ¡Length ¡ What ¡if ¡… ¡the ¡Schmallenberg-­‑virus ¡sequencing ¡reads ¡ had ¡been ¡shorter? ¡ Long ¡reads ¡ Short ¡Reads ¡ Mean ¡length ¡ 315 ¡ 96 ¡ Total ¡No. ¡reads ¡ 27420 ¡ 27420 ¡ No. ¡classified ¡reads ¡ 26128 ¡ 25310 ¡ No. ¡Orthobunyavirus ¡hits ¡ 7 ¡ 1 ¡ Similarity ¡with ¡subject ¡sequence ¡ 68.37 ¡% ¡-­‑ ¡95.60 ¡% ¡ 98.68 ¡ ¡% ¡ No. ¡unclassified ¡reads ¡ 1292 ¡ 2110 ¡

  26. Data ¡Analysis ¡

  27. Data ¡Analysis ¡ ¡ A ¡known ¡virus/bacterium ¡with ¡a ¡ sufficiently ¡similar ¡ genome ¡or ¡amino ¡acid ¡sequence ¡is ¡necessary ¡ ¡ The ¡more ¡sequences ¡are ¡available ¡for ¡diverse ¡viruses/ ¡ organisms, ¡the ¡higher ¡the ¡chance ¡gets ¡to ¡iden0fy ¡a ¡ novel/unexpected ¡pathogen ¡by ¡sequence ¡comparison ¡

  28. Data ¡Analysis ¡ ¡ -­‑ A ¡bigger ¡database ¡causes ¡longer ¡computa0on ¡to ¡find ¡ the ¡most ¡similar ¡sequence ¡ -­‑ Too ¡small ¡databases ¡produce ¡significant ¡hits ¡that ¡are ¡ not ¡meaningful! ¡ -­‑ The ¡stringency ¡of ¡the ¡search ¡algorithm ¡is ¡crucial ¡

  29. Metagenomic analysis

Recommend


More recommend