outline
play

Outline Background on Proteins and Shotgun Proteomics - PowerPoint PPT Presentation

E fficient Processing of Models for Large-scale Shotgun Proteomics Data Himanshu Grover, Ph.D. Vanathi Gopalakrishnan, Ph.D. University of Pi;sburgh


  1. E fficient ¡Processing ¡of ¡Models ¡for ¡ ¡ Large-­‑scale ¡Shotgun ¡Proteomics ¡Data ¡ Himanshu ¡Grover, ¡Ph.D. ¡ Vanathi ¡Gopalakrishnan, ¡Ph.D. ¡ University ¡of ¡Pi;sburgh ¡ ¡ C-­‑Big ¡2012, ¡Pi;sburgh, ¡USA ¡ 14 th ¡October, ¡2012 ¡

  2. Outline ¡ • Background ¡on ¡Proteins ¡and ¡Shotgun ¡Proteomics ¡ • ComputaJonal ¡ ¡modeling ¡framework: ¡ – Context-­‑sensiJve ¡PepJde ¡IdenJficaJon ¡( CSPI ) ¡ • Problem ¡Statement ¡ • Methods ¡for ¡efficient ¡handling ¡ • Challenges ¡and ¡Future ¡Work ¡

  3. Proteomics ¡ Interac?ons ¡ PTMs ¡ Expression ¡

  4. Proteomics ¡

  5. Mass ¡Spectrometry ¡ Analytical tool to identify unknown compounds Complex ¡ Sample ¡ IonizaJon ¡ Mass ¡Analyzer ¡ Detector ¡ Collabora?ve ¡ 5 ¡

  6. Amino ¡Acids ¡and ¡Proteins ¡ Amino ¡Acids ¡

  7. ¡ ¡ Shotgun ¡Proteomics: ¡Protein/PepJde ¡ IdenJficaJon ¡ ¡ Shotgun ¡Sequencing ¡ Protein ¡ sample ¡ ¡ EnzymaJc ¡ Rel. Int MS/MS ¡ ¡Digest ¡ (CID) ¡ ¡ m/z Pep?de ¡Spectrum ¡ Fragmenta?on ¡Spectrum ¡

  8. Database ¡Searching ¡ Predominant methodology for peptide ID from MS/MS 8 ¡

  9. Fact ¡!! ¡ < ¡30% ¡ of ¡spectra ¡are ¡confidently ¡assigned ¡with ¡ pepJdes ¡ Ø Noise ¡ ¡ Ø Variability ¡ Ø Inadequate ¡scoring ¡systems ¡ 9 ¡

  10. Computa?onal ¡BoKlenecks ¡ ¡ Ø High ¡volume ¡and ¡rate ¡of ¡data ¡genera?on ¡ § 24*7 ¡ § 200 ¡– ¡400 ¡^ ¡3 ¡spectra ¡per ¡day ¡from ¡moderate ¡sized ¡ labs ¡ ¡ Ø Large ¡protein ¡databases: ¡~90 ¡K ¡protein ¡sequences ¡for ¡ Humans ¡ § Constrained ¡searches: ¡ • ~5-­‑10 ¡^ ¡6 ¡unique ¡pepJdes ¡in ¡database ¡ • ~10-­‑20 ¡^ ¡3 ¡pepJdes ¡per ¡spectrum ¡ § Unconstrained ¡searches ¡ • Over ¡billion ¡pepJdes ¡

  11. C ontext-­‑ S ensiJve ¡ P epJde ¡ I denJficaJon ¡ ( CSPI ) ¡Framework ¡DemysJfied ¡ Grover ¡et. ¡al. ¡(2012), ¡OMICS ¡( submi;ed ¡for ¡publica@on ) ¡ ¡ Ø Novel ¡probabilisJc ¡framework ¡ § Scalable ¡and ¡flexible ¡ ¡ Ø Specific ¡Goal: ¡Model ¡influence ¡of ¡pepJde ¡ physicochemical ¡ context ¡ on ¡the ¡observed ¡ peak ¡heights ¡(intensiJes) ¡in ¡fragmentaJon ¡ spectra ¡ 11 ¡

  12. I nput-­‑ O utput ¡ H idden ¡ M arkov ¡ M odels ¡( IO-­‑HMM ) ¡ q t-­‑1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡q t ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡q t+1 ¡ ¡ Hidden ¡Layer ¡ .... ¡ .... ¡ P(q t |q t-­‑1 ;Ө) ¡ (Transi?on ¡Probability) ¡ Output ¡Layer ¡ P(y t |q t ;Ө) ¡ (Emission ¡Probability) ¡ y t-­‑1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡y t ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡y t+1 ¡ ¡ Classical ¡Hidden ¡Markov ¡Model ¡ ¡ ¡ q t-­‑1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡q t ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡q t+1 ¡ ¡ Hidden ¡Layer ¡ .... ¡ .... ¡ P(q t |q t-­‑1 ,x t ;Ө) ¡ (Transi?on ¡Probability) ¡ Input ¡ ¡ x t-­‑1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡x t ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡x t+1 ¡ ¡ Layer ¡ Output ¡Layer ¡ P(y t |q t ,x t ;Ө) ¡ y t-­‑1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡y t ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡y t+1 ¡ ¡ (Emission ¡Probability) ¡ Input-­‑output ¡Hidden ¡Markov ¡Model ¡

  13. CSPI ¡Model ¡Structure ¡ x t-­‑1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡x t ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡x t+1 ¡ ¡ ¡ Input ¡Layer ¡ q t-­‑1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡q t ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡q t+1 ¡ ¡ ….. ¡ ….. ¡ Hidden ¡Layer ¡ P ¡(q t |q t-­‑1 , ¡x t ; ¡Θ) ¡ Output ¡Layer ¡ y t-­‑1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡y t ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡y t+1 ¡ ¡ P ¡(yt|qt; ¡Θ) ¡ 13 ¡

  14. Input ¡Layer: ¡PepJde ¡Physicochemical ¡Context ¡ S ― G ― F ― L ― E ― E ― D ― E ― L ― K Local 100 Global y 6 Relative Intensity y 7 Experimental Spectrum y 5 b 3 b 4 y 3 b 5 y 8 y 9 y 4 y 2 b 8 b 9 b 7 b 6 0 250 500 750 1000 14 ¡ m/z

  15. ‘Context’ ¡ in ¡the ¡context ¡of ¡CSPI ¡ S − G − F − L − E − E − D − E − L − K x t ¡= ¡{x t,0 , ¡x t,1 , ¡x t,2 , ¡…., ¡x t,47 } ¡ x t-­‑1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡x t ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡x t+1 ¡ ¡ ¡ Input ¡Layer ¡ q t-­‑1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡q t ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡q t+1 ¡ ¡ …. …. Hidden ¡Layer ¡ . ¡ . ¡ Output ¡Layer ¡ y t-­‑1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡y t ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡y t+1 ¡ ¡

  16. Matching ¡A ¡PepJde ¡with ¡Experimental ¡Spectra ¡ 1 2 3 4 5 6 7 8 9 b ions 145 292 405 534 663 778 907 1020 88 S ― G ― F ― L ― E ― E ― D ― E ― L ― K 1080 1022 875 762 633 504 389 260 147 y ions 9 8 7 6 5 4 3 2 1 100 100 y 6 y 7 Experimental Spectrum Experimental Spectrum Relative Relative Intensity Intensity y 5 b 3 b 4 y 3 b 5 y 8 y 9 y 4 y 2 b 8 b 9 b 7 b 6 0 0 250 250 500 500 750 750 1000 1000 16 ¡ m/z

  17. Normalized ¡IntensiJes ¡in ¡context ¡of ¡CSPI ¡ x t-­‑1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡x t ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡x t+1 ¡ ¡ ¡ Input ¡Layer ¡ q t-­‑1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡q t ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡q t+1 ¡ ¡ …. …. Hidden ¡Layer ¡ . ¡ . ¡ Output ¡Layer ¡ y t-­‑1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡y t ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡y t+1 ¡ ¡ 1 2 3 4 5 6 7 8 9 b ions 145 292 405 534 663 778 907 1020 88 S ― G ― F ― L ― E ― E ― D ― E ― L ― K 1080 1022 875 762 633 504 389 260 147 y ions 9 8 7 6 5 4 3 2 1

  18. Summary ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡t=0 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡t=1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡t-­‑1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡t ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡t+1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡T ¡ S ― G ― F ― L ― E ― E ― D ― E ― L ― K x t-­‑1,0… ¡47 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡x t,0… ¡47 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡x t+1,0… ¡47 ¡ ¡ ¡ q t-­‑1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡q t ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡q t+1 ¡ ¡ …. ¡ …. ¡ PSM ¡ y t-­‑1 ¡ = ¡ I b/y, ¡t-­‑1 ¡ ¡ ¡ ¡ ¡ ¡ ¡y t ¡ = ¡ I b/y, ¡t-­‑1 ¡ ¡ ¡ ¡ ¡ ¡ ¡y t+1 ¡ = ¡ I b/y, ¡t-­‑1 ¡ ¡

Recommend


More recommend