E fficient ¡Processing ¡of ¡Models ¡for ¡ ¡ Large-‑scale ¡Shotgun ¡Proteomics ¡Data ¡ Himanshu ¡Grover, ¡Ph.D. ¡ Vanathi ¡Gopalakrishnan, ¡Ph.D. ¡ University ¡of ¡Pi;sburgh ¡ ¡ C-‑Big ¡2012, ¡Pi;sburgh, ¡USA ¡ 14 th ¡October, ¡2012 ¡
Outline ¡ • Background ¡on ¡Proteins ¡and ¡Shotgun ¡Proteomics ¡ • ComputaJonal ¡ ¡modeling ¡framework: ¡ – Context-‑sensiJve ¡PepJde ¡IdenJficaJon ¡( CSPI ) ¡ • Problem ¡Statement ¡ • Methods ¡for ¡efficient ¡handling ¡ • Challenges ¡and ¡Future ¡Work ¡
Proteomics ¡ Interac?ons ¡ PTMs ¡ Expression ¡
Proteomics ¡
Mass ¡Spectrometry ¡ Analytical tool to identify unknown compounds Complex ¡ Sample ¡ IonizaJon ¡ Mass ¡Analyzer ¡ Detector ¡ Collabora?ve ¡ 5 ¡
Amino ¡Acids ¡and ¡Proteins ¡ Amino ¡Acids ¡
¡ ¡ Shotgun ¡Proteomics: ¡Protein/PepJde ¡ IdenJficaJon ¡ ¡ Shotgun ¡Sequencing ¡ Protein ¡ sample ¡ ¡ EnzymaJc ¡ Rel. Int MS/MS ¡ ¡Digest ¡ (CID) ¡ ¡ m/z Pep?de ¡Spectrum ¡ Fragmenta?on ¡Spectrum ¡
Database ¡Searching ¡ Predominant methodology for peptide ID from MS/MS 8 ¡
Fact ¡!! ¡ < ¡30% ¡ of ¡spectra ¡are ¡confidently ¡assigned ¡with ¡ pepJdes ¡ Ø Noise ¡ ¡ Ø Variability ¡ Ø Inadequate ¡scoring ¡systems ¡ 9 ¡
Computa?onal ¡BoKlenecks ¡ ¡ Ø High ¡volume ¡and ¡rate ¡of ¡data ¡genera?on ¡ § 24*7 ¡ § 200 ¡– ¡400 ¡^ ¡3 ¡spectra ¡per ¡day ¡from ¡moderate ¡sized ¡ labs ¡ ¡ Ø Large ¡protein ¡databases: ¡~90 ¡K ¡protein ¡sequences ¡for ¡ Humans ¡ § Constrained ¡searches: ¡ • ~5-‑10 ¡^ ¡6 ¡unique ¡pepJdes ¡in ¡database ¡ • ~10-‑20 ¡^ ¡3 ¡pepJdes ¡per ¡spectrum ¡ § Unconstrained ¡searches ¡ • Over ¡billion ¡pepJdes ¡
C ontext-‑ S ensiJve ¡ P epJde ¡ I denJficaJon ¡ ( CSPI ) ¡Framework ¡DemysJfied ¡ Grover ¡et. ¡al. ¡(2012), ¡OMICS ¡( submi;ed ¡for ¡publica@on ) ¡ ¡ Ø Novel ¡probabilisJc ¡framework ¡ § Scalable ¡and ¡flexible ¡ ¡ Ø Specific ¡Goal: ¡Model ¡influence ¡of ¡pepJde ¡ physicochemical ¡ context ¡ on ¡the ¡observed ¡ peak ¡heights ¡(intensiJes) ¡in ¡fragmentaJon ¡ spectra ¡ 11 ¡
I nput-‑ O utput ¡ H idden ¡ M arkov ¡ M odels ¡( IO-‑HMM ) ¡ q t-‑1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡q t ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡q t+1 ¡ ¡ Hidden ¡Layer ¡ .... ¡ .... ¡ P(q t |q t-‑1 ;Ө) ¡ (Transi?on ¡Probability) ¡ Output ¡Layer ¡ P(y t |q t ;Ө) ¡ (Emission ¡Probability) ¡ y t-‑1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡y t ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡y t+1 ¡ ¡ Classical ¡Hidden ¡Markov ¡Model ¡ ¡ ¡ q t-‑1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡q t ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡q t+1 ¡ ¡ Hidden ¡Layer ¡ .... ¡ .... ¡ P(q t |q t-‑1 ,x t ;Ө) ¡ (Transi?on ¡Probability) ¡ Input ¡ ¡ x t-‑1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡x t ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡x t+1 ¡ ¡ Layer ¡ Output ¡Layer ¡ P(y t |q t ,x t ;Ө) ¡ y t-‑1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡y t ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡y t+1 ¡ ¡ (Emission ¡Probability) ¡ Input-‑output ¡Hidden ¡Markov ¡Model ¡
CSPI ¡Model ¡Structure ¡ x t-‑1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡x t ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡x t+1 ¡ ¡ ¡ Input ¡Layer ¡ q t-‑1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡q t ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡q t+1 ¡ ¡ ….. ¡ ….. ¡ Hidden ¡Layer ¡ P ¡(q t |q t-‑1 , ¡x t ; ¡Θ) ¡ Output ¡Layer ¡ y t-‑1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡y t ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡y t+1 ¡ ¡ P ¡(yt|qt; ¡Θ) ¡ 13 ¡
Input ¡Layer: ¡PepJde ¡Physicochemical ¡Context ¡ S ― G ― F ― L ― E ― E ― D ― E ― L ― K Local 100 Global y 6 Relative Intensity y 7 Experimental Spectrum y 5 b 3 b 4 y 3 b 5 y 8 y 9 y 4 y 2 b 8 b 9 b 7 b 6 0 250 500 750 1000 14 ¡ m/z
‘Context’ ¡ in ¡the ¡context ¡of ¡CSPI ¡ S − G − F − L − E − E − D − E − L − K x t ¡= ¡{x t,0 , ¡x t,1 , ¡x t,2 , ¡…., ¡x t,47 } ¡ x t-‑1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡x t ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡x t+1 ¡ ¡ ¡ Input ¡Layer ¡ q t-‑1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡q t ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡q t+1 ¡ ¡ …. …. Hidden ¡Layer ¡ . ¡ . ¡ Output ¡Layer ¡ y t-‑1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡y t ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡y t+1 ¡ ¡
Matching ¡A ¡PepJde ¡with ¡Experimental ¡Spectra ¡ 1 2 3 4 5 6 7 8 9 b ions 145 292 405 534 663 778 907 1020 88 S ― G ― F ― L ― E ― E ― D ― E ― L ― K 1080 1022 875 762 633 504 389 260 147 y ions 9 8 7 6 5 4 3 2 1 100 100 y 6 y 7 Experimental Spectrum Experimental Spectrum Relative Relative Intensity Intensity y 5 b 3 b 4 y 3 b 5 y 8 y 9 y 4 y 2 b 8 b 9 b 7 b 6 0 0 250 250 500 500 750 750 1000 1000 16 ¡ m/z
Normalized ¡IntensiJes ¡in ¡context ¡of ¡CSPI ¡ x t-‑1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡x t ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡x t+1 ¡ ¡ ¡ Input ¡Layer ¡ q t-‑1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡q t ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡q t+1 ¡ ¡ …. …. Hidden ¡Layer ¡ . ¡ . ¡ Output ¡Layer ¡ y t-‑1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡y t ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡y t+1 ¡ ¡ 1 2 3 4 5 6 7 8 9 b ions 145 292 405 534 663 778 907 1020 88 S ― G ― F ― L ― E ― E ― D ― E ― L ― K 1080 1022 875 762 633 504 389 260 147 y ions 9 8 7 6 5 4 3 2 1
Summary ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡t=0 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡t=1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡t-‑1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡t ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡t+1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡T ¡ S ― G ― F ― L ― E ― E ― D ― E ― L ― K x t-‑1,0… ¡47 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡x t,0… ¡47 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡x t+1,0… ¡47 ¡ ¡ ¡ q t-‑1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡q t ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡q t+1 ¡ ¡ …. ¡ …. ¡ PSM ¡ y t-‑1 ¡ = ¡ I b/y, ¡t-‑1 ¡ ¡ ¡ ¡ ¡ ¡ ¡y t ¡ = ¡ I b/y, ¡t-‑1 ¡ ¡ ¡ ¡ ¡ ¡ ¡y t+1 ¡ = ¡ I b/y, ¡t-‑1 ¡ ¡
Recommend
More recommend