Nucleosome Positioning 02-‑715 ¡Advanced ¡Topics ¡in ¡Computa8onal ¡ Genomics ¡
Nucleosome Core
Nucleosome Core and Linker • 147 ¡bp ¡DNA ¡wrapping ¡ around ¡nucleosome ¡core ¡ • Varying ¡lengths ¡of ¡linkers ¡ between ¡adjacent ¡cores ¡ Linker ¡
Predicting Nucleosome Positions • Many ¡studies ¡reported ¡evidence ¡that ¡nucleosome ¡posi8ons ¡ can ¡be ¡predicted ¡based ¡on ¡DNA ¡sequences ¡ – Enrichment ¡of ¡specific ¡short ¡DNA ¡sequences ¡in ¡the ¡nucleosome ¡ occupied ¡regions ¡ – Both ¡sequen8al ¡and ¡rota8onal ¡nucleosome ¡posi8ons ¡can ¡be ¡predicted ¡ • Mono-‑nucleo8de ¡paNern ¡around ¡the ¡dyad ¡posi8on ¡predicts ¡ the ¡nucleosome ¡posi8ons ¡accurately. ¡ (Reynolds ¡et ¡al., ¡2010) ¡
Datasets • H. ¡sapiens ¡ – Experimentally ¡determined ¡438,652 ¡nucleosome ¡posi8ons ¡ ¡ – Derived ¡from ¡the ¡histone ¡methyla8on ¡ChIP-‑seq ¡data ¡from ¡CD4 + ¡T-‑cells ¡ • S. ¡cerevisiae ¡ – 380,000 ¡nucleosomal ¡sequences ¡
Constructing Sequence Patterns • Examine ¡a ¡window ¡of ¡size ¡W ¡surrounding ¡the ¡dyad ¡posi8ons ¡ • Compute ¡how ¡o_en ¡each ¡k-‑mer ¡is ¡observed ¡within ¡a ¡window ¡for ¡ each ¡nucleosome ¡ • Average ¡the ¡k-‑mer ¡counts ¡over ¡all ¡nucleosomes ¡in ¡the ¡data ¡ • The ¡k-‑mer ¡paNern ¡P m ¡at ¡loca8on ¡j, ¡with ¡the ¡loca8on ¡rela8ve ¡to ¡the ¡ dyad ¡posi8on ¡ • S[j 1 :j 2 ] ¡: ¡subsequence ¡from ¡j 1 =j+k-‑1 ¡to ¡j 2 =j+k+K-‑1 ¡ • R[j 1 :j 2 ] ¡examines ¡the ¡reverse ¡complement ¡
DNA Sequence and Nucleosome Positioning • Mono-‑nucleo8de ¡paNern ¡in ¡H. ¡Sapiens ¡ Derived ¡ from ¡Barski ¡ nucleosome ¡ posi8ons ¡ Derived ¡ from ¡ Schones ¡ nucleosome ¡ posi8ons ¡
Mono-nucleotide Patterns around Dyads • G/C ¡are ¡symmetric ¡with ¡respect ¡to ¡the ¡dyad ¡ • T/A ¡are ¡symmetric ¡with ¡respect ¡to ¡the ¡dyad ¡ • A/C ¡are ¡symmetric ¡with ¡respect ¡to ¡the ¡horizontal ¡line ¡ • T/G ¡are ¡symmetric ¡with ¡respect ¡to ¡the ¡horizontal ¡line ¡
Sequence Content in Nucleosome- Occupied Regions • In ¡the ¡nucleosome ¡core, ¡the ¡average ¡GC ¡content ¡is ¡ significantly ¡higher ¡than ¡the ¡average ¡AT ¡content. ¡
DNA Sequence and Nucleosome Positioning • Dinucleo8de ¡A/T ¡and ¡G/C ¡paNerns ¡
Predicting Nucleosome Positions • Train ¡dataset ¡ – Posi8ve ¡examples: ¡Extract ¡k-‑mer ¡paNerns ¡(k=1,2,3) ¡from ¡the ¡ nucleosome-‑occupied ¡regions ¡of ¡the ¡DNA ¡sequence ¡ – Nega8ve ¡examples: ¡extract ¡the ¡same ¡features ¡from ¡the ¡linker ¡ sequences ¡ • Building ¡a ¡SVM ¡classifier ¡ ¡ – Features ¡to ¡be ¡used ¡for ¡the ¡classifier ¡ • Correla8on ¡score ¡between ¡the ¡sequence ¡to ¡be ¡classified ¡and ¡the ¡ P m ¡scores ¡ • K-‑mer ¡count ¡in ¡the ¡sequence ¡to ¡be ¡classified ¡
Predicting Nucleosome Positions • ROC ¡curves ¡for ¡on ¡H. ¡sapiens ¡and ¡S. ¡cerevisiae ¡datasets ¡
Predicting Nucleosome Positions • Classifica8on ¡performance ¡and ¡DNA ¡sequence ¡features ¡used ¡ in ¡classifica8on ¡
Nucleosome Positioning • Distribu8on ¡of ¡distances ¡between ¡successive ¡nucleosome ¡ dyad ¡posi8ons ¡
Nucleosome Positioning and Repetitive Sequences • Average ¡dyad ¡scores ¡ for ¡AluSx ¡repe88ve ¡ element ¡ • Predicted ¡dyad ¡ posi8ons ¡at ¡40bp ¡and ¡ 210 ¡bp ¡rela8ve ¡to ¡the ¡ start ¡of ¡the ¡313 ¡bp ¡ long ¡repe88ve ¡ element. ¡
TF and Nucleosome Binding Positions • Dyad ¡posi8ons ¡with ¡ respect ¡to ¡TSS ¡for ¡four ¡ different ¡TF ¡categories ¡ – Red: ¡response ¡to ¡stress ¡ – Green: ¡transla8on ¡ – Dark ¡blue: ¡ribosome ¡ biogenesis ¡and ¡assembly ¡ – Light ¡blue: ¡organelle ¡ organiza8on ¡and ¡ biogenesis ¡
DBN for Predicting Nucleosome Positioning • Many ¡methods ¡for ¡predic8ng ¡nucleosome ¡posi8ons ¡ – HMMs ¡for ¡linker-‑dyad-‑linker ¡sites ¡based ¡on ¡experimental ¡data ¡ – Infer ¡sequence ¡paNerns ¡from ¡experimental ¡data, ¡and ¡use ¡it ¡as ¡features ¡ in ¡classifica8on ¡ • Combine ¡the ¡two ¡ideas ¡using ¡DBN ¡that ¡incorporates ¡mul8ple ¡ evidence ¡track ¡
DBN State Transition Diagram • Three ¡states ¡for ¡ nucleosome ¡core ¡states ¡ – Dyad ¡(5bp) ¡ – 5/ ¡and ¡3’ ¡turns ¡(71 ¡bp ¡ each) ¡ • Two ¡states ¡for ¡linker ¡ states ¡ – First ¡state ¡with ¡fixed ¡linker ¡ length ¡(9bp) ¡ – Second ¡state ¡with ¡ geometrically ¡distributed ¡ linker ¡length ¡
DBN for Predicting Nucleosome Position • Integra8ng ¡mul8ple ¡sources ¡of ¡informa8on ¡ – Sequence ¡model ¡scores: ¡scores ¡from ¡a ¡DNA-‑sequence ¡model ¡of ¡ nucleosome ¡posi8oning ¡ • q i =0: ¡non-‑dyad ¡state ¡ • q i =1: ¡dyad ¡state ¡ – Experimental ¡data ¡on ¡nucleosome ¡occupancy ¡derived ¡from ¡ microarray/sequencing ¡assays ¡
DBN for Predicting Nucleosome Position • Integra8ng ¡mul8ple ¡sources ¡of ¡informa8on ¡ – Transcrip8on ¡factor ¡binding ¡probabili8es ¡ • Rela8ve ¡affinity ¡of ¡a ¡binding ¡site ¡for ¡a ¡TF ¡given ¡as ¡posi8on ¡weight ¡ matrix ¡(PWM) ¡ • Assumes ¡TF ¡only ¡binds ¡in ¡the ¡linker ¡state: ¡ ¡ – q i =0: ¡any ¡state ¡ – q i =1: ¡either ¡of ¡the ¡two ¡linker ¡state ¡ ¡
DBN for Predicting Nucleosome Position • Integra8ng ¡mul8ple ¡sources ¡of ¡informa8on ¡
DBN for Predicting Nucleosome Position • Determinis8c ¡rela8onship ¡ between ¡state ¡s i , ¡the ¡label ¡c i , ¡ and ¡the ¡virtual ¡evidence ¡c i ¡ – P(c i =1| ¡s i , ¡q i ) ¡= ¡I(s i , ¡q i ) ¡ • 1 ¡ ¡if ¡s i ¡and ¡q i ¡are ¡consistent, ¡ otherwise ¡0 ¡ • P(q i =Q) ¡= ¡1/Q ¡(Uniform ¡ distribu8on) ¡
Incorporating Experimental Data and Sequence Scores in DBN • S. ¡cerevisiae ¡chromosome ¡II ¡ Only ¡ experimental ¡ data ¡as ¡evidence ¡ Experimental ¡ data ¡and ¡ nucleosome-‑ binding ¡ sequence ¡scores ¡ as ¡evidence ¡
Incorporating Experimental Data and Sequence Scores in DBN • Uniform ¡distribu8on ¡for ¡linker ¡length ¡ – In ¡the ¡presence ¡of ¡experimental ¡data, ¡the ¡predicted ¡nucleosome ¡ posi8ons ¡track ¡the ¡experimental ¡data ¡more ¡closely ¡ – In ¡the ¡absence ¡of ¡experimental ¡data, ¡there ¡is ¡a ¡greater ¡uncertainty ¡in ¡ the ¡length ¡of ¡linker ¡
TF Binding and Nucleosome Positioning • TFs ¡dynamically ¡complete ¡with ¡nucleosomes ¡for ¡an ¡access ¡to ¡ DNA ¡ • Incorporate ¡TF ¡binding ¡informa8on ¡into ¡the ¡DBN ¡ – Scan ¡the ¡genome ¡with ¡112 ¡TF ¡sequence ¡specifici8es ¡to ¡es8mate ¡TF-‑ binding ¡landscape ¡ – Include ¡TF ¡binding ¡sequence ¡scores ¡and ¡Nucleosome-‑binding ¡ sequence ¡scores ¡as ¡evidence ¡tracks ¡in ¡the ¡DBN ¡
Integrating TF Binding Data • S. ¡cerevisiae ¡chromosome ¡II: ¡compe88on ¡with ¡transcrip8on ¡ factors ¡destabilizes ¡weakly ¡posi8oned ¡nucleosomes ¡
Integrating TF Binding Data • 600bp ¡region ¡between ¡two ¡genes ¡GAL10 ¡and ¡GAL1, ¡with ¡ strong ¡matches ¡for ¡several ¡TFs ¡including ¡SIG1 ¡and ¡PHO2 ¡ • Transcrip8on ¡start ¡sites ¡are ¡predicted ¡to ¡weakly ¡bind ¡with ¡ nucleosomes ¡ • Including ¡TF ¡binding ¡informa8on ¡nearly ¡eliminates ¡the ¡ possibility ¡of ¡nucleosome ¡binding ¡at ¡the ¡transcrip8on ¡start ¡ sites ¡
Recommend
More recommend