Decoding Chromatin States with Epigenome Data 02-‑715 ¡Advanced ¡Topics ¡in ¡Computa8onal ¡ Genomics ¡
HMMs for Decoding Chromatin States • Epigene8c ¡modifica8ons ¡of ¡the ¡genome ¡have ¡been ¡associated ¡ with ¡ – Establishing ¡cell ¡iden88es ¡during ¡development ¡ – DNA ¡repair, ¡replica8on ¡ – Human ¡diseases ¡ – ¡ ¡ • De ¡novo ¡discovery ¡of ¡chroma8n ¡states ¡given ¡epigene8c ¡marks ¡ with ¡HMMs ¡ – Emission ¡probabili8es: ¡which ¡histone ¡marks ¡co-‑occur? ¡ – Transi8on ¡probabili8es: ¡how ¡chroma8n ¡states ¡are ¡distributed ¡spa8ally ¡ across ¡the ¡genome ¡ ¡
Dataset • Genome-‑wide ¡occupancy ¡data ¡in ¡human ¡CD4 ¡T-‑cells ¡from ¡ ChIP-‑seq ¡experiments ¡ ¡ – 38 ¡different ¡histone ¡methyla8on ¡and ¡acetyla8on ¡marks ¡ – Histone ¡variant ¡H2AZ ¡ – RNA ¡polymerase ¡II ¡ – CTCF ¡ – E.g., ¡H3K9me3 ¡trimethylated ¡lysine ¡9 ¡of ¡histone ¡3 ¡ ¡ ¡
HMMs for Decoding Chromatin States • Hidden ¡states ¡for ¡unknown ¡chroma8n ¡states ¡ – Models ¡with ¡varying ¡number ¡of ¡states ¡ – 79 ¡states, ¡pruned ¡to ¡51 ¡states ¡ • Histone ¡mark ¡data ¡as ¡observa8ons ¡ – Data ¡are ¡binarized ¡(a\er ¡thresholding) ¡for ¡each ¡window ¡of ¡size ¡200bp ¡ ¡ – Binomial ¡distribu8on ¡for ¡each ¡histone ¡mark ¡as ¡emission ¡probability ¡ – All ¡histone ¡marks ¡are ¡treated ¡as ¡independent ¡
Example of Chromatin State Annotation Posterior ¡ probability ¡of ¡ states ¡at ¡ each ¡locus, ¡ given ¡data ¡
Estimated Chromatin States - Emission Probabilities Genomic ¡func8onal ¡ Emission ¡probabili8es ¡ enrichment ¡
GO Enrichment for Promoter States • Although ¡states ¡3-‑8 ¡were ¡promoter ¡states, ¡each ¡state ¡is ¡ enriched ¡for ¡genes ¡with ¡different ¡GO ¡categories ¡
Comparison of Promoter States • Different ¡promoter ¡states ¡peak ¡at ¡different ¡sites ¡
Comparison of Transcribed States
GWAS and Chromatin States • GWAS-‑enriched ¡chroma8n ¡state ¡33 ¡
Power for Discovering Chromatin States
Feature Selection • We ¡may ¡not ¡need ¡all ¡of ¡the ¡histone ¡marks ¡to ¡explain ¡the ¡ chroma8n ¡state ¡ • Feature ¡selec8on ¡as ¡step-‑wise ¡forward ¡selec8on ¡to ¡select ¡a ¡ subset ¡of ¡histone ¡marks ¡that ¡describe ¡the ¡chroma8n ¡state ¡
Feature Selection
Epigenome and Gene Expression
Epigenome and Transcription • Histone ¡modifica8on ¡levels ¡can ¡influence ¡gene ¡expressions ¡ • Nucleosome ¡posi8ons ¡can ¡influence ¡gene ¡expressions ¡ – DNA ¡sequence ¡specifici8es ¡of ¡nucleosome ¡and ¡transcrip8on ¡factor ¡ binding ¡sites ¡ – Nucleosomes ¡as ¡repressors ¡ • Methyla8on ¡usually ¡represses ¡transcrip8on ¡
Key Questions • Is ¡there ¡a ¡quan8ta8ve ¡rela8onship ¡between ¡histone ¡ modifica8ons ¡levels ¡and ¡transcrip8on? ¡ • Is ¡there ¡a ¡subset ¡of ¡histone ¡modifica8ons ¡that ¡predict ¡ transcrip8on ¡becer ¡than ¡others? ¡ • Are ¡there ¡different ¡requirements ¡for ¡epigene8c ¡marks ¡for ¡ different ¡promoter ¡types? ¡ • Do ¡these ¡rela8onships ¡between ¡histone ¡modifica8ons ¡and ¡ transcrip8on ¡hold ¡in ¡different ¡8ssue ¡types? ¡
Dataset • 38 ¡histone ¡modifica8ons ¡and ¡one ¡histone ¡variant ¡in ¡human ¡ CD4+ ¡T-‑cells ¡ – ChIP-‑seq ¡data ¡ ¡ – In ¡a ¡region ¡of ¡4,001 ¡bp ¡surrounding ¡the ¡transcrip8on ¡start ¡sites ¡of ¡ 14,801 ¡RefSeq ¡genes ¡ • Gene ¡expression ¡levels ¡in ¡the ¡CD4+ ¡T-‑cells ¡ • 9 ¡histone ¡modifica8ons ¡in ¡CD36+ ¡and ¡CD133+ ¡cells ¡ • Gene ¡expression ¡levels ¡in ¡CD36+ ¡and ¡CD133+ ¡cells ¡ Histone ¡modifica8on ¡levels ¡are ¡predic8ve ¡for ¡gene ¡ expression. ¡(Karlic ¡et ¡al., ¡PNAS, ¡2010) ¡ ¡
Linear Models • Linear ¡regression ¡method ¡ – Predictors: ¡histone ¡marks ¡ ¡ • No ¡binariza8on ¡ • For ¡genes ¡with ¡no ¡histone ¡modifica8ons ¡for ¡par8cular ¡ modifica8ons, ¡add ¡a ¡pseudocount ¡ – Responses: ¡gene ¡expressions ¡ – Promoter ¡regions ¡of ¡different ¡genes ¡as ¡samples ¡
Linear Models • Full ¡model ¡including ¡all ¡histone ¡modifica8ons ¡ • Compute ¡r 2 ¡between ¡observed ¡gene ¡expressions ¡and ¡ predicted ¡values ¡to ¡assess ¡the ¡predic8ve ¡power ¡of ¡the ¡model ¡
Linear Models • Selec8ng ¡the ¡histone ¡modifica8ons ¡with ¡the ¡most ¡predic8ve ¡ power ¡
Linear Models • Selec8ng ¡the ¡histone ¡modifica8ons ¡with ¡the ¡most ¡predic8ve ¡ power ¡with ¡BIC ¡scores ¡
Prediction Accuracy
Searching for Histone Modifications with the Most Predictive Power • The ¡most ¡frequently ¡appearing ¡histone ¡modifica8ons ¡in ¡ models ¡with ¡1, ¡2, ¡3 ¡histone ¡modifica8ons ¡
Model with One Histone Modification • Correla8ons ¡between ¡ expressions ¡and ¡each ¡ histone ¡modifica8on ¡ • Redundancy ¡in ¡histone ¡ modifica8ons ¡
Histone Modifications and Promoter Types • Different ¡promoter ¡types ¡to ¡be ¡considered ¡ – LCPs ¡: ¡low ¡CpG ¡content ¡promoters ¡ – HCPs ¡: ¡high ¡CpG ¡content ¡promoters ¡ – Nucleosomes ¡in ¡HCPs ¡almost ¡always ¡have ¡H3K4me3 ¡marks, ¡whereas ¡ nucleosomes ¡in ¡LCPs ¡carry ¡this ¡modifica8on ¡only ¡when ¡they ¡are ¡ expressed. ¡ • Hypothesis: ¡expression ¡levels ¡of ¡genes ¡with ¡LCPs ¡and ¡HCPs ¡can ¡ be ¡predicted ¡by ¡different ¡sets ¡of ¡histone ¡modifica8ons ¡
Histone Modifications and Promoter Types • Experimental ¡setup ¡ – 1,779 ¡LCPs ¡and ¡7,089 ¡HCPs ¡in ¡the ¡dataset ¡ – Fit ¡different ¡models ¡to ¡each ¡of ¡LCPs ¡and ¡HCPs ¡and ¡compare ¡them ¡with ¡ the ¡model ¡es8mated ¡from ¡the ¡full ¡dataset ¡
Histone Modifications and Promoter Types
Considering Different Tissue Types • Used ¡the ¡model ¡trained ¡on ¡CD4+ ¡data ¡to ¡predict ¡gene ¡ expressions ¡in ¡CD133+ ¡and ¡CD36+ ¡cells ¡ • Used ¡only ¡those ¡gene ¡expressions ¡with ¡more ¡than ¡five ¡fold ¡ differences ¡between ¡CD4+ ¡and ¡CD133+ ¡(also ¡between ¡CD4+ ¡ and ¡CD36+) ¡
Nucleosome and Transcription • DNA ¡sequence ¡mo8fs ¡with ¡high ¡nucleosome ¡binding ¡affini8es ¡ – Poten8ally ¡related ¡to ¡bending ¡DNA ¡around ¡the ¡nucleosomes ¡ • DNA ¡sequence ¡mo8fs ¡with ¡high ¡transcrip8on ¡factor ¡binding ¡ affini8es ¡ – TF ¡concentra8on ¡can ¡also ¡influence ¡gene ¡expression ¡ • Compe88on ¡between ¡nucleosomes ¡and ¡transcrip8on ¡factors ¡ can ¡influence ¡the ¡transcrip8on ¡
DNA Sequence, DNA-binding Proteins, and Gene Expression • Mixture ¡model ¡for ¡predic8ng ¡gene ¡expressions ¡from ¡ nucleosomes ¡and ¡other ¡DNA ¡binding ¡proteins ¡ – E: ¡gene ¡expression ¡ – C: ¡protein ¡configura8ons ¡
DNA Sequence, DNA-binding Proteins, and Gene Expression • Mixture ¡propor8ons ¡ • Mixture ¡component ¡models ¡
Nucleosome and Transcription
Nucleosome and Transcription
Competition between Nucleosomes and Transcription Factors
Competition between Nucleosomes and Transcription Factors
Transcriptional Noise
Cooperative Binding Reduces Transcriptional Noise
Fuzzy Nucleosomes • Well-‑posi8oned ¡vs. ¡fuzzy ¡nucleosomes ¡ – Can ¡be ¡inferred ¡from ¡DNA ¡sequences ¡ – In ¡fuzzy ¡nucleosomes, ¡many ¡nucleosome ¡posi8ons ¡are ¡observed ¡ Well-‑posi8oned ¡ Fuzzy ¡nucleosomes ¡ nucleosomes ¡
Recommend
More recommend