introduc on to chroma n ip sequencing chip seq data
play

Introduc)on to Chroma)n IP sequencing (ChIP-seq) data - PowerPoint PPT Presentation

Introduc)on to Chroma)n IP sequencing (ChIP-seq) data analysis Introduc)on to Bioinforma)cs using NGS data Linkping, 21 April 2016 Agata


  1. Introduc)on ¡to ¡Chroma)n ¡IP ¡– ¡ sequencing ¡(ChIP-­‑seq) ¡data ¡analysis ¡ Introduc)on ¡to ¡Bioinforma)cs ¡using ¡NGS ¡data ¡ ¡ Linköping, ¡21 ¡April ¡2016 ¡ ¡ Agata ¡Smialowska ¡ BILS ¡/ ¡NBIS, ¡SciLifeLab, ¡Stockholm ¡University ¡

  2. Chroma)n ¡state ¡and ¡gene ¡expression ¡ PEV ¡ Posi)on ¡effect ¡ variega)on ¡ in ¡Drosophila ¡eye ¡ (nature.com) ¡ First ¡observed ¡by ¡ H. ¡Muller ¡ 1930 ¡ Juxtaposi)on ¡of ¡eye ¡colour ¡genes ¡with ¡heterochroma)n ¡results ¡in ¡the ¡“moWled” ¡eye ¡ coloura)on ¡(red ¡and ¡white). ¡ ¡ Proteins, ¡which ¡bind ¡heterochroma)n, ¡act ¡to ¡“spread” ¡the ¡silencing ¡signal ¡by ¡ providing ¡a ¡forward ¡feedback ¡loop. ¡ ¡ Heterochroma)n ¡Protein ¡1; ¡Histone ¡methyltransferase ¡Su(var)3-­‑9; ¡H3K9 ¡ methyla)on ¡

  3. Chroma)n ¡immunoprecipita)on ¡ RnDsystems ¡

  4. Applica)ons ¡ General ¡transcrip)on ¡machinery ¡

  5. Applica)ons ¡ Promoter-­‑associated ¡ transcrip)on ¡factors ¡

  6. Applica)ons ¡ Distal ¡enhancers ¡

  7. Applica)ons ¡ Histone ¡modifica)ons ¡ and ¡variants ¡ Ac)va)on ¡states ¡ Co-­‑factors ¡

  8. Workflow ¡of ¡a ¡ChIP-­‑seq ¡study ¡ design ¡study ¡ ¡ obtain ¡input ¡chroma)n ¡ ¡ perform ¡precipita)on ¡ ¡ construct ¡library ¡ ¡ sequence ¡library ¡ ¡ bioinforma1c ¡analysis ¡

  9. ChIP-­‑seq ¡workflow ¡ Liu, ¡PoW ¡and ¡Huss, ¡BMC ¡Biology ¡2010 ¡

  10. Cri)cal ¡factors ¡ • An)body ¡selec)on ¡ • Library ¡cloning ¡and ¡sequencing ¡ • Algorithm ¡for ¡peak ¡detec)on ¡ • Proper ¡control ¡sample ¡(input ¡chroma)n ¡or ¡mock ¡IP) ¡ • Reproducibility ¡in ¡chroma)n ¡fragmenta)on ¡ • Cross-­‑linker ¡choice ¡ • Enough ¡material ¡and ¡biological ¡replicates ¡

  11. Experiment ¡design ¡ • Sound ¡experimental ¡design: ¡replica)on, ¡randomisa)on ¡and ¡ blocking ¡(R.A. ¡Fisher, ¡1935) ¡ • In ¡the ¡absence ¡of ¡a ¡proper ¡design, ¡it ¡is ¡essen)ally ¡impossible ¡ to ¡par))on ¡biological ¡varia)on ¡from ¡technical ¡varia)on ¡ • Sequencing ¡depth: ¡depends ¡on ¡the ¡structure ¡of ¡the ¡signal; ¡ cannot ¡be ¡linearly ¡scaled ¡to ¡genome ¡size ¡ • Single-­‑ ¡vs. ¡paired-­‑end ¡reads: ¡PE ¡improves ¡read ¡mapping ¡ confidence ¡and ¡gives ¡a ¡direct ¡measure ¡of ¡fragment ¡size, ¡which ¡ otherwise ¡has ¡to ¡be ¡modelled ¡or ¡es)mated ¡

  12. Experiment ¡design ¡ Ideal ¡design: ¡ ¡ ChIP ¡ input ¡ library/sequencing ¡ replicates ¡ X ¡ Each ¡sample ¡has ¡a ¡matched ¡input ¡ Input ¡sequenced ¡to ¡a ¡comparable ¡depth ¡ ¡ as ¡IP ¡sample ¡ ¡ ChIP ¡ ≥2 ¡biological ¡replicates ¡for ¡site ¡iden)fica)on ¡ input ¡ replicates ¡ library/sequencing ¡ ≥3 ¡biological ¡replicates ¡for ¡differen)al ¡binding ¡ X ¡ ChIP ¡ under-­‑sequenced ¡input ¡ ChIP ¡ input ¡ library/sequencing ¡ replicates ¡ ✓ ¡ ChIP ¡ well-­‑sequenced ¡input ¡

  13. Importance ¡of ¡biological ¡replicates ¡ libraries ¡ sequencing ¡ X ¡ sample ¡ technical ¡replicates ¡are ¡generally ¡a ¡waste ¡of ¡)me ¡ and ¡money ¡ ¡ samples ¡ replicates ¡ libraries ¡ sequencing ¡ X ¡ many ¡studies ¡do ¡not ¡account ¡for ¡batch ¡ origin ¡ effects ¡ experiment ¡ i. )me ¡ ii. origin ¡ so ¡if ¡you ¡care ¡about ¡reproducibility ¡ ✓ ¡ experiment1 ¡ experiment2 ¡ Experiment3… ¡ libraries, ¡sequencing, ¡etc ¡ )me ¡-­‑-­‑-­‑-­‑-­‑-­‑-­‑> ¡

  14. Importance ¡of ¡sequencing ¡depth ¡ actual ¡replicates ¡ pooled ¡data ¡ X ¡ ✓ if ¡you ¡need ¡to ¡pool ¡your ¡data, ¡then ¡it ¡is ¡under-­‑sequenced ¡ under-­‑sequenced ¡data ¡ pooled ¡data ¡

  15. Sequencing ¡depth ¡depends ¡on ¡data ¡type ¡ Chroma)n ¡ ¡ Transcrip)on ¡ Chroma)n ¡ ¡ Remodellers ¡ Factors ¡ Remodellers ¡ ¡ Histone ¡marks ¡ ¡ Histone ¡marks ¡ ¡ RNA ¡polymerase ¡II ¡ point-­‑source ¡ mixed ¡signal ¡ broad ¡signal ¡ TF: ¡20 ¡M ¡ ? ¡ Human: ¡ ? ¡ H3K4me3: ¡25 ¡M ¡ H3K27me3: ¡40 ¡M ¡ H3K36me3: ¡35 ¡M ¡ H3K9me3: ¡>55 ¡ ¡M ¡ No ¡clear ¡guidelines ¡for ¡mixed ¡and ¡broad ¡type ¡of ¡peaks ¡ Source: ¡The ¡ENCODE ¡consor)um; ¡ ¡Jung ¡et ¡al, ¡NAR ¡2014 ¡

  16. The ¡ ENCODE ¡(Encyclopedia ¡of ¡DNA ¡Elements) ¡Consor)um ¡and ¡the ¡ Roadmap ¡Epigenomics ¡ Consor)um ¡are ¡a ¡vast ¡resource ¡of ¡various ¡ kinds ¡of ¡func)onal ¡genomics ¡data ¡(as ¡well ¡as ¡RNA-­‑seq ¡data). ¡ ¡

  17. • ChIP ¡– ¡sequencing: ¡introduc)on ¡from ¡a ¡ bioinforma)cs ¡point ¡of ¡view ¡ ¡ • Principles ¡of ¡analysis ¡of ¡ChIP-­‑seq ¡data ¡ • ChIP-­‑seq: ¡downstream ¡analyses ¡ • Resources ¡ • Exercise ¡overview ¡

  18. • ChIP ¡– ¡sequencing: ¡introduc)on ¡from ¡a ¡ bioinforma)cs ¡point ¡of ¡view ¡ ¡ • Principles ¡of ¡analysis ¡of ¡ChIP-­‑seq ¡data ¡ • ChIP-­‑seq: ¡downstream ¡analyses ¡ • Resources ¡ • Exercise ¡overview ¡

  19. Chroma)n ¡= ¡DNA ¡+ ¡proteins ¡ Park, ¡Nature ¡Rev ¡Gene)cs, ¡2009 ¡ ¡

  20. Data ¡analysis ¡

  21. Profile ¡of ¡protein ¡binding ¡sites ¡vs. ¡input ¡ Chromator ¡( Drosophila ) ¡– ¡protein ¡binding ¡ methylated ¡histones ¡ Park, ¡Nature ¡Rev ¡Gene)cs, ¡2009 ¡ ¡

  22. design ¡study ¡ Workflow ¡of ¡a ¡ChIP-­‑seq ¡study ¡ ¡ obtain ¡input ¡chroma)n ¡ ¡ perform ¡precipita)on ¡ ¡ construct ¡library ¡ ¡ sequence ¡library ¡ ¡ library ¡quality ¡control ¡ filter ¡sequences ¡ ¡ align ¡sequences ¡ ¡ filter ¡alignments ¡ Itera)ve ¡process ¡ ¡ iden1fy ¡peaks ¡/ ¡regions ¡of ¡enrichment ¡ ¡ assess ¡data ¡quality ¡ ¡ understand ¡the ¡data ¡/ ¡results ¡ ¡ downstream ¡analyses ¡

  23. • ChIP ¡– ¡sequencing: ¡introduc)on ¡from ¡a ¡ bioinforma)cs ¡point ¡of ¡view ¡ ¡ • Principles ¡of ¡analysis ¡of ¡ChIP-­‑seq ¡data ¡ • ChIP-­‑seq: ¡downstream ¡analyses ¡ • Resources ¡ • Exercise ¡overview ¡

  24. Two ¡ques)ons ¡to ¡address ¡ • 1. ¡Did ¡the ¡ChIP ¡part ¡of ¡the ¡ChIP-­‑seq ¡ experiment ¡work? ¡Was ¡the ¡enrichment ¡ successful? ¡ • 2. ¡Where ¡are ¡the ¡binding ¡sites ¡(of ¡the ¡protein ¡ of ¡interest)? ¡

  25. Word ¡of ¡cau)on! ¡ ChIP-­‑seq ¡experiments ¡are ¡more ¡unpredictable ¡ than ¡RNA-­‑seq! ¡ Error ¡sources: ¡ ¡chroma)n ¡structure ¡ ¡PCR ¡over-­‑amplifica)on ¡ ¡non-­‑specific ¡an)body ¡ ¡other ¡things? ¡

  26. ChIP-­‑seq ¡QC: ¡did ¡the ¡ChIP ¡work? ¡ • 1. ¡Inspect ¡the ¡signal ¡(mapped ¡reads, ¡coverage ¡ profiles) ¡in ¡genome ¡browser ¡ • 2. ¡Compute ¡peak-­‑independent ¡quality ¡metrics ¡ (cross ¡correla)on, ¡cumula)ve ¡enrichment) ¡ • 3. ¡Assess ¡replicate ¡consistency ¡(correla)ons ¡ between ¡replicates ¡of ¡the ¡same ¡condi)on) ¡

  27. tag ¡density ¡distribu)on ¡ reproducibility ¡ similarity ¡of ¡coverage ¡ signal ¡at ¡known ¡sites ¡ … ¡ Sposng ¡inconsistencies ¡ Confounding ¡factors ¡ Under-­‑sequenced ¡libraries ¡ … ¡

  28. How ¡do ¡I ¡know ¡my ¡data ¡is ¡of ¡good ¡quality? ¡ Library ¡complexity ¡ Marinov ¡et ¡al, ¡G3 ¡2013 ¡ ¡

  29. Quality ¡control: ¡tag ¡uniqueness ¡– ¡library ¡complexity ¡ metric ¡ Sequence ¡duplica)on ¡level ¡> ¡80% ¡(low ¡complexity ¡library) ¡ FastQC ¡ Babraham ¡Ins)tute ¡ NRF: ¡Non-­‑redundant ¡frac)on ¡(of ¡reads): ¡propor)on ¡of ¡unique ¡tags ¡/ ¡total ¡ ¡ less ¡than ¡20% ¡of ¡reads ¡should ¡be ¡duplicates ¡for ¡10 ¡million ¡reads ¡sequenced ¡(ENCODE) ¡

Recommend


More recommend