ChIP-‑seq ¡analysis ¡ Morgane ¡Thomas-‑Chollier ¡ Samuel ¡Collombet ¡ ¡ Computa)onal ¡systems ¡biology ¡-‑ ¡IBENS ¡ mthomas@biologie.ens.fr ¡ ¡ M2 ¡– ¡Computa8onal ¡analysis ¡of ¡cis-‑regulatory ¡sequences ¡2014/2015 ¡ Denis ¡Thieffry, ¡Jacques ¡van ¡Helden ¡and ¡Carl ¡Herrmann ¡kindly ¡shared ¡some ¡of ¡their ¡slides. ¡ ¡
The ¡ChIP-‑seq ¡era ¡ Pubmed hits per year for "ChiP-Seq" 300 250 200 150 100 50 0 2005 2006 2007 2008 2009 2010 2011 2012 2013
Aim ¡of ¡the ¡course ¡ 1 ¡-‑ ¡From ¡reads ¡to ¡peaks ¡(= ¡primary ¡analysis) ¡ ¡ ¡ ¡ ¡ ¡ ¡ 2 ¡-‑ ¡Secondary ¡analysis ¡ ¡-‑ ¡func8onal ¡annota8on ¡of ¡peaks ¡ ¡-‑ ¡mo8f ¡discovery ¡in ¡peaks ¡ ¡
in ¡vivo ¡experimental ¡methods ¡to ¡iden8fy ¡binding ¡sites ¡ ChIP ¡(=Chroma8n ¡Immuno-‑Precipita8on) ¡ differences ¡in ¡ methods ¡to ¡detect ¡ the ¡ bound ¡DNA ¡ ¡ ¡ ¡ -‑ small-‑scale: ¡PCR ¡/ ¡qPCR ¡ ¡ ¡ ¡ -‑ ¡large-‑scale: ¡ ¡ ¡ -‑ ¡microarray ¡= ¡ ChIP-‑on-‑chip ¡ -‑ ¡sequencing ¡= ¡ ChIP-‑seq ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ h9p://www.chip-‑an)bodies.com/ ¡ ¡
ChIP-‑seq ¡ aim: ¡ find ¡ all ¡ regions ¡bound ¡by ¡a ¡specific ¡transcripIon ¡factor ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡by ¡histones ¡bearing ¡a ¡specific ¡modificaIon ¡ ¡in ¡a ¡given ¡ experimental ¡condi)on ¡ (cell ¡type, ¡developmental ¡stage,...) ¡ ¡ Mardis. ¡Nat ¡Methods ¡(2007) ¡ and ¡then ¡what ¡???? ¡
ChIP-‑seq ¡ Experimental ¡approach ¡ BioinformaIc ¡approach ¡ and ¡then ¡what ¡???? ¡
Different ¡ChIP ¡profiles ¡ Park, ¡Nature ¡reviews ¡2009 ¡
Modelling ¡noise ¡levels ¡ ChIP-seq dataset (=treatment) = signal + How do we estimate the noise ? background noise
Modelling ¡noise ¡levels ¡ ● noise ¡is ¡ not ¡uniform ¡(chromaIn ¡conformaIon, ¡local ¡biases, ¡ mappability) ¡ ● input ¡dataset ¡is ¡ mandatory ¡for ¡reliable ¡local ¡esImaIon ¡! ¡ ¡ (although ¡some ¡algorithms ¡do ¡not ¡require ¡it ¡… ¡:-‑( ¡ ¡) ¡ treatment ? input
From ¡sequence ¡reads ¡to ¡peaks ¡ experiment ¡ ¡ ¡ ¡Input ¡ FASTQ ¡ FASTQ ¡ sequences ¡(reads ¡length ¡36 ¡bp) ¡ ¡ from ¡Illumina ¡
FASTQ ¡format ¡ @ SRR002012.1 Oct4:5:1:871:340 > SRR002012.1 Oct4:5:1:871:340 GGCGCACTTACACCCTACATCCATTG GGCGCACTTACACCCTACATCCATTG + > SRR002012.2 Oct4:5:1:804:348 IIIIG1?II;IIIII1IIII1%.I7I GTCTGCATTATCTACCAGCACTTCCC @ SRR002012.2 Oct4:5:1:804:348 > SRR002012.3 Oct4:5:1:767:334 GTCTGCATTATCTACCAGCACTTCCC GCTGTCTTCCCGCTGTTTTATCCCCC + > SRR002012.4 Oct4:5:1:805:329 IIIIIIIII'I2IIIII:)I2II3I0 GTAGTTTACCTGTTCATATGTTTCTG @ SRR002012.3 Oct4:5:1:767:334 GCTGTCTTCCCGCTGTTTTATCCCCC + III8IIIIIII3III6II%II*III3 @ SRR002012.4 Oct4:5:1:805:329 GTAGTTTACCTGTTCATATGTTTCTG + IIIIIII9IIIIII?IIIIIIII7II adapted ¡from ¡Wikipedia ¡ SSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSS ..................................................... ..........................XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX...................... ...............................IIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIII...................... .................................JJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJ...................... !"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHI JKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~ | | | | | | 33 59 64 73 104 126 0 40 S - Sanger Phred+33, raw reads typically (0, 40) X - Solexa Solexa+64, raw reads typically (-5, 40) I - Illumina 1.3+ Phred+64, raw reads typically (0, 40) J - Illumina 1.5+ Phred+64, raw reads typically (3, 40) with 0=unused, 1=unused, 2=Read Segment Quality Control Indicator (bold)
From ¡sequence ¡reads ¡to ¡peaks ¡ experiment ¡ ¡ ¡ ¡Input ¡ FASTQ ¡ FASTQ ¡ sequences ¡(reads ¡length ¡36 ¡bp) ¡ ¡ from ¡Illumina ¡ quality ¡check ¡ FASTQC ¡
h]p://www.bioinformaIcs.bbsrc.ac.uk/projects/fastqc/ ¡ ¡ h]p://bioinfo-‑core.org/index.php/9th_Discussion-‑28_October_2010 ¡ h]p://bioinfo.cipf.es/courses/mda11/lib/exe/fetch.php?media=ngs_qc_tutorial_mda_val_2011.pdf ¡
modEncode Kni Drosophila
From ¡sequence ¡reads ¡to ¡peaks ¡ experiment ¡ ¡ ¡ ¡Input ¡ FASTQ ¡ FASTQ ¡ sequences ¡(reads ¡length ¡30/34 ¡bp) ¡ ¡ from ¡Illumina ¡ quality ¡check ¡ FASTQC ¡ if ¡necessary ¡only ¡!!! ¡ remove ¡adapter ¡sequences ¡ cutadapt ¡ h]p://code.google.com/p/cutadapt/ ¡ quality ¡check ¡ FASTQC ¡ FASTQ ¡ FASTQ ¡
From ¡sequence ¡reads ¡to ¡peaks ¡ experiment ¡ ¡ ¡ ¡Input ¡ FASTQ ¡ FASTQ ¡ FASTQC ¡ if ¡necessary ¡only ¡!!! ¡ cutadapt ¡ BED ¡ BAM ¡ SAM ¡ FASTQC ¡ mapping ¡ BED ¡ BAM ¡ FASTQ ¡ FASTQ ¡ BowIe ¡ SAM ¡ Langmead, Genome Biol 10:R25 (2009)
Mapping ¡ h]p://bifx-‑core.bio.ed.ac.uk:8080/galaxy/u/shaun%20webb/p/ngs-‑workshop ¡ ¡BowIe ¡and ¡Colourspace ¡BowIe ¡ ¡BWA ¡ ¡LastZ ¡ ¡ ¡Tophat ¡… ¡
From ¡sequence ¡reads ¡to ¡peaks ¡ experiment ¡ ¡ ¡ ¡Input ¡ FASTQ ¡ FASTQ ¡ FASTQC ¡ if ¡necessary ¡only ¡!!! ¡ cutadapt ¡ BED ¡ BAM ¡ SAM ¡ FASTQC ¡ mapping ¡ quality ¡check ¡ BED ¡ BAM ¡ FASTQ ¡ FASTQ ¡ BowIe ¡ Samstat ¡ SAM ¡ Lassmann ¡et ¡al. ¡ Bioinforma)cs ¡ (2010) ¡ Langmead, Genome Biol 10:R25 (2009)
From ¡sequence ¡reads ¡to ¡peaks ¡ experiment ¡ ¡ ¡ ¡Input ¡ experiment ¡ ¡ ¡ ¡Input ¡ FASTQ ¡ FASTQ ¡ FASTQ ¡ FASTQ ¡ GR FASTQC ¡ FASTQC ¡ if ¡necessary ¡only ¡!!! ¡ Input cutadapt ¡ cutadapt ¡ FASTQC ¡ FASTQC ¡ mapping ¡ quality ¡check ¡ visualiza8on ¡ BED ¡ BAM ¡ FASTQ ¡ FASTQ ¡ BowIe ¡ Samstat ¡ SAM ¡ Lassmann ¡et ¡al. ¡ Bioinforma)cs ¡ (2010) ¡ Langmead, Genome Biol 10:R25 (2009)
mapping ¡ peak-‑calling ¡ Valouev ¡Nat ¡Methods ¡(2008), ¡Jothi, ¡NAR ¡(2008) ¡
From ¡sequence ¡reads ¡to ¡peaks ¡ experiment ¡ ¡ ¡ ¡Input ¡ experiment ¡ ¡ ¡ ¡Input ¡ FASTQ ¡ FASTQ ¡ FASTQ ¡ FASTQ ¡ GR FASTQC ¡ FASTQC ¡ if ¡necessary ¡only ¡!!! ¡ Input cutadapt ¡ cutadapt ¡ FASTQC ¡ FASTQC ¡ mapping ¡ quality ¡check ¡ visualiza8on ¡ BED ¡ BAM ¡ FASTQ ¡ FASTQ ¡ BowIe ¡ Samstat ¡ SAM ¡ Lassmann ¡et ¡al. ¡ Bioinforma)cs ¡ (2010) ¡ Langmead, Genome Biol 10:R25 (2009)
From ¡sequence ¡reads ¡to ¡peaks ¡ experiment ¡ ¡ ¡ ¡Input ¡ experiment ¡ ¡ ¡ ¡Input ¡ MACS ¡ ¡ treatment ¡vs ¡control ¡ FASTQ ¡ FASTQ ¡ FASTQ ¡ FASTQ ¡ peaks FASTQC ¡ FASTQC ¡ if ¡necessary ¡only ¡!!! ¡ Cut-‑off ¡FDR ¡(2%) ¡ peak ¡calling ¡ MACS ¡ cutadapt ¡ cutadapt ¡ Zhang, ¡ Genome ¡Biol ¡(2008) ¡ ¡ FASTQC ¡ FASTQC ¡ visualiza8on ¡ BED ¡ BED ¡ BAM ¡ BAM ¡ FASTQ ¡ FASTQ ¡ Samstat ¡ BowIe ¡ SAM ¡ SAM ¡
From ¡sequence ¡reads ¡to ¡peaks ¡ experiment ¡ ¡ ¡ ¡Input ¡ experiment ¡ ¡ ¡ ¡Input ¡ MACS ¡ ¡ treatment ¡vs ¡control ¡ FASTQ ¡ FASTQ ¡ FASTQ ¡ FASTQ ¡ peaks FASTQC ¡ FASTQC ¡ if ¡necessary ¡only ¡!!! ¡ Cut-‑off ¡FDR ¡(2%) ¡ peak ¡calling ¡ MACS ¡ cutadapt ¡ cutadapt ¡ Zhang, ¡ Genome ¡Biol ¡(2008) ¡ ¡ FASTQC ¡ FASTQC ¡ visualiza8on ¡ BED ¡ BED ¡ BAM ¡ BAM ¡ FASTQ ¡ FASTQ ¡ Samstat ¡ BowIe ¡ SAM ¡ SAM ¡
mapping ¡ peak-‑calling ¡ Valouev ¡Nat ¡Methods ¡(2008), ¡Jothi, ¡NAR ¡(2008) ¡
Recommend
More recommend