Gene-‑set ¡analysis ¡and ¡data ¡integra/on ¡ Leif ¡ Leif ¡Väremo mo leif.varemo@scilifelab.se Bioinforma6cs ¡Long-‑term ¡Support ¡(WABI) Systems ¡Biology ¡Facility ¡@ ¡Chalmers
Outline ¡ • Gene-‑set ¡analysis ¡-‑ ¡What ¡and ¡why? ¡ • Gene-‑set ¡collec3ons ¡ • Methods ¡for ¡GSA ¡ • Gene-‑set ¡direc3onality, ¡overlap/interac3ons, ¡biases ¡ • Things ¡to ¡consider ¡ Will try to be practical, without getting to the detail of code-level 2
What ¡is ¡gene-‑set ¡analysis ¡(GSA)? ¡ Samples Immune ¡response Genes Pyruvate PPARG GO-‑terms Gene-‑s Gen e-‑set ¡ ¡analy analysis sis Pathways Gene-‑level ¡data Gene-‑set ¡data ¡(results) Chromosomal ¡loca6ons Transcrip6on ¡factors Histone ¡modifica6ons We ¡will ¡focus ¡on ¡transcriptomics ¡and ¡differen3al ¡expression ¡analysis ¡ Diseases However, ¡GSA ¡can ¡in ¡principle ¡be ¡used ¡on ¡all ¡types ¡of ¡genome-‑wide ¡data. ¡ etc… 3
Many ¡names ¡for ¡gene-‑set ¡analysis ¡(GSA) ¡ • Func3onal ¡annota3on ¡ • Pathway ¡analysis ¡ • Gene-‑set ¡enrichment ¡analysis ¡ • GO-‑term ¡analysis ¡ • Gene ¡list ¡enrichment ¡analysis ¡ • … ¡ 4
Examples ¡ 5 Images sources: Garg et al. Sci Rep 5 (2015); Gutteridge et al. PLoS ONE 8 (2013); Han et al. BMC Genomics 15 (2014)
Why ¡gene-‑set ¡analysis ¡(GSA)? ¡ • Interpreta3on ¡of ¡genome-‑wide ¡results ¡ • Gene-‑sets ¡are ¡(typically) ¡fewer ¡than ¡all ¡the ¡genes ¡and ¡have ¡ more ¡descrip3ve ¡names ¡ • Difficult ¡to ¡manage ¡a ¡long ¡list ¡of ¡significant ¡genes ¡ • Integrates ¡external ¡informa3on ¡into ¡the ¡analysis ¡ • Less ¡prone ¡to ¡false-‑posi3ves ¡on ¡the ¡gene-‑level ¡ • Top ¡genes ¡might ¡not ¡be ¡the ¡interes3ng ¡ones, ¡several ¡ coordinated ¡smaller ¡changes ¡ • Detect ¡paQerns ¡that ¡would ¡be ¡difficult ¡to ¡discern ¡simply ¡by ¡ manually ¡going ¡through ¡e.g. ¡the ¡list ¡of ¡differen3ally ¡expressed ¡ genes ¡ 6
Gene-‑sets ¡ 7
So ¡what ¡about ¡gene-‑sets? ¡ • Depends ¡on ¡the ¡research ¡ques3on ¡ • Several ¡databases/resources ¡available ¡providing ¡gene-‑set ¡ collec3ons ¡(e.g. ¡MSigDB, ¡Enrichr) ¡ • GO-‑terms ¡are ¡probably ¡one ¡of ¡the ¡most ¡widely ¡used ¡gene-‑sets ¡ GO-‑terms Pathways Chromosomal ¡loca6ons Transcrip6on ¡factors Histone ¡modifica6ons Diseases Metabolites etc… 8
Gene-‑set ¡example: ¡ ¡ Gene ¡ontology ¡(GO) ¡terms ¡ • Hierarchical graph with three categories (or parents): Biological process, Molecular function, Cellular compartment • Terms get more and more detailed moving down the hierarchy • Genes can belong to multiple GO terms 9
Gene-‑set ¡example: ¡ ¡ Metabolic ¡pathways ¡or ¡metabolites ¡ 10
Gene-‑set ¡example: ¡ ¡ Transcrip/on ¡factor ¡targets ¡ 11
Gene-‑set ¡example: ¡Hallmark ¡gene-‑sets ¡ “Hallmark gene sets summarize and represent specific well-defined biological states or processes and display coherent expression. These gene sets were generated by a computational methodology based on identifying gene set overlaps and retaining genes that display coordinate expression. The hallmarks reduce noise and redundancy and provide a better delineated biological space for GSEA.” http://software.broadinstitute.org/gsea/msigdb/collections.jsp Liberzon et al. (2015) Cell Systems 1:417-425 12
Where ¡to ¡get ¡gene-‑set ¡collec/ons? ¡ http://software.broadinstitute.org/gsea/msigdb/index.jsp http://amp.pharm.mssm.edu/Enrichr/#stats 13
Where ¡to ¡get ¡gene-‑set ¡collec/ons? ¡ • Sooner ¡or ¡later ¡you ¡will ¡run ¡into ¡the ¡problem ¡of ¡matching ¡your ¡ data ¡to ¡gene-‑set ¡collec3ons ¡due ¡to ¡the ¡existence ¡of ¡several ¡ gene ¡ID ¡types ¡ 14
Where ¡to ¡get ¡gene-‑set ¡collec/ons? ¡ http://www.ensembl.org/biomart/martview One way to map different gene IDs to each other, or to assemble a gene-set collection with the gene IDs used by your data See also: https://david.ncifcrf.gov/content.jsp?file=conversion.html 15
Gene-‑set ¡analysis ¡tools ¡and ¡methods ¡ 16
Tools ¡and ¡methods ¡for ¡GSA ¡ OmicsTools (several platforms) Bioconductor (R packages) http://omictools.com/gene-set-analysis-category https://bioconductor.org/packages/release/BiocViews.html#___GeneSetEnrichment • Hypergeometric test / Fisher’s exact test (a.k.a overrepresentation analysis) • DAVID (browser) • Enrichr (browser) • GSEA (Java, R) • piano (R) 17
Overrepresenta/on ¡analysis ¡ Is this overlap Hypergeometric test Selected Not selected bigger than (Fisher’s exact test) In GO-term 8 2 expected by Not in GO-term random 92 19768 chance? All genes (universe) GO:000237 GO:002736 Selected list of GO:003478 genes GO:009835 18
Overrepresenta/on ¡analysis ¡ http://amp.pharm.mssm.edu/Enrichr/ https://david.ncifcrf.gov/home.jsp 19
Overrepresenta/on ¡analysis ¡ Requires ¡a ¡cutoff ¡(arbitrary) ¡ • Omits ¡the ¡actual ¡values ¡of ¡the ¡gene-‑level ¡sta3s3cs ¡ • Good ¡for ¡e.g. ¡overlap ¡of ¡significant ¡genes ¡in ¡two ¡comparisons ¡ • Computa3onally ¡fast ¡ • In ¡general, ¡it ¡is ¡recommended ¡to ¡use ¡some ¡kind ¡of ¡gene-‑set ¡analysis. ¡This ¡ • will ¡use ¡all ¡gene-‑level ¡data ¡and ¡can ¡detect ¡small ¡but ¡coordinate ¡changes ¡that ¡ collec3vely ¡contribute ¡to ¡some ¡biological ¡process ¡ 20
GSA: ¡a ¡simple ¡example ¡ 𝑇↓𝑞𝑓𝑠𝑛𝑣𝑢𝑓𝑒 • S is the gene-set statistic • G are gene-level statistics of the genes in the gene-set 𝑇↓𝑗 = 𝑛𝑓𝑏𝑜 ( 𝐻↓𝑗 ) -‑6 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡0 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡6 ¡ Samples Gene-set 1 𝑇↓ 1 =−0.1 Genes 𝑇↓ 2 =6.2 Gene-set 2 Permute the gene-labels (or sample labels) and redo the calculations over and over again (e.g. 10,000 times)! 𝑞↓𝑗 = fraction ¡of ¡𝑇↓𝑞𝑓𝑠𝑛𝑣𝑢𝑓𝑒 ¡that ¡is ¡more ¡extreme ¡than ¡𝑇↓𝑗 21
Gene-‑level ¡sta/s/cs ¡ p-‑values ¡ • t-‑values, ¡etc ¡ • Fold-‑changes ¡ • Ranks ¡ • Correla3ons ¡ • Signal ¡to ¡noise ¡ra3o ¡ • … ¡ • 22
GSEA ¡ Mootha et al Nature Genetics, 2003; Subramanian PNAS 2005 23
Piano ¡– ¡a ¡plaJorm ¡for ¡GSA ¡(in ¡R) ¡ • Reporter ¡features • Parametric ¡analysis ¡of ¡gene-‑set ¡enrichment, ¡PAGE • Tail ¡strength ¡ • Wilcoxon ¡rank-‑sum ¡test Consensus • Gene-‑set ¡enrichment ¡analysis, ¡GSEA ¡(two ¡implementa6ons) result • Mean • Median • Sum • Maxmean Disclaimer: The author of this presentation is the developer of piano 24
Direc/onality, ¡overlap, ¡interac/on, ¡biases… ¡ 25
Direc/onality ¡of ¡gene-‑sets ¡ 26 Disclaimer: The author of this presentation is the developer of piano
Gene-‑set ¡overlap ¡and ¡interac/on ¡ Gene-overlap network Examples of gene-set “interactions” • High number of very overlapping gene-sets (representing a similar biological theme) can bias interpretation and take attention from other biological themes that are represented by fewer gene- sets. • Can be valuable to take gene-set interaction into account 27
Exploi/ng ¡the ¡gene-‑set ¡interac/on ¡network ¡ Samples Metabolite-reaction-gene relations Enzymes/genes Genes Substrates Gene-sets (metabolites) m m Products m m Reaction 28 Disclaimer: The author of this presentation is the developer of Kiwi
When ¡is ¡GSA ¡biologically ¡meaningful? ¡ “Heavily annotated (“multifunctional”) genes are likely to appear in genomics study results and drive the generation of biologically nonspecific enrichment results as well as highly fragile significances” Uniqueness constraint “To assess uniqueness, we compared the output of each algorithm when given the experimental input hit lists to that of the algorithm when the top 100 multifunctional genes was the input“ Ballouz et al. (Oct 2016) NAR. doi:10.1093/nar/gkw957 29
When ¡is ¡GSA ¡biologically ¡meaningful? ¡ Robustness constraint “Assessed robustness by removing the 5% of most multi- functional genes from the experimental hit lists” Ballouz et al. (Oct 2016) NAR. doi:10.1093/nar/gkw957 30
Recommend
More recommend