gwas and prior knowledge to uncover gene gene interac7ons
play

GWAS and prior knowledge to uncover gene-gene interac7ons - PowerPoint PPT Presentation

GWAS and prior knowledge to uncover gene-gene interac7ons Marylyn D. Ritchie, PhD Director, Center for Systems Genomics The Pennsylvania State University


  1. GWAS ¡and ¡prior ¡knowledge ¡to ¡ uncover ¡gene-­‑gene ¡interac7ons ¡ Marylyn ¡D. ¡Ritchie, ¡PhD ¡ Director, ¡Center ¡for ¡Systems ¡Genomics ¡ The ¡Pennsylvania ¡State ¡University ¡ Biochemistry ¡and ¡Molecular ¡Biology ¡ July ¡18, ¡2013 ¡

  2. As ¡of ¡7/9/2013, ¡the ¡catalog ¡includes ¡ 1,654 ¡publica7ons ¡and ¡10,976 ¡SNPs. ¡

  3. Distribu7on ¡of ¡Effects ¡ Median ¡= ¡1.28 ¡ Mostly ¡1ny ¡ effects ¡ 1.2 ¡ ¡ ¡ ¡ ¡1.4 ¡ ¡ ¡ ¡1.6 ¡ ¡ ¡ ¡1.8 ¡ ¡ ¡ ¡2.0 ¡ ¡ ¡ ¡2.2 ¡ ¡ ¡ ¡2.4 ¡ ¡ Courtesy ¡of ¡Teri ¡Manolio ¡

  4. Distribu7on ¡of ¡Effects ¡ Moore ¡and ¡Williams. ¡Am ¡J ¡Hum ¡Genet. ¡2009; ¡85(3): ¡309–320 ¡

  5. Missing ¡Heritability ¡ • Under ¡our ¡nose ¡ • Out ¡of ¡sight ¡ • In ¡the ¡architecture ¡ • Underground ¡networks ¡ • Lost ¡in ¡diagnosis ¡ • The ¡great ¡beyond ¡ Maher, ¡B. ¡ Nature ¡ 2008; ¡456:18-­‑21. ¡

  6. Biology ¡is ¡complex ¡

  7. Sta7s7cal ¡vs. ¡biological ¡epistasis ¡ ¡Moore ¡and ¡Williams, ¡BioEssays ¡27:637–646, ¡2005 ¡

  8. If ¡interac7ons ¡with ¡minimal ¡main ¡effects ¡are ¡ the ¡norm ¡rather ¡than ¡the ¡excep7on, ¡can ¡we ¡ analyze ¡all ¡possible ¡combina7ons ¡of ¡loci ¡with ¡ tradi7onal ¡approaches ¡to ¡detect ¡purely ¡ interac7on ¡effects ¡? ¡ NO ¡

  9. How ¡many ¡combina7ons ¡are ¡there? ¡ n ~500,000 ¡SNPs ¡to ¡span ¡the ¡genome ¡(HapMap) ¡ Number of Possible Combinations 2 x 10 26 2 x 10 26 combinations * 1 combination per second * 86400 seconds per day --------- 3 x 10 21 2.979536 x 10 21 days to complete 2 x 10 16 (8.163113 x 10 18 years) 1 x 10 11 5 x 10 5 1 2 3 4 5 SNP’s in each subset

  10. How ¡many ¡combina7ons ¡are ¡there? ¡ n ~500,000 ¡SNPs ¡to ¡span ¡the ¡genome ¡(HapMap) ¡ Number of Possible Combinations 2 x 10 26 2 x 10 26 combinations * 1 combination per second 5 Million SNPs in current technology * 86400 seconds per day --------- 3 x 10 21 # SNPs # models time** 1 SNP 5.00x10 6 5 sec 2.979536 x 10 21 days to complete 2 SNPs 1.25x10 13 144 days 2 x 10 16 (8.163113 x 10 18 years) 3 SNPs 2.08x10 19 2.4x10 8 days 1 x 10 11 4 SNPs 2.60x10 25 3.01x10 14 days 5 x 10 5 5 SNPs 2.60x10 31 3.01x10 20 days 1 2 3 4 5 SNP’s in each subset **assuming 1 CPU that performs 1 million tests per second

  11. 5.47x10 12 days 5 Million SNPs in current technology # SNPs # models time** 1 SNP 5.00x10 6 5 sec 2 SNPs 1.25x10 13 144 days 3 SNPs 2.08x10 19 2.4x10 8 days 4 SNPs 2.60x10 25 3.01x10 14 days 5 SNPs 2.60x10 31 3.01x10 20 days **assuming 1 CPU that performs 1 million tests per second

  12. Epistasis ¡Analysis ¡in ¡GWAS ¡data ¡ • Exhaus7ve ¡evalua7on ¡ • Evaluate ¡interac7ons ¡in ¡top ¡hits ¡from ¡single-­‑ SNP ¡analysis ¡ • Use ¡prior ¡biological ¡knowledge ¡to ¡evaluate ¡ specific ¡combina7ons ¡– ¡“Candidate ¡Epistasis” ¡ Bush ¡WS, ¡Dudek ¡SM, ¡ Ritchie ¡MD . ¡ ¡Biofilter: ¡a ¡knowledge-­‑integra7on ¡system ¡for ¡the ¡mul7-­‑locus ¡analysis ¡of ¡genome-­‑ wide ¡associa7on ¡studies. ¡ ¡Pacific ¡Symposium ¡on ¡Biocompu4ng , ¡368-­‑79 ¡(2009). ¡

  13. The ¡Biofilter ¡ • Use publicly available databases to establish relationships between gene-products • Suggestions of biological epistasis between genes • Integrating information from the genome, transcriptome, and proteome into analysis Bush WS, Dudek SM, Ritchie MD. Biofilter: a knowledge-integration system for the multi-locus analysis of genome-wide association studies. Pacific Symposium on Biocomputing , 368-79 (2009).

  14. LOKI: ¡Library ¡of ¡Knowledge ¡Integra7on ¡ Bush WS, Dudek SM, Ritchie MD. Biofilter: a knowledge-integration system for the multi-locus analysis of genome-wide association studies. Pacific Symposium on Biocomputing , 368-79 (2009).

  15. The ¡Biofilter ¡ • Method ¡described: ¡Bush ¡et ¡al. ¡2009 ¡ Pacific ¡ Symposium ¡on ¡Biocompu4ng ¡ • Applica7ons ¡ – Mul7ple ¡Sclerosis ¡ • Bush ¡et ¡al. ¡2009 ¡ ASHG ¡ talk, ¡2011 ¡ Genes ¡& ¡Immunity ¡ – HDL ¡ • Turner ¡et ¡al. ¡2010 ¡ ASHG ¡Talk, ¡2011 ¡ PLoS ¡ONE ¡ – HIV ¡Pharmacogenomics ¡ • Grady ¡et ¡al. ¡2010 ¡ ASHG ¡poster, ¡2011 ¡ Pacific ¡Symposium ¡on ¡Biocompu4ng ¡ – Lipid ¡traits ¡ • Holzinger ¡et ¡al. ¡in ¡prepara7on ¡ – BMI ¡ • Verma ¡et ¡al., ¡in ¡prepara7on ¡ – Cataracts ¡ • Hall ¡et ¡al., ¡in ¡prepara7on ¡

  16. Using ¡Biofilter: ¡GWAS ¡Annota7on ¡ Are ¡there ¡biological ¡rela7onships ¡between ¡significant ¡results? ¡

  17. Using ¡Biofilter: ¡Priori7zing ¡Analysis ¡ Is ¡there ¡epistasis ¡in ¡genes ¡whose ¡products ¡interact ¡either ¡directly ¡ or ¡through ¡a ¡metabolic ¡intermediate? ¡ ¡ ¡

  18. Using ¡Biofilter: ¡Priori7zing ¡Analysis ¡ Is ¡there ¡epistasis ¡between ¡genes ¡of ¡two ¡related ¡pathways? ¡ ¡

  19. Candidate ¡Approaches ¡ Pros ¡ Cons ¡ • Smaller ¡set ¡of ¡genes ¡to ¡explore ¡ • Limited ¡by ¡current ¡state ¡of ¡ knowledge ¡ • Fewer ¡sta7s7cal ¡tests ¡ • Limita7ons ¡of ¡learning ¡completely ¡ • Results ¡will ¡have ¡solid ¡ novel ¡biology ¡ interpreta7ons ¡

  20. § 930 ¡trio ¡families ¡from ¡US ¡and ¡UK ¡(IMSGC) ¡ § Genotyped ¡on ¡Affymetrix ¡500K ¡array ¡ § Post ¡QC ¡~300,000 ¡SNPs ¡ Figure 1

  21. eMERGE ¡Genome-­‑wide ¡associa7on ¡study ¡(Illumina ¡660) ¡ § Phenotype: ¡median ¡HDL ¡for ¡anyone ¡having ¡2+ ¡HDL ¡ § measurements ¡in ¡their ¡EMR ¡ Marshfield ¡PMRP ¡n=3903 ¡ § Vanderbilt ¡BioVU ¡n=1858 ¡ §

  22. LCA T FC CE LIPC TG à FFA Peripheral Peripheral ABCA1 CE Cell Cell LIPG Lipid PL à FFA Lipid Source Destination FC TG LPL TG à FFA CETP CE Hepatobiliary Elimination

  23. Future ¡Direc7ons ¡ 2) ¡Map ¡SNPs ¡–> ¡gene ¡ ¡ ¡ ¡ -­‑> ¡pathway ¡using ¡ Biofilter ¡ 1) ¡SNPs ¡from ¡GWAS ¡ catalog ¡for ¡a ¡par7cular ¡ disease-­‑trait ¡associa7on ¡ 4) ¡Exhaus7ve ¡SNP-­‑SNP ¡models ¡ SNP1 ¡– ¡SNP2 ¡ SNP1 ¡– ¡SNP3 ¡ 3) ¡SNPs ¡from ¡KEGG, ¡ SNP1 ¡– ¡SNP4 ¡ Reactome, ¡or ¡Netpath ¡ SNP1 ¡– ¡SNP5 ¡ linked ¡to ¡SNPs ¡from ¡ ¡. ¡. ¡. ¡ GWAS ¡Catalog ¡in ¡LOKI ¡ ¡ ¡

  24. Summary ¡ • Biofilter ¡is ¡a ¡bioinforma7cs ¡applica7on ¡to ¡ annotate, ¡filter, ¡and ¡construct ¡gene-­‑gene ¡models ¡ for ¡evalua7on ¡ • We ¡have ¡successfully ¡used ¡Biofilter ¡in ¡a ¡number ¡ of ¡genome-­‑wide ¡interac7on ¡analyses ¡to ¡iden7fy ¡ replica7ng/confirmatory ¡gene-­‑gene ¡models ¡ • The ¡GWAS ¡catalog ¡is ¡an ¡important ¡and ¡useful ¡ public ¡database ¡incorporated ¡into ¡LOKI ¡– ¡the ¡ knowledge ¡base ¡from ¡which ¡Biofilter ¡draws ¡its ¡ informa7on ¡

  25. Future ¡Direc7ons ¡ • Integrate ¡more ¡public ¡databases ¡into ¡LOKI ¡ – Regulatory ¡regions ¡ – Non-­‑coding ¡regions ¡ • Develop ¡addi7onal ¡filtering ¡and ¡model ¡ construc7on ¡strategies ¡based ¡on ¡specific ¡ hypotheses ¡ • Develop ¡a ¡user-­‑interface ¡for ¡ease ¡of ¡use ¡

  26. Acknowledgements ¡ Ritchie ¡Lab ¡ HDL ¡project ¡-­‑ ¡eMERGE ¡ ¡ Greoa ¡Armstrong, ¡project ¡manager ¡ MS ¡project ¡-­‑ ¡IMSGC ¡ Carrie ¡Buchanan ¡Moore, ¡MD/PhD ¡student* ¡ ¡ Scoo ¡Dudek, ¡sorware ¡developer ¡ Alex ¡Frase, ¡sorware ¡developer* ¡ Molly ¡Hall, ¡PhD ¡student ¡ Neerja ¡Ka7yar, ¡PhD ¡student* ¡ Dokyoon ¡Kim ¡PhD, ¡Postdoctoral ¡fellow ¡ Ruowang ¡Li, ¡PhD ¡student ¡ Sarah ¡Pendergrass ¡PhD, ¡Research ¡Associate* ¡ Anurag ¡Verma, ¡Bioinforma7cs ¡Programmer ¡ Shefali ¡Verma, ¡Bioinforma7cs ¡Analyst ¡ John ¡Wallace, ¡sorware ¡developer* ¡ Dan ¡Wolfe, ¡bioinforma7cs ¡research ¡assistant* ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡* ¡-­‑ ¡working ¡on ¡Biofilter ¡ ¡

  27. Just ¡because ¡we ¡have ¡not ¡found ¡it ¡ yet, ¡doesn’t ¡mean ¡it’s ¡not ¡there….. ¡ www.gene7c-­‑programming.org ¡ • marylyn.ritchie@psu.edu ¡ • hop://ritchielab.com ¡

Recommend


More recommend