Genome-‑Wide ¡Associa/on ¡Studies: ¡ Case/Control ¡Studies ¡ 02-‑223 ¡How ¡to ¡Analyze ¡Your ¡Own ¡Genome ¡ Fall ¡2013 ¡
Genome ¡Polymorphisms ¡
A Human TCGAGGTATTAAC Genealogy ¡ The ¡ancestral ¡chromosome ¡
From SNPS … ¡ TCGAGGTATTAAC TCTAGGTATTAAC TCGAGGCATTAAC TCTAGGTGTTAAC TCGAGGTATTAGC TCTAGGTATCAAC * ** * * A ¡disease ¡muta?on ¡
Finding ¡Disease ¡Muta/ons ¡ • Case/control ¡data ¡are ¡collected ¡from ¡unrelated ¡individuals ¡ – All ¡individuals ¡are ¡related ¡if ¡we ¡go ¡back ¡far ¡enough ¡in ¡the ¡ancestry ¡ Balding, ¡Nature ¡Reviews ¡Gene?cs, ¡2006 ¡
Overview ¡ • How ¡can ¡we ¡iden?fy ¡disease-‑related ¡gene?c ¡loci? ¡ • Linkage ¡analysis ¡ – Data ¡are ¡collected ¡for ¡family ¡members ¡ – Difficult ¡to ¡collect ¡data ¡on ¡a ¡large ¡number ¡of ¡families ¡ – Effec?ve ¡for ¡rare ¡diseases ¡ – Low ¡resolu?on ¡on ¡the ¡genomes ¡due ¡to ¡only ¡few ¡recombina?ons ¡ » a ¡large ¡region ¡of ¡linkage ¡ • Genome-‑wide ¡associa?on ¡studies ¡(GWAS) ¡ – Data ¡are ¡collected ¡for ¡unrelated ¡individuals ¡ – Easier ¡to ¡find ¡a ¡large ¡number ¡of ¡affected ¡individuals ¡ – Effec?ve ¡for ¡common ¡diseases, ¡compared ¡to ¡family-‑based ¡method ¡ – Rela?vely ¡high ¡resolu?on ¡for ¡pinpoin?ng ¡the ¡locus ¡linked ¡to ¡the ¡ phenotype ¡ » A ¡rela?vely ¡small ¡region ¡of ¡SNP ¡markers ¡in ¡linkage ¡disequilibrium ¡
How ¡Can ¡We ¡Iden/fy ¡the ¡Unknown ¡Disease ¡Locus? ¡ • Idea: ¡Given ¡a ¡map ¡of ¡gene?c ¡markers, ¡let’s ¡look ¡for ¡the ¡ markers ¡that ¡are ¡linked ¡to ¡the ¡unknown ¡disease ¡locus ¡(i.e. ¡ linkage ¡between ¡the ¡disease ¡locus ¡and ¡the ¡marker ¡locus) ¡ Disease ¡ ¡ Locus ¡ Marker ¡near ¡the ¡ Markers ¡far ¡from ¡ disease ¡locus ¡ the ¡disease ¡locus ¡ ¡ ( r <<0.5) ¡ ( r =0.5) ¡
Linkage ¡Analysis ¡vs. ¡Associa/on ¡Analysis ¡ (Number ¡of ¡recombina?on ¡sites) ¡ (shared ¡genome ¡segments ¡among ¡different ¡individuals ¡in ¡the ¡study) ¡ Strachan ¡& ¡Read, ¡Human ¡Molecular ¡Gene?cs, ¡2001 ¡
Genome-‑Wide ¡Associa/on ¡Study ¡(GWAS) ¡ • Data ¡are ¡collected ¡for ¡genotypes ¡and ¡phenotypes ¡for ¡a ¡large ¡ number ¡of ¡unrelated ¡individuals ¡ – Genotypes: ¡ ¡ • ocen ¡SNP ¡genotypes ¡are ¡used ¡because ¡of ¡the ¡ease ¡of ¡genotyping ¡ and ¡abundance ¡across ¡genomes. ¡ • For ¡SNPs, ¡minor ¡allele ¡homozygous, ¡heterozygous, ¡and ¡major ¡allele ¡ heterozygous ¡sites ¡are ¡coded ¡as ¡0, ¡1, ¡and ¡2. ¡ – Phenotypes: ¡ ¡ • Categorical ¡data ¡(e.g., ¡case/control ¡labels ¡for ¡individuals) ¡ • Con?nuous-‑valued ¡data ¡(e.g., ¡height, ¡cholesterol ¡level, ¡blood ¡IgE ¡ level) ¡
Genome-‑Wide ¡Associa/on ¡Study ¡(GWAS) ¡ • Data ¡collected ¡for ¡GWAS ¡can ¡be ¡represented ¡as ¡two ¡matrices ¡ J ¡SNPs ¡ ¡ K ¡phenotypes ¡ N ¡individuals ¡ N ¡individuals ¡ Genotype ¡Data ¡ ¡ Phenotype ¡Data ¡
Genome-‑Wide ¡Associa/on ¡Study ¡(GWAS) ¡ • For ¡each ¡SNP ¡and ¡each ¡phenotype, ¡perform ¡a ¡sta?s?cal ¡test ¡ for ¡“associa?on” ¡ ¡ • Repeat ¡this ¡for ¡all ¡(SNP, ¡phenotype) ¡pairs ¡ • Iden?fy ¡the ¡(SNP, ¡phenotype) ¡pairs ¡with ¡“significant” ¡ associa?on. ¡ ¡ – The ¡genome ¡region ¡around ¡the ¡SNP ¡is ¡likely ¡to ¡influence ¡the ¡ phenotype ¡ J ¡SNPs ¡ ¡ K ¡phenotypes ¡ N ¡individuals ¡ N ¡individuals ¡ Genotype ¡Data ¡ Phenotype ¡Data ¡ Are ¡the ¡SNP ¡and ¡the ¡phenotype ¡ significantly ¡associated? ¡
GWAS: ¡Case/Control ¡Study ¡ One ¡phenotype ¡for ¡case/ J ¡SNPs ¡ ¡ control ¡labels ¡ N ¡individuals ¡ N ¡individuals ¡ Genotype ¡Data ¡ Are ¡the ¡SNP ¡and ¡the ¡phenotype ¡ significantly ¡associated? ¡
GWAS: ¡Case/Control ¡Study ¡ • For ¡each ¡marker ¡locus, ¡find ¡the ¡ 3x2 ¡con?ngency ¡table ¡containing ¡ the ¡counts ¡of ¡three ¡genotypes ¡ Genotype Case Control Total AA N case,AA N control,AA N AA Aa N case,Aa N control,Aa N Aa aa N case,aa N control,aa N aa Total N case N control N 2 • ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡test ¡with ¡2 ¡df ¡(degree ¡of ¡ χ freedom) ¡under ¡the ¡null ¡ Genotype ¡score ¡= ¡the ¡number ¡of ¡minor ¡alleles ¡ ¡ hypothesis ¡of ¡no ¡associa?on ¡ ¡
GWAS: ¡Case/Control ¡Study ¡ • Alterna?vely, ¡assume ¡an ¡addi?ve ¡model, ¡where ¡the ¡ heterozygote ¡risk ¡is ¡approximately ¡between ¡the ¡two ¡ homozygotes ¡ • Form ¡a ¡2x2 ¡con?ngency ¡table. ¡Each ¡individual ¡contributes ¡ twice ¡from ¡each ¡of ¡the ¡two ¡chromosomes. ¡ Allele Case Control Total Type A G case,A G control,A G A a G case,a G control,a G a Total 2xN case 2xN control 2N 2 χ • ¡ ¡ ¡ ¡ ¡ ¡test ¡with ¡1df ¡
2 χ Test ¡(Chi-‑square ¡Test) ¡ • Sta?s?cal ¡test ¡of ¡associa?on ¡ • P-‑value ¡= ¡probability ¡of ¡the ¡observed ¡data ¡under ¡the ¡null ¡hypothesis ¡ • In ¡case/control ¡associa?on ¡study, ¡the ¡null ¡hypothesis ¡is ¡ ¡ ¡ H 0 : ¡There ¡is ¡no ¡associa?on ¡between ¡the ¡given ¡marker ¡and ¡disease ¡labels. ¡ • Low ¡p-‑value ¡(p-‑value ¡< ¡α, ¡where ¡α ¡is ¡a ¡user-‑specified ¡value) ¡means ¡ the ¡observed ¡data ¡are ¡unlikely ¡under ¡the ¡null ¡hypothesis. ¡Thus, ¡we ¡ reject ¡the ¡null ¡hypothesis ¡( H 0 ) ¡and ¡declare ¡there ¡is ¡a ¡significant ¡ associa?on ¡between ¡the ¡SNP ¡and ¡disease ¡states. ¡ – Ocen ¡α=0.01 ¡or ¡0.05 ¡is ¡used. ¡
Chi-‑Square ¡Test: ¡Null ¡Hypothesis ¡from ¡ Con/ngency ¡Table ¡ We ¡have ¡two ¡random ¡variables: ¡ • Allele Case Control Total – Y: ¡disease ¡status ¡(Case/Control) ¡ Type – X: ¡allele ¡type ¡(A/a) ¡ A G case,A G control,A G A Null ¡hypothesis: ¡the ¡two ¡variables ¡are ¡ • a G case,a G control,a G a independent ¡of ¡each ¡other ¡(i.e., ¡the ¡two ¡ variables ¡are ¡unrelated) ¡ Total 2xN case 2xN control 2N
Chi-‑Square ¡Test: ¡Null ¡Hypothesis ¡from ¡ Con/ngency ¡Table ¡ Under ¡the ¡null ¡hypothesis ¡of ¡ ¡ • Allele Case Control Total independence ¡ ¡ Type – P(Y=case ¡and ¡X=A)= ¡P(Y=case)P(X=A) ¡ A G case,A G control,A G A Under ¡the ¡null ¡hypothesis, ¡the ¡expected ¡ • number ¡of ¡cases ¡with ¡allele ¡A ¡is ¡ a G case,a G control,a G a – P(Y=case)P(X=A)(2N) ¡ Total 2xN case 2xN control 2N – where ¡N ¡is ¡total ¡observa?ons ¡and ¡ ¡ ¡ ¡ ¡ ¡ P(Y=case)=( G case,A +G case,a )/(2N) ¡ ¡ ¡ ¡ P(X=A)=( G case,A + ¡ G control,A )/(2N) ¡ Similarly ¡ ¡ • – What ¡is ¡the ¡expected ¡number ¡of ¡cases ¡with ¡ allele ¡a? ¡ – What ¡is ¡the ¡expected ¡number ¡of ¡controls ¡with ¡ allele ¡A? ¡ – What ¡is ¡the ¡expected ¡number ¡of ¡controls ¡with ¡ allele ¡a? ¡ Do ¡the ¡probabili?es ¡sum ¡to ¡1? ¡ •
Chi-‑square ¡sta/s/c ¡ n ( O i − E i ) 2 χ 2 = ∑ E i i = 1 O i ¡= ¡observed ¡frequency ¡for ¡ i th ¡outcome ¡ ¡ ¡ (the ¡value ¡can ¡be ¡read ¡off ¡of ¡the ¡con?ngency ¡table) ¡ E i ¡= ¡expected ¡frequency ¡for ¡ i th ¡outcome ¡ ¡ ¡ (the ¡value ¡can ¡be ¡obtained ¡as ¡described ¡in ¡the ¡previous ¡slides) ¡ n ¡= ¡total ¡number ¡of ¡outcomes ¡ The ¡probability ¡distribu?on ¡of ¡this ¡sta?s?c ¡is ¡given ¡by ¡the ¡ α= ¡ chi-‑square ¡distribu?on. ¡ Test ¡sta?s?c= ¡ Using ¡chi-‑square ¡test, ¡we ¡can ¡test ¡how ¡well ¡observed ¡values ¡fit ¡expected ¡values ¡ computed ¡under ¡the ¡independence ¡hypothesis ¡
Recommend
More recommend