Structured Association 02-‑715 ¡Advanced ¡Topics ¡in ¡Computa8onal ¡ Genomics ¡
Structured Association ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Gflasso ¡(Kim ¡& ¡Xing, ¡2009) ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Lasso ¡ ACGTTTTACTGTACAATT ¡ ACGTTTTACTGTACAATT ¡ ¡Greater ¡power ¡ • ¡Fewer ¡false ¡posi2ves ¡ • • ¡Phenome ¡associa2ons ¡
Structured Association ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Lasso ¡ ¡ ¡ ¡Network-‑constrained ¡regulariza8on ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡(Li ¡& ¡Li, ¡2008) ¡ ACGTTTTACTGTACAATT ¡ ACGTTTTACTGTACAATT ¡
Regression with Regularization • Fused ¡lasso ¡ (Tibshirani ¡et ¡al., ¡2004) ¡
Regression with Regularization (Fused Lasso) Standard ¡ lasso ¡ regression ¡ Fusion ¡penalty ¡ Fused ¡lasso ¡ only ¡ Black ¡line: ¡true ¡values ¡ • Red ¡line: ¡es8mated ¡values ¡ •
Lasso for Reducing False Positives (Tibshirani, 1996) Trait ¡ Genotype ¡ Associa8on ¡Strength ¡ T ¡G ¡A ¡A ¡C ¡C ¡A ¡T ¡G ¡A ¡A ¡G ¡T ¡A ¡ ¡ x ¡ 2.1 ¡ ¡ = ¡ Lasso ¡Penalty ¡ ¡ ¡ ¡ for ¡ ¡sparsity ¡ argmin ( y – X β ) ( y – X β ) | β j | + ¡ β Many ¡zero ¡associa8ons ¡( sparse ¡results), ¡but ¡ what ¡if ¡there ¡are ¡mul8ple ¡related ¡traits? ¡
Multivariate Regression for Multiple-Trait Association Analysis Trait ¡ Genotype ¡ Associa8on ¡Strength ¡ T ¡G ¡A ¡A ¡C ¡C ¡A ¡T ¡G ¡A ¡A ¡G ¡T ¡A ¡ ¡ Associa8on ¡strength ¡ ¡ ¡ between ¡ ¡ x ¡ (3.4, ¡1.5, ¡2.1, ¡0.9, ¡1.8) ¡ ¡ = ¡ SNP ¡ j and ¡Trait k : β jk Lung ¡ Allergy ¡ physiology ¡ argmin ( y – X β ) ( y – X β ) | β j | + ¡ β We ¡introduce ¡ ¡ + ¡ graph-‑guided ¡fusion ¡penalty ¡
Multiple-trait Association: Graph-Constrained Fused Lasso Step ¡1 : ¡Thresholded ¡correla8on ¡graph ¡ Step ¡2 : ¡Graph-‑constrained ¡fused ¡lasso ¡ of ¡phenotypes ¡ ACGTTT T ACTGTACAATT ¡ Fusion ¡ Lasso ¡ Graph-‑constrained ¡fusion ¡ Penalty ¡ penalty ¡
Fusion Penalty SNP ¡ j ACGTT T TACTGTACAATT ¡ Associa8on ¡strength ¡ ¡ ¡between ¡ Associa8on ¡strength ¡ ¡ ¡between ¡ SNP ¡ j and ¡Trait m : β jm SNP j and ¡Trait k : β jk Trait ¡ m Trait ¡ k • Fusion Penalty: | β jk - β jm | • For two correlated traits (connected in the network), the association strengths may have similar values.
Graph-Constrained Fused Lasso Overall ¡effect ¡ ACGTTTTACTGTACAATT ¡ • Fusion effect propagates to the entire network • Association between SNPs and subnetworks of traits
Multiple-trait Association: Graph-Weighted Fused Lasso Overall ¡effect ¡ ACGTTTTACTGTACAATT ¡ • Subnetwork structure is embedded as a densely connected nodes with large edge weights • Edges with small weights are effectively ignored
Estimating Parameters • Quadratic programming formulation – Graph-constrained fused lasso – Graph-weighted fused lasso • Many publicly available software packages for solving convex optimization problems can be used
Improving Scalability Original ¡problem ¡ ¡ Equivalently ¡ Using ¡a ¡varia8onal ¡formula8on ¡ Itera8ve ¡op8miza8on ¡ ¡Update ¡ β k • ¡Update ¡ d jk ’s, ¡ d jml ’s ¡ ¡ •
Simula2on ¡ Results ¡ Trait ¡ Thresholded ¡Trait ¡ • 50 SNPs taken Correla8on ¡ Correla8on ¡Network ¡ Matrix ¡ from HapMap Phenotypes ¡ chromosome 7, SNPs ¡ CEU population • 10 traits High ¡ associa8on ¡ No ¡ associa8on ¡ True ¡ Single ¡SNP-‑ Graph-‑guided ¡ Significant ¡ Lasso ¡ Regression ¡ Single ¡Trait ¡ Fused ¡Lasso ¡ at ¡ α ¡= ¡0.01 ¡ Coefficients ¡ Test ¡
Asthma ¡Trait ¡Network ¡ Subnetwork ¡for ¡ Asthma ¡symptoms ¡ Phenotype ¡Correla8on ¡ Network ¡ Subnetwork ¡ for ¡lung ¡ Subnetwork ¡for ¡ physiology ¡ quality ¡of ¡life ¡
Results from Single-SNP/Trait Test Lung ¡physiology-‑related ¡traits ¡I ¡ ¡Baseline ¡FEV1 ¡predicted ¡value: ¡MPVLung ¡ ¡ • ¡Pre ¡FEF ¡25-‑75 ¡predicted ¡value ¡ ¡ • Phenotypes ¡ • ¡Average ¡nitric ¡oxide ¡value: ¡online ¡ ¡ Phenotypes ¡ • ¡Body ¡Mass ¡Index ¡ ¡ • ¡Postbronchodila8on ¡FEV1, ¡liters: ¡Spirometry ¡ ¡ ¡Baseline ¡FEV1 ¡% ¡predicted: ¡Spirometry ¡ ¡ • ¡Baseline ¡predrug ¡FEV1, ¡% ¡predicted ¡ ¡ • ¡Baseline ¡predrug ¡FEV1, ¡% ¡predicted ¡ • Q551R ¡SNP ¡ • ¡Codes ¡for ¡amino-‑acid ¡changes ¡in ¡the ¡ intracellular ¡signaling ¡por8on ¡of ¡the ¡receptor ¡ ¡Exon ¡11 ¡ • Trait ¡Network ¡ High ¡ SNPs ¡ associa8on ¡ No ¡ associa8on ¡ Single-‑Marker ¡ Permuta8on ¡test ¡ Permuta8on ¡test ¡ Single-‑Trait ¡Test ¡ α ¡= ¡0.05 ¡ α ¡= ¡0.01 ¡
Comparison of Gflasso with Others Lung ¡physiology-‑related ¡traits ¡I ¡ • ¡Baseline ¡FEV1 ¡predicted ¡value: ¡MPVLung ¡ ¡ Phenotypes ¡ • ¡Pre ¡FEF ¡25-‑75 ¡predicted ¡value ¡ ¡ ¡Average ¡nitric ¡oxide ¡value: ¡online ¡ ¡ • Phenotypes ¡ ¡Body ¡Mass ¡Index ¡ ¡ • ¡Postbronchodila8on ¡FEV1, ¡liters: ¡Spirometry ¡ ¡ • • ¡Baseline ¡FEV1 ¡% ¡predicted: ¡Spirometry ¡ ¡ • ¡Baseline ¡predrug ¡FEV1, ¡% ¡predicted ¡ ¡ • ¡Baseline ¡predrug ¡FEV1, ¡% ¡predicted ¡ Q551R ¡SNP ¡ ¡Codes ¡for ¡amino-‑acid ¡changes ¡in ¡the ¡ • intracellular ¡signaling ¡por8on ¡of ¡the ¡receptor ¡ ¡Exon ¡11 ¡ ¡ • Trait ¡Network ¡ High ¡ SNPs ¡ associa8on ¡ ? ¡ No ¡ associa8on ¡ Single-‑Marker ¡ Graph-‑guided ¡ Lasso ¡ Single-‑Trait ¡Test ¡ Fused ¡Lasso ¡
Simulation Results
Linkage Disequilibrium Structure in IL-4R gene SNP ¡rs3024622 ¡ SNP ¡rs3024660 ¡ r 2 ¡=0.07 ¡ ¡ r 2 ¡=0.64 ¡ ¡ SNP ¡Q551R ¡
Bias and Variance Tradeoff • The ¡penalty ¡func8on ¡introduces ¡bias ¡to ¡the ¡es8ma8on ¡ process, ¡but ¡can ¡reduce ¡the ¡variance ¡ • The ¡amount ¡of ¡the ¡bias ¡is ¡controlled ¡by ¡selec8ng ¡the ¡ appropriate ¡regulariza8on ¡parameter ¡
Network-Constrained Regularization for Leveraging Pathway Information (Li and Li, 2008) • Pathway ¡databases ¡as ¡prior ¡biological ¡knowledge ¡ – KEGG, ¡Reactome, ¡BioCarta, ¡BioCyc ¡ • Leverage ¡the ¡pathway ¡informa8on ¡to ¡detect ¡ genes ¡in ¡pathway ¡ relevant ¡to ¡the ¡given ¡outcome ¡
Graph Laplacian • Graph ¡Laplacian: ¡ L ¡= ¡ D -‑ W ¡ – Weighted ¡adjacency ¡matrix ¡ W : ¡ w ij = w ji , ¡ w ij =0 ¡if ¡no ¡edges ¡between ¡ nodes ¡ i ¡and ¡ j ¡ – Degree ¡matrix ¡ D : ¡diagonal ¡matrix ¡with ¡diagonal ¡entries ¡ • Normalized ¡graph ¡Laplacian: ¡ • Symmetric ¡and ¡posi8ve ¡definite ¡
Network-Constrained Regularized Regression • Network-‑constrained ¡regulariza8on ¡criterion ¡ • Equivalently, ¡ • If ¡ L = I , ¡it ¡becomes ¡elas8c ¡net ¡
Optimization • Cast ¡it ¡as ¡a ¡lasso ¡op8miza8on ¡problem ¡ ¡ ¡where ¡
Simulation Studies • Model: ¡ ¡ – 200 ¡transcrip8on ¡factors, ¡each ¡regula8ng ¡10 ¡genes ¡ – four ¡transcrip8on ¡factors ¡and ¡their ¡target ¡genes ¡are ¡relevant ¡to ¡the ¡ given ¡response ¡
Results from Simulation Study • Comparison ¡of ¡lasso, ¡elas8c ¡net, ¡and ¡network-‑constrained ¡ regularized ¡regression ¡
Analysis of Glioblastoma Dataset • Response: ¡Cancer ¡survival/death ¡ • Predictors: ¡1533 ¡genes ¡on ¡33 ¡KEGG ¡pathways ¡
Gene Graph Components Relevant to Cancer Survival
Recommend
More recommend