fast data driven compressed sensing
play

Fast Data Driven Compressed Sensing and application to compressed - PowerPoint PPT Presentation

IDCOM, University of Edinburgh Fast Data Driven Compressed Sensing and application to compressed quantitative MRI Mike Davies & Mohammad Golbabaee Joint work with Zhouye Chen, Yves Wiaux Zaid Mahbub, Ian Marshall IDCOM, University of


  1. IDCOM, University of Edinburgh Fast Data Driven Compressed Sensing and application to compressed quantitative MRI Mike Davies & Mohammad Golbabaee Joint work with Zhouye Chen, Yves Wiaux Zaid Mahbub, Ian Marshall

  2. IDCOM, University of Edinburgh Outline • Iterative Projected Gradients (IPG) • Approximate/inexact oracles • Robustness of inexact IPG • Application to data driven Compressed Sensing • Fast MR Fingerprinting reconstruction • IPG with Approximate Nearest Neighbour searches • Cover trees for fast ANN • Numerical results

  3. IDCOM, University of Edinburgh Inverse problems 𝑺↑𝑛 where 𝑛 ≪ 𝑜 𝑧 = 𝐵𝑦 + 𝑥 ∈ ​𝑺↑ 𝑺↑𝑛 , ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ 𝐵 : ​𝑺↑ 𝑺↑𝑜 → ​𝑺↑ Challenge: Missing information Complete measurements can be costly, time consuming and sometimes just impossible! Compressed sensing to address the challenge [Donoho’06; Candès, Romberg, and Tao,’06]

  4. IDCOM, University of Edinburgh Data models/priors Manifolds

  5. IDCOM, University of Edinburgh Solving Compressed Sensing/Inv. Problems Estimating by constrained least squares ​𝑦 ∈argmin ⁠ {𝑔(𝑦) ≔ ​ 1 / 2 ​||𝑧 − 𝐵𝑦||↓ 2 ↑ 2 ¡ } ¡ ¡ ¡ ¡ 𝑡 . 𝑢 . ¡ ¡ ¡ 𝑦 ∈ 𝐷 Signal/data !! NP-hard for most interesting models model (e.g. sparsity [Natarajan’95] ) Iterative Gradient Projection (IPG) Generally proximal-gradient algorithms are very popular: ​𝑦↑𝑙 = ​𝑸↓ 𝑸↓𝐷 ( 𝑦↑𝑙 −1 − 𝜈​ A ↑ T ( ​ Ax ↑ k−1 −y)) nonlinear approximation (reconstruction) projection (observation) Gradient ​ A ↑ T ( ​ Ax ↑ k−1 −y)) , step size 𝜈 , , Euclidean projection 𝑸↓𝐷 (𝑦) ∈argmin ​||𝑦 − ​𝑦↑ ′ ||↓ 2 ¡ ¡ ¡ ¡ 𝑡 . 𝑢 . ¡ ¡ ¡ ¡ ​𝑦↑ ′ ∈ 𝐷 ¡ ​𝑸↓

  6. IDCOM, University of Edinburgh Embedding: key to CS/IPG stability Bi-Lipschitz embeddable sets: ∀ 𝑦 , 𝑦 ′∈ 𝐷 ​𝛽||𝑦 − ​𝑦↑ ′ ||↓ 2 ≤ ||𝐵(𝑦 − ​𝑦↑ ′ )||↓ 2 ≤ ​𝛾||𝑦 − ​𝑦↑ ′ ||↓ 2 Theorem .[Blumensath’11] For any ( 𝐷 , ¡ 𝐵 ) ¡ if holds 𝛾 ≤1.5 𝛽 , , IPG à stable & linear convergence: | ​ | 𝑦↑𝐿 − ​𝑦↓ 0 ||→ 𝑃(𝑥) + 𝜐 , ¡ ¡ ¡ ¡ 𝐿 ∼(log ¡ ​𝜐↑ −1 ) Global optimality even for nonconvex programs! Model 𝐷 ∈ ​𝑺 ​𝑺↑𝒐 𝒐 𝐏( 𝒏 ) 𝑞 ¡ (unstructured) ¡points ​𝜄↑ −2 log( 𝑞 ) [Johnson, Lindenstrauss’89] ⋃𝑗↑𝑀▒𝐿 -flats ​𝜄↑ −2 ( 𝐿 +log (𝑀) ) [Blumensath, Davies’09] rank 𝑠 ¡ ¡( √ ⁠ 𝑜 × √ ⁠ 𝑜 ) matrices ​𝜄↑ −2 𝑠 √ 𝑜 [Candès,Recht;Ma etal.’09] ‘smooth’ 𝑒 dim. manifold ​𝜄↑ −2 𝑒 [Wakin,Baraniuk’09] 𝐿 tree-sparse ​𝜄↑ −2 𝐿 [Baraniuk etal.’09] Sample complexity e.g. 𝐵 ~ i.i.d. subgaussian ~ i.i.d. subgaussian

  7. IDCOM, University of Edinburgh A limitation … Exact oracles might be too expensive or even do not exist! Gradient ​ A ↑ T ( ​ Ax ↑ k−1 −y)) 𝐵 too large to fully access or fully compute/update 𝛼𝑔 ¡ too large to fully access or fully compute/update 𝛼𝑔 ¡ • • Noise in communication in distributed solvers Projection ​𝑸↓ 𝑸↓𝐷 (𝑦) ∈argmin ​||𝑦 − ​𝑦↑ ′ ||↓ 2 ¡ 𝑡 . 𝑢 . ¡ ¡ ​𝑦↑ ′ ∈ 𝐷 ​𝑸↓ 𝑸↓𝐷 may not be analytic and requires solving an auxiliary optimization • (e.g. inclusions 𝐷 = ¡ ⋂𝑗↑▒ ¡ ​𝐷↓𝑗 , total variation ball, low-rank, tree-sparse, … ) ​𝑸↓ 𝑸↓𝐷 might be NP hard! (e.g. analysis sparsity, low-rank tensor decomposition) • Is IPG robust against inexact/approximate oracles?

  8. IDCOM, University of Edinburgh Inexact oracles I: Fixed Precision 𝑸 ↓𝐷 ( 𝑦↑𝑙 −1 − 𝜈 ¡ ​𝛼 ¡ 𝑔 ( ​𝑦↑𝑙 −1 )) ​𝑦↑𝑙 = ​𝑸 Fixed Precision (FP) approximate oracles: 𝑸↓𝐷 ( . )||↓ 2 ≤ ​𝜉↓𝑞 , ¡ ¡ ¡( ​ ¡ ¡ ​𝑸 ↓𝐷 (.)∈ 𝐷 ¡) ​||​𝛼 ¡ 𝑔( . ) − 𝛼𝑔( . )||↓ 2 ≤ ​𝜉↓𝑕 , ¡ ¡ ¡ ¡ ¡ ​||​𝑸↓ 𝑸↓𝐷 ¡ ( . ) − ​𝑸↓ Examples: TV ball, inclusions (e.g. Djkstra alg.), and many more … (in convex settings, Duality gap à FP proj.) x’ x Progressive Fixed Precision (PFP) oracles: C 𝑸 ¡ ( . ) − 𝑸( . )||↓ 2 ≤ ​𝜉↓𝑞↑𝑙 ​||​𝛼 ¡ 𝑔( . ) − 𝛼𝑔( . )||↓ 2 ≤ ​𝜉↓𝑕↑𝑙 , ¡ ¡ ¡ ¡ ¡ ​||​𝑸 Examples: Any FP oracle with progressive refinement of the approx. levels e.g. convex sparse CUR factorization for ​𝜉↓𝑞↑𝑙 ∼ 𝑃 (1/ ​𝑙↑ 3 ) [Schmidt etal.’11]

  9. IDCOM, University of Edinburgh Inexact oracles II: ( 1+ 1+ 𝜗 )-optimal ( 1+ 𝜗) -approximate projections combined with FP/PFP gradient oracle ​𝑦↑𝑙 = ​𝑸↑ 𝑸↑𝜗 ↓𝐷 ( 𝑦↑𝑙 −1 − 𝜈 ¡ ​𝛼↓ k ¡ 𝑔 ( ​𝑦↑𝑙 −1 )) Gradient ​||​𝛼 ↓𝑙 ¡ 𝑔( . ) − 𝛼𝑔( . )||↓ 2 ≤ ​𝜉↓𝑕↑𝑙 𝑸↓𝐷 ¡ (𝑦) − 𝑦||↓ 2 ¡ ¡ ¡ ¡ ¡ Projection ​||​𝑸↑ 𝑸↑𝜗 ↓𝐷 (𝑦) − 𝑦||↓ 2 ≤ ​ (𝟐+ 𝝑 ) ||​𝑸↓ Examples. Many nonconvex constraints: Cheaper low-rank proxies based on ​𝑸↑ 𝑸↑𝜗 ↓𝐷 (𝑦) ∈ 𝐷 randomized lin. algebra [Halko etal.’11] , K-tree sparse signals [Hegde etal.’14] , Tensor low-rank (Tucker) decomposition [Rauhut etal.’16] , … and shortly, ANN for data driven CS!

  10. IDCOM, University of Edinburgh Robustness & linear convergence of the inexact IPG

  11. IDCOM, University of Edinburgh IPG with (P)FP oracles 𝑸 ↓𝐷 ( 𝑦↑𝑙 −1 − 𝜈 ¡ ​𝛼 ¡ 𝑔 ( ​𝑦↑𝑙 −1 )) ​𝑦↑𝑙 = ​𝑸 Theorem. For any ​ ( 𝑦↓ 0 ∈ 𝐷 , ¡ 𝐷 , 𝐵 ) ¡ if 𝛾 ≤ ​𝜈↑ −1 <2 ​𝛽↓ 0 then || ​𝑦↑𝑙 − ​𝑦↓ 0 ||≤ ​𝜍↑𝑙 ( || ​𝑦↓ 0 ||+ ∑𝑗 =1 ↑𝑙▒​𝜍↑ − 𝑗 ​𝑓↑𝑗 ) + ​ 2 √ ⁠ 𝛾 /( 1− 𝜍)​𝛽↓ 0 𝑥 where, 𝜍 = √ ⁠ ​ 1 ⁄𝜈​𝛽↓ 0 ¡ −1 ¡ and ​𝑓↑𝑗 = ​ 2 ​𝜉↓𝑕↑𝑗 /​𝛽↓ 0 + √ ⁠ ​𝜉↓𝑞↑𝑗 /​𝜈𝛽↓ 0 Remark: ​𝜍↑ − 𝑗 supresses the early stages errors ⇒ use “progressive” approximations to get as good as exact!

  12. IDCOM, University of Edinburgh IPG with (P)FP oracles 𝑸 ↓𝐷 ( 𝑦↑𝑙 −1 − 𝜈 ¡ ​𝛼 ¡ 𝑔 ( ​𝑦↑𝑙 −1 )) ​𝑦↑𝑙 = ​𝑸 Corollary I. After 𝐿 = 𝑃 (log( ​𝜐↑ −1 ) ¡) iterations IPG-FP achieves ||​𝑦↑𝐿 − ​𝑦↓ 0 || ≤ 𝑃(𝑥 + ​𝜉↓𝑕 + √ ⁠ ​𝜉↓𝑞 ) + 𝜐 ¡ ¡ ¡ ¡ ¡ ¡ ¡ linear convergence at rate 𝜍 = √ ⁠ ​ 1 ⁄𝜈​𝛽↓ 0 ¡ −1 ¡ . Corollary II. Assume ​ ∃ 𝑠 <1 ¡ ¡ 𝑡 . 𝑢 . ¡ ¡ 𝑓↑𝑗 = 𝑃(​𝑠↑𝑗 ) , then after 𝐿 = 𝑃 (log( ​𝜐↑ −1 ) ¡) iterations IPG-PFP achieves ||​𝑦↑𝐿 − ​𝑦↓ 0 || ≤ 𝑃(𝑥) + 𝜐 ¡ ¡ ¡ ¡ ¡ ¡ ¡ linear convergence at rate ​𝜍 = {█□ max ¡ (𝜍 , ¡ 𝑠) ¡ ¡ 𝜍 ≠ 𝑠 ⁠ 𝜍 + 𝜊 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ 𝜍 = 𝑠 ¡ ¡ (for any small 𝜊 >0) ¡

  13. IDCOM, University of Edinburgh IPG with ( 1+ 1+ 𝜗) 𝜗) -approximate projection 𝑸↓𝐷↑𝜗 ( 𝑦↑𝑙 −1 − 𝜈 ¡ ​𝛼↓ k ¡ 𝑔 ( ​𝑦↑𝑙 −1 )) ​𝑦↑𝑙 = ​𝑸↓ Theorem. Assume for any ​ ( 𝑦↓ 0 ∈ 𝐷 , ¡ 𝐷 , 𝐵 ) ¡ 𝑏𝑜𝑒 ¡ 𝑏𝑜 ¡ 𝜗 ≥0 it holds √ ⁠ 2 𝜗 + ​𝜗↑ 2 ≤ 𝜀​√ ⁠ ​𝛽↓ 0 /|||𝐵||| ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ 𝑏𝑜𝑒 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ 𝛾 ≤ ​𝜈↑ −1 < ​ (2−2 𝜀 + ​𝜀↑ 2 ) 𝛽↓​𝑦↓ 0 Then, || ​𝑦↑𝑙 − ​𝑦↓ 0 ||≤ ​𝜍↑𝑙 ( || ​𝑦↓ 0 ||+ ​𝜆↓𝑕 ∑𝑗 =1 ↑𝑙▒​𝜍↑ − 𝑗 ​𝜉↓𝑕↑𝑗 ) + ​𝜆↓𝑨 / ( 1− 𝜍) 𝑥 where, 𝜍 = √ ⁠ ​ 1 ⁄𝜈​𝛽↓ 0 ¡ −1 + 𝜀 ¡ ¡ ¡ ¡ ¡ ¡ ​𝜆↓𝑕 = ​ 2 /​𝛽↓ 0 + ​ √ 𝜈/ | ||𝐵|| | 𝜀 ¡ ¡ ¡ ¡ ¡ ¡ 𝑏𝑜𝑒 ¡ ¡ ¡ ¡ ​𝜆↓𝑨 = ​ 2 √ ⁠ 𝛾 /​𝛽↓ 0 + √ ⁠ 𝜈 𝜀 Remarks. - Requires stronger embedding cond., slower convergence! Still linear conv. & 𝑃(𝑥) + 𝜐 ¡ accuracy after 𝑃 (log ¡ ​𝜐↑ −1 ¡) iterations - - higher noise amplification

  14. IDCOM, University of Edinburgh Application in data driven CS

  15. IDCOM, University of Edinburgh Data driven CS In the absence of (semi) algebraic physical models (l0, l1, rank, … ) Collect a possibly large dictionary (sample the model) 𝐷 = ​ ∪ ↓𝑗 =1,…, 𝑒 {​𝜔↓𝑗 } ¡ ¡ ¡ ¡ ¡ ¡ ¡ ​𝜔↓𝑗 ¡ 𝑏𝑢𝑝𝑛𝑡 ¡ 𝑝𝑔 ¡ ¡ ¡Ψ∈ ​𝑆↑𝑜 × 𝑒 Examples in multi-dim. imaging: Hyperspectral, Mass/Raman/MALDI, … spectroscopy [Golbabaee et al ’13; Duarte,Baraniuk’12; … ]

Recommend


More recommend