Estimation with Infinite Dimensional Kernel Exponential Families Kenji Fukumizu The Institute of Statistical Mathematics Joint work with Bharath Sriperumbudur (Penn State U), Arthur Gretton (UCL), Aapo Hyvarinen (U Helsinki), Revant Kumar (Georgia Tech) IGAIA IV. June 12-17, 2016. Liblice, Czech Republic 1
Introduction 2
Infinite dimensional exponential family ๏ฎ (Finite dim.) exponential family ๐ ๐ ๐ ๐ฆ = exp เท ๐ ๐ ๐ ๐ ๐ฆ โ ๐ต ๐ ๐ 0 (๐ฆ) ๐=1 ๏ฎ Infinite dimensional extension? where ๐ต ๐ โ log โซ ๐ ๐(๐ฆ) ๐ 0 ๐ฆ ๐๐ฆ ๐ ๐ ๐ฆ = exp ๐ ๐ฆ โ ๐ต ๐ ๐ 0 (๐ฆ) ๐ is a natural parameter in an infinite dimensional function class. โ Maximal exponential model (Pistone & Sempi AoS 1995) : โข Orlicz space (Banach sp.) is used. โข Estimation is not at all obvious. โEmpiricalโ mean parameter cannot be defined.
๏ฎ Kernel exponential manifold (Fukumizu 2009; Canu & Smola 2005) Reproducing kernel Hilbert space is used. โข ๐ ๐ ๐ฆ = exp โฉ๐, ๐ โ , ๐ฆ โช โ ๐ต ๐ ๐ 0 (๐ฆ) Infinite dimensional Parameter sufficient statistics โข Empirical estimation is possible โ Mean parameter: ๐ ๐ = ๐น ๐ ๐ [๐ โ , ๐ ] 1 ๐ โ Maximum likelihood estimator: เท ๐ ฯ ๐=1 ๐ ๐ = ๐(โ , ๐ ๐ ) โข Manifold structure can be defined (Fukumizu 2009) 4
Problems in estimation ๏ฎ Normalization constant / partition function โ Even in finite dim. cases ๐ ๐ ๐ ๐ ๐ ๐ฆ ๐ 0 ๐ฆ ๐๐ฆ ๐ต ๐ โ log โซ ๐ ฯ ๐=1 is not easy to compute. โ MLE: โMean parameter ๏ natural parameterโ needs to solve ๐ ๐๐ต ๐ = 1 ๐ เท ๐ ๐ ๐ . ๐๐ ๐=1 โ Even more difficult for an infinite dimensional exponential family ๏ฎ This talk ๏ score matching (Hyvarinen, JMLR 2005) โ Estimation method without normalization constants. โ Introducing a new method for (unnormalized) density estimation. 5
Score Matching 6
Score matching for exponential family (Hyvรคrinen, JMLR2005) ๏ฎ Fisher divergence ๐ ๐, ๐ : two p.d.f.โs on ฮฉ = ฯ ๐=1 ๐ . (๐ก ๐ , ๐ข ๐ ) โ ๐ โช ยฑโ ๐ 2 ๐พ ๐||๐ โ 1 ๐ log ๐ ๐ฆ โ ๐ log ๐ ๐ฆ 2 เถฑ เท ๐(๐ฆ)๐๐ฆ ๐๐ฆ ๐ ๐๐ฆ ๐ ๐=1 โ ๐พ(๐| ๐ โฅ 0. Equality holds iff ๐ = ๐ (under mild conditions). โ Derivative w.r.t. ๐ฆ , not parameter. โข For location parameter ๐(๐ฆ) = ๐ ๐ฆ โ ๐ , ๐ log ๐ ๐ฆ = โ ๐ log ๐ ๐ ๐ฆ ๐๐ฆ ๐ ๐๐ ๐ ๐พ(๐||๐) = squared ๐ 2 -distance of Fisher scores. 7
Set ๐ = ๐ 0 (true), and ๐ = ๐ ๐ to be estimated. ๐พ ๐ โ ๐พ ๐ 0 ||๐ ๐ 2 ๐ log ๐ ๐ ๐ฆ โ ๐ log ๐ 0 ๐ฆ ๐ 1 2 โซ ฯ ๐=1 = ๐ 0 (๐ฆ)๐๐ฆ ๐๐ฆ ๐ ๐๐ฆ ๐ โก แ ๐พ ๐ ๐ ๐ 2 log ๐ ๐ ๐ฆ ๐ 2 = 1 ๐ log ๐ ๐ ๐ฆ 2 เถฑ เท ๐ 0 (๐ฆ)๐๐ฆ + เถฑ เท ๐ 0 ๐ฆ ๐๐ฆ 2 ๐๐ฆ ๐ ๐๐ฆ ๐ ๐=1 ๐=1 + const. ๐ log ๐ ๐ ๐ฆ โข ๐ฆ ๐ โ๐ก ๐ or ๐ข ๐ ๐ 0 (๐ฆ) lim = 0 , and use partial integral Assume ๐๐ฆ ๐ ๐ข ๐ ๐ 2 log ๐ ๐ ๐ฆ ๐ log ๐ ๐ ๐ฆ ๐ log ๐ 0 ๐ฆ ๐ log ๐ ๐ ๐ฆ โซ ๐ 0 ๐ฆ ๐๐ฆ = ๐ 0 ๐ฆ โ โซ ๐ 0 (๐ฆ)๐๐ฆ 2 ๐๐ฆ ๐ ๐๐ฆ ๐ ๐๐ฆ ๐ ๐๐ฆ ๐ ๐ก ๐ ๐๐ 0 ๐ฆ 0 ๐๐ฆ ๐ 8
๏ฎ Empirical estimation ๐ ๐ 2 log ๐ ๐ ๐ฆ ๐ 2 ๐พ ๐ = 1 ๐ log ๐ ๐ ๐ฆ แ 2 เถฑ เท ๐ 0 (๐ฆ)๐๐ฆ + เถฑ เท ๐ 0 ๐ฆ ๐๐ฆ 2 ๐๐ฆ ๐ ๐๐ฆ ๐ ๐=1 ๐=1 ๐ 1 , โฆ , ๐ ๐ : i.i.d. sample ~ ๐ 0 . ๐ ๐ 2 + ๐ 2 log ๐ ๐ ๐ ๐ ๐พ ๐ ๐ = 1 1 ๐ log ๐ ๐ ๐ ๐ แ ๐ เท เท 2 2 ๐๐ฆ ๐ ๐๐ฆ ๐ ๐=1 ๐=1 แ ๐ = arg min แ ๐พ ๐ (๐) : Score matching estimator 9
Score matching for exponential family โ For exponential family ๐ ๐ ๐ฆ = exp ฯ ๐ ๐ ๐ ๐ ๐ ๐ฆ โ ๐ต ๐ ๐ 0 ๐ฆ , แ ๐พ ๐ ๐ 2 ๐ 1 ๐ ๐ ๐ + ๐ 2 log ๐ 0 ๐ ๐ ๐ 2 ๐ ๐๐ ๐ ๐ ๐ + ๐ log ๐ 0 ๐ ๐ ๐ ๐ ๐ = เท เท เท ๐ + เท ๐ ๐ ๐ 2 2 2 ๐๐ฆ ๐ ๐๐ฆ ๐ ๐๐ฆ ๐ ๐๐ฆ ๐ ๐=1 ๐=1 ๐=1 ๐=1 โข No need of ๐ต ๐ ! (derivative w.r.t. ๐ฆ ) โข Quadratic form w.r.t. ๐ ๏ Solvable! โข In the Gaussian case, เท ๐ is the same as MLE. 10
Kernel Exponential Family 11
Reproducing kernel Hilbert space โ Def. ฮฉ : set. ๐ผ: Hilbert space consisting of functions on ฮฉ . ๐ผ : reproducing kernel Hilbert space (RKHS), if for any ๐ฆ โ ฮฉ there is ๐ ๐ฆ โ ๐ผ s.t. ๐, ๐ ๐ฆ = ๐ ๐ฆ for โ๐ โ ๐ผ [reproducing property] โ ๐ ๐ฆ, ๐ง โ ๐ ๐ฆ (๐ง) . ๐ is a positive definite kernel, i.e., ๐ ๐ฆ, ๐ง = ๐(๐ง, ๐ฆ) and the Gram matrix ๐ ๐ฆ ๐ , ๐ฆ ๐ ๐๐ is positive semidefinite for any ๐ฆ 1 , โฆ , ๐ฆ ๐ . โ Moore-Aronszajn theorem: for any positive definite kernel on ฮฉ , there uniquely exists an RKHS s.t. its reproducing kernel is ๐(โ , ๐ฆ) . (One-to-one correspondence between p.d. kernel and RKHS) โ๐ฆโ๐งโ 2 โ Example of pos. def. kernel on ๐ ๐ : ๐ ๐ฆ, ๐ง = exp โ . 12 2๐ 2
Kernel exponential family ๐ ๐ . Def. ๐ : pos. def. kernel on ฮฉ = ฯ ๐=1 (๐ก ๐ , ๐ข ๐ ) โ ๐ โช ยฑโ ๐ผ ๐ : RKHS. ๐ 0 : p.d.f. on ฮฉ with supp ๐ 0 = ฮฉ . ๐บ ๐ โ {๐ โ ๐ผ ๐ โฃ โซ ๐ ๐ ๐ฆ ๐ 0 ๐ฆ ๐๐ฆ < โ} (functional) parameter space ๐ ๐ โ {๐ ๐ : ฮฉ โ 0, โ โฃ ๐ ๐ ๐ฆ = ๐ ๐ ๐ฆ โ๐ต ๐ ๐ 0 ๐ฆ , ๐ โ ๐บ ๐ } where ๐ต ๐ โ โซ ๐ ๐(๐ฆ) ๐ 0 ๐ฆ ๐๐ฆ ๐ ๐ : kernel exponential family (KEF) โ With finite dimensional ๐ผ ๐ , KEF is reduced to a finite dim. exponential family. e.g. ๐ ๐ฆ, ๐ง = 1 + ๐ฆ ๐ ๐ง 2 ๏ Gaussian distributions. 13
Score matching for KEF Assume ๐ is of class ๐ท 2 ( ๐ ๐+๐ ๐(๐ฆ, ๐ง)/๐ ๐ ๐ฆ๐ ๐ ๐ง exists and is continuous for ๐ + ๐ โค 2) and ๐ 2 ๐ ๐ฆ,๐ง lim เธฌ ๐ 0 ๐ฆ = 0 (for partial integral). ๐๐ฆ ๐ ๐๐ง ๐ ๐ง=๐ฆ ๐ฆ ๐ โ๐ก ๐ or ๐ข ๐ โ Score matching objective function ๐ 1 ๐ 2 + ๐ 2 log ๐ 0 ๐ ๐ + ๐ 2 ๐ ๐ ๐ ๐๐ ๐ ๐ + ๐ log ๐ 0 ๐ ๐ แ ๐พ ๐ ๐ โ เท เท 2 2 2 ๐๐ฆ ๐ ๐๐ฆ ๐ ๐๐ฆ ๐ ๐๐ฆ ๐ ๐=1 ๐=1 ๐ 2 ๐ ๐ ๐ ๐ 2 ๐ โ ,๐ ๐ ๐๐ ๐ ๐ ๐๐ โ ,๐ ๐ Note ๐ ๐ ๐ = ๐, ๐ โ , ๐ ๐ , ๐๐ฆ ๐ = ๐, , = ๐, . 2 2 ๐๐ฆ ๐ ๐๐ฆ ๐ ๐๐ฆ ๐ แ ๐พ ๐ ๐ is a quadratic form w.r.t. ๐ โ ๐ผ . 14
โ Estimation แ ๐ท ๐ ๐ = ๐ ๐ where ๐ ๐๐ โ , ๐ ๐ ๐ ๐ท ๐ โ 1 ๐๐ โ , ๐ ๐ แ ๐ เท เท ,โ โถ ๐ผ ๐ โ ๐ผ ๐ ๐๐ฆ ๐ ๐๐ฆ ๐ ๐=1 ๐=1 ๐ ๐ + ๐ 2 ๐ โ , ๐ ๐ ๐ ๐ โ 1 ๐๐ โ , ๐ ๐ ๐ log ๐ 0 ๐ ๐ แ ๐ เท เท โ ๐ผ ๐ 2 ๐๐ฆ ๐ ๐๐ฆ ๐ ๐๐ฆ ๐ ๐=1 ๐=1 โ Regularized estimator โ1 แ เทก แ ๐ ๐ = ๐ท ๐ + ๐ ๐ ๐ฝ ๐ ๐ i.e., เทก ๐ = argmin ๐ แ 2 ๐ ๐พ ๐ ๐ + ๐ ๐ ๐ ๐ผ ๐ 15
Explicit Solution โ Estimator: (from representer theorem) ๐ ๐ ๐๐ โ , ๐ ๐ แ ๐ = ๐ฝ แ ๐ ๐ ๐ + เท เท ๐พ ๐๐ ๐๐ฆ ๐ ๐=1 ๐=1 where 2 1 1 ๐ ๐ป ๐๐ ๐๐ + ๐ โ ๐ ๐ 2 + ๐ แ ๐ 2 ๐ ฯ ๐,๐ โ ๐ ๐ ฯ ๐,๐ โ ๐ ๐ ๐ แ ๐ฝ ๐ ๐ ๐พ ๐๐ = โ ๐ ๐ป ๐๐ ๐๐ + ๐ โ ๐ ๐๐ + ๐ ๐ป ๐๐ 1 1 ๐ ๐ ๐๐ ๐ป ๐๐ ๐๐ โ ๐ ๐ ฯ ๐,๐ โ ๐ ๐ ฯ ๐,๐ ๐ป ๐๐ ๐ 3 ๐ ๐ ๐ ,๐ ๐ ๐ 2 ๐ ๐ ๐ ,๐ ๐ ๐ = 1 ๐โ ๐ ๐ ๐โ ๐ ๐ ๐ log ๐ 0 ๐ ๐ ๐ ฯ ๐,๐ โ ๐ 2 ๐๐ง ๐ + ๐๐ฆ ๐ , ๐๐ฆ ๐ = ๐๐ฆ ๐ ๐๐ฆ ๐ ๐๐ง ๐ ๐๐ฆ ๐ ๐ 2 ๐ ๐ ๐ ,๐ ๐ 2 = ๐ 4 ๐ ๐ ๐ ,๐ ๐ ๐ 3 ๐ ๐ ๐ ,๐ ๐ ๐ 2 ๐ ๐ ๐ ,๐ ๐ ๐โ(๐ ๐ ) ๐โ(๐ ๐ ) ๐๐ = 1 ๐โ ๐ ๐ ๐๐ฆ ๐ ๐๐ง ๐ , แ ๐ป ๐๐ ๐ ๐ ๐ 2 ฯ ๐๐,๐๐ 2 + 2 ๐๐ฆ ๐ + 2 ๐๐ง ๐ 2 ๐๐ง ๐ ๐๐ฆ ๐ ๐๐ฆ ๐ ๐๐ฆ ๐ ๐๐ง ๐ ๐๐ฆ ๐ ๐๐ฆ ๐ ๐๐ โ ,๐ ๐ แ , แ โข ๐ ๐ ๐ . ๐ can be taken in Span ๐๐ฆ ๐ โข Estimator is simply given by solving 1 + ๐๐ -dimensional linear 16 equation.
Unnormalized p.d.f. โ Score matching for KEF gives only ๐(๐ฆ) or ๐ ๐ ๐ฆ , unnormalized p.d.f. โข Estimation of ๐ต ๐ โ โซ ๐ ๐(๐ฆ) ๐ 0 ๐ฆ ๐๐ฆ is yet nontrivial. โ There are interesting applications. 1) Nonparametric structure learning for graphical model given data (Sun, Kolar, Xu NIPS2015) ๐ ๐ โ เท ๐ ๐๐ ๐ ๐ , ๐ ๐ , ๐ป = (๐, ๐น) ๐๐โ๐น ๐ ๐๐ is estimated nonparametrically with KEF (with sparse edges). a b c d 17 e
Recommend
More recommend