Tengyu Ma Joint works with Sanjeev Arora, Yuanzhi Li, Yingyu Liang, and Andrej Risteski Princeton University
๐ค & โ โ ( ๐ฆ โ ๐ด Euclidean space with complicated space meaningful inner products )*+,-.*/01, 23/03+4 ร Kernel methods Linearly separable 0.*3+1, +15.*2 +106 Multi-class linear ร Neural nets classifier
Vocabulary= โ 788 { 60k most frequent words } Goal: Embedding captures semantics information (via linear algebraic operations) ร inner products characterize similarity ร similar words have large inner products ร differences characterize relationship ร analogous pairs have similar differences ร more? picture: Chris Olahโs blog
Meaning of a word is determined by words it co-occurs with. ( Distributional hypothesis of meaning , [Harrisโ54], [Firthโ57] ) ร Pr ๐ฆ, ๐ง โ prob. of co-occurrences of ๐ฆ, ๐ง in a window of size 5 word ๐ง โ โฏ ๐ค & ,๐ค C - a good measure of ร โฎ โฎ similarity of (๐ฆ,๐ง) [Lund-Burgessโ96] word ๐ฆ โ ๐ค & โฑ โฎ โฎ โฏ ร ๐ค & = row of entry-wise square-root of co-occurrence matrix [Rohde et alโ05] Co-occurrence matrix Pr โ ,โ L. [&,C] ร ๐ค & = row of PMI ๐ฆ, ๐ง = log L. & L.[C] matrix [Church-Hanksโ90]
Algorithm [Levy-Goldberg]: (dimension-reduction version of [Church-Hanksโ90]) L. [&,C] ร Compute PMI ๐ฆ, ๐ง = log L. & L.[C] ร Take rank-300 SVD (best rank-300 approximation) of PMI ร โ Fit PMI ๐ฆ,๐ง โ โฉ๐ค & , ๐ค C โช (with squared loss), where ๐ค & โ โ 788 ร โLinear structureโ in the found ๐ค & โs : ๐ค PQRST โ ๐ค RST โ ๐ค WXYYT โ ๐ค Z[T\ โ ๐ค XT]^Y โ ๐ค SXT_ โ โฏ king queen uncle man aunt woman
ร Questions: woman: man queen: ? , aunt: ? ร Answers: ๐๐๐๐ = argmin k || ๐ค WXYYT โ ๐ค P โ (๐ค PQRST โ๐ค RST )|| ๐๐ฃ๐๐ข = argmin k || ๐ค XT]^Y โ ๐ค P โ (๐ค PQRST โ๐ค RST )|| king queen uncle man aunt woman
ร recurrent neural network based model [Mikolov et alโ12] ร word2vec [Mikolov et alโ13] : โ expโฉ๐ค & yz{ ,1 Pr ๐ฆ [pq ๐ฆ [pr ,โฆ,๐ฆ [pt 5 ๐ค & yz~ + โฏ + ๐ค & yzโฌ โช ร GloVe [Pennington et alโ14] : log Pr [๐ฆ,๐ง] โ ๐ค & ,๐ค C + ๐ก & + ๐ก C + ๐ท ร [Levy-Goldbergโ14] (Previous slide) L. [&,C] PMI ๐ฆ,๐ง = log L. & L.[C] โ ๐ค & ,๐ค C + ๐ท Logarithm (or exponential) seems to exclude linear algebra!
Why co-occurrence statistics + log ร linear structure [Levy-Goldbergโ13, Pennington et alโ14, rephrased] ร For most of the words ๐: Pr[๐ โฃ ๐๐๐๐] Pr[๐ โฃ ๐๐๐] Pr[๐ โฃ ๐๐ฃ๐๐๐] โ Pr ๐ ๐ฅ๐๐๐๐] ยง For ๐ unrelated to gender: LHS, RHS โ 1 ยง for ๐ =dress, LHS, RHS โช 1 ; for ๐ = John, LHS, RHS โซ 1 ร It suggests โข โข log Pr ๐ ๐๐ฃ๐๐๐ โ log Pr ๐ ๐๐๐๐ ๐๐๐ โ 0 Pr ๐ Pr ๐ ๐ฅ๐๐๐๐] ลฝ โข = โข PMI ๐, ๐๐๐๐ โ PMI ๐, ๐๐ฃ๐๐๐ โ PMI ๐, ๐๐๐ โ PMI ๐, ๐ฅ๐๐๐๐ โ 0 ลฝ ร Rows of PMI matrix has โlinear structureโ ร Empirically one can find ๐ค P โs s.t. PMI ๐, ๐ฅ โ โฉ๐ค ลฝ ,๐ค P โช ร Suggestion: ๐ค P โs also have linear structure
M1: Why do low-dim vectors capture essence of huge co-occurrence statistics? That is, why is a low-dim fit of PMI matrix even possible? PMI ๐ฆ, ๐ง โ ๐ค & , ๐ค C (โ) ร NB: PMI matrix is not necessarily PSD. M2: Why low-dim vectors solves analogy when (โ) is only roughly true? โ empirical fit has 17% error ร NB: solving analogy task requires inner products of 6 pairs of word vectors, and that โkingโ survives against all other words โ noise is potentially an issue! ๐๐๐๐ = argmax k || ๐ค WXYYT โ ๐ค P โ (๐ค PQRST โ๐ค RST ) || โข ร Fact: low-dim word vectors have more accurate linear structure than the rows of PMI (therefore better analogy task performance).
M1: Why do low-dim vectors capture essence of huge co-occurrence statistics? That is, why is a low-dim fit of PMI matrix even possible? PMI ๐ฆ, ๐ง โ ๐ค & , ๐ค C (โ) A1: Under a generative model (named RAND-WALK) , (*) provablyholds M2: Why low-dim vectors solves analogy when (โ) is only roughly true? A2: (*) + isotropy of word vectors โ low-dim fitting reduces noise (Quite intuitive, though doesnโt follow Occamโs bound for PAC-learning)
๐ _ ๐ _pr ๐ _pโข ๐ _p7 ๐ _pโ ๐ฅ _pr ๐ฅ _pโข ๐ฅ _pโ ๐ฅ _ ๐ฅ _p7 ร Hidden Markov Model: ยง discourse vector ๐ _ โ โ ( governs the discourse/theme/context of time ๐ข ยง words ๐ฅ _ (observable); embedding ๐ค P โข โ โ ( (parameters to learn) ยง log-linear observation model Pr[๐ฅ _ โฃ ๐ _ ] โ expโฉ๐ค P โข ,๐ _ โช ร Closely related to [Mnih-Hintonโ07]
๐ _ ๐ _pr ๐ _pโข ๐ _p7 ๐ _pโ ๐ฅ _pr ๐ฅ _pโข ๐ฅ _pโ ๐ฅ _ ๐ฅ _p7 ร Ideally, ๐ _ ,๐ค P โ โ ( should contain semantic information in its coordinates ยง E.g. (0.5, -0.3, โฆ) could mean โ0.5 gender, -0.3 age,..โ ร But, the whole system is rotational invariant: ๐ _ ,๐ค P = โฉ๐๐ _ ,๐๐ค P โช ร There should exist a rotation so that the coordinates are meaningful (back to this later)
๐ _ ๐ _pr ๐ _pโข ๐ _p7 ๐ _pโ ๐ฅ _ ๐ฅ _pr ๐ฅ _pโข ๐ฅ _p7 ๐ฅ _pโ ร Assumptions: ยง { ๐ค P } consists of vectors drawn from ๐ก โ ๐ช(0,Id) ; ๐ก is bounded scalar r.v. ยง ๐ _ does a slow random walk (doesnโt change much in a window of 5) ยง log-linear observation model: Pr[๐ฅ _ โฃ ๐ _ ] โ expโฉ๐ค P โข ,๐ _ โช ร Main Theorem: ๐ค P + ๐ค Pโบ โข /๐ โ 2 log ๐ ยฑ ๐ (1) log Pr ๐ฅ,๐ฅโฒ = ๐ค P โข /๐ โ log ๐ ยฑ ๐ (2) log Pr ๐ฅ = Fact: (2) implies that the words have power PMI ๐ฅ,๐ฅ โบ = ๐ค P ,๐ค P ยข /๐ ยฑ ๐ (3) law dist. ร Norm determines frequency; spatial orientation determines โmeaningโ
ร word2vec [Mikolov et alโ13] : โ expโฉ๐ค P yz{ ,1 Pr ๐ฅ [pq ๐ฅ [pr ,โฆ ,๐ฅ [pt 5 ๐ค P yz~ + โฏ + ๐ค P yzโฌ โช ร GloVe [Pennington et alโ14] : log Pr [๐ฅ,๐ฅโฒ] โ ๐ค P , ๐ค P ยข + ๐ก P + ๐ก Pโบ + ๐ท log Pr ๐ฅ,๐ฅ โบ = โข /๐ โ 2log ๐ ยฑ ๐ Eq. (1) ๐ค P + ๐ค P ยข ร [Levy-Goldbergโ14] PMI ๐ฅ,๐ฅ โบ โ ๐ค P ,๐ค P ยข + ๐ท Eq. (3) PMI ๐ฅ, ๐ฅ โบ = ๐ค P , ๐ค P ยข /๐ ยฑ ๐
ร word2vec [Mikolov et alโ13] : โ expโฉ๐ค P yz{ ,1 Pr ๐ฅ [pq ๐ฅ [pr ,โฆ, ๐ฅ [pt 5 ๐ค P yz~ + โฏ+ ๐ค P yzโฌ โช โ max-likelihood estimate of ๐ [pq ร Under our model, ๐ [pโ ๐ [pt ๐ [pq ยง Random walk is slow: ๐ [pr โ ๐ [pโข โ โฏ โ ๐ [pq โ ๐ ยง Best estimate for current discourse ๐ [pq : ๐ฅ [pโ ๐ฅ [pt ๐ฅ [pq argmax Pr ๐ ๐ฅ [pr ,โฆ,๐ฅ t ] = ๐ฝ ๐ค P yz~ + โฏ+ ๐ค P yzโฌ ],||]||ยฃr ยง Prob. distribution of next word given the best guess ๐ : Pr[๐ฅ [pq โฃ ๐ [pq = ๐ฝ ๐ค P yz~ + โฏ+ ๐ค P yzโฌ ] โ expโฉ๐ค P yz{ ,๐ฝ ๐ค P yz~ + โฏ+ ๐ค P yzโฌ โช
This talk: window of size 2 Pr[๐ฅ โฃ ๐] โ expโฉ๐ค P , ๐โช r ร Pr[๐ฅ โฃ ๐] = ยง ยจ โ expโฉ๐ค P , ๐โช Pr[๐ฅโฒ โฃ ๐โฒ] โ expโฉ๐ค P ยข ,๐โฒโช ๐โฒ ๐ ร ๐ ] = โ exp โฉ๐ค P ,๐โช partition function P Pr[๐ฅ,๐ฅ โบ ] = ยฅ Pr ๐ฅ ๐] Pr ๐ฅ โบ ๐โฒ] ๐ ๐,๐ โบ ๐๐๐๐โฒ ๐ฅ ๐ฅโฒ spherical Gaussian vector ๐ 1 โ exp ๐ค P ,๐ expโฉ๐ค P ยข ,๐ โบ โช ๐ ๐, ๐ โบ ๐๐๐๐โฒ โข /๐ ร ๐ฝ exp ๐ค,๐ = exp ๐ค = ยฅ ๐ ] ๐ ]โบ ร Assume ๐ = ๐โฒ with probability 1, ?? โข /๐ = ยฅexpโฉ๐ค P + ๐ค P ยข , ๐โช๐ ๐ ๐๐ = exp ๐ค P + ๐ค P ยข Eq. (1) log Pr ๐ฅ, ๐ฅ โบ = โข /๐ โ 2 log ๐ ยฑ ๐ ๐ค P + ๐ค P ยข
This talk: window of size 2 Pr[๐ฅ โฃ ๐] โ expโฉ๐ค P , ๐โช r ร Pr[๐ฅ โฃ ๐] = ยง ยจ โ expโฉ๐ค P , ๐โช Pr[๐ฅโฒ โฃ ๐โฒ] โ expโฉ๐ค P ยข ,๐โฒโช ๐โฒ ๐ ร ๐ ] = โ exp โฉ๐ค P ,๐โช partition function P Lemma 1: for almost all c, almost all ๐ค P , ๐ ] = 1 + ๐ 1 ๐ ๐ฅ ๐ฅโฒ ร Proof (sketch) : ยง for most ๐ , ๐ ] concentrates around its mean ยง mean of ๐ ] is determined by ||๐|| , which in turn concentrates ยง caveat: expโฉ๐ค,๐โช for ๐ค โผ ๐ช(0,Id) is not subgaussian, nor sub- exponential. ( ๐ฝ -Orlicz norm is not bounded for any ๐ฝ > 0 ) Eq. (1) log Pr ๐ฅ, ๐ฅ โบ = โข /๐ โ 2 log ๐ ยฑ ๐ ๐ค P + ๐ค P ยข
Lemma 1: for almost all c, almost all ๐ค P , ๐ ] = 1 + ๐ 1 ๐ ร Proof Sketch: ร Fixing ๐ , to show high probability over choices of ๐ค P โs ๐ ] = โข expโฉ๐ค P ,๐โช = 1 + ๐ 1 ๐ฝ[๐ ] ] P ร ๐จ P = โฉ๐ค P ,๐โช scalar Gaussian random variable ร ||๐|| governs the mean and variance of ๐จ P . ร ||๐|| in turns is concentrated
Recommend
More recommend