acl 2018
play

ACL 2018 2 Language Technology Lab, University of Cambridge - PowerPoint PPT Presentation

Bridging Languages Through Images with Deep Partial Canonical Correlation Analysis IVAN VULI 2 & GUY ROTMAN 1 , ICHART 1 , IV & ROI REIC 1 Faculty of Industrial Engineering and Management, Technion, IIT ACL 2018 2 Language Technology


  1. Bridging Languages Through Images with Deep Partial Canonical Correlation Analysis IVAN VULI Δ† 2 & GUY ROTMAN 1 , ICHART 1 , IV & ROI REIC 1 Faculty of Industrial Engineering and Management, Technion, IIT ACL 2018 2 Language Technology Lab, University of Cambridge

  2. Motivation

  3. Motivation ο‚— 𝐡 π‘€π‘—π‘‘π‘£π‘π‘š π‘‘π‘‘π‘“π‘œπ‘“ π‘‘π‘π‘œ 𝑐𝑓 𝑒𝑓𝑑𝑑𝑠𝑗𝑐𝑓𝑒 π‘—π‘œ π‘π‘œπ‘§ π‘šπ‘π‘œπ‘•π‘£π‘π‘•π‘“ ο‚— π½π‘›π‘π‘•π‘—π‘œπ‘“ π‘’β„Žπ‘π‘’ 𝑧𝑝𝑣 𝑏𝑠𝑓 π‘‘π‘—π‘’π‘’π‘—π‘œπ‘• π‘—π‘œ 𝑏 π‘ π‘“π‘‘π‘’π‘π‘£π‘ π‘π‘œπ‘’ π‘—π‘œ 𝑏 π‘”π‘π‘ π‘“π‘—π‘•π‘œ π‘‘π‘π‘£π‘œπ‘’π‘ π‘§ π‘π‘œπ‘’ 𝑧𝑝𝑣 π‘œπ‘“π‘“π‘’ 𝑏 π‘‘π‘žπ‘π‘π‘œ …

  4. Goal β€’ πΊπ‘—π‘œπ‘’ 𝑏 π‘‘β„Žπ‘π‘ π‘“π‘’ π‘‘π‘žπ‘π‘‘π‘“ 𝑔𝑝𝑠 π‘’π‘“π‘¦π‘’π‘£π‘π‘š π‘—π‘œπ‘žπ‘£π‘’π‘‘ 𝑔𝑠𝑝𝑛 π‘‘π‘“π‘€π‘“π‘ π‘π‘š π‘šπ‘π‘œπ‘•π‘£π‘π‘•π‘“π‘‘ β€’ π‘‰π‘’π‘—π‘šπ‘—π‘¨π‘“ π‘›π‘£π‘’π‘£π‘π‘š 𝑗𝑛𝑏𝑕𝑓𝑑 𝑒𝑝 𝑐𝑠𝑗𝑒𝑕𝑓 𝑐𝑓𝑒π‘₯π‘“π‘“π‘œ π‘’β„Žπ‘“ π‘’π‘“π‘¦π‘’π‘£π‘π‘š π‘—π‘œπ‘žπ‘£π‘’π‘‘ πΉπ‘œπ‘•π‘šπ‘—π‘‘β„Ž π‘‡π‘žπ‘π‘œπ‘—π‘‘β„Ž 𝐡 π‘›π‘π‘œ 𝑗𝑑 π‘‘π‘—π‘’π‘’π‘—π‘œπ‘• π‘‰π‘œ β„Žπ‘π‘›π‘π‘ π‘“ 𝑓𝑑𝑒Ñ π‘‘π‘“π‘œπ‘’π‘π‘’π‘ 𝑏𝑒 𝑏 π‘’π‘π‘π‘šπ‘“ π‘“π‘œ π‘£π‘œπ‘ 𝑛𝑓𝑑𝑏 β„Žπ‘π‘šπ‘’π‘—π‘œπ‘• 𝑏 π‘‘π‘žπ‘π‘π‘œ π‘‘π‘£π‘˜π‘“π‘’π‘π‘œπ‘’π‘ π‘£π‘œπ‘ π‘‘π‘£π‘‘β„Žπ‘π‘ π‘

  5. Technical Details

  6. Multilingual Word Embeddings β€’ π‘Šπ‘“π‘‘π‘’π‘π‘ π‘‘ π‘—π‘œ π‘’π‘—π‘”π‘”π‘“π‘ π‘“π‘œπ‘’ π‘šπ‘π‘œπ‘•π‘£π‘π‘•π‘“π‘‘ 𝑏𝑠𝑓 π‘—π‘œ π‘’π‘—π‘”π‘”π‘“π‘ π‘“π‘œπ‘’ π‘‘π‘žπ‘π‘‘π‘“π‘‘

  7. Multilingual Word Embeddings β€’ π‘Šπ‘“π‘‘π‘’π‘π‘ π‘‘ π‘—π‘œ π‘’π‘—π‘”π‘”π‘“π‘ π‘“π‘œπ‘’ π‘šπ‘π‘œπ‘•π‘£π‘π‘•π‘“π‘‘ 𝑏𝑠𝑓 π‘—π‘œ π‘’π‘—π‘”π‘”π‘“π‘ π‘“π‘œπ‘’ π‘‘π‘žπ‘π‘‘π‘“π‘‘

  8. Mapping Two Views To a Shared Space: Canonical Correlation Analysis (CC A) 𝐷𝐷𝐡 πΌπ‘π‘’π‘“π‘šπ‘šπ‘—π‘œπ‘•, 1936 𝑗𝑑 𝑏 π‘‘π‘’π‘π‘’π‘—π‘‘π‘’π‘—π‘‘π‘π‘š π‘’π‘“π‘‘β„Žπ‘œπ‘—π‘Ÿπ‘£π‘“ 𝑔𝑝𝑠 π‘”π‘—π‘œπ‘’π‘—π‘œπ‘• π‘šπ‘—π‘œπ‘“π‘π‘  π‘žπ‘ π‘π‘˜π‘“π‘‘π‘’π‘—π‘π‘œπ‘‘ 𝑝𝑔 β€’ 𝑒π‘₯𝑝 π‘ π‘π‘œπ‘’π‘π‘› 𝑛𝑏𝑒𝑠𝑗𝑑𝑓𝑑 π‘‘π‘£π‘‘β„Ž π‘’β„Žπ‘π‘’ π‘’β„Žπ‘“π‘—π‘  π‘žπ‘ π‘π‘˜π‘“π‘‘π‘’π‘“π‘’ π‘‘π‘π‘šπ‘£π‘›π‘œπ‘‘ 𝑏𝑠𝑓 π‘›π‘π‘¦π‘—π‘›π‘π‘šπ‘šπ‘§ π‘‘π‘π‘ π‘ π‘“π‘šπ‘π‘’π‘“π‘’ 𝟐 πŸ‘ 𝑢 𝟐 πŸ‘ 𝑢 … … π’š 𝟐 π’š 𝟐 π’š 𝟐 𝒛 𝟐 𝒛 𝟐 𝒛 𝟐 𝑢 𝟐 πŸ‘ … 𝑢 𝟐 πŸ‘ … π’š πŸ‘ π’š πŸ‘ π’š πŸ‘ 𝒛 πŸ‘ 𝒛 πŸ‘ 𝒛 πŸ‘ … … . . . . . . 𝑍 = π‘Œ = … … . . . . . . … … . . . . . . … … 𝟐 πŸ‘ 𝑢 𝟐 πŸ‘ 𝑢 𝒛 𝒆 𝒛 π’š 𝒆 π’š π’š 𝒆 π’š π’š 𝒆 π’š 𝒛 𝒆 𝒛 𝒛 𝒆 𝒛 𝑋 π‘ˆ π‘Œ π‘Š π‘ˆ 𝑍 𝐷𝑝𝑠𝑠 (𝑋 π‘ˆ π‘Œ, π‘Š π‘ˆ 𝑍) 𝑁𝑏𝑦 Θ = {𝑋, π‘Š}

  9. Mapping Two Views To a Shared Space: Canonical Correlation Analysis (CC A) π‘ƒπ‘π‘˜π‘“π‘‘π‘’π‘—π‘€π‘“ π‘—π‘œ 𝑛𝑏𝑒𝑠𝑗𝑦 𝑔𝑝𝑠𝑛: β€’ 1 𝑂 βˆ’ 1 ||𝑋 π‘ˆ π‘Œ βˆ’ π‘Š π‘ˆ 𝑍|| 𝐺 2 π‘›π‘—π‘œ πœ„ = {𝑋,π‘Š } 𝑋 π‘ˆ Ξ£ π‘Œπ‘Œ 𝑋 = π‘Š π‘ˆ π‘‡π‘£π‘π‘˜π‘“π‘‘π‘’ 𝑒𝑝 Ξ£ 𝑍𝑍 π‘Š = 𝐽 1 1 1 π‘‚βˆ’1 π‘Œπ‘ π‘ˆ , π‘‚βˆ’1 π‘Œπ‘Œ π‘ˆ , π‘‚βˆ’1 𝑍𝑍 π‘ˆ Ξ£ π‘Œπ‘ = Ξ£ π‘Œπ‘Œ = Ξ£ 𝑍𝑍 = β€’ β€’ π‘Œ, 𝑍 β„Žπ‘π‘€π‘“ 𝑨𝑓𝑠𝑝 βˆ’ π‘›π‘“π‘π‘œ

  10. Limitations of CCA π‘„π‘ π‘π‘˜π‘“π‘‘π‘’π‘—π‘π‘œ 𝑗𝑑 π‘šπ‘—π‘œπ‘“π‘π‘  β€’ π½π‘œπ‘π‘žπ‘žπ‘šπ‘—π‘‘π‘π‘π‘šπ‘“ 𝑔𝑝𝑠 π‘šπ‘π‘ π‘•π‘“ 𝑒𝑏𝑒𝑏𝑑𝑓𝑒𝑑 𝑒𝑣𝑓 𝑒𝑝 π‘₯β„Žπ‘—π‘’π‘“π‘œπ‘—π‘œπ‘• π‘‘π‘π‘œπ‘‘π‘’π‘ π‘π‘—π‘œπ‘’π‘‘ : β€’ 𝐼𝑏𝑠𝑒 𝑒𝑝 π‘‘π‘π‘›π‘žπ‘£π‘’π‘“ π‘‘π‘’π‘π‘‘β„Žπ‘π‘‘π‘’π‘—π‘‘ π‘“π‘‘π‘’π‘—π‘›π‘π‘’π‘—π‘π‘œπ‘‘ 𝑝𝑔 π‘’β„Žπ‘“ π‘‘π‘π‘€π‘π‘ π‘—π‘π‘œπ‘‘π‘“ 𝑛𝑏𝑒𝑠𝑗𝑑𝑓𝑑 β€’ π‘ƒπ‘π‘˜π‘“π‘‘π‘’π‘—π‘€π‘“ 𝑒𝑝𝑓𝑑 π‘œπ‘π‘’ π‘’π‘“π‘‘π‘π‘›π‘žπ‘π‘‘π‘“ 𝑝𝑀𝑓𝑠 π‘‘π‘π‘›π‘žπ‘šπ‘“π‘‘ β€’ π·π‘π‘œπ‘œπ‘π‘’ π‘π‘“π‘œπ‘“π‘”π‘—π‘’ 𝑔𝑠𝑝𝑛 π‘π‘œ π‘π‘’π‘’π‘—π‘’π‘—π‘π‘œπ‘π‘š 𝑀𝑗𝑓π‘₯ (π‘‘π‘£π‘‘β„Ž 𝑏𝑑 𝑗𝑛𝑏𝑕𝑓𝑑) β€’

  11. Partial CCA (PCCA) 𝑄𝐷𝐷𝐡 𝑆𝑏𝑝, 1969 𝑗𝑑 𝑏 π‘‘π‘’π‘π‘’π‘—π‘‘π‘’π‘—π‘‘π‘π‘š π‘’π‘“π‘‘β„Žπ‘œπ‘—π‘Ÿπ‘£π‘“ 𝑔𝑝𝑠 π‘”π‘—π‘œπ‘’π‘—π‘œπ‘• π‘šπ‘—π‘œπ‘“π‘π‘  π‘›π‘π‘¦π‘—π‘›π‘π‘š π‘‘π‘π‘ π‘ π‘“π‘šπ‘π‘’π‘“π‘’ β€’ π‘žπ‘ π‘π‘˜π‘“π‘‘π‘’π‘—π‘π‘œπ‘‘ 𝑝𝑔 𝑒π‘₯𝑝 π‘ π‘π‘œπ‘’π‘π‘› 𝑛𝑏𝑒𝑠𝑗𝑑𝑓𝑑 𝒅𝒑𝒐𝒆𝒋𝒖𝒋𝒑𝒐𝒇𝒆 𝒑𝒐 𝒃 π’–π’Šπ’‹π’”π’† π’˜π’ƒπ’”π’‹π’ƒπ’„π’Žπ’‡ 𝐷𝑝𝑠𝑠 (𝑋 π‘ˆ (π‘Œ|π‘Ž), π‘Š π‘ˆ (𝑍|π‘Ž)) 𝑁𝑏𝑦 Θ = {𝑋, π‘Š} π‘Ž 𝑏 π‘€π‘—π‘‘π‘π‘π‘š π‘—π‘œπ‘žπ‘£π‘’ 𝑗𝑑 𝑏 π‘›π‘£π‘’π‘£π‘π‘š π‘€π‘π‘ π‘—π‘π‘π‘šπ‘“ 𝑝𝑔 π‘Œ π‘π‘œπ‘’ 𝑍 π‘’π‘“π‘¦π‘’π‘£π‘π‘š π‘—π‘œπ‘žπ‘£π‘’π‘‘ β€’ 𝑄𝐷𝐷𝐡 π‘₯𝑏𝑑 π‘œπ‘π‘’ 𝑣𝑑𝑓𝑒 𝑐𝑓𝑔𝑝𝑠𝑓 π‘—π‘œ π‘’β„Žπ‘“ π‘›π‘£π‘šπ‘’π‘—π‘šπ‘—π‘œπ‘•π‘£π‘π‘š π‘›π‘£π‘šπ‘’π‘—π‘›π‘π‘’π‘π‘š π‘‘π‘“π‘’π‘£π‘ž β€’

  12. New model - Deep Partial CCA (DPCCA) 𝐷𝐷𝐡 β„Žπ‘π‘‘ 𝑏 π‘’π‘“π‘“π‘ž π‘€π‘π‘ π‘—π‘π‘œπ‘’ βˆ’ πΈπ‘“π‘“π‘ž 𝐷𝐷𝐡 (π΅π‘œπ‘’π‘ π‘“π‘₯ 𝑓𝑒 π‘π‘š., 2013) β€’

  13. New model - Deep Partial CCA (DPCCA) 𝐷𝐷𝐡 β„Žπ‘π‘‘ 𝑏 π‘’π‘“π‘“π‘ž π‘€π‘π‘ π‘—π‘π‘œπ‘’ βˆ’ πΈπ‘“π‘“π‘ž 𝐷𝐷𝐡 (π΅π‘œπ‘’π‘ π‘“π‘₯ 𝑓𝑒 π‘π‘š., 2013) β€’ Can we develop a deep variant for Partial CCA? β€’ Partial CCA suffers from similar limitations to those of CCA β€’ A new stochastic optimization algorithm is required β€’

  14. The DPCCA Model

  15. Architecture of Deep Partial CCA (DPCCA) - Variant A π½π‘œπ‘žπ‘£π‘’ 𝑀𝑏𝑧𝑓𝑠 1 𝑑𝑒 πΌπ‘—π‘’π‘’π‘“π‘œ 𝑀𝑏𝑧𝑓𝑠 𝑀𝑏𝑑𝑒 πΌπ‘—π‘’π‘’π‘“π‘œ 𝑀𝑏𝑧𝑓𝑠 πΊπ‘—π‘œπ‘π‘š π‘€π‘—π‘œπ‘“π‘π‘  𝑀𝑏𝑧𝑓𝑠 𝐡 π‘›π‘π‘œ 𝑗𝑑 π‘‘π‘—π‘’π‘’π‘—π‘œπ‘• 𝑋 π‘Œ 𝑔(π‘Œ) 𝐺(π‘Œ) 𝑏𝑒 𝑏 π‘’π‘π‘π‘šπ‘“ β„Žπ‘π‘šπ‘’π‘—π‘œπ‘• 𝑏 π‘‘π‘žπ‘π‘π‘œ π‘Ž 𝑄𝐷𝐷𝐡 π‘‰π‘œ β„Žπ‘π‘›π‘π‘ π‘“ 𝑓𝑑𝑒Ñ π‘‘π‘“π‘œπ‘’π‘π‘’π‘ π‘Š 𝑍 𝑕(𝑍) 𝐻(𝑍) π‘“π‘œ π‘£π‘œπ‘ 𝑛𝑓𝑑𝑏 π‘‘π‘£π‘˜π‘“π‘’π‘π‘œπ‘’π‘ π‘£π‘œπ‘ π‘‘π‘£π‘‘β„Žπ‘π‘ π‘

  16. Architecture of Deep Partial CCA (DPCCA) - Variant B π½π‘œπ‘žπ‘£π‘’ 𝑀𝑏𝑧𝑓𝑠 1 𝑑𝑒 πΌπ‘—π‘’π‘’π‘“π‘œ 𝑀𝑏𝑧𝑓𝑠 𝑀𝑏𝑑𝑒 πΌπ‘—π‘’π‘’π‘“π‘œ 𝑀𝑏𝑧𝑓𝑠 πΊπ‘—π‘œπ‘π‘š π‘€π‘—π‘œπ‘“π‘π‘  𝑀𝑏𝑧𝑓𝑠 𝐡 π‘›π‘π‘œ 𝑗𝑑 π‘‘π‘—π‘’π‘’π‘—π‘œπ‘• 𝑋 π‘Œ 𝑔(π‘Œ) 𝐺(π‘Œ) 𝑏𝑒 𝑏 π‘’π‘π‘π‘šπ‘“ β„Žπ‘π‘šπ‘’π‘—π‘œπ‘• 𝑏 π‘‘π‘žπ‘π‘π‘œ 𝑉 π‘Ž 𝑄𝐷𝐷𝐡 β„Ž(π‘Ž) 𝐼(π‘Ž) π‘‰π‘œ β„Žπ‘π‘›π‘π‘ π‘“ 𝑓𝑑𝑒Ñ π‘‘π‘“π‘œπ‘’π‘π‘’π‘ π‘Š 𝑍 𝑕(𝑍) 𝐻(𝑍) π‘“π‘œ π‘£π‘œπ‘ 𝑛𝑓𝑑𝑏 π‘‘π‘£π‘˜π‘“π‘’π‘π‘œπ‘’π‘ π‘£π‘œπ‘ π‘‘π‘£π‘‘β„Žπ‘π‘ π‘

  17. Deep Partial CCA (DPCCA) 1 π‘šπ‘“π‘π‘ π‘œ π‘œπ‘π‘œ - π‘šπ‘—π‘œπ‘“π‘π‘  π‘ π‘“π‘žπ‘ π‘“π‘‘π‘“π‘œπ‘’π‘π‘’π‘—π‘π‘œπ‘‘ 𝑝𝑔 π‘Œ π‘π‘œπ‘’ 𝑍: β€’ 𝐺 π‘Œ = 𝑋 π‘ˆ 𝑔 π‘Œ , 𝐻 𝑍 = π‘Š π‘ˆ 𝑕(𝑍) 𝑔 π‘π‘œπ‘’ 𝑕 𝑏𝑠𝑓 𝑒π‘₯𝑝 π‘’π‘“π‘“π‘ž π‘œπ‘“π‘£π‘ π‘π‘š π‘œπ‘“π‘’π‘₯𝑝𝑠𝑙𝑑 β€’ 𝑋 π‘π‘œπ‘’ π‘Š 𝑏𝑠𝑓 π‘’β„Žπ‘“ π‘”π‘—π‘œπ‘π‘š π‘žπ‘ π‘π‘˜π‘“π‘‘π‘’π‘—π‘π‘œ 𝑛𝑏𝑒𝑠𝑗𝑑𝑓𝑑 β€’

  18. Deep Partial CCA (DPCCA) 2 π‘žπ‘“π‘ π‘”π‘π‘ π‘› π‘›π‘£π‘šπ‘’π‘—π‘€π‘π‘ π‘—π‘π‘’π‘“ π‘šπ‘—π‘œπ‘“π‘π‘  π‘›π‘£π‘šπ‘’π‘—π‘žπ‘šπ‘“ π‘ π‘“π‘•π‘ π‘“π‘‘π‘‘π‘—π‘π‘œπ‘‘ 𝑔𝑝𝑠 𝐺 π‘Œ π‘π‘œπ‘’ 𝐻 𝑍 β€’ π‘π‘œ 𝑏 π‘‘β„Žπ‘π‘ π‘“π‘’ π‘€π‘π‘ π‘—π‘π‘π‘šπ‘“ π‘Ž: 1 𝐺 π‘Œ = π΅π‘Ž + 𝐺 π‘Œ π‘Ž 2 min 𝑂 βˆ’ 1 ||𝐺 π‘Œ βˆ’ π΅π‘Ž|| 𝐺 𝐡 π‘“π‘¦π‘žπ‘šπ‘π‘—π‘œπ‘“π‘’ π‘ π‘“π‘‘π‘—π‘’π‘£π‘π‘š 1 𝐻 𝑍 = πΆπ‘Ž + 𝐻(𝑍|π‘Ž) 2 min 𝑂 βˆ’ 1 ||𝐻 𝑍 βˆ’ πΆπ‘Ž|| 𝐺 𝐢 π‘“π‘¦π‘žπ‘šπ‘π‘—π‘œπ‘“π‘’ π‘ π‘“π‘‘π‘—π‘’π‘£π‘π‘š

Recommend


More recommend