from captions to visual concepts and back
play

From Captions to Visual Concepts and Back Saurabh Gupta - PowerPoint PPT Presentation

From Captions to Visual Concepts and Back Saurabh Gupta UC Berkeley Work done at Microsoft Research Hao Cheng, Li Deng, Jacob Devlin, Piotr Dollr, Hao


  1. From ¡Captions ¡to ¡Visual ¡Concepts ¡ and ¡Back ¡ Saurabh ¡Gupta ¡ UC ¡Berkeley Work ¡done ¡at ¡Microsoft ¡Research Hao ¡Cheng, ¡Li ¡Deng, ¡Jacob ¡Devlin, ¡Piotr ¡Dollár, ¡Hao ¡Fang, ¡Jianfeng ¡Gao, ¡Xiaodong ¡He, ¡Forrest ¡ Iandola, ¡Margaret ¡Mitchell, ¡John ¡C. ¡Platt, ¡Rupesh ¡Srivastava, ¡C. ¡Lawrence ¡Zitnick, ¡Geoffrey ¡Zweig

  2. • From ¡Captions ¡to ¡Visual ¡Concepts ¡and ¡Back , ¡Hao ¡Fang*, ¡ Saurabh ¡Gupta*, ¡Forrest ¡Iandola*, ¡Rupesh ¡Srivastava*, ¡Li ¡ Deng, ¡Piotr ¡Dollár, ¡Jianfeng ¡Gao, ¡Xiaodong ¡He, ¡Margaret ¡ Mitchell, ¡John ¡C. ¡Platt, ¡C. ¡Lawrence ¡Zitnick, ¡Geoffrey ¡Zweig, ¡ CVPR ¡2015 ¡ • Language ¡Models ¡for ¡Image ¡Captioning: ¡The ¡Quirks ¡and ¡ What ¡Works, ¡Jacob ¡Devlin, ¡Hao ¡Cheng, ¡Hao ¡Fang, ¡Saurabh ¡ Gupta, ¡Li ¡Deng, ¡Xiaodong ¡He, ¡Geoffrey ¡Zweig, ¡ ACL ¡2015 ¡ • Exploring ¡Nearest ¡Neighbor ¡Approaches ¡for ¡Image ¡ Captioning ¡ Jacob ¡Devlin, ¡Saurabh ¡Gupta, ¡Ross ¡Girshick, ¡ Margaret ¡Mitchell ¡C. ¡Lawrence ¡Zitnick, ¡ arXiv ¡2015 ¡ 2

  3. woman& crowd& holding& camera& cat& Purple& 2.#Sentence# 3.#Sentence# 1.#Word## Genera=on# Re7Ranking# Detec=on# woman,#crowd,#cat,# A#purple#camera#with#a#woman.#### #1##A#woman#holding#a# A#woman#holding#a#camera#in#a#crowd.# camera,#holding,# ...# camera#in#a#crowd.# purple# A#woman#holding#a#cat.# 3

  4. woman& crowd& holding& camera& cat& Purple& 2.#Sentence# 3.#Sentence# 1.#Word## Genera=on# Re7Ranking# Detec=on# woman,#crowd,#cat,# A#purple#camera#with#a#woman.#### #1##A#woman#holding#a# A#woman#holding#a#camera#in#a#crowd.# camera,#holding,# ...# camera#in#a#crowd.# purple# A#woman#holding#a#cat.# 3

  5. woman& crowd& holding& camera& cat& Purple& 2.#Sentence# 3.#Sentence# 1.#Word## Genera=on# Re7Ranking# Detec=on# woman,#crowd,#cat,# A#purple#camera#with#a#woman.#### #1##A#woman#holding#a# A#woman#holding#a#camera#in#a#crowd.# camera,#holding,# ...# camera#in#a#crowd.# purple# A#woman#holding#a#cat.# 3

  6. # MIL# CNN# # Per#class# probability## FC6,#FC7,#FC8#as#fully# Mul3ple#Instance# convolu3onal#layers# Learning# Spa3al#class# probability#maps# Image# 4

  7. Language ¡models ¡learn ¡to ¡babble

  8. Language ¡models ¡learn ¡to ¡babble

  9. Language ¡models ¡learn ¡to ¡babble words

  10. Language ¡models ¡learn ¡to ¡babble words

  11. Add ¡a ¡blackboard A ¡woman ¡ ¡ ¡ ¡ holding cat holding purple camera crowd

  12. Add ¡a ¡blackboard A ¡woman ¡ ¡ ¡ ¡ A ¡woman ¡holding ¡ ¡ ¡ ¡ holding cat purple camera crowd

  13. Add ¡a ¡blackboard A ¡woman ¡ ¡ ¡ ¡ A ¡woman ¡holding ¡ ¡ ¡ ¡ holding cat purple

  14. Add ¡a ¡blackboard A ¡woman ¡ ¡ ¡ ¡ A ¡woman ¡holding ¡ ¡ ¡ ¡ holding cat purple A ¡woman ¡holding ¡ a ¡camera ¡in ¡a ¡ crowd.

  15. Re-­‑rank ¡hypotheses ¡ globally 1. A ¡purple ¡camera ¡with ¡a ¡woman ¡ 2. A ¡woman ¡holding ¡a ¡camera ¡in ¡a ¡ crowd. ¡ 3. A ¡woman ¡holding ¡a ¡cat. ¡ 4. …. ¡ 5. …. Sentence ¡and ¡image ¡level ¡ features A"woman"holding"a" MERT ¡to ¡optimize ¡ camera"in"a"crowd." for ¡BLEU ¡on ¡val ¡set DMSM ¡-­‑ ¡ Embedding ¡ to ¡maximize ¡similarity ¡ between ¡image ¡and ¡its ¡ corresponding ¡caption

  16. Results Val ¡c4 Test ¡c40 System BLEU4 METEOR BLEU METEOR CIDEr-­‑D Our 25.7 23.6 56.7 31.8 92.5 G-­‑RNN 25.7 22.6 -­‑ -­‑ -­‑ Our ¡+ ¡G-­‑RNN 27.3 23.6 60.1 33.9 93.7 MSR ¡ = ¡Our MSR ¡Captivator ¡= ¡Our ¡+ ¡G-­‑RNN ¡

  17. Results Val ¡c4 Test ¡c40 4-­‑5th ¡by ¡ ¡ System BLEU4 METEOR BLEU METEOR CIDEr-­‑D automatic ¡ metrics, ¡ Our 25.7 23.6 56.7 31.8 92.5 Tied ¡1st ¡ by ¡human ¡ G-­‑RNN 25.7 22.6 -­‑ -­‑ -­‑ evals Our ¡+ ¡G-­‑RNN 27.3 23.6 60.1 33.9 93.7 MSR ¡ = ¡Our MSR ¡Captivator ¡= ¡Our ¡+ ¡G-­‑RNN ¡

  18. Results Val ¡c4 Test ¡c40 4-­‑5th ¡by ¡ ¡ System BLEU4 METEOR BLEU METEOR CIDEr-­‑D automatic ¡ metrics, ¡ Our 25.7 23.6 56.7 31.8 92.5 Tied ¡1st ¡ by ¡human ¡ G-­‑RNN 25.7 22.6 -­‑ -­‑ -­‑ evals Our ¡+ ¡G-­‑RNN 27.3 23.6 60.1 33.9 93.7 1-­‑2st ¡by ¡ ¡ automatic ¡ metrics MSR ¡ = ¡Our MSR ¡Captivator ¡= ¡Our ¡+ ¡G-­‑RNN ¡

  19. Novelty ¡in ¡Captions?

  20. Novelty ¡in ¡Captions? Val ¡c4 Unique ¡ Seen ¡in ¡ System BLEU4 METEOR Captions ¡(%) Training ¡ ¡(%) Human 99.4 4.8 Our 25.7 23.6 47.0 30.0 G-­‑RNN 25.7 22.6 33.1 60.3 Our ¡+ ¡G-­‑RNN 27.3 23.6 28.5 61.3

  21. Novelty ¡in ¡Captions? Val ¡c4 Unique ¡ Seen ¡in ¡ System BLEU4 METEOR Captions ¡(%) Training ¡ ¡(%) Human 99.4 4.8 For ¡a ¡set ¡of ¡20K ¡ images, ¡only ¡6.6K ¡ Our 25.7 23.6 47.0 30.0 unique ¡strings ¡were ¡ emitted G-­‑RNN 25.7 22.6 33.1 60.3 Our ¡+ ¡G-­‑RNN 27.3 23.6 28.5 61.3

  22. Novelty ¡in ¡Captions? Val ¡c4 Unique ¡ Seen ¡in ¡ System BLEU4 METEOR Captions ¡(%) Training ¡ ¡(%) Human 99.4 4.8 For ¡a ¡set ¡of ¡20K ¡ images, ¡only ¡6.6K ¡ Our 25.7 23.6 47.0 30.0 unique ¡strings ¡were ¡ emitted G-­‑RNN 25.7 22.6 33.1 60.3 Our ¡+ ¡G-­‑RNN 27.3 23.6 28.5 61.3 1-­‑NN 11.2 17.3 -­‑ 100

  23. Novelty ¡in ¡Captions? Val ¡c4 Unique ¡ Seen ¡in ¡ System BLEU4 METEOR Captions ¡(%) Training ¡ ¡(%) Human 99.4 4.8 For ¡a ¡set ¡of ¡20K ¡ images, ¡only ¡6.6K ¡ Our 25.7 23.6 47.0 30.0 unique ¡strings ¡were ¡ emitted G-­‑RNN 25.7 22.6 33.1 60.3 Our ¡+ ¡G-­‑RNN 27.3 23.6 28.5 61.3 1-­‑NN 11.2 17.3 -­‑ 100 k-­‑NN 26.0 22.5 36.6 100

  24. Novelty ¡in ¡Captions? Val ¡c4 Unique ¡ Seen ¡in ¡ System BLEU4 METEOR Captions ¡(%) Training ¡ ¡(%) Human 99.4 4.8 For ¡a ¡set ¡of ¡20K ¡ images, ¡only ¡6.6K ¡ Our 25.7 23.6 47.0 30.0 unique ¡strings ¡were ¡ emitted G-­‑RNN 25.7 22.6 33.1 60.3 Our ¡+ ¡G-­‑RNN 27.3 23.6 28.5 61.3 Ranks ¡7th ¡out ¡of ¡16 ¡ 1-­‑NN 11.2 17.3 -­‑ 100 on ¡leaderboard ¡ according ¡to ¡ k-­‑NN 26.0 22.5 36.6 100 automated ¡metrics ¡ and ¡human ¡evals

  25. Analysis BLEU%Scores%Based%on%Visual%Overlap% 35# 30# BLEU% 25# 20# 15# Most#Visual#Overlap# Least#Visual#Overlap# Our# Our+GRNN# Nearest#Neighbor# G7RNN# !!!mmitchell!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!MSR_Cap0vator!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!NearestNeighbor!

  26. Interpretability 11

  27. 12

  28. Thank ¡You 14

Recommend


More recommend