From ¡Captions ¡to ¡Visual ¡Concepts ¡ and ¡Back ¡ Saurabh ¡Gupta ¡ UC ¡Berkeley Work ¡done ¡at ¡Microsoft ¡Research Hao ¡Cheng, ¡Li ¡Deng, ¡Jacob ¡Devlin, ¡Piotr ¡Dollár, ¡Hao ¡Fang, ¡Jianfeng ¡Gao, ¡Xiaodong ¡He, ¡Forrest ¡ Iandola, ¡Margaret ¡Mitchell, ¡John ¡C. ¡Platt, ¡Rupesh ¡Srivastava, ¡C. ¡Lawrence ¡Zitnick, ¡Geoffrey ¡Zweig
• From ¡Captions ¡to ¡Visual ¡Concepts ¡and ¡Back , ¡Hao ¡Fang*, ¡ Saurabh ¡Gupta*, ¡Forrest ¡Iandola*, ¡Rupesh ¡Srivastava*, ¡Li ¡ Deng, ¡Piotr ¡Dollár, ¡Jianfeng ¡Gao, ¡Xiaodong ¡He, ¡Margaret ¡ Mitchell, ¡John ¡C. ¡Platt, ¡C. ¡Lawrence ¡Zitnick, ¡Geoffrey ¡Zweig, ¡ CVPR ¡2015 ¡ • Language ¡Models ¡for ¡Image ¡Captioning: ¡The ¡Quirks ¡and ¡ What ¡Works, ¡Jacob ¡Devlin, ¡Hao ¡Cheng, ¡Hao ¡Fang, ¡Saurabh ¡ Gupta, ¡Li ¡Deng, ¡Xiaodong ¡He, ¡Geoffrey ¡Zweig, ¡ ACL ¡2015 ¡ • Exploring ¡Nearest ¡Neighbor ¡Approaches ¡for ¡Image ¡ Captioning ¡ Jacob ¡Devlin, ¡Saurabh ¡Gupta, ¡Ross ¡Girshick, ¡ Margaret ¡Mitchell ¡C. ¡Lawrence ¡Zitnick, ¡ arXiv ¡2015 ¡ 2
woman& crowd& holding& camera& cat& Purple& 2.#Sentence# 3.#Sentence# 1.#Word## Genera=on# Re7Ranking# Detec=on# woman,#crowd,#cat,# A#purple#camera#with#a#woman.#### #1##A#woman#holding#a# A#woman#holding#a#camera#in#a#crowd.# camera,#holding,# ...# camera#in#a#crowd.# purple# A#woman#holding#a#cat.# 3
woman& crowd& holding& camera& cat& Purple& 2.#Sentence# 3.#Sentence# 1.#Word## Genera=on# Re7Ranking# Detec=on# woman,#crowd,#cat,# A#purple#camera#with#a#woman.#### #1##A#woman#holding#a# A#woman#holding#a#camera#in#a#crowd.# camera,#holding,# ...# camera#in#a#crowd.# purple# A#woman#holding#a#cat.# 3
woman& crowd& holding& camera& cat& Purple& 2.#Sentence# 3.#Sentence# 1.#Word## Genera=on# Re7Ranking# Detec=on# woman,#crowd,#cat,# A#purple#camera#with#a#woman.#### #1##A#woman#holding#a# A#woman#holding#a#camera#in#a#crowd.# camera,#holding,# ...# camera#in#a#crowd.# purple# A#woman#holding#a#cat.# 3
# MIL# CNN# # Per#class# probability## FC6,#FC7,#FC8#as#fully# Mul3ple#Instance# convolu3onal#layers# Learning# Spa3al#class# probability#maps# Image# 4
Language ¡models ¡learn ¡to ¡babble
Language ¡models ¡learn ¡to ¡babble
Language ¡models ¡learn ¡to ¡babble words
Language ¡models ¡learn ¡to ¡babble words
Add ¡a ¡blackboard A ¡woman ¡ ¡ ¡ ¡ holding cat holding purple camera crowd
Add ¡a ¡blackboard A ¡woman ¡ ¡ ¡ ¡ A ¡woman ¡holding ¡ ¡ ¡ ¡ holding cat purple camera crowd
Add ¡a ¡blackboard A ¡woman ¡ ¡ ¡ ¡ A ¡woman ¡holding ¡ ¡ ¡ ¡ holding cat purple
Add ¡a ¡blackboard A ¡woman ¡ ¡ ¡ ¡ A ¡woman ¡holding ¡ ¡ ¡ ¡ holding cat purple A ¡woman ¡holding ¡ a ¡camera ¡in ¡a ¡ crowd.
Re-‑rank ¡hypotheses ¡ globally 1. A ¡purple ¡camera ¡with ¡a ¡woman ¡ 2. A ¡woman ¡holding ¡a ¡camera ¡in ¡a ¡ crowd. ¡ 3. A ¡woman ¡holding ¡a ¡cat. ¡ 4. …. ¡ 5. …. Sentence ¡and ¡image ¡level ¡ features A"woman"holding"a" MERT ¡to ¡optimize ¡ camera"in"a"crowd." for ¡BLEU ¡on ¡val ¡set DMSM ¡-‑ ¡ Embedding ¡ to ¡maximize ¡similarity ¡ between ¡image ¡and ¡its ¡ corresponding ¡caption
Results Val ¡c4 Test ¡c40 System BLEU4 METEOR BLEU METEOR CIDEr-‑D Our 25.7 23.6 56.7 31.8 92.5 G-‑RNN 25.7 22.6 -‑ -‑ -‑ Our ¡+ ¡G-‑RNN 27.3 23.6 60.1 33.9 93.7 MSR ¡ = ¡Our MSR ¡Captivator ¡= ¡Our ¡+ ¡G-‑RNN ¡
Results Val ¡c4 Test ¡c40 4-‑5th ¡by ¡ ¡ System BLEU4 METEOR BLEU METEOR CIDEr-‑D automatic ¡ metrics, ¡ Our 25.7 23.6 56.7 31.8 92.5 Tied ¡1st ¡ by ¡human ¡ G-‑RNN 25.7 22.6 -‑ -‑ -‑ evals Our ¡+ ¡G-‑RNN 27.3 23.6 60.1 33.9 93.7 MSR ¡ = ¡Our MSR ¡Captivator ¡= ¡Our ¡+ ¡G-‑RNN ¡
Results Val ¡c4 Test ¡c40 4-‑5th ¡by ¡ ¡ System BLEU4 METEOR BLEU METEOR CIDEr-‑D automatic ¡ metrics, ¡ Our 25.7 23.6 56.7 31.8 92.5 Tied ¡1st ¡ by ¡human ¡ G-‑RNN 25.7 22.6 -‑ -‑ -‑ evals Our ¡+ ¡G-‑RNN 27.3 23.6 60.1 33.9 93.7 1-‑2st ¡by ¡ ¡ automatic ¡ metrics MSR ¡ = ¡Our MSR ¡Captivator ¡= ¡Our ¡+ ¡G-‑RNN ¡
Novelty ¡in ¡Captions?
Novelty ¡in ¡Captions? Val ¡c4 Unique ¡ Seen ¡in ¡ System BLEU4 METEOR Captions ¡(%) Training ¡ ¡(%) Human 99.4 4.8 Our 25.7 23.6 47.0 30.0 G-‑RNN 25.7 22.6 33.1 60.3 Our ¡+ ¡G-‑RNN 27.3 23.6 28.5 61.3
Novelty ¡in ¡Captions? Val ¡c4 Unique ¡ Seen ¡in ¡ System BLEU4 METEOR Captions ¡(%) Training ¡ ¡(%) Human 99.4 4.8 For ¡a ¡set ¡of ¡20K ¡ images, ¡only ¡6.6K ¡ Our 25.7 23.6 47.0 30.0 unique ¡strings ¡were ¡ emitted G-‑RNN 25.7 22.6 33.1 60.3 Our ¡+ ¡G-‑RNN 27.3 23.6 28.5 61.3
Novelty ¡in ¡Captions? Val ¡c4 Unique ¡ Seen ¡in ¡ System BLEU4 METEOR Captions ¡(%) Training ¡ ¡(%) Human 99.4 4.8 For ¡a ¡set ¡of ¡20K ¡ images, ¡only ¡6.6K ¡ Our 25.7 23.6 47.0 30.0 unique ¡strings ¡were ¡ emitted G-‑RNN 25.7 22.6 33.1 60.3 Our ¡+ ¡G-‑RNN 27.3 23.6 28.5 61.3 1-‑NN 11.2 17.3 -‑ 100
Novelty ¡in ¡Captions? Val ¡c4 Unique ¡ Seen ¡in ¡ System BLEU4 METEOR Captions ¡(%) Training ¡ ¡(%) Human 99.4 4.8 For ¡a ¡set ¡of ¡20K ¡ images, ¡only ¡6.6K ¡ Our 25.7 23.6 47.0 30.0 unique ¡strings ¡were ¡ emitted G-‑RNN 25.7 22.6 33.1 60.3 Our ¡+ ¡G-‑RNN 27.3 23.6 28.5 61.3 1-‑NN 11.2 17.3 -‑ 100 k-‑NN 26.0 22.5 36.6 100
Novelty ¡in ¡Captions? Val ¡c4 Unique ¡ Seen ¡in ¡ System BLEU4 METEOR Captions ¡(%) Training ¡ ¡(%) Human 99.4 4.8 For ¡a ¡set ¡of ¡20K ¡ images, ¡only ¡6.6K ¡ Our 25.7 23.6 47.0 30.0 unique ¡strings ¡were ¡ emitted G-‑RNN 25.7 22.6 33.1 60.3 Our ¡+ ¡G-‑RNN 27.3 23.6 28.5 61.3 Ranks ¡7th ¡out ¡of ¡16 ¡ 1-‑NN 11.2 17.3 -‑ 100 on ¡leaderboard ¡ according ¡to ¡ k-‑NN 26.0 22.5 36.6 100 automated ¡metrics ¡ and ¡human ¡evals
Analysis BLEU%Scores%Based%on%Visual%Overlap% 35# 30# BLEU% 25# 20# 15# Most#Visual#Overlap# Least#Visual#Overlap# Our# Our+GRNN# Nearest#Neighbor# G7RNN# !!!mmitchell!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!MSR_Cap0vator!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!NearestNeighbor!
Interpretability 11
12
Thank ¡You 14
Recommend
More recommend