Part-‑based ¡R-‑CNNs ¡for ¡Fine-‑grained ¡ Category ¡Detec7on ¡ ¡ ¡ ¡Ning ¡Zhang ¡ ¡ ¡ ¡ ¡ ¡ ¡Jeff ¡Donahue ¡ ¡ ¡ ¡ ¡Ross ¡Girshick ¡ ¡ ¡Trevor ¡Darrell ¡ ¡ EECS, ¡UC ¡Berkeley ¡
Challenges ¡of ¡Fine-‑grained ¡Categoriza7on ¡ Black ¡footed ¡Albatross ¡
Challenges ¡of ¡Fine-‑grained ¡Categoriza7on ¡ Laysan ¡Albatross ¡
Finding ¡correspondence ¡ ¡ Blue ¡headed ¡vireo ¡ ??? ¡ White ¡eyed ¡vireo ¡
Finding ¡correspondence ¡ ¡ Blue ¡headed ¡vireo ¡ ??? ¡ White ¡eyed ¡vireo ¡ Blue ¡headed ¡vireo ¡
Pose-‑normalized ¡correspondence ¡ Blue ¡headed ¡vireo ¡ White ¡eyed ¡vireo ¡
Pose-‑normalized ¡correspondence ¡ Blue ¡headed ¡vireo ¡ White ¡eyed ¡vireo ¡
Pose-‑normalized ¡correspondence ¡ 1) ¡Correspondence ¡ Blue ¡headed ¡vireo ¡ Bounding ¡box ¡ Seman7c ¡parts ¡ White ¡eyed ¡vireo ¡ 2) ¡Feature ¡representa.ons ¡ classifier ¡
Prior ¡work ¡on ¡fine-‑grained ¡categoriza7on ¡ Correspondence ¡ • [Farrell ¡et.al. ¡ICCV ¡2011] ¡ • [Yao ¡et.al. ¡CVPR ¡2012] ¡ ¡ • [Zhang ¡et.al. ¡CVPR ¡2012] ¡ • [Liu ¡et.al. ¡ECCV ¡2012] ¡ • [Yang ¡et.al. ¡NIPS ¡2012] ¡ • [Berg ¡et.al. ¡CVPR ¡2013] ¡ ¡ • [Chai ¡et.al. ¡ICCV ¡2013] ¡ • [Gavves ¡et.al. ¡ICCV ¡2013] ¡ ¡ • [Liu ¡et.al. ¡ICCV ¡2013] ¡ • [Xie ¡et.al. ¡ICCV ¡2013] ¡ ¡ • [Zhang ¡et.al. ¡ICCV ¡2013] ¡ Bounding ¡box ¡ • [Göring ¡et.al. ¡CVPR ¡2014] ¡ ¡ assumed ¡at ¡test ¡7me ¡
Prior ¡work ¡on ¡fine-‑grained ¡categoriza7on ¡ Correspondence ¡ Feature ¡representa7on ¡ (color) ¡SIFT: ¡ ¡ • [Farrell ¡et.al. ¡ICCV ¡2011] ¡ ¡ • [Zhang ¡et.al. ¡CVPR ¡2012] ¡ • [Liu ¡et.al. ¡ECCV ¡2012] ¡ • [Chai ¡et.al. ¡ECCV ¡2012] ¡ ¡ • [Göring ¡et.al. ¡CVPR ¡2014] ¡ • [Farrell ¡et.al. ¡ICCV ¡2011] ¡ HOG: ¡ ¡ • [Yao ¡et.al. ¡CVPR ¡2012] ¡ ¡ • [Berg ¡et ¡al. ¡CVPR ¡2013] ¡ • [Zhang ¡et.al. ¡CVPR ¡2012] ¡ • ¡[Liu ¡et.al. ¡ICCV ¡2013] ¡ • [Liu ¡et.al. ¡ECCV ¡2012] ¡ Fisher ¡vector: ¡ ¡ • [Yang ¡et.al. ¡NIPS ¡2012] ¡ • [Chai ¡et.al. ¡ICCV ¡2013] ¡ ¡ • [Berg ¡et.al. ¡CVPR ¡2013] ¡ ¡ • [Gavves ¡et.al. ¡ICCV ¡2013] ¡ ¡ • [Chai ¡et.al. ¡ICCV ¡2013] ¡ Kernel ¡descriptors: ¡ • [Gavves ¡et.al. ¡ICCV ¡2013] ¡ ¡ • [Yang ¡et.al. ¡NIPS ¡2012] ¡ • [Liu ¡et.al. ¡ICCV ¡2013] ¡ • [Zhang ¡et.al. ¡ICCV ¡2013] ¡ • [Xie ¡et.al. ¡ICCV ¡2013] ¡ ¡ • [Zhang ¡et.al. ¡ICCV ¡2013] ¡ Bounding ¡box ¡ • [Göring ¡et.al. ¡CVPR ¡2014] ¡ ¡ assumed ¡at ¡test ¡7me ¡
Progress ¡in ¡deep ¡learning ¡ • OCR ¡[Ciresan ¡et.al. ¡CVPR ¡2012] ¡ [Wen ¡et.al. ¡ICML ¡2013] ¡ ¡ • Pedestrian ¡detec.on ¡[Sermanet ¡ et.al. ¡CVPR ¡2013] ¡ • Scene ¡parsing ¡ [Farabet ¡et.al. ¡ PAMI ¡2013] ¡ LeCun ¡et.al. ¡1989-‑1998 ¡ • Ac.on ¡recogni.on ¡[Karpathy ¡ et.al. ¡CVPR ¡2014] ¡ • Face ¡verifica.on ¡ [Taigman ¡et.al. ¡ CVPR ¡2014] ¡ ¡ • Pose ¡es.ma.on ¡ [Toshev ¡et.al. ¡ CVPR ¡2014] ¡[Jain ¡et.al. ¡ICLR ¡2014] ¡ • Object ¡detec.on ¡ [Girshick ¡et.al. ¡ CVPR ¡2014] ¡[Sermanet ¡et.al. ¡ICLR ¡ 2014] ¡ [Krizhevsky ¡ ¡et.al. ¡NIPS ¡2012] ¡
Deep ¡representa7ons ¡for ¡fine-‑grained ¡ poselet 1 poselet i poselet j poselet 2 poselet detection whole person region part-based deep representation wear sunglasses wear shorts wear hat wear dress is_female Linear classifier Bounding ¡ Bounding ¡ [Donahue ¡et.al. ¡ICML ¡2014] ¡ [Zhang ¡et.al. ¡CVPR ¡2014] ¡ box ¡ box ¡ DPM ¡detec7ons ¡+ ¡DeCAF ¡feature ¡ poselet ¡detec7ons ¡+ ¡deep ¡ assumed ¡ assumed ¡ network ¡training ¡from ¡scratch ¡ [Branson ¡et.al. ¡ ¡ BMVC ¡2014.] ¡ DPM ¡keypoint ¡ detec.on ¡ ¡ + ¡ ¡finetuned ¡deep ¡ network ¡
Limita7ons ¡ To ¡find ¡correspondence ¡ deformable ¡part ¡models ¡ poselets ¡ OR ¡other ¡part ¡detectors ¡ Hand-‑engineered ¡ feature(e.g. ¡HOG) ¡ Bounding ¡box ¡ assumed ¡at ¡test ¡0me ¡
Limita7ons ¡ Recent ¡breakthrough ¡for ¡object ¡detec.on ¡ To ¡find ¡correspondence ¡ deformable ¡part ¡models ¡ poselets ¡ OverFeat ¡ [Sermanet ¡et.al. ¡ICLR ¡2014] ¡ ¡ OR ¡other ¡part ¡detectors ¡ Hand-‑engineered ¡ feature(e.g. ¡HOG) ¡ R-‑CNN ¡ [Girshick ¡et.al. ¡CVPR ¡2014] ¡ Can ¡we ¡simultaneously ¡detect ¡ Bounding ¡box ¡ objects ¡and ¡find ¡part ¡ assumed ¡at ¡test ¡0me ¡ correspondences? ¡
Extend ¡RCNN ¡to ¡parts ¡ Input ¡ Extract ¡region ¡ Compute ¡CNN ¡ ¡ Classify ¡regions ¡ image ¡ proposals ¡(~2k ¡/ ¡image) ¡ features ¡ (linear ¡SVM) ¡ Use ¡part ¡annota7ons. ¡ Try ¡R-‑CNN ¡ hhps://github.com/rbgirshick/rcnn ¡ ¡ Treat ¡object ¡and ¡ Try ¡CAFFE ¡ ¡ hhp://caffe.berkeleyvision.org ¡ parts ¡as ¡individual ¡ categories. ¡ Girshick ¡et.al. ¡Rich ¡Feature ¡Hierarchies ¡for ¡Accurate ¡Object ¡Detec7on ¡ and ¡Seman7c ¡Segmenta7on. ¡CVPR, ¡2014 ¡ ¡
Unifying ¡correspondence ¡and ¡feature ¡learning ¡ 1) ¡Correspondence ¡ Bounding ¡box ¡ Seman7c ¡parts ¡ object ¡detec7on ¡ and ¡part ¡ localiza7on ¡ single ¡deep ¡ network ¡ 2) ¡Feature ¡representa.ons ¡ discrimina7ve ¡ feature ¡learning ¡ No ¡more ¡bounding ¡box ¡ classifier ¡ assump7on. ¡
Overview ¡of ¡our ¡approach ¡ ¡ Pose-‑normalized ¡ Input ¡images ¡with ¡region ¡proposals ¡ Object ¡detec7on ¡and ¡part ¡localiza7ons ¡ representa7on ¡ {"""""""""""""""""}"" Top ¡scored ¡object ¡and ¡part ¡predic7ons ¡ Geometric ¡ Constraints ¡ Box ¡constraint ¡ classifier Gaussian ¡Mixture ¡ Non-‑parametric ¡ Northern Flicker
Object ¡and ¡Part ¡detectors ¡ Bounding ¡box ¡and ¡part ¡annota7ons ¡ Region ¡proposals ¡using ¡selec7ve ¡search ¡ ¡ posi7ve ¡examples ¡ nega7ve ¡examples ¡
Object ¡and ¡Part ¡detectors ¡ Top ¡scored ¡object ¡and ¡part ¡detec7ons ¡ R-‑CNN ¡detec7on ¡ for ¡part ¡i ¡ d 0 ¡ Deep ¡ Learned ¡ d 1 ¡ convolu7on detec7on ¡ al ¡feature ¡ weight ¡ is ¡sigmoid ¡func7on ¡ d 2 ¡
Object ¡and ¡Part ¡detectors ¡ Top ¡scored ¡object ¡and ¡part ¡detec7ons ¡ R-‑CNN ¡detec7on ¡ for ¡part ¡i ¡ d 0 ¡ Deep ¡ Learned ¡ d 1 ¡ convolu7on detec7on ¡ al ¡feature ¡ weight ¡ is ¡sigmoid ¡func7on ¡ d 2 ¡ Box ¡constraint ¡ Geometric ¡ Gaussian ¡Mixture ¡ Constraints ¡ Non-‑parametric ¡
Box ¡constraint ¡ head ¡predic7on ¡ bounding ¡box ¡predic7on ¡
Geometric ¡constraint: ¡Gaussian ¡Mixture ¡ Bounding ¡box ¡and ¡part ¡annota7ons ¡ Normalize ¡part ¡box ¡coordinate s ¡ Generate ¡Gaussian ¡mixture ¡ prior ¡ ¡for ¡each ¡part ¡ center ¡of ¡head ¡ center ¡of ¡body ¡ Incorporate ¡prior ¡into ¡part ¡detector ¡scores ¡
Geometric ¡constraint: ¡non-‑parametric ¡ Predicted ¡ Nearest ¡neighbors ¡using ¡pool5 ¡feature ¡with ¡cosine ¡distance ¡ bounding ¡box ¡ Fit ¡one ¡gaussian ¡ using ¡top ¡K ¡neighbors ¡
Comparison ¡of ¡constraints ¡ Deformable ¡part ¡models ¡ Belhumeur ¡et ¡al. ¡Localizing ¡parts ¡of ¡faces ¡using ¡a ¡ consensus ¡of ¡exemplars. ¡In ¡CVPR ¡2011. ¡ O ¡ • Mul7ple ¡components ¡ ¡ • Deforma7on ¡cost ¡is ¡a ¡per-‑ component ¡Gaussian ¡prior. ¡ • R-‑CNN ¡is ¡a ¡single-‑component ¡ model, ¡mo7va7ng ¡our ¡MG ¡and ¡ NP ¡constraint. ¡ • Nonparametric ¡prior ¡on ¡keypoint ¡configura7on ¡ space. ¡ • Our ¡non-‑parametric ¡prior ¡uses ¡nearest ¡ neighbors ¡on ¡appearance ¡space. ¡
Recommend
More recommend