part based r cnns for fine grained category detec7on
play

Part-based R-CNNs for Fine-grained Category Detec7on - PowerPoint PPT Presentation

Part-based R-CNNs for Fine-grained Category Detec7on Ning Zhang Jeff Donahue Ross Girshick Trevor Darrell


  1. Part-­‑based ¡R-­‑CNNs ¡for ¡Fine-­‑grained ¡ Category ¡Detec7on ¡ ¡ ¡ ¡Ning ¡Zhang ¡ ¡ ¡ ¡ ¡ ¡ ¡Jeff ¡Donahue ¡ ¡ ¡ ¡ ¡Ross ¡Girshick ¡ ¡ ¡Trevor ¡Darrell ¡ ¡ EECS, ¡UC ¡Berkeley ¡

  2. Challenges ¡of ¡Fine-­‑grained ¡Categoriza7on ¡ Black ¡footed ¡Albatross ¡

  3. Challenges ¡of ¡Fine-­‑grained ¡Categoriza7on ¡ Laysan ¡Albatross ¡

  4. Finding ¡correspondence ¡ ¡ Blue ¡headed ¡vireo ¡ ??? ¡ White ¡eyed ¡vireo ¡

  5. Finding ¡correspondence ¡ ¡ Blue ¡headed ¡vireo ¡ ??? ¡ White ¡eyed ¡vireo ¡ Blue ¡headed ¡vireo ¡

  6. Pose-­‑normalized ¡correspondence ¡ Blue ¡headed ¡vireo ¡ White ¡eyed ¡vireo ¡

  7. Pose-­‑normalized ¡correspondence ¡ Blue ¡headed ¡vireo ¡ White ¡eyed ¡vireo ¡

  8. Pose-­‑normalized ¡correspondence ¡ 1) ¡Correspondence ¡ Blue ¡headed ¡vireo ¡ Bounding ¡box ¡ Seman7c ¡parts ¡ White ¡eyed ¡vireo ¡ 2) ¡Feature ¡representa.ons ¡ classifier ¡

  9. Prior ¡work ¡on ¡fine-­‑grained ¡categoriza7on ¡ Correspondence ¡ • [Farrell ¡et.al. ¡ICCV ¡2011] ¡ • [Yao ¡et.al. ¡CVPR ¡2012] ¡ ¡ • [Zhang ¡et.al. ¡CVPR ¡2012] ¡ • [Liu ¡et.al. ¡ECCV ¡2012] ¡ • [Yang ¡et.al. ¡NIPS ¡2012] ¡ • [Berg ¡et.al. ¡CVPR ¡2013] ¡ ¡ • [Chai ¡et.al. ¡ICCV ¡2013] ¡ • [Gavves ¡et.al. ¡ICCV ¡2013] ¡ ¡ • [Liu ¡et.al. ¡ICCV ¡2013] ¡ • [Xie ¡et.al. ¡ICCV ¡2013] ¡ ¡ • [Zhang ¡et.al. ¡ICCV ¡2013] ¡ Bounding ¡box ¡ • [Göring ¡et.al. ¡CVPR ¡2014] ¡ ¡ assumed ¡at ¡test ¡7me ¡

  10. Prior ¡work ¡on ¡fine-­‑grained ¡categoriza7on ¡ Correspondence ¡ Feature ¡representa7on ¡ (color) ¡SIFT: ¡ ¡ • [Farrell ¡et.al. ¡ICCV ¡2011] ¡ ¡ • [Zhang ¡et.al. ¡CVPR ¡2012] ¡ • [Liu ¡et.al. ¡ECCV ¡2012] ¡ • [Chai ¡et.al. ¡ECCV ¡2012] ¡ ¡ • [Göring ¡et.al. ¡CVPR ¡2014] ¡ • [Farrell ¡et.al. ¡ICCV ¡2011] ¡ HOG: ¡ ¡ • [Yao ¡et.al. ¡CVPR ¡2012] ¡ ¡ • [Berg ¡et ¡al. ¡CVPR ¡2013] ¡ • [Zhang ¡et.al. ¡CVPR ¡2012] ¡ • ¡[Liu ¡et.al. ¡ICCV ¡2013] ¡ • [Liu ¡et.al. ¡ECCV ¡2012] ¡ Fisher ¡vector: ¡ ¡ • [Yang ¡et.al. ¡NIPS ¡2012] ¡ • [Chai ¡et.al. ¡ICCV ¡2013] ¡ ¡ • [Berg ¡et.al. ¡CVPR ¡2013] ¡ ¡ • [Gavves ¡et.al. ¡ICCV ¡2013] ¡ ¡ • [Chai ¡et.al. ¡ICCV ¡2013] ¡ Kernel ¡descriptors: ¡ • [Gavves ¡et.al. ¡ICCV ¡2013] ¡ ¡ • [Yang ¡et.al. ¡NIPS ¡2012] ¡ • [Liu ¡et.al. ¡ICCV ¡2013] ¡ • [Zhang ¡et.al. ¡ICCV ¡2013] ¡ • [Xie ¡et.al. ¡ICCV ¡2013] ¡ ¡ • [Zhang ¡et.al. ¡ICCV ¡2013] ¡ Bounding ¡box ¡ • [Göring ¡et.al. ¡CVPR ¡2014] ¡ ¡ assumed ¡at ¡test ¡7me ¡

  11. Progress ¡in ¡deep ¡learning ¡ • OCR ¡[Ciresan ¡et.al. ¡CVPR ¡2012] ¡ [Wen ¡et.al. ¡ICML ¡2013] ¡ ¡ • Pedestrian ¡detec.on ¡[Sermanet ¡ et.al. ¡CVPR ¡2013] ¡ • Scene ¡parsing ¡ [Farabet ¡et.al. ¡ PAMI ¡2013] ¡ LeCun ¡et.al. ¡1989-­‑1998 ¡ • Ac.on ¡recogni.on ¡[Karpathy ¡ et.al. ¡CVPR ¡2014] ¡ • Face ¡verifica.on ¡ [Taigman ¡et.al. ¡ CVPR ¡2014] ¡ ¡ • Pose ¡es.ma.on ¡ [Toshev ¡et.al. ¡ CVPR ¡2014] ¡[Jain ¡et.al. ¡ICLR ¡2014] ¡ • Object ¡detec.on ¡ [Girshick ¡et.al. ¡ CVPR ¡2014] ¡[Sermanet ¡et.al. ¡ICLR ¡ 2014] ¡ [Krizhevsky ¡ ¡et.al. ¡NIPS ¡2012] ¡

  12. Deep ¡representa7ons ¡for ¡fine-­‑grained ¡ poselet 1 poselet i poselet j poselet 2 poselet detection whole person region part-based deep representation wear sunglasses wear shorts wear hat wear dress is_female Linear classifier Bounding ¡ Bounding ¡ [Donahue ¡et.al. ¡ICML ¡2014] ¡ [Zhang ¡et.al. ¡CVPR ¡2014] ¡ box ¡ box ¡ DPM ¡detec7ons ¡+ ¡DeCAF ¡feature ¡ poselet ¡detec7ons ¡+ ¡deep ¡ assumed ¡ assumed ¡ network ¡training ¡from ¡scratch ¡ [Branson ¡et.al. ¡ ¡ BMVC ¡2014.] ¡ DPM ¡keypoint ¡ detec.on ¡ ¡ + ¡ ¡finetuned ¡deep ¡ network ¡

  13. Limita7ons ¡ To ¡find ¡correspondence ¡ deformable ¡part ¡models ¡ poselets ¡ OR ¡other ¡part ¡detectors ¡ Hand-­‑engineered ¡ feature(e.g. ¡HOG) ¡ Bounding ¡box ¡ assumed ¡at ¡test ¡0me ¡

  14. Limita7ons ¡ Recent ¡breakthrough ¡for ¡object ¡detec.on ¡ To ¡find ¡correspondence ¡ deformable ¡part ¡models ¡ poselets ¡ OverFeat ¡ [Sermanet ¡et.al. ¡ICLR ¡2014] ¡ ¡ OR ¡other ¡part ¡detectors ¡ Hand-­‑engineered ¡ feature(e.g. ¡HOG) ¡ R-­‑CNN ¡ [Girshick ¡et.al. ¡CVPR ¡2014] ¡ Can ¡we ¡simultaneously ¡detect ¡ Bounding ¡box ¡ objects ¡and ¡find ¡part ¡ assumed ¡at ¡test ¡0me ¡ correspondences? ¡

  15. Extend ¡RCNN ¡to ¡parts ¡ Input ¡ Extract ¡region ¡ Compute ¡CNN ¡ ¡ Classify ¡regions ¡ image ¡ proposals ¡(~2k ¡/ ¡image) ¡ features ¡ (linear ¡SVM) ¡ Use ¡part ¡annota7ons. ¡ Try ¡R-­‑CNN ¡ hhps://github.com/rbgirshick/rcnn ¡ ¡ Treat ¡object ¡and ¡ Try ¡CAFFE ¡ ¡ hhp://caffe.berkeleyvision.org ¡ parts ¡as ¡individual ¡ categories. ¡ Girshick ¡et.al. ¡Rich ¡Feature ¡Hierarchies ¡for ¡Accurate ¡Object ¡Detec7on ¡ and ¡Seman7c ¡Segmenta7on. ¡CVPR, ¡2014 ¡ ¡

  16. Unifying ¡correspondence ¡and ¡feature ¡learning ¡ 1) ¡Correspondence ¡ Bounding ¡box ¡ Seman7c ¡parts ¡ object ¡detec7on ¡ and ¡part ¡ localiza7on ¡ single ¡deep ¡ network ¡ 2) ¡Feature ¡representa.ons ¡ discrimina7ve ¡ feature ¡learning ¡ No ¡more ¡bounding ¡box ¡ classifier ¡ assump7on. ¡

  17. Overview ¡of ¡our ¡approach ¡ ¡ Pose-­‑normalized ¡ Input ¡images ¡with ¡region ¡proposals ¡ Object ¡detec7on ¡and ¡part ¡localiza7ons ¡ representa7on ¡ {"""""""""""""""""}"" Top ¡scored ¡object ¡and ¡part ¡predic7ons ¡ Geometric ¡ Constraints ¡ Box ¡constraint ¡ classifier Gaussian ¡Mixture ¡ Non-­‑parametric ¡ Northern Flicker

  18. Object ¡and ¡Part ¡detectors ¡ Bounding ¡box ¡and ¡part ¡annota7ons ¡ Region ¡proposals ¡using ¡selec7ve ¡search ¡ ¡ posi7ve ¡examples ¡ nega7ve ¡examples ¡

  19. Object ¡and ¡Part ¡detectors ¡ Top ¡scored ¡object ¡and ¡part ¡detec7ons ¡ R-­‑CNN ¡detec7on ¡ for ¡part ¡i ¡ d 0 ¡ Deep ¡ Learned ¡ d 1 ¡ convolu7on detec7on ¡ al ¡feature ¡ weight ¡ is ¡sigmoid ¡func7on ¡ d 2 ¡

  20. Object ¡and ¡Part ¡detectors ¡ Top ¡scored ¡object ¡and ¡part ¡detec7ons ¡ R-­‑CNN ¡detec7on ¡ for ¡part ¡i ¡ d 0 ¡ Deep ¡ Learned ¡ d 1 ¡ convolu7on detec7on ¡ al ¡feature ¡ weight ¡ is ¡sigmoid ¡func7on ¡ d 2 ¡ Box ¡constraint ¡ Geometric ¡ Gaussian ¡Mixture ¡ Constraints ¡ Non-­‑parametric ¡

  21. Box ¡constraint ¡ head ¡predic7on ¡ bounding ¡box ¡predic7on ¡

  22. Geometric ¡constraint: ¡Gaussian ¡Mixture ¡ Bounding ¡box ¡and ¡part ¡annota7ons ¡ Normalize ¡part ¡box ¡coordinate s ¡ Generate ¡Gaussian ¡mixture ¡ prior ¡ ¡for ¡each ¡part ¡ center ¡of ¡head ¡ center ¡of ¡body ¡ Incorporate ¡prior ¡into ¡part ¡detector ¡scores ¡

  23. Geometric ¡constraint: ¡non-­‑parametric ¡ Predicted ¡ Nearest ¡neighbors ¡using ¡pool5 ¡feature ¡with ¡cosine ¡distance ¡ bounding ¡box ¡ Fit ¡one ¡gaussian ¡ using ¡top ¡K ¡neighbors ¡

  24. Comparison ¡of ¡constraints ¡ Deformable ¡part ¡models ¡ Belhumeur ¡et ¡al. ¡Localizing ¡parts ¡of ¡faces ¡using ¡a ¡ consensus ¡of ¡exemplars. ¡In ¡CVPR ¡2011. ¡ O ¡ • Mul7ple ¡components ¡ ¡ • Deforma7on ¡cost ¡is ¡a ¡per-­‑ component ¡Gaussian ¡prior. ¡ • R-­‑CNN ¡is ¡a ¡single-­‑component ¡ model, ¡mo7va7ng ¡our ¡MG ¡and ¡ NP ¡constraint. ¡ • Nonparametric ¡prior ¡on ¡keypoint ¡configura7on ¡ space. ¡ • Our ¡non-­‑parametric ¡prior ¡uses ¡nearest ¡ neighbors ¡on ¡appearance ¡space. ¡

Recommend


More recommend