deep object detec on
play

Deep Object Detec*on Ali Farhadi Mohammad Rastegari CSE - PowerPoint PPT Presentation

Deep Object Detec*on Ali Farhadi Mohammad Rastegari CSE 576 So Far Backpropaga*on A 1 A 2 A 3 A 4 A 5 Convolu*onal Neural Networks(CNN) 3 L 5x5 conv, 256, pool/2


  1. Deep ¡Object ¡Detec*on ¡ Ali ¡Farhadi ¡ Mohammad ¡Rastegari ¡ CSE ¡576 ¡ ¡

  2. So ¡Far ¡ • Backpropaga*on ¡ A 1 A 2 A 3 A 4 A 5 • Convolu*onal ¡Neural ¡Networks(CNN) ¡ 3 L 5x5 conv, 256, pool/2 3x3 conv, 256, pool/2 11x11 conv, 96, /4, pool/2 • AlexNet ¡ Number of Classes 3x3 conv, 384 3x3 conv, 384 fc, 4096 fc, 4096 fc, 1000 7x7 conv, 64, /2, pool/2 1x1 conv, 64 3x3 conv, 64 1x1 conv, 256 1x1 conv, 64 3x3 conv, 64 1x1 conv, 256 Revolu'on)of)Depth) 1x1 conv, 64 3x3 conv, 64 1x1 conv, 256 1x1 conv, 128, /2 3x3 conv, 128 1x1 conv, 512 1x1 conv, 128 Revolution of Depth 3x3 conv, 128 1x1 conv, 512 1x1 conv, 128 3x3 conv, 128 1x1 conv, 512 1x1 conv, 128 3x3 conv, 128 1x1 conv, 512 1x1 conv, 128 3x3 conv, 128 1x1 conv, 512 1x1 conv, 128 3x3 conv, 128 1x1 conv, 512 1x1 conv, 128 3x3 conv, 128 1x1 conv, 512 1x1 conv, 128 3x3 conv, 128 1x1 conv, 512 1x1 conv, 256, /2 3x3 conv, 256 11x11 conv, 96, /4, pool/2 1x1 conv, 1024 5x5 conv, 256, pool/2 1x1 conv, 256 AlexNet, 8 layers 3x3 conv, 384 VGG, 19 layers 3x3 conv, 64 ResNet, 152 layers 3x3 conv, 256 3x3 conv, 384 3x3 conv, 64, pool/2 1x1 conv, 1024 3x3 conv, 128 1x1 conv, 256 3x3 conv, 256, pool/2 fc, 4096 3x3 conv, 128, pool/2 3x3 conv, 256 fc, 4096 3x3 conv, 256 1x1 conv, 1024 fc, 1000 3x3 conv, 256 1x1 conv, 256 3x3 conv, 256 3x3 conv, 256 3x3 conv, 256, pool/2 1x1 conv, 1024 (ILSVRC 2012) (ILSVRC 2014) 3x3 conv, 512 (ILSVRC 2015) 1x1 conv, 256 3x3 conv, 512 3x3 conv, 256 3x3 conv, 512 1x1 conv, 1024 3x3 conv, 512, pool/2 1x1 conv, 256 3x3 conv, 512 3x3 conv, 256 3x3 conv, 512 1x1 conv, 1024 3x3 conv, 512 1x1 conv, 256 3x3 conv, 512, pool/2 3x3 conv, 256 fc, 4096 1x1 conv, 1024 fc, 4096 1x1 conv, 256 • Deeper ¡Architectures ¡ fc, 1000 th 3x3 conv, 256 1x1 conv, 1024 1x1 conv, 256 3x3 conv, 256 1x1 conv, 1024 28.2 1x1 conv, 256 3x3 conv, 256 1x1 conv, 1024 1x1 conv, 256 s 3x3 conv, 256 1x1 conv, 1024 1x1 conv, 256 25.8 3x3 conv, 256 1x1 conv, 1024 1x1 conv, 256 3x3 conv, 256 1x1 conv, 1024 152 layers 1x1 conv, 256 3x3 conv, 256 1x1 conv, 1024 1x1 conv, 256 3x3 conv, 256 1x1 conv, 1024 1x1 conv, 256 3x3 conv, 256 1x1 conv, 1024 1x1 conv, 256 3x3 conv, 256 1x1 conv, 1024 1x1 conv, 256 3x3 conv, 256 1x1 conv, 1024 1x1 conv, 256 3x3 conv, 256 1x1 conv, 1024 1x1 conv, 256 3x3 conv, 256 1x1 conv, 1024 1x1 conv, 256 3x3 conv, 256 1x1 conv, 1024 16.4 1x1 conv, 256 3x3 conv, 256 1x1 conv, 1024 1x1 conv, 256 3x3 conv, 256 1x1 conv, 1024 1x1 conv, 256 3x3 conv, 256 1x1 conv, 1024 1x1 conv, 256 3x3 conv, 256 1x1 conv, 1024 1x1 conv, 256 3x3 conv, 256 11.7 1x1 conv, 1024 1x1 conv, 256 3x3 conv, 256 1x1 conv, 1024 1x1 conv, 256 3x3 conv, 256 22 22 layers 19 layers 1x1 conv, 1024 1x1 conv, 256 3x3 conv, 256 1x1 conv, 1024 1x1 conv, 256 3x3 conv, 256 1x1 conv, 1024 7.3 1x1 conv, 256 3x3 conv, 256 6.7 1x1 conv, 1024 1x1 conv, 256 3x3 conv, 256 1x1 conv, 1024 1x1 conv, 256 3x3 conv, 256 1x1 conv, 1024 1x1 conv, 256 3x3 conv, 256 3.57 1x1 conv, 1024 1x1 conv, 256 8 layers 8 layers shallow 3x3 conv, 256 1x1 conv, 1024 1x1 conv, 256 3x3 conv, 256 1x1 conv, 1024 1x1 conv, 512, /2 3x3 conv, 512 1x1 conv, 2048 1x1 conv, 512 3x3 conv, 512 1x1 conv, 2048 1x1 conv, 512 3x3 conv, 512 1x1 conv, 2048 ave pool, fc 1000 Kaiming He, Xiangyu Zhang, Shaoqing Ren, & Jian Sun. “Deep Residual Learning for Image Re ILSVRC'15 ILS ILSVRC'14 ILSVRC'14 ILSVRC'13 ILSVRC'12 ILSVRC'11 ILSVRC'10 ResNet Go GoogleNet VGG AlexNet

  3. Deep ¡Leaning ¡Prac*cal ¡Tips ¡ • Use ¡off-­‑the-­‑shelf ¡architectures ¡ ¡ • Verify ¡the ¡correctness ¡of ¡your ¡network ¡by ¡ training ¡over ¡a ¡single ¡batch. ¡ ¡ – Overfit ¡: ¡Good ¡to ¡go! ¡ ¡ – Did ¡not ¡converge ¡: ¡Something ¡is ¡wrong ¡with ¡ forward/backward ¡func*ons ¡or ¡data! ¡ ¡ • Use ¡a ¡proper ¡learning ¡rate ¡regime. ¡ ¡ ¡ ¡

  4. Lr=0.1 ¡ Lr=0.01 ¡ Lr=0.001 ¡

  5. Object ¡Detec*on ¡

  6. Sliding ¡Window ¡

  7. Sliding ¡Window ¡

  8. Sliding ¡Window ¡ 3 L Number of Classes

  9. Object ¡Proposal ¡

  10. Selec*ve ¡Search ¡ Uijlings, ¡Jasper ¡RR, ¡et ¡al. ¡"Selec*ve ¡search ¡for ¡object ¡recogni*on." ¡ Interna*onal ¡journal ¡of ¡computer ¡vision ¡ ¡(2013). ¡

  11. Region-­‑Based ¡CNN ¡ ¡(R-­‑CNN) ¡ 11 ¡ Grishick ¡et ¡al ¡[CVPR’14] ¡

  12. Object ¡Detec*on ¡by ¡R-­‑CNN ¡ . ¡ . ¡ . ¡ . ¡ . ¡ Reshape ¡ . ¡ . ¡ . ¡ . ¡ . ¡ . ¡ . ¡ 12 ¡

  13. Object ¡Detec*on ¡by ¡R-­‑CNN ¡ . ¡ . ¡ . ¡ . ¡ . ¡ Reshape ¡ . ¡ . ¡ . ¡ . ¡ . ¡ . ¡ . ¡ 13 ¡

  14. Object ¡Detec*on ¡by ¡R-­‑CNN ¡ . ¡ . ¡ . ¡ . ¡ . ¡ Reshape ¡ . ¡ . ¡ . ¡ . ¡ . ¡ . ¡ . ¡ • Depending ¡on ¡region ¡proposal ¡ ¡ • Need ¡to ¡apply ¡CNN ¡~2K ¡*mes ¡per ¡image ¡ ¡ 14 ¡

  15. Fast ¡R-­‑CNN ¡ . ¡ ROI ¡Pooling ¡ . ¡ . ¡ . ¡ . ¡ Reshape ¡ . ¡ . ¡ . ¡ . ¡ . ¡ . ¡ . ¡ ROI ¡Info ¡ 15 ¡

  16. Fast ¡R-­‑CNN ¡ . ¡ . ¡ . ¡ . ¡ . ¡ Reshape ¡ . ¡ . ¡ . ¡ . ¡ . ¡ . ¡ . ¡ ROI ¡Info ¡ 16 ¡

  17. Bounding ¡Box ¡Regression ¡

  18. Bounding ¡Box ¡Regression ¡

  19. Bbox ¡Regression ¡ Classifica*on ¡ . ¡ . ¡ . ¡ Reshape ¡ Regression ¡ . ¡ . ¡ . ¡ ROI ¡Info ¡ 19 ¡

  20. Faster ¡R-­‑CNN ¡ Classifica*on ¡ . ¡ . ¡ . ¡ Reshape ¡ Regression ¡ . ¡ . ¡ . ¡ Less ¡number ¡of ¡proposals ¡ ¡ compared ¡to ¡Selec*ve ¡Search ¡ 300 ¡vs. ¡2000 ¡ x1 ¡ x2 ¡ xk ¡ y1 ¡ y2 ¡ yk ¡ …. ¡ w1 ¡ w2 ¡ wk ¡ h1 ¡ h2 ¡ hk ¡ 20 ¡

  21. Pascal 2012 Method mAP Sec/im 59.2 ¡ 20 ¡ R-CNN 2 ¡ Fast R-CNN 68.4 72.1 ¡ Faster R-CNN 0.5

  22. Direct ¡Regression ¡ No ¡Proposal ¡ . ¡ . ¡ . ¡ Reshape ¡ . ¡ . ¡ . ¡ We ¡do ¡not ¡know ¡the ¡number ¡of ¡objects ¡in ¡an ¡image ¡ 22 ¡

  23. YOLO ¡ . ¡ . ¡ . ¡ Reshape ¡ . ¡ . ¡ . ¡ x,y,w,h,c ¡ c1,c2,…,cN ¡ 26 ¡

  24. Pascal 2012 Method mAP Sec/im 59.2 ¡ 20 ¡ R-CNN 2 ¡ Fast R-CNN 68.4 72.1 ¡ Faster R-CNN 0.5 57.9 ¡ YOLO 0.02

  25. Source ¡Code ¡ • Fast ¡R-­‑CNN ¡ – hkps://github.com/mahyarnajibi/fast-­‑rcnn-­‑torch ¡ – hkps://github.com/rbgirshick/fast-­‑rcnn ¡ • YOLO ¡ – hkps://github.com/pjreddie/darknet/blob/ master/src/yolo.c ¡ ¡

Recommend


More recommend