object ct recognition
play

Object ct Recognition Fereshteh Sadeghi - PowerPoint PPT Presentation

Introduction to Computer Vision: Object ct Recognition Fereshteh Sadeghi fsadeghi@cs.washington.edu Many slides from Larry Zitnick and AlyoshaEfros 1966 Connect a television camera to a


  1. Introduction ¡to ¡Computer ¡Vision: Object ct ¡ ¡Recognition Fereshteh Sadeghi fsadeghi@cs.washington.edu Many ¡slides ¡from ¡Larry ¡Zitnick and ¡AlyoshaEfros

  2. 1966 “Connect ¡a ¡television ¡camera ¡to ¡a ¡ computer ¡and ¡get ¡the ¡machine ¡to ¡ describe ¡what ¡it ¡sees.” Marvin ¡Minsky Turing ¡award, ¡1969

  3. How ¡hard ¡is ¡computer ¡vision? Gerald ¡Sussman Marvin ¡Minsky Turing ¡award, ¡1969 "You'll ¡notice ¡that ¡Sussman never ¡worked ¡in ¡vision ¡again” -­‑Berthold ¡Horn

  4. Stages ¡of ¡Visual ¡Representation, ¡David ¡Marr, ¡1970

  5. 1973 a.k.a. ¡constellation ¡model The ¡representation ¡and ¡matching ¡of ¡pictorial ¡structures , ¡ Fischler and ¡Elschlager, ¡1973 ¡

  6. 1973

  7. 1980’s AI ¡winter… …back ¡to ¡basics A ¡Computational ¡Approach ¡to ¡Edge ¡Detection , ¡Canny ¡1986

  8. 1986 Perceptual ¡organization ¡and ¡the ¡representation ¡of ¡natural ¡form , ¡ Alex ¡Pentland, ¡1986

  9. 1989 MNIST Zip ¡codes Backpropagation applied ¡to ¡handwritten ¡zip ¡code ¡recognition , ¡ Lecun et ¡al., ¡1989

  10. Filters Input

  11. 1989 Backpropagation applied ¡to ¡handwritten ¡zip ¡code ¡recognition , ¡ Lecun et ¡al., ¡1989

  12. 1998 Faces Neural ¡Network-­‑Based ¡Face ¡Detection, ¡Rowley ¡at ¡al., ¡PAMI ¡1998

  13. 2001 Sliding ¡window ¡in ¡real ¡time! Boosting ¡+ ¡Cascade ¡= ¡Speed Rapid ¡Object ¡Detection ¡using ¡a ¡Boosted ¡Cascade ¡of ¡Simple ¡Features , ¡ Viola ¡and ¡Jones, ¡CVPR ¡2001

  14. Why ¡did ¡it ¡work? • Simple ¡features ¡(Haar wavelets) -­‑ = ¡h Integral ¡images ¡+ ¡Haar wavelets ¡= ¡fast

  15. Face ¡Detection, ¡Viola ¡& ¡Jones, ¡2001

  16. Why ¡did ¡it ¡work?

  17. Why ¡did ¡it ¡fail?

  18. 1999 * SIFT (Scale Invariant Feature Transform) No ¡more ¡sliding ¡windows ¡(interest ¡points) Better ¡features ¡(use ¡more ¡computation) Object ¡Recognition ¡from ¡Local ¡Scale-­‑Invariant ¡Features , ¡Lowe, ¡ICCV ¡1999.

  19. SIFT ¡Matching [SIFT: Lowe, 2004]

  20. What ¡worked Panorama ¡stitching Recognizing ¡panoramas , ¡Brown ¡and ¡Lowe, ¡ ICCV 2003

  21. SIFT ¡Matching [SIFT: Lowe, 2004]

  22. 2003 Constellation model (redux) Object ¡Class ¡Recognition ¡by ¡Unsupervised ¡Scale-­‑Invariant ¡Learning , ¡ Fergus ¡et ¡al., ¡ CVPR 2003.

  23. 2003 Constellation model (redux) The ¡representation ¡and ¡matching ¡of ¡pictorial ¡ structures, ¡Fischler ¡and ¡Elschlager, ¡1973 ¡ Joint ¡Gaussian ¡density

  24. Interest ¡points ¡used ¡to ¡find ¡parts: Smaller ¡number ¡of ¡candidate ¡parts ¡allows ¡for ¡more ¡ complex ¡spatial ¡models.

  25. Why ¡it ¡fails Interest ¡points ¡don’t ¡work ¡for ¡category ¡recognition

  26. Too ¡many ¡springs…

  27. Cat?

  28. Classification Vs. Detection Cat Cat ü Cat

  29. 2005 ¡HOG ¡ (histograms ¡of ¡oriented ¡gradients) Histograms ¡of ¡oriented ¡gradients ¡for ¡human ¡detection , ¡ Dalal and ¡Triggs, ¡CVPR ¡2005.

  30. Pedestrians • Defined ¡by ¡their ¡contours • Cluttered ¡backgrounds • Significant ¡variance ¡in ¡texture Interest ¡points ¡won’t ¡work… …back ¡to ¡sliding ¡window.

  31. 2005 ¡HOG ¡ (histograms ¡of ¡oriented ¡gradients)

  32. 2005 ¡HOG ¡ (histograms ¡of ¡oriented ¡gradients) SIFT

  33. 2005 ¡HOG ¡ (histograms ¡of ¡oriented ¡gradients) Histograms ¡of ¡oriented ¡gradients ¡for ¡human ¡detection , ¡ Dalal and ¡Triggs, ¡ CVPR 2005.

  34. 2005 ¡HOG ¡ (histograms ¡of ¡oriented ¡gradients) Presence ¡ ¡> ¡ ¡Magnitude ü Normalization ¡by ¡a ¡local ¡window

  35. Why ¡it ¡worked We ¡can ¡finally ¡detect ¡object ¡ boundaries ¡in ¡a ¡reliable ¡manner! Hard ¡negative ¡mining Computers ¡are ¡fast ¡enough.

  36. 2007 ¡PASCAL ¡VOC 20 ¡classes The ¡PASCAL ¡Visual ¡Object ¡Classes ¡(VOC) ¡Challenge , ¡Everingham, ¡ Van ¡Gool, ¡Williams, ¡Winn ¡and ¡Zisserman, ¡ IJCV , ¡2010

  37. 2009 ¡ImageNet 22K ¡categories, ¡14M ¡images Orb ¡weaving ¡spider Corgi ImageNet: ¡A ¡Large-­‑Scale ¡Hierarchical ¡Image ¡Database, ¡ Deng, ¡Dong, ¡Socher, ¡ Li, ¡Li ¡and ¡Fei-­‑Fei, ¡ CVPR, ¡ 2009

  38. Why ¡it ¡failed

  39. 2008 ¡DPM ¡ ( Deformable ¡parts ¡model) Object ¡Detection ¡with ¡Discriminatively ¡Trained ¡Part ¡Based ¡Model, ¡ Felzenszwalb, ¡Girshick, ¡McAllester and ¡Ramanan, ¡ PAMI , ¡2010

  40. 2008 ¡DPM ¡ ( Deformable ¡parts ¡model) Object ¡Detection ¡with ¡Discriminatively ¡Trained ¡Part ¡Based ¡Model, ¡ Felzenszwalb, ¡Girshick, ¡McAllester and ¡Ramanan, ¡ PAMI , ¡2010

  41. Star-­‑structure • Computationally ¡efficient ¡(distance ¡transform) Distance transforms of sampled functions , Felzenszwalb and Huttenlocher, Cornell University CIS, Tech. Rep. 2004.

  42. Multiple ¡components

  43. Why ¡it ¡worked • Multiple ¡components • Deformable ¡parts? • Hard ¡negative ¡mining • Good ¡balance "How ¡important ¡are ¡'Deformable ¡Parts' ¡in ¡the ¡Deformable ¡Parts ¡Model?“, ¡ Divvala, ¡Efros, ¡and ¡Hebert, ¡ Parts ¡and ¡Attributes ¡Workshop, ¡ECCV, 2012

  44. Do ¡We ¡Need ¡More ¡Training ¡Data ¡or ¡Better ¡Models ¡for ¡Object ¡Detection? ¡ Zhu, ¡Vondrick, ¡ Ramanan, ¡Fowlkes, ¡ BMVC 2012.

  45. DPM Pooling Limited ¡capacity ¡ classifier SVM Something ¡new? HOG Low-­‑level ¡features Image

  46. Problems ¡with ¡Visual Categories Char • A ¡lot ¡of ¡categories ¡are ¡ functional • World ¡is ¡too ¡varied car • Categories ¡are ¡3D, ¡but ¡ images ¡are ¡2D 49

  47. Images 2009 2012 30K 14M ImageNet

  48. Categories 2009 2012 256 22K ImageNet

  49. Algorithms 2012 Dense Dense Dense Convolution 2009 Convolution Pooling Convolution SVM Convolution HOG Convolution Image Image

  50. 2012 ImageNet 1K (Fall 2012) 40 35 30 25 Error 20 15 10 5 0

  51. 2012 ImageNet 1K (Fall 2012) 40 35 30 25 Error 20 15 10 5 0

  52. Classification Vs. Detection Cat Cat ü Cat

  53. Object detection 1. ¡Input ¡image 2. ¡Extract ¡region ¡ 3. ¡Compute ¡CNN ¡ 4. ¡Classify ¡regions proposals ¡(~2k) features Rich ¡Feature ¡Hierarchies ¡for ¡Accurate ¡Object ¡Detection ¡and ¡Semantic ¡Segmentation , ¡ Girshick, ¡Donahue, ¡ Darrell, ¡Malik, ¡ CVPR 2014. Online ¡classification ¡demo: http://decaf.berkeleyvision.org/

  54. Going ¡beyond ¡categorization… “Connect ¡a ¡television ¡ camera ¡to ¡a ¡computer ¡and ¡ get ¡the ¡machine ¡to ¡ describe ¡what ¡it ¡sees.”

  55. Going ¡beyond ¡categorization… “Connect ¡a ¡television ¡ camera ¡to ¡a ¡computer ¡and ¡ get ¡the ¡machine ¡to ¡ describe ¡what ¡it ¡sees.”

  56. Going ¡beyond ¡categorization… “Connect ¡a ¡television ¡ camera ¡to ¡a ¡computer ¡and ¡ get ¡the ¡machine ¡to ¡ describe ¡what ¡it ¡sees.” MS ¡COCO

  57. Going ¡beyond ¡categorization… Show ¡and ¡Tell: ¡A ¡Neural ¡Image ¡Caption ¡Generator Oriol Vinyals, ¡Alexander ¡Toshev, ¡Samy Bengio, ¡Dumitru Erhan, ¡CVPR ¡2015

  58. …the ¡“giraffe-­‑tree” ¡problem ¡ L a giraffe next to a tree

  59. Big ¡Visual ¡Data 6 ¡billion ¡images 1 ¡billion ¡images ¡ served ¡daily 3.5 ¡trillion ¡ photographs 100 ¡hours ¡uploaded ¡ per ¡minute 70 ¡billion ¡images

  60. Too ¡Big ¡for ¡Humans Digital Dark Matter [Perona 2010]

  61. Books

Recommend


More recommend