spa al pyramid matching for recognizing natural scene
play

Spa$al Pyramid Matching for Recognizing Natural Scene - PowerPoint PPT Presentation

Spa$al Pyramid Matching for Recognizing Natural Scene Categories Arun Shivanandan Mhd Amro Najjar Many slides adapted from Fei-Fei Li, Rob Fergus, and Antonio Torralba, Svetlana


  1. Spa$al ¡Pyramid ¡Matching ¡for ¡ Recognizing ¡Natural ¡Scene ¡Categories ¡ ¡ Arun ¡Shivanandan ¡ ¡Mhd ¡Amro ¡Najjar ¡ Many slides adapted from Fei-Fei Li, Rob Fergus, and Antonio Torralba, Svetlana Lazebnik, Kristen Grauman

  2. Outline ¡ • Introduc$on ¡ • Bag ¡of ¡Features ¡ • Pyramid ¡Matching ¡ • Spa$al ¡Pyramid ¡Matching ¡ • Feature ¡Extrac$on ¡ • Experiments ¡ • Discussion ¡

  3. Introduc$on ¡ • Objec$ve ¡ ¡ – Recognize ¡the ¡seman$c ¡category ¡of ¡an ¡image ¡ – That ¡is, ¡classify ¡the ¡scene ¡(forest, ¡street, ¡etc.) ¡or ¡ the ¡object ¡of ¡interest ¡in ¡the ¡image ¡ • Method ¡ – Extend ¡Bag ¡of ¡Features ¡by ¡incorpora$ng ¡spa$al ¡ informa$on ¡

  4. Bag ¡of ¡Features ¡ • ¡ ¡Text: ¡Bag ¡of ¡Words ¡ • ¡ ¡Image: ¡Bag ¡of ¡Visual ¡Words ¡ Steps: ¡ I. Interest ¡Points ¡– ¡Harris-­‑Laplace ¡ II. Local ¡descriptors ¡– ¡SIFT ¡etc ¡ III. Clustering ¡– ¡K-­‑means ¡– ¡clusters, ¡visual ¡words ¡ IV. Histogram ¡of ¡visual ¡words ¡– ¡Bag ¡of ¡Features ¡

  5. Bag ¡Of ¡Features ¡cont. ¡

  6. Outline ¡of ¡image ¡classifica$on ¡

  7. Limita$on ¡of ¡Bag ¡of ¡Features ¡ ¡ • Discards ¡informa$on ¡about ¡spa$al ¡layout ¡of ¡ features ¡ • Incapable ¡of ¡capturing ¡a ¡shape ¡or ¡segmen$ng ¡ the ¡object ¡from ¡its ¡background ¡ • Limited ¡descrip$ve ¡ability ¡ • Need ¡to ¡take ¡spa$al ¡informa$on ¡into ¡account ¡

  8. Pyramid ¡Matching ¡ • ¡To ¡find ¡approximate ¡correspondence ¡between ¡two ¡ sets ¡ • ¡Place ¡a ¡sequence ¡of ¡increasingly ¡finer ¡grids ¡over ¡the ¡ feature ¡space ¡(Level ¡i ¡has ¡bins ¡of ¡size ¡2 i ¡) ¡ • Take ¡ ¡weighted ¡sum ¡of ¡ ¡ ¡ ¡ ¡number ¡of ¡matches ¡that ¡ ¡ ¡ ¡ ¡ ¡occur ¡at ¡each ¡level ¡ ¡ ¡

  9. Pyramid ¡Matching ¡cont… ¡

  10. Pyramid ¡Matching ¡Kernel ¡ • ¡Matches ¡at ¡level ¡l ¡includes ¡matches ¡at ¡level ¡l+1 ¡ • ¡Subtrac$on ¡gives ¡new ¡matches ¡at ¡the ¡level ¡ • ¡Penalize ¡results ¡from ¡larger ¡cells ¡by ¡weights ¡ ¡ ¡ ¡ ¡ ¡ ¡for ¡ ¡ ¡ l ¡ ¡level ¡ l ¡ • ¡Kernel: ¡

  11. Spa$al ¡pyramid ¡representa$on ¡ • Apply ¡Pyramid ¡Matching ¡on ¡image ¡space ¡ Level 0 Lazebnik, Schmid & Ponce (CVPR 2006)

  12. Spa$al ¡pyramid ¡representa$on ¡ • Apply ¡Pyramid ¡Matching ¡on ¡image ¡space ¡ Level 0 Level 1 Lazebnik, Schmid & Ponce (CVPR 2006)

  13. Spa$al ¡pyramid ¡representa$on ¡ • Apply ¡Pyramid ¡Matching ¡on ¡image ¡space ¡ Level 0 Level 1level 1 Level 2 Lazebnik, Schmid & Ponce (CVPR 2006)

  14. Beyond ¡bag ¡of ¡features… ¡ • Pyramid ¡matching ¡in ¡image ¡space ¡ ¡ • K-­‑means ¡clustering ¡in ¡feature ¡space ¡ • If ¡feature ¡vectors ¡are ¡quan$zed ¡into ¡M ¡ discrete ¡types, ¡the ¡final ¡kernel ¡is: ¡ ¡ • Can ¡be ¡implemented ¡as ¡a ¡concatena$on ¡of ¡ histogram ¡intersec$ons ¡of ¡all ¡channels ¡and ¡at ¡ all ¡resolu$ons ¡

  15. Beyond ¡bag ¡of ¡features… ¡Example ¡

  16. Feature ¡extrac$on ¡ ¡ • Weak ¡features: ¡oriented ¡edge ¡points, ¡points ¡ whose ¡gradient ¡magnitude ¡in ¡a ¡given ¡direc$on ¡ exceeds ¡a ¡minimum ¡threshold. ¡ – 2 ¡scales ¡8 ¡orienta$ons ¡  ¡M ¡= ¡16. ¡ • Strong ¡Features: ¡SIFT ¡ ¡Descriptors ¡of ¡16*16 ¡pixel ¡ patches ¡computed ¡over ¡a ¡grid ¡of ¡spacing ¡of ¡8 ¡ pixels. ¡ – Vocabulary ¡sizes ¡used ¡in ¡the ¡experiments ¡, ¡M=200 ¡and ¡ M=400. ¡

  17. Experiments ¡ • Performed ¡in ¡grayscale ¡for ¡all ¡images ¡ • Mul$class ¡classifica$on ¡is ¡done ¡using ¡SVM, ¡all-­‑ ¡ versus-­‑one ¡rule. ¡ ¡ • Done ¡on ¡three ¡ ¡diverse ¡data ¡sets: ¡Scene ¡ Category ¡Recogni$on, ¡Caltech ¡-­‑101 ¡and ¡Graz ¡

  18. Scene ¡Category ¡Recogni$on ¡– ¡15 ¡ classes ¡

  19. Scene ¡Category ¡Recogni$on-­‑ ¡Results ¡ • Drama$c ¡improvement ¡as ¡we ¡go ¡to ¡higher ¡levels ¡ • For ¡strong ¡features, ¡drop ¡from ¡L=2 ¡to ¡L=3, ¡because ¡ L=3 ¡is ¡too ¡fine, ¡but ¡overall ¡performance ¡is ¡unaffected ¡ ¡ • ¡Increasing ¡the ¡M ¡from ¡200 ¡to ¡400 ¡gives ¡only ¡slight ¡ improvement ¡ • The ¡coarse ¡cues ¡provided ¡by ¡the ¡pyramid ¡is ¡beger ¡ than ¡enlarging ¡the ¡visual ¡vocabulary ¡

  20. Caltech-­‑101 ¡– ¡101 ¡categories ¡ • Geometrically ¡stable, ¡cluger-­‑less ¡objects ¡ • Best ¡result ¡(64.6%) ¡, ¡beger ¡than ¡state ¡of ¡the ¡ art ¡(53.9%) ¡ • M=200 ¡to ¡400 ¡creates ¡no ¡no$ceable ¡ improvement ¡ Successful and unsuccessful classes

  21. Graz ¡dataset ¡ • High ¡intra-­‑class ¡varia$ons ¡ • Only ¡2 ¡object ¡classes ¡and ¡1 ¡background ¡class, ¡ but ¡with ¡diverse ¡range ¡of ¡scales ¡and ¡poses ¡ • Training ¡-­‑ ¡by ¡providing ¡nega$ve ¡and ¡posi$ve ¡ examples ¡ • Improvement ¡from ¡L=0 ¡to ¡2 ¡is ¡small ¡– ¡ geometric ¡variability ¡provides ¡ligle ¡global ¡ features ¡

  22. Discussion ¡ • Pros ¡ ¡ – Captures ¡the ¡organiza$on ¡of ¡the ¡major ¡elements ¡of ¡ the ¡image ¡ – Provides ¡beger ¡performance ¡than ¡state-­‑of-­‑the-­‑art ¡ – Recogni$on ¡quality ¡not ¡affected ¡by ¡failure ¡at ¡higher ¡ levels ¡ ¡ – Coarse ¡cues ¡provided ¡by ¡the ¡pyramid ¡can ¡be ¡beger ¡ than ¡enlarging ¡the ¡visual ¡vocabulary ¡ – The ¡pyramid ¡is ¡computed ¡at ¡the ¡original ¡resolu$on ¡of ¡ the ¡image ¡  ¡high ¡frequency ¡details ¡are ¡preserved ¡ – Can ¡be ¡used ¡in ¡a ¡search ¡algorithm ¡ ¡

  23. Discussion ¡ • Cons ¡ ¡ – Not ¡geometrically ¡invariant ¡ – Performance ¡won’t ¡be ¡enhanced ¡by ¡the ¡pyramid ¡ levels ¡when ¡the ¡class ¡contains ¡high ¡geometric ¡ variability ¡ – Can ¡be ¡combined ¡with ¡invariant ¡features ¡

Recommend


More recommend