Spa$al ¡Pyramid ¡Matching ¡for ¡ Recognizing ¡Natural ¡Scene ¡Categories ¡ ¡ Arun ¡Shivanandan ¡ ¡Mhd ¡Amro ¡Najjar ¡ Many slides adapted from Fei-Fei Li, Rob Fergus, and Antonio Torralba, Svetlana Lazebnik, Kristen Grauman
Outline ¡ • Introduc$on ¡ • Bag ¡of ¡Features ¡ • Pyramid ¡Matching ¡ • Spa$al ¡Pyramid ¡Matching ¡ • Feature ¡Extrac$on ¡ • Experiments ¡ • Discussion ¡
Introduc$on ¡ • Objec$ve ¡ ¡ – Recognize ¡the ¡seman$c ¡category ¡of ¡an ¡image ¡ – That ¡is, ¡classify ¡the ¡scene ¡(forest, ¡street, ¡etc.) ¡or ¡ the ¡object ¡of ¡interest ¡in ¡the ¡image ¡ • Method ¡ – Extend ¡Bag ¡of ¡Features ¡by ¡incorpora$ng ¡spa$al ¡ informa$on ¡
Bag ¡of ¡Features ¡ • ¡ ¡Text: ¡Bag ¡of ¡Words ¡ • ¡ ¡Image: ¡Bag ¡of ¡Visual ¡Words ¡ Steps: ¡ I. Interest ¡Points ¡– ¡Harris-‑Laplace ¡ II. Local ¡descriptors ¡– ¡SIFT ¡etc ¡ III. Clustering ¡– ¡K-‑means ¡– ¡clusters, ¡visual ¡words ¡ IV. Histogram ¡of ¡visual ¡words ¡– ¡Bag ¡of ¡Features ¡
Bag ¡Of ¡Features ¡cont. ¡
Outline ¡of ¡image ¡classifica$on ¡
Limita$on ¡of ¡Bag ¡of ¡Features ¡ ¡ • Discards ¡informa$on ¡about ¡spa$al ¡layout ¡of ¡ features ¡ • Incapable ¡of ¡capturing ¡a ¡shape ¡or ¡segmen$ng ¡ the ¡object ¡from ¡its ¡background ¡ • Limited ¡descrip$ve ¡ability ¡ • Need ¡to ¡take ¡spa$al ¡informa$on ¡into ¡account ¡
Pyramid ¡Matching ¡ • ¡To ¡find ¡approximate ¡correspondence ¡between ¡two ¡ sets ¡ • ¡Place ¡a ¡sequence ¡of ¡increasingly ¡finer ¡grids ¡over ¡the ¡ feature ¡space ¡(Level ¡i ¡has ¡bins ¡of ¡size ¡2 i ¡) ¡ • Take ¡ ¡weighted ¡sum ¡of ¡ ¡ ¡ ¡ ¡number ¡of ¡matches ¡that ¡ ¡ ¡ ¡ ¡ ¡occur ¡at ¡each ¡level ¡ ¡ ¡
Pyramid ¡Matching ¡cont… ¡
Pyramid ¡Matching ¡Kernel ¡ • ¡Matches ¡at ¡level ¡l ¡includes ¡matches ¡at ¡level ¡l+1 ¡ • ¡Subtrac$on ¡gives ¡new ¡matches ¡at ¡the ¡level ¡ • ¡Penalize ¡results ¡from ¡larger ¡cells ¡by ¡weights ¡ ¡ ¡ ¡ ¡ ¡ ¡for ¡ ¡ ¡ l ¡ ¡level ¡ l ¡ • ¡Kernel: ¡
Spa$al ¡pyramid ¡representa$on ¡ • Apply ¡Pyramid ¡Matching ¡on ¡image ¡space ¡ Level 0 Lazebnik, Schmid & Ponce (CVPR 2006)
Spa$al ¡pyramid ¡representa$on ¡ • Apply ¡Pyramid ¡Matching ¡on ¡image ¡space ¡ Level 0 Level 1 Lazebnik, Schmid & Ponce (CVPR 2006)
Spa$al ¡pyramid ¡representa$on ¡ • Apply ¡Pyramid ¡Matching ¡on ¡image ¡space ¡ Level 0 Level 1level 1 Level 2 Lazebnik, Schmid & Ponce (CVPR 2006)
Beyond ¡bag ¡of ¡features… ¡ • Pyramid ¡matching ¡in ¡image ¡space ¡ ¡ • K-‑means ¡clustering ¡in ¡feature ¡space ¡ • If ¡feature ¡vectors ¡are ¡quan$zed ¡into ¡M ¡ discrete ¡types, ¡the ¡final ¡kernel ¡is: ¡ ¡ • Can ¡be ¡implemented ¡as ¡a ¡concatena$on ¡of ¡ histogram ¡intersec$ons ¡of ¡all ¡channels ¡and ¡at ¡ all ¡resolu$ons ¡
Beyond ¡bag ¡of ¡features… ¡Example ¡
Feature ¡extrac$on ¡ ¡ • Weak ¡features: ¡oriented ¡edge ¡points, ¡points ¡ whose ¡gradient ¡magnitude ¡in ¡a ¡given ¡direc$on ¡ exceeds ¡a ¡minimum ¡threshold. ¡ – 2 ¡scales ¡8 ¡orienta$ons ¡ ¡M ¡= ¡16. ¡ • Strong ¡Features: ¡SIFT ¡ ¡Descriptors ¡of ¡16*16 ¡pixel ¡ patches ¡computed ¡over ¡a ¡grid ¡of ¡spacing ¡of ¡8 ¡ pixels. ¡ – Vocabulary ¡sizes ¡used ¡in ¡the ¡experiments ¡, ¡M=200 ¡and ¡ M=400. ¡
Experiments ¡ • Performed ¡in ¡grayscale ¡for ¡all ¡images ¡ • Mul$class ¡classifica$on ¡is ¡done ¡using ¡SVM, ¡all-‑ ¡ versus-‑one ¡rule. ¡ ¡ • Done ¡on ¡three ¡ ¡diverse ¡data ¡sets: ¡Scene ¡ Category ¡Recogni$on, ¡Caltech ¡-‑101 ¡and ¡Graz ¡
Scene ¡Category ¡Recogni$on ¡– ¡15 ¡ classes ¡
Scene ¡Category ¡Recogni$on-‑ ¡Results ¡ • Drama$c ¡improvement ¡as ¡we ¡go ¡to ¡higher ¡levels ¡ • For ¡strong ¡features, ¡drop ¡from ¡L=2 ¡to ¡L=3, ¡because ¡ L=3 ¡is ¡too ¡fine, ¡but ¡overall ¡performance ¡is ¡unaffected ¡ ¡ • ¡Increasing ¡the ¡M ¡from ¡200 ¡to ¡400 ¡gives ¡only ¡slight ¡ improvement ¡ • The ¡coarse ¡cues ¡provided ¡by ¡the ¡pyramid ¡is ¡beger ¡ than ¡enlarging ¡the ¡visual ¡vocabulary ¡
Caltech-‑101 ¡– ¡101 ¡categories ¡ • Geometrically ¡stable, ¡cluger-‑less ¡objects ¡ • Best ¡result ¡(64.6%) ¡, ¡beger ¡than ¡state ¡of ¡the ¡ art ¡(53.9%) ¡ • M=200 ¡to ¡400 ¡creates ¡no ¡no$ceable ¡ improvement ¡ Successful and unsuccessful classes
Graz ¡dataset ¡ • High ¡intra-‑class ¡varia$ons ¡ • Only ¡2 ¡object ¡classes ¡and ¡1 ¡background ¡class, ¡ but ¡with ¡diverse ¡range ¡of ¡scales ¡and ¡poses ¡ • Training ¡-‑ ¡by ¡providing ¡nega$ve ¡and ¡posi$ve ¡ examples ¡ • Improvement ¡from ¡L=0 ¡to ¡2 ¡is ¡small ¡– ¡ geometric ¡variability ¡provides ¡ligle ¡global ¡ features ¡
Discussion ¡ • Pros ¡ ¡ – Captures ¡the ¡organiza$on ¡of ¡the ¡major ¡elements ¡of ¡ the ¡image ¡ – Provides ¡beger ¡performance ¡than ¡state-‑of-‑the-‑art ¡ – Recogni$on ¡quality ¡not ¡affected ¡by ¡failure ¡at ¡higher ¡ levels ¡ ¡ – Coarse ¡cues ¡provided ¡by ¡the ¡pyramid ¡can ¡be ¡beger ¡ than ¡enlarging ¡the ¡visual ¡vocabulary ¡ – The ¡pyramid ¡is ¡computed ¡at ¡the ¡original ¡resolu$on ¡of ¡ the ¡image ¡ ¡high ¡frequency ¡details ¡are ¡preserved ¡ – Can ¡be ¡used ¡in ¡a ¡search ¡algorithm ¡ ¡
Discussion ¡ • Cons ¡ ¡ – Not ¡geometrically ¡invariant ¡ – Performance ¡won’t ¡be ¡enhanced ¡by ¡the ¡pyramid ¡ levels ¡when ¡the ¡class ¡contains ¡high ¡geometric ¡ variability ¡ – Can ¡be ¡combined ¡with ¡invariant ¡features ¡
Recommend
More recommend