video object recogni on
play

Video Object Recogni/on Chenyi Chen Mo/on is important How - PowerPoint PPT Presentation

Video Object Recogni/on Chenyi Chen Mo/on is important How important? Lets first look at Visual Parsing AEer Recovery From Blindness This is a


  1. Video ¡Object ¡Recogni/on Chenyi ¡Chen

  2. Mo/on ¡is ¡important • How ¡important? ¡ • Let’s ¡first ¡look ¡at ¡“Visual ¡Parsing ¡AEer ¡ Recovery ¡From ¡Blindness” ¡ • This ¡is ¡a ¡real ¡“vision” ¡paper

  3. Background • Study ¡how ¡do ¡three ¡Indian ¡pa/ents ¡(subjects) ¡ develop ¡object ¡recogni/on ¡ability ¡aEer ¡long ¡ term ¡blindness ¡ • Give ¡treatment ¡to ¡the ¡subjects ¡ • During ¡recovery, ¡test ¡on ¡the ¡subjects ¡to ¡see ¡ how ¡they ¡perform ¡on ¡recogni/on ¡tasks ¡

  4. Background • The ¡subjects ¡are: ¡ • S.K.: ¡age ¡29, ¡male, ¡born ¡blindness, ¡M.A. ¡in ¡ poli/cal ¡science ¡ • J.A.: ¡age ¡13, ¡male, ¡born ¡blindness, ¡never ¡ received ¡educa/on ¡ • P.B.: ¡age ¡7, ¡male, ¡born ¡blindness ¡ • Control ¡group: ¡4 ¡normal ¡sighted ¡adults, ¡similar ¡ social ¡background

  5. Subjects’ ¡parsing ¡of ¡sta/c ¡images

  6. S.K. ¡versus ¡simple ¡region ¡par//on ¡ algorithm

  7. Dynamic ¡informa/on ¡in ¡object ¡ segrega/on

  8. Mo/lity ¡ra/ng ¡and ¡object ¡recogni/on ¡ results

  9. Follow-­‑up ¡tes/ng ¡aEer ¡several ¡months

  10. What ¡do ¡we ¡learn ¡about ¡developing ¡ visual ¡parsing ¡skill • Early ¡stages: ¡integra/ve ¡impairments, ¡ overfragmenta/on ¡of ¡images, ¡compromise ¡ recogni/on ¡performance ¡ • However, ¡mo/on ¡effec/vely ¡mi/gates ¡these ¡ integra/ve ¡difficul/es ¡ • Mo/on ¡appears ¡to ¡be ¡instrumental ¡both ¡in ¡ segrega/ng ¡objects ¡and ¡in ¡binding ¡their ¡ cons/tuents ¡into ¡representa/ons ¡for ¡ recogni/on ¡

  11. • So ¡we ¡have ¡some ¡insight ¡of ¡how ¡people ¡ developing ¡visual ¡recogni/on ¡ability ¡ ¡ • Can ¡we ¡reproduce ¡visual ¡learning ¡process ¡on ¡a ¡ robot? ¡ • Let’s ¡look ¡at ¡“Learning ¡about ¡Humans ¡During ¡ the ¡First ¡6 ¡Minutes ¡of ¡Life”

  12. A ¡baby ¡robot

  13. Hypothesis ¡in ¡social ¡development • The ¡infant ¡brain ¡is ¡par/cularly ¡sensi/ve ¡to ¡the ¡ presence ¡of ¡con/ngencies ¡ • The ¡con/ngency ¡drives ¡the ¡defini/on ¡and ¡ recogni/on ¡of ¡caregivers ¡ • Human ¡faces ¡become ¡acrac/ve ¡because ¡they ¡ tend ¡to ¡occur ¡in ¡high ¡con/ngency ¡situa/ons

  14. Goal • Whether ¡acous/c ¡con/ngency ¡informa/on ¡ (sound) ¡would ¡be ¡sufficient ¡for ¡the ¡robot ¡to ¡ develop ¡preferences ¡for ¡human ¡faces ¡ • If ¡so, ¡get ¡a ¡sense ¡for ¡the ¡/me ¡scale ¡of ¡the ¡ learning ¡problem ¡

  15. A ¡baby ¡robot

  16. Sedngs • The ¡baby ¡robot ¡interacted ¡with ¡the ¡lab ¡ members ¡while ¡recording ¡image ¡it ¡saw ¡ • Con/ngency ¡detec/on ¡engine ¡analyzes ¡sound ¡ signal ¡for ¡presence ¡of ¡con/ngencies ¡ ¡ • Whether ¡people ¡were ¡present ¡is ¡not ¡specified ¡ • Whether ¡people ¡were ¡of ¡any ¡par/cular ¡ relevance ¡is ¡not ¡specified ¡ ¡ • The ¡only ¡training ¡label ¡is ¡the ¡acous/c ¡ con/ngency ¡signal

  17. Visual ¡learning ¡engine • Probabilis/c ¡model ¡ • Only ¡needs ¡the ¡images ¡to ¡be ¡weakly ¡labeled ¡as ¡ containing ¡with ¡high ¡or ¡low ¡probability ¡the ¡ object ¡of ¡interest, ¡do ¡not ¡need ¡to ¡indicate ¡ where ¡the ¡objects ¡are ¡located ¡on ¡the ¡image ¡ plane ¡ • Implementable ¡in ¡a ¡neural ¡network ¡ • Run ¡in ¡real ¡/me ¡at ¡video ¡frame ¡rate

  18. Hardware • Plush ¡baby ¡doll ¡ • IEEE1394a ¡webcam ¡(capture ¡images, ¡only ¡ grayscale ¡images ¡used ¡for ¡training) ¡ • Microphone ¡(receive ¡auditory ¡signal) ¡ • Loudspeaker ¡(baby ¡makes ¡excited ¡noise) ¡

  19. Collec/ng ¡data • Record ¡the ¡auditory ¡and ¡visual ¡signals ¡for ¡88 ¡ minutes ¡ • 2877 ¡posi/ve ¡examples ¡ • 824 ¡nega/ve ¡examples ¡ • Baby ¡robot ¡was ¡placed ¡in ¡chair, ¡stroller, ¡and ¡a ¡ crib, ¡with ¡bright ¡or ¡dim ¡ligh/ng ¡condi/ons ¡ • 9 ¡persons ¡interacted ¡with ¡the ¡baby ¡robot

  20. Collec/ng ¡data • Select ¡34 ¡posi/ve ¡examples ¡and ¡200 ¡nega/ve ¡ examples ¡for ¡training ¡(approx. ¡5 ¡min ¡34 ¡sec). ¡ The ¡rest ¡are ¡used ¡for ¡tes/ng ¡ • The ¡label ¡is ¡noisy

  21. Results • Evalua/on: ¡ 2-­‑Alterna/ve ¡Forced ¡Choice ¡Task ¡ (2AFC) ¡ • 86.17% ¡on ¡the ¡face ¡detec/on ¡task ¡( ¡i.e., ¡ deciding ¡which ¡of ¡two ¡images ¡contained ¡a ¡face) ¡ • 89.7% ¡correct ¡on ¡the ¡con/ngency ¡task ¡(i.e., ¡ deciding ¡which ¡of ¡two ¡images ¡was ¡more ¡likely ¡to ¡ be ¡associated ¡with ¡an ¡auditory ¡con/ngency) ¡ • 92.3 ¡% ¡correct ¡on ¡the ¡person ¡detec/on ¡task ¡ (i.e., ¡deciding ¡which ¡image ¡contained ¡a ¡person).

  22. Results • Examples ¡images ¡and ¡their ¡pixel-­‑wise ¡ probability ¡images

  23. Results • Infants ¡showed ¡a ¡significant ¡order ¡of ¡tracking ¡ preference ¡in ¡favor ¡the ¡face ¡s/mulus, ¡ followed ¡by ¡the ¡scrambled ¡s/mulus, ¡followed ¡ by ¡the ¡empty ¡s/mulus ¡ • The ¡robot ¡reproduce ¡the ¡ ¡ ¡ ¡ ¡preference ¡order

  24. • Video ¡usually ¡contains ¡more ¡data ¡for ¡object ¡ detector ¡training ¡ • There ¡is ¡a ¡domain ¡difference ¡between ¡video ¡ and ¡s/ll ¡image ¡ • So ¡“Analysing ¡domain ¡shiE ¡factors ¡between ¡ videos ¡and ¡images ¡for ¡object ¡detec/on” ¡is ¡ necessary

  25. Goal • For ¡a ¡given ¡target ¡test ¡domain ¡(image ¡or ¡ video), ¡the ¡performance ¡of ¡the ¡detector ¡ depends ¡on ¡the ¡domain ¡it ¡was ¡trained ¡on. ¡ ¡ • Examine ¡the ¡reasons ¡behind ¡this ¡performance ¡ gap. ¡ • Train ¡an ¡object ¡detector ¡with ¡samples ¡either ¡ from ¡s/ll ¡images ¡or ¡from ¡video ¡frames ¡and ¡ then ¡test ¡the ¡detector ¡on ¡both ¡domains.

  26. Dataset • S/ll ¡images ¡(VOC) ¡ • PASCAL ¡VOC ¡2007 ¡ • 10 ¡class ¡of ¡moving ¡objects ¡chosen

  27. Dataset • Video ¡frames ¡(VID) ¡ • YouTube-­‑Objects ¡dataset ¡ • 10 ¡classes ¡of ¡moving ¡objects ¡ • Further ¡annotated ¡a ¡few ¡images ¡to ¡make ¡the ¡ dataset ¡have ¡comparable ¡labels ¡with ¡VOC

  28. Equalizing ¡the ¡number ¡of ¡samples ¡per ¡ class • Equalize ¡the ¡training ¡samples ¡of ¡VOC ¡and ¡VID ¡ • 3097 ¡in ¡total ¡over ¡the ¡10 ¡classes ¡(Table. ¡1) ¡ • Only ¡the ¡equalized ¡training ¡sets ¡are ¡used ¡ • trainVOC ¡ • trainVID ¡

  29. Domain ¡shiE ¡factors • Spa/al ¡loca/on ¡accuracy: ¡accuracy ¡of ¡ bounding ¡box ¡ • Appearance ¡diversity: ¡consecu/ve ¡frames ¡in ¡ video ¡are ¡similar, ¡thus ¡less ¡diverse ¡ • Image ¡quality: ¡compression, ¡mo/on ¡blur ¡etc. ¡ in ¡video ¡images ¡ • Object ¡detector: ¡DPM

  30. Spa/al ¡loca/on ¡accuracy • Method ¡of ¡gedng ¡bounding ¡box ¡on ¡video: ¡ • PRE: ¡worst ¡ • FVS: ¡becer ¡ • Manual ¡label: ¡best

  31. Spa/al ¡loca/on ¡accuracy • Reduce ¡almost ¡4% ¡of ¡the ¡gap ¡(test ¡on ¡VOC)

  32. Spa/al ¡loca/on ¡accuracy • Equaliza/on: ¡using ¡the ¡ground ¡truth ¡(human ¡ labeled) ¡bounding ¡box ¡on ¡trainVID

  33. Appearance ¡diversity • Near ¡iden/cal ¡samples ¡of ¡an ¡object ¡in ¡video

  34. Appearance ¡diversity • Measure ¡diversity: ¡ • Clustering ¡(agglomera/ve ¡clustering, ¡L2 ¡ distance ¡of ¡HOG ¡features): ¡each ¡cluster ¡ contains ¡visually ¡very ¡similar ¡samples ¡ • Measure ¡appearance ¡diversity ¡by ¡coun/ng ¡the ¡ number ¡of ¡clusters ¡ • Equaliza/on: ¡resample ¡training ¡sets ¡so ¡the ¡ number ¡of ¡images ¡and ¡clusters ¡(of ¡trainVOC ¡ and ¡trainVID) ¡are ¡equal

  35. Appearance ¡diversity

Recommend


More recommend