Cees ¡Snoek ¡ 7/22/15 ¡ What ¡objects ¡tell ¡about ¡ac.ons ¡ Cees ¡Snoek ¡ ¡ Qualcomm ¡Technologies ¡ University ¡of ¡Amsterdam ¡ The ¡Netherlands ¡ Netherlands ¡B.V. ¡ Goal: ¡acFon ¡recogniFon ¡ Bowling ¡ Balance ¡Beam ¡ Blowing ¡Candles ¡ Hammering ¡ Brushing ¡Teeth ¡ Javelin ¡Throw ¡ Playing ¡Cello ¡ Nunchucks ¡ Mopping ¡Floor ¡ 1 ¡
Cees ¡Snoek ¡ 7/22/15 ¡ Dan ¡Oneata, ¡PhD ¡Thesis, ¡2015 ¡ AcFons: ¡state-‑of-‑the-‑art ¡ ¡ Camera ¡moFon ¡compensated ¡trajectories ¡ [Wang ¡ & ¡ Schmid, ¡ICCV13] ¡ ¡ ¡ ¡ ¡Local ¡descriptors: ¡HOG, ¡HOF, ¡MBH ¡ ¡ Fisher ¡vector ¡video ¡encoding ¡ [Perronnin ¡ et ¡al , ¡CVPR10] ¡ ¡ ¡ ¡ ¡Power ¡and ¡L2 ¡normalizaFon ¡on ¡PCA ¡reduced ¡vectors ¡ ¡ ¡ ¡ ¡Stacking ¡mulFple ¡layers ¡ [Peng ¡ et ¡al , ¡ECCV14] ¡ ¡ ¡ Mo#on ¡is ¡the ¡key ¡ingredient ¡in ¡modern ¡ac#on ¡recogni#on ¡ Deep ¡acFon ¡learning ¡ Two ¡stream ¡CNN ¡ Simonyan ¡& ¡Zisserman, ¡NIPS ¡2014 ¡ ¡ ¡ CNN ¡outputs ¡connected ¡to ¡LSTM ¡ Donahue ¡et ¡al., ¡CVPR ¡2015 ¡ ¡ ¡ Two ¡streams ¡and ¡LSTM ¡on ¡snippets ¡ Ng ¡et ¡al., ¡CVPR ¡2015 ¡ ¡ ¡ 2 ¡
Cees ¡Snoek ¡ 7/22/15 ¡ InspiraFon ¡from ¡language ¡acquisiFon ¡ Children ¡first ¡learn ¡nouns, ¡then ¡verbs. ¡ ¡ Nouns ¡provide ¡semanFc ¡and ¡syntacFc ¡frames ¡to ¡ aid ¡in ¡mapping ¡the ¡verb ¡to ¡its ¡meaning. ¡ ¡ Nouns ¡pave ¡the ¡way ¡for ¡learning ¡verbs? ¡ Gentner ¡& ¡Boroditsky, ¡2009 ¡ PRELUDE: ¡OBJECTS ¡ 3 ¡
Cees ¡Snoek ¡ 7/22/15 ¡ www.image-‑net.org ¡ Learning ¡nouns ¡from ¡ImageNet ¡ WordNet ¡for ¡images ¡ ¡ 14M ¡images ¡for ¡21K ¡synsets ¡ ¡ Yearly ¡ImageNet ¡compeFFon ¡ ¡ ¡AutomaFcally ¡label ¡1.4M ¡images ¡with ¡1K ¡objects ¡ ¡Measure ¡top-‑5 ¡classificaFon ¡error ¡ Output ¡ Output ¡ Scale ¡ Scale ¡ T-‑shirt ¡ ✔ ¡ T-‑shirt ¡ ✗ ¡ Steel ¡drum ¡ Giant ¡panda ¡ DrumsFck ¡ DrumsFck ¡ Mud ¡turtle ¡ Mud ¡turtle ¡ Slide ¡credit: ¡Andrej ¡Karpathy ¡ Objects: ¡state-‑of-‑the-‑art ¡ Year ¡2010 ¡ Year ¡2012 ¡ Year ¡2014 ¡ Krizhevsky ¡ et ¡al. ¡NIPS12 ¡ Simonyan ¡ et ¡al. ¡ICLR15 ¡ Lin ¡ et ¡al. ¡ CVPR11 ¡ Szegedy ¡ et ¡al. ¡CVPR15 ¡ 4 ¡
Cees ¡Snoek ¡ 7/22/15 ¡ Progress ¡in ¡ImageNet ¡ ¡ ¡ ¡ ¡ Human ¡error ¡ ¡ ¡ Machine ¡makes ¡less ¡mistakes ¡than ¡human ¡ Progress ¡in ¡TRECVID ¡ Mean ¡average ¡precision ¡ ¡ ¡ ¡ ¡ ¡ ¡ 2006 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡2009 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡2015 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ Generalizes ¡well ¡for ¡video ¡classifica#on ¡ 5 ¡
Cees ¡Snoek ¡ 7/22/15 ¡ Outline ¡ Supervised ¡ac.on ¡recogni.on ¡ Unsupervised ¡ac.on ¡recogni.on ¡ ContribuFon ¡ Empirical ¡study ¡on ¡the ¡benefit ¡of ¡having ¡ objects ¡ ¡ in ¡the ¡video ¡representaFon ¡for ¡acFon ¡recogniFon. ¡ Mihir ¡Jain ¡ Jan ¡van ¡Gemert ¡ What ¡do ¡15,000 ¡object ¡categories ¡tell ¡us ¡about ¡classifying ¡and ¡localizing ¡acFons? ¡ ¡ Mihir ¡Jain, ¡Jan ¡van ¡Gemert , ¡and ¡Cees ¡Snoek . ¡In ¡ CVPR ¡2015. ¡ 6 ¡
Cees ¡Snoek ¡ 7/22/15 ¡ 6 ¡video ¡datasets ¡with ¡180 ¡acFons ¡ 101 ¡classes ¡/ ¡13,320 ¡clips ¡/ ¡web ¡video ¡ ¡ UCF101 ¡ THUMOS14 ¡ 101 ¡classes ¡/ ¡15,915 ¡clips ¡/ ¡web ¡video ¡ ¡ Hollywood2 ¡ 12 ¡classes ¡/ ¡1,707 ¡clips ¡/ ¡movies ¡ 51 ¡classes ¡/ ¡6,766 ¡clips ¡/ ¡diverse ¡video ¡ HMDB51 ¡ UCF ¡Sports ¡ 10 ¡classes ¡/ ¡150 ¡clips ¡/ ¡sports ¡broadcasts ¡ ¡ 6 ¡classes ¡by ¡25 ¡actors ¡ KTH ¡ Encoding ¡video ¡by ¡15,000 ¡objects ¡ Krizhevsky-‑style ¡cuda-‑convnet ¡with ¡dropout ¡ [NIPS12] ¡ ¡ ¡ ¡ ¡ ConvoluFonal ¡neural ¡network ¡with ¡8 ¡layers ¡with ¡weights ¡ ¡ ¡ ¡ ¡Trained ¡using ¡error ¡back ¡propagaFon ¡ ¡ ¡ ¡ ¡Learns ¡from ¡annotaFons ¡for ¡15,000 ¡ImageNet ¡object ¡categories ¡ ¡ ¡ ¡ ¡Average ¡pooling ¡over ¡video ¡frames ¡ 15k ¡ ¡ ¡ ¡ ¡ ¡15k ¡ 7 ¡
Cees ¡Snoek ¡ 7/22/15 ¡ Experiment ¡1 ¡ OBJECTS: ¡WHAT ¡AND ¡WHERE? ¡ What ¡objects ¡emerge ¡in ¡acFons? ¡ Bodyweight ¡squats ¡ Playing ¡Cello ¡ Typing ¡ 8 ¡
Cees ¡Snoek ¡ 7/22/15 ¡ Object ¡responses ¡per ¡acFon ¡ accompanist,accompanyist acrobatics,tumbling badminton court barbell 7 bench press blackboard,chalkboard bowling alley chinning bar 6 cliff diving cuticle executant floor cover,floor covering 5 foil garage,service department goalmouth 4 golf,golf game hairdresser,hairstylist,stylist,styler high jump kayak 3 laminate nonsmoker professional baseball raft 2 rowing,row royal tennis,real tennis,court tennis surfing,surfboarding,surfriding swimming,swim 1 trampoline violist volleyball,volleyball game water − skiing PizzaTossing TaiChi TrampolineJumping VolleyballSpiking ApplyEyeMakeup BabyCrawling BaseballPitch BenchPress BlowDryHair Bowling BreastStroke CliffDiving CuttingInKitchen Fencing FrisbeeCatch Haircut HandstandPushups HighJump HulaHoop JugglingBalls Kayaking Lunges MoppingFloor PlayingDhol PlayingPiano PlayingViolin PullUps Rafting Rowing Shotput Skijet SoccerPenalty Surfing WritingOnBoard Object ¡responses ¡seem ¡to ¡make ¡sense ¡for ¡most ¡ac#ons ¡ Objects ¡aid ¡acFon ¡classificaFon? ¡ ¡ 1 0 1 F C U ¡ l a v ¡ 4 1 S O M U H T ¡ H T K 0.00 ¡ 10.00 ¡ 20.00 ¡ 30.00 ¡ 40.00 ¡ 50.00 ¡ 60.00 ¡ 70.00 ¡ 80.00 ¡ 90.00 ¡ 100.00 ¡ Objects ¡ MoFon ¡ Objects+MoFon ¡ Objects ¡combined ¡with ¡mo#on ¡always ¡improve ¡accuracy ¡ 9 ¡
Cees ¡Snoek ¡ 7/22/15 ¡ MoFon ¡reliant ¡acFons ¡ Jumping ¡Jack ¡ Hula ¡Hoop ¡ Wall ¡Pushups ¡ Tai ¡Chi ¡ Uneven ¡Bars ¡ Jump ¡Rope ¡ Trampoline ¡Jumping ¡ Lunges ¡ Boxing ¡Speed ¡Bag ¡ Bodyweight ¡Squats ¡ Pull ¡Ups ¡ Military ¡Parade ¡ Object ¡related ¡acFons ¡ Baseball ¡Pitch ¡ Breast ¡Stroke ¡ Playing ¡Piano ¡ Billiards ¡ Soccer ¡Penalty ¡ Frisbee ¡Catch ¡ Head ¡Massage ¡ Mixing ¡ Cukng ¡in ¡Kitchen ¡ Sumo ¡Wrestling ¡ Rock ¡Climbing ¡Indoor ¡ Archery ¡ 10 ¡
Cees ¡Snoek ¡ 7/22/15 ¡ Where ¡do ¡objects ¡aid ¡most? ¡ ¡ ¡ ¡ ¡ ¡ We ¡consider ¡three ¡encodings ¡ ¡ ¡ ¡Whole ¡video ¡ ¡ ¡ ¡Outside ¡tube ¡ ¡ ¡ ¡Inside ¡tube ¡ AnimaFon ¡credit: ¡Jan ¡van ¡Gemert ¡ Where ¡do ¡objects ¡aid ¡most? ¡ 100.00 ¡ 90.00 ¡ 80.00 ¡ 70.00 ¡ 60.00 ¡ 50.00 ¡ 40.00 ¡ 30.00 ¡ 20.00 ¡ 10.00 ¡ 0.00 ¡ Whole ¡video ¡ Outside ¡tube ¡ Inside ¡tube ¡ Objects ¡aid ¡most ¡close ¡to ¡and ¡involved ¡in ¡the ¡ac#on ¡ 11 ¡
Cees ¡Snoek ¡ 7/22/15 ¡ Experiment ¡2 ¡ OBJECTS: ¡SELECT ¡AND ¡GENERALIZE? ¡ AcFons ¡have ¡object ¡preference ¡ 0.7 mAP on THUMOS14 validation 0.6 0.5 0.4 0.3 0.2 Object preference Object avoidance 0.1 Object preference + motion Object avoidance + motion 0 1 10 100 1k 10k Number ¡of ¡objects ¡selected ¡ 1 + Γ (R) (number of objects selected) 12 ¡
Recommend
More recommend