on the fly specific person retrieval
play

On-the-fly Specific Person Retrieval Omkar M. Parkhi, - PowerPoint PPT Presentation

On-the-fly Specific Person Retrieval Omkar M. Parkhi, Andrea Vedaldi and Andrew Zisserman 24 th May 2012 University of Oxford Overview Textual Queries


  1. On-­‑the-­‑fly ¡Specific ¡Person ¡Retrieval ¡ Omkar ¡M. ¡Parkhi, ¡Andrea ¡Vedaldi ¡and ¡Andrew ¡Zisserman ¡ 24 th ¡May ¡2012 ¡ University ¡of ¡Oxford ¡

  2. Overview ¡ Textual ¡Queries ¡ Ranked ¡Shots ¡ Search ¡for: ¡ ¡ Large ¡collecQon ¡ People ¡ of ¡ ¡ “Barack ¡Obama” ¡ “George ¡Bush” ¡ un-­‑annotated ¡ “Courtney ¡Cox” ¡ videos ¡ ¡ On-­‑the-­‑fly ¡ i.e. ¡with ¡no ¡previous ¡knowledge ¡ or ¡model ¡for ¡these ¡queries ¡

  3. Scrubs ¡ Data ¡ Set ¡ • 12 Episodes from Seasons 1-5 and 8 • 5 hours of video data • About 400k frames, partitioned into 5k shots • About 300k near frontal face detections • 768 x 576 MPEG2 format

  4. Demo ¡ • Search for “Courteney Cox” in Scrubs dataset. • Steps: 1. Download example images from Google 2. Train a ranking function 3. Apply ranking function to video collection

  5. DEMO ¡

  6. Demo-­‑ ¡Scrubs ¡ Data ¡ Set ¡

  7. Demo-­‑ ¡Scrubs ¡ Data ¡ Set ¡

  8. On ¡the ¡fly ¡person ¡retrieval ¡system ¡ ON-LINE OFF-LINE Text Query PROCESSING PROCESSING “Courteney Cox” Negative Training Images Facial Features & Descriptors Facial Features & Descriptors Video Collection Google Image Search “Courteney Cox” Fast Linear Classifier Face Tracks Facial Features & Ranking Descriptors Results

  9. DetecQon ¡and ¡Tracking ¡ • Viola-­‑Jones ¡face ¡detecQon ¡on ¡each ¡frame ¡ • Tracking ¡measures ¡ “ connectedness ” ¡of ¡a ¡pair ¡of ¡faces ¡by ¡ point ¡tracks ¡intersecQng ¡both ¡ • Doesn ’ t ¡require ¡conQguous ¡detecQons ¡ • No ¡driX ¡ • Faces ¡clustered ¡into ¡tracks ¡ [Everingham ¡ et ¡al. ¡2006, ¡Apostoloff ¡& ¡Zisserman, ¡2007] ¡

  10. Scrubs ¡Data ¡Set ¡ • 12 Episodes from Seasons 1-5 and 8 • 5 hours of video data • About 400k frames, partitioned into 5k shots • 300k face detections • 6k face tracks • 768 x 576 MPEG2 format

  11. DetecQng ¡facial ¡feature ¡points ¡ • Pictorial structure model Joint ¡model ¡of ¡feature ¡appearance ¡and ¡posiQon ¡ • [Felzenszwalb and Huttenlocher’2004, Everingham ¡ et ¡al. ¡2006 ]

  12. Face ¡Appearance ¡RepresentaQon ¡ § Affine ¡transformaQon ¡of ¡face ¡to ¡canonical ¡frame ¡ § Independent ¡photometric ¡normalizaQon ¡of ¡parts ¡ § Represent ¡gradients ¡over ¡circle ¡centred ¡on ¡facial ¡feature ¡points ¡ § Feature ¡descriptor ¡is ¡a ¡3849 ¡dimensional ¡vector ¡ [ Everingham ¡ et ¡al. ¡2006 ]

  13. NegaQve ¡Training ¡Images ¡ • Combination of faces from • Random downloaded images • Labeled Faces in the Wild dataset • Caltech Faces dataset • About 16k face detections. Caltech ¡10, ¡000 ¡Web ¡Faces: ¡ h(p://www.vision.caltech.edu/Image_Datasets/Caltech_10K_WebFaces/ ¡ Labeled ¡Faces ¡in ¡the ¡Wild: ¡ h(p://vis-­‑www.cs.umass.edu/lfw/ ¡ ¡

  14. On-­‑the-­‑fly ¡Person ¡Retrieval ¡ ON-LINE OFF-LINE Text Query PROCESSING PROCESSING “Courteney Cox” Negative Training Images Facial Features & Descriptors Facial Features & Descriptors Video Collection Google Image Search “Courteney Cox” Fast Linear Classifier Face Tracks Facial Features & Ranking Descriptors Results

  15. DEMO ¡

  16. Demo-­‑ ¡Scrubs ¡ Data ¡ Set ¡

  17. TRECVid ¡2011 ¡(IACC.1.B) ¡ • About 200 hours of video data. • 8k videos. MPEG4, 320x240 pixels • 130k shots, • About 3 million face detections • 25,535 face tracks. •

  18. DEMO ¡

  19. Demo ¡-­‑ ¡TRECVid ¡2011 ¡(IACC.1.B) ¡ DEMO ¡

  20. Facial ¡ajributes ¡– ¡FaceTracer ¡project ¡ ¡ § Examples: ¡ § ¡ gender: ¡male, ¡female ¡ § ¡age: ¡baby, ¡child, ¡youth, ¡middle ¡age, ¡senior ¡ § ¡race: ¡white, ¡black, ¡asian ¡ § ¡smiling, ¡mustache, ¡eye-­‑wear, ¡hair ¡colour ¡ Method ¡ • ¡ person ¡independent ¡training ¡set ¡with ¡ajribute ¡ • ¡facial ¡feature ¡representaQon ¡ • ¡discriminaQve ¡training ¡of ¡classifier ¡for ¡ajribute ¡ ¡ N. ¡Kumar, ¡P. ¡N. ¡Belhumeur ¡and ¡S. ¡K. ¡Nayar, ¡ ¡ FaceTracer: ¡A ¡Search ¡Engine ¡for ¡Large ¡CollecQons ¡of ¡Images ¡with ¡Faces, ¡ European ¡Conference ¡on ¡Computer ¡Vision ¡(ECCV), ¡2010 ¡ h(p://www.cs.columbia.edu/CAVE/projects/face_search/ ¡

  21. DEMO ¡

  22. Facial ¡ajributes ¡– ¡Glasses ¡

  23. Facial ¡ajributes ¡– ¡Beard ¡ DEMO ¡

  24. Facial ¡ajributes ¡– ¡Eyes ¡Closed ¡

  25. QuanQtaQve ¡Performance ¡-­‑ ¡Scrubs ¡Dataset ¡ • Performance ¡evaluaQon ¡for ¡3 ¡guest ¡actors ¡(Brendan ¡Fraser, ¡Courteney ¡ Cox ¡and ¡Michael ¡J ¡Fox) ¡ • 12 ¡dataset ¡videos ¡split ¡into ¡training ¡and ¡test ¡sets ¡(3 ¡Training, ¡9 ¡TesQng) ¡ • AnnotaQons: ¡ • Manual ¡labeling ¡of ¡ ¡training ¡and ¡test ¡set ¡for ¡each ¡actor ¡ • Manual ¡labeling ¡of ¡posiQve ¡training ¡images ¡from ¡Google ¡ • NegaQve ¡training ¡images ¡from ¡Caltech ¡Faces ¡dataset. ¡ ¡

  26. QuanQtaQve ¡Performance ¡-­‑ ¡Scrubs ¡Dataset ¡ • ¡Retrieval ¡Average ¡Precision ¡(AP) ¡ 1 ¡ 0.9 ¡ 0.8 ¡ 0.7 ¡ 0.6 ¡ +ve=Scrubs ¡-­‑ve=Scrubs ¡ 0.5 ¡ +ve=Google ¡-­‑ve=Scrubs ¡ 0.4 ¡ +ve=Google ¡-­‑ve=Caltech ¡ 0.3 ¡ 0.2 ¡ 0.1 ¡ 0 ¡ Brendan ¡Fraser ¡ Courteney ¡Cox ¡ Michael ¡J ¡Fox ¡ Training Examples Source Average Precision Brendan Courteney Michael J Positive Negative Fraser Cox Fox Scrubs Scrubs 0.56 0.88 0.49 Google Scrubs 0.25 0.62 0.52 Google Caltech 0.41 0.56 0.57

  27. QuanQtaQve ¡Performance ¡-­‑ ¡Scrubs ¡Dataset ¡ • ¡Using ¡more ¡training ¡data ¡per ¡track ¡ 1 ¡ 0.9 ¡ 0.8 ¡ 0.7 ¡ +ve=Scrubs ¡-­‑ve=Scrubs ¡ 0.6 ¡ Single ¡ 0.5 ¡ 0.4 ¡ +ve=Scrubs ¡-­‑ve=Scrubs ¡ MulQple ¡ 0.3 ¡ 0.2 ¡ 0.1 ¡ 0 ¡ Brendan ¡Fraser ¡ Courteney ¡Cox ¡ Michael ¡J ¡Fox ¡ Training Examples Source # samples Average Precision per track Brendan Courteney Michael J Positive Negative Fraser Cox Fox Scrubs Scrubs Single 0.56 0.88 0.49 Scrubs Scrubs Multiple 0.6 0.88 0.53

  28. Future ¡Work ¡ • Exploring sources for positive examples • Better feature representations • Combination of attributes and identities

  29. § Any ¡QuesQons? ¡

Recommend


More recommend