telefonica research mul1modal video copy detec1on
play

Telefonica Research Mul1modal Video copy detec1on Xavier - PowerPoint PPT Presentation

Telefonica Research Mul1modal Video copy detec1on Xavier Anguera, Tomasz Adamek and Ehsan Younessian* *School of Computer Engineering, Nanyang Technology Univ.,


  1. Telefonica ¡Research ¡ Mul1modal ¡Video ¡copy ¡detec1on ¡ Xavier ¡Anguera, ¡Tomasz ¡Adamek ¡and ¡ Ehsan ¡Younessian* ¡ *School ¡of ¡Computer ¡Engineering, ¡Nanyang ¡Technology ¡ Univ., ¡Singapore, ¡Singapore ¡

  2. Who ¡we ¡are? ¡ Telefónica ¡Research ¡is ¡the ¡innova1on ¡company ¡of ¡ • the ¡Telefónica ¡Group ¡ Telefónica ¡Research ¡is ¡the ¡largest ¡private ¡R&D ¡ • centre ¡in ¡Spain ¡ ¡ Telefónica ¡is ¡one ¡of ¡the ¡world’s ¡largest ¡ • telecommunica1ons ¡companies ¡by ¡market ¡cap ¡ – operates ¡in ¡25 ¡countries ¡ – customer ¡base ¡277.8 ¡million ¡

  3. Mul1modal ¡Video ¡Copy ¡detec1on ¡ Video ¡query ¡ Features ¡extrac1on ¡ and ¡indexing ¡ Audio ¡ Video ¡ ref. ¡ ref. ¡ Audio-­‑only ¡ Video-­‑only ¡ system ¡ system ¡ Ranking ¡& ¡relevance ¡ fusion ¡ Audio-­‑ Video-­‑ Mul1modal only ¡ only ¡ results ¡ results ¡ results ¡

  4. Video-­‑based ¡block ¡diagram ¡ Local ¡features ¡extrac1on ¡ Video ¡query ¡ Inserted ¡sta1c ¡ Key-­‑frame ¡ DART ¡ text ¡& ¡banners ¡ extrac1on ¡ extrac1on ¡ filtering ¡ Sub1tle ¡ Temporal ¡stability ¡& ¡ Key-­‑frame ¡ filtering ¡ scale ¡filtering ¡ matching ¡ ¡ Ref. ¡Video ¡ indexing ¡info. ¡ Matched ¡video ¡ segments ¡ Temporal ¡ consistency ¡ ¡ post-­‑processing ¡

  5. DART* ¡local ¡features ¡(advantages) ¡ • Superior ¡to ¡SIFT ¡or ¡SURF ¡ – good ¡repeatability ¡of ¡key-­‑points ¡ – precision ¡vs. ¡recall ¡ • A^rac1ve ¡for ¡the ¡video ¡copy ¡detec1on ¡task: ¡ – very ¡low ¡computa1onal ¡cost ¡ • 6x ¡faster ¡that ¡SIFT ¡and ¡3x ¡faster ¡than ¡SURF ¡ – compact ¡descriptor ¡ • only ¡68 ¡components ¡ * ¡D. ¡Marimon, ¡A. ¡Bonnin, ¡T. ¡Adamek, ¡and ¡R ¡.Gimeno, ¡“DARTs:Efficient ¡scale-­‑space ¡ extrac1on ¡of ¡daisy ¡key-­‑points”, ¡CVPR ¡2009. ¡

  6. DART: ¡key-­‑point ¡selec1on ¡ • Efficient ¡computa1on ¡of ¡the ¡scale-­‑space ¡using ¡piece-­‑ wise ¡triangle ¡filters* ¡ Approxima1on ¡of ¡the ¡2nd ¡ 2D ¡triangle-­‑shaped ¡kernel ¡ deriva1ve ¡of ¡Gaussian ¡ ¡ • Informa1on ¡reused ¡for ¡key-­‑points ¡orienta1on ¡ assignment ¡and ¡descrip1on ¡computa1on ¡ * ¡P. ¡Heckbert, ¡“Filtering ¡by ¡repeated ¡integra1on” ¡SIGGRAPH ¡1986 ¡

  7. DART: ¡key-­‑point ¡descrip1on ¡ • DAISY*-­‑like ¡descriptor ¡ • Layout: ¡ – 2 ¡rings, ¡each ¡with ¡8 ¡segments ¡ • Each ¡segment ¡represented ¡by ¡four ¡ values: ¡ – {|∂x ¡|−∂x; ¡|∂x ¡|+∂x; ¡|∂y|−∂y; ¡|∂y|+∂y} ¡ – (1 ¡+ ¡2x8) ¡x ¡4 ¡= ¡68 ¡components ¡ • Segments ¡overlap ¡ • Re-­‑grouping ¡near ¡samples ¡into ¡a ¡single ¡sample ¡ * ¡S. ¡Winder, ¡G. ¡Hua, ¡and ¡M. ¡Brown, ¡“Picking ¡the ¡best ¡daisy”, ¡CVPR ¡2009. ¡

  8. Inserted ¡sta1c ¡text ¡and ¡banner ¡ detec1on ¡ • Sliding ¡a ¡temporal ¡window ¡of ¡15 ¡key-­‑frames ¡ • Detec1on ¡of ¡pixels ¡with ¡zero ¡standard ¡ devia1on ¡intensity ¡ • Morphological ¡filtering ¡used ¡to ¡fill ¡out ¡holes ¡ • Designed ¡for ¡longer ¡videos ¡with ¡mul1ple ¡shots ¡ – Problema1c ¡with ¡short ¡videos ¡with ¡sta1c ¡scenes ¡

  9. Sub1tles ¡detec1on ¡ • Detec1ng ¡spa1al ¡regions ¡with ¡high ¡density ¡of ¡ ver1cal ¡edges ¡ • Ver1cal ¡edges ¡computed ¡using ¡Sobel ¡operator ¡ • Edge ¡density ¡computed ¡within ¡a ¡sliding ¡ window ¡ • Morphological ¡filtering ¡filling ¡out ¡holes ¡ between ¡le^ers ¡

  10. Key-­‑point ¡scale ¡& ¡temporal ¡filtering ¡(1/2) ¡ • Key-­‑point ¡number ¡limits: ¡ – Queries: ¡1200 ¡KPs ¡ – Reference: ¡400 ¡KPs ¡ • Not ¡all ¡key-­‑points ¡are ¡equally ¡useful: ¡ – Key-­‑points ¡extracted ¡at ¡higher ¡scales ¡are ¡given ¡ more ¡importance ¡ – Favoring ¡temporarily ¡stable ¡key-­‑points ¡ • Key-­‑point ¡trail ¡length ¡

  11. Key-­‑point ¡scale ¡& ¡temporal ¡filtering ¡(2/2) ¡ PREVIOUS ¡FRAME ¡ CURRENT ¡FRAME ¡ NEXT ¡FRAME ¡ 1 ¡ 1 ¡ 1 ¡ 2 ¡

  12. Ref. ¡key-­‑frame ¡indexing ¡ DART ¡ key-­‑points ¡ Visual ¡Word ¡ Dic1onary ¡ Mapping ¡ Ref. ¡keyframes ¡ Feature ¡ key-­‑points ¡to ¡ extrac1on ¡ Visual ¡Words ¡ 100K ¡VWs ¡ Key-­‑points ¡ represented ¡with ¡ VW ¡IDs ¡ Adding ¡hits ¡to ¡ inverted ¡file ¡ structure ¡ Hits ¡

  13. Query ¡key-­‑frame ¡matching ¡ DART ¡ key-­‑points ¡ Visual ¡Word ¡ Dic1onary ¡ Mapping ¡ Query ¡key-­‑frames ¡ Feature ¡ key-­‑points ¡to ¡ extrac1on ¡ Visual ¡Words ¡ 100K ¡VWs ¡ Key-­‑point ¡VW ¡IDs ¡ Vo1ng ¡in ¡the ¡ reduced ¡pose ¡ space ¡ Full ¡spa1al ¡ consistency ¡ verifica1on ¡ 250 ¡top ¡ranked ¡ Selec1on ¡of ¡ ref. ¡key-­‑frames ¡ relevant ¡ ¡ ref. ¡key-­‑frames ¡

  14. Matching ¡keyframes ¡temporal ¡consistency ¡ ¡ Matching ¡ Ref ¡keyframe ¡ ¡ Matching ¡ reference ¡ Matching ¡ t r ¡ reference ¡ keyframes ¡ Matching ¡ Δt=t r -­‑t q ¡ reference ¡ keyframes ¡ Matching ¡ reference ¡ keyframes ¡ Matching ¡ reference ¡ Query ¡keyframe ¡ ¡ keyframes ¡ reference ¡ keyframes ¡ t q ¡ -­‑Nq ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡0 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Nq ¡ keyframes ¡ Δt ¡ • Query ¡start-­‑end ¡frames ¡ ±10s ¡ • Reference ¡start-­‑end ¡frames ¡ Step ¡1: ¡insert ¡all ¡matches ¡into ¡a ¡histogram ¡based ¡on ¡rela1ve ¡1mes ¡ and ¡select ¡the ¡20 ¡biggest ¡matches ¡

  15. Matching ¡keyframes ¡temporal ¡consistency ¡ ¡ Step ¡2: ¡compute ¡an ¡output ¡score ¡as ¡the ¡density ¡ of ¡matches ¡along ¡a ¡10s ¡window ¡ ¡ ¡ Foreach ¡matching ¡video ¡(out ¡of ¡20): ¡ query ¡video ¡ Matching ¡ ¡ Moving ¡average ¡ Matching ¡ ¡ Segment ¡end ¡ segment ¡start ¡ 1 ¡ 0.8 ¡ 0.6 ¡ 0.4 ¡ 1 ¡ 3 ¡ 5 ¡ 7 ¡ 9 ¡ 11 ¡ 13 ¡ 15 ¡ 17 ¡ 19 ¡ 21 ¡ 23 ¡ 25 ¡ 27 ¡ 29 ¡ 31 ¡ 33 ¡ 35 ¡ 37 ¡ Final ¡video ¡score ¡

  16. Audio-­‑based ¡system ¡blocks ¡diagram ¡ Reference ¡video/s ¡ Fingerprint ¡ extrac1on ¡ Query ¡video ¡ Fingerprint ¡ hashing ¡ Matching ¡ Fingerprint ¡ Deltas ¡histogram ¡ algorithm ¡ extrac1on ¡ Main ¡peak ¡ selec1on ¡ • [0,1] ¡score ¡ Matching ¡ • Query ¡start-­‑end ¡frames ¡ density ¡ • Reference ¡start-­‑end ¡frames ¡

  17. Acous1c ¡fingerprint ¡extrac1on* ¡ 1) ¡Audio ¡track ¡extrac1on ¡using ¡FFMPEG ¡ *T. ¡Kalker ¡and ¡J. ¡Haitsma. ¡A ¡highly ¡robust ¡audio ¡finger-­‑ ¡prin1ng ¡system. ¡In ¡ Proceedings ¡of ¡ ISMIR’2002 , ¡pages ¡144–148, ¡2002. ¡

  18. Acous1c ¡fingerprint ¡extrac1on ¡ 1) ¡Audio ¡track ¡extrac1on ¡using ¡FFMPEG ¡ 10ms ¡ 2) ¡FFT, ¡bandwidth ¡ limited ¡to ¡ 300-­‑3KHz ¡ 17 ¡MEL-­‑spectrum ¡bands ¡

  19. Acous1c ¡fingerprint ¡extrac1on ¡ 1) ¡Audio ¡track ¡extrac1on ¡using ¡FFMPEG ¡ 10ms ¡ 2) ¡FFT, ¡bandwidth ¡ limited ¡to ¡ 0 ¡ # 300-­‑3KHz ¡ 0 iif E i ! E i " 1 1 ¡ % 0 ¡ X [ i ] = $ 0 ¡ 1 otherwise % 1 ¡ & 0 ¡ 0 ¡ 0 ¡ 3) ¡Con1guous ¡ 0 ¡ 1 ¡ bands ¡energy ¡ 1 ¡ 0 ¡ 1 ¡ comparison ¡ 0 ¡ 0 ¡ 1 ¡ 16bits ¡ 17 ¡MEL-­‑spectrum ¡bands ¡

Recommend


More recommend