c faloutsos
play

. ( - PowerPoint PPT Presentation

. ( C. Faloutsos)


  1. Αρχές Βάσεων Δεδομένων Β . Μεγαλοοικονόμου Δεικτοδότηση Πολυμέσων ( κάποιες διαφάνειες βασίζονται σε σημειώσεις του C. Faloutsos)

  2. Γενική Θεώρηση � Σχεσιακό μοντέλο – SQL, σχεδιασμός ΒΔ � Δεικτοδότηση , Q-opt, Επεξεργασία δοσοληψιών � Προχωρημένα θέματα � Κατανεμημένες Βάσεις � RAID � Authorization / Stat. DB � Spatial Access Methods � Δεικτοδότηση Πολυμέσων

  3. Πολυμέσα - λεπτομερώς � Πολυμέσα � Motivation / ορισμός προβλήματος � Κύρια ιδέα / time sequences � εικόνες � sub-pattern matching � Αυτόματη εξαγωγή χαρακτηριστικών / FastMap

  4. Πρόβλημα Δοθείσας μίας μεγάλης συλλογής ( πολυμεσικών ) εγγραφών ( πχ . μετοχές ) Επιτρέπει γρήγορα , ερωτήματα ομοιότητας

  5. Εφαρμογές � time series: χρηματοιοκονομικά , marketing (click-streams!), ECGs, ήχος ; � εικόνες : ιατρική , ψηφιακές βιβλιοθήκες , εκπαίδευση , τέχνη � higher-d σήματα : επιστημονικές ΒΔ ( πχ ., αστροφυσική ), ιατρική (MRI ακτινογραφίες ), ψυχαγωγία (video)

  6. Παραδείγματα Ερωτημάτων � Βρες ιατρικές υποθέσεις παρόμοιες και του κ . Παπαδόπουλου � Βρες ζεύγη μετοχών που κινούνται με συγχρονισμό � Βρες ζεύγη εγγράφων που είναι παρόμοια ( λογοκλοπία ;) � Βρες πρόσωπα παρόμοια με του ‘Tiger Woods’

  7. Λεπτομ . ορισμός προβλήματος : Πρόβλημα : � δοθείσας μιας συλλογής πολυμεσικών αντικειμένων , � βρες αυτά που είναι παρόμοια με ένα επιθυμητό αντικείμενο - ερώτημα � για παράδειγμα :

  8. τιμή τιμή 1 365 μέρα τιμή 1 365 μέρα συνάρτηση απόστασης : από ειδικό 1 365 ( πχ , Ευκλείδεια απόσταση ) μέρα

  9. Τύποι ερωτημάτων � Ολική ταύτιση εν . sub-pattern match � ερωτήματα εύρους εν . πλησιέστερων γειτόνων � όλα τα ζεύγη ερώτημα

  10. Στόχοι σχεδίου � Γρήγορα ( γρηγορότερα από σειρ . αναζήτηση ) � ‘ ορθό ’ ( πχ ., όχι ψεύτικοι συναγερμοί , όχι λάθος απορρίψεις )

  11. Πολυμέσα - λεπτομερώς � Πολυμέσα � Motivation / ορισμός προβλήματος � Κύρια ιδέα / time sequences � εικόνες � sub-pattern matching � Αυτόματη εξαγωγή χαρακτηριστικών / FastMap

  12. Κεντρική ιδέα � Πχ ., χρονικές ακολουθίες , ‘ ολική ταύτιση ’, ερωτήματα εύρους , Ευκλείδεια απόσταση τιμή τιμή 1 365 μέρα τιμή 1 365 μέρα 1 365 μέρα

  13. Κεντρική ιδέα � Η ακολουθιακή αναζήτηση δουλεύει – πώς γίνεται γρηγορότερα ;

  14. Ιδέα : ‘GEMINI’ (GEneric Multimedia INdexIng) Εξήγαγε μερικά αριθμητικά χαρακτηριστικά , για ‘ γρήγορο και πρόχειρο ’ έλεγχο

  15. ‘GEMINI’ - Παραστατικά πχ ,. std S1 F(S1) 1 365 μέρα F(Sn) Sn πχ , avg 1 365 μέρα

  16. GEMINI Λύση : ‘ Γρήγορο - και - πρόχειρο ' φίλτρο : � εξήγαγε n χαρακτηριστικά ( αριθμούς , πχ ., avg., κτλ .) � πρόβαλε σε ένα σημείο στο n -d χώρο χαρακτηριστικών � οργάνωσε τα σημεία με έτοιμη spatial access μέθοδο (‘SAM’) � Απόρριξε false alarms

  17. GEMINI Σημαντικό : Ε : πώς να εγγυηθεί απουσία ψευδών απορρίψεων ; A1: διατήρηση αποστάσεων ( αλλά : δύσκολο / ακατόρθωτο ) A2: Lower-bounding λήμμα : αν η αποτύπωση ‘ κάνει τα πράματα να εγγύτερα ’, τότε δεν υπάρχουν ψευδείς απορρίψεις

  18. GEMINI Σημαντικό : Q: how to extract features? A: “ if I have only one number to describe my object, what should this be ?”

  19. Time sequences Q: what features?

  20. Time sequences Q: what features? A: Fourier coefficients (we’ll see them in detail soon)

  21. Time sequences white noise brown noise Fourier spectrum ... in log-log

  22. Time sequences � Eg.:

  23. Time sequences � conclusion: colored noises are well approximated by their first few Fourier coefficients � colored noises appear in nature:

  24. Time sequences � brown noise: stock prices (1/f 2 energy spectrum) � pink noise: works of art (1/f spectrum) � black noises: water reservoirs (1/f b , b>2) � (slope: related to ‘Hurst exponent’, for self-similar traffic, like, eg. Ethernet/web [Schroeder], [Leland+]

  25. Time sequences - results � keep the first 2-3 Fourier coefficients � faster than seq. scan � NO false dismissals (see book) total time cleanup-time r-tree time # coeff. kept

  26. Time sequences - improvements: � improvements/variations: [Kanellakis+Goldin], [Mendelzon+Rafiei] � could use Wavelets, or DCT � could use segment averages [Yi+2000]

  27. Multimedia - Detailed outline � multimedia � Motivation / problem definition � Main idea / time sequences � images (color, shapes) � sub-pattern matching � automatic feature extraction / FastMap

  28. Images - color what is an image? A: 2-d array

  29. Images - color Color histograms, and distance function

  30. Images - color Mathematically, the distance function is:

  31. Images - color Problem: ‘cross-talk’: � Features are not orthogonal -> � SAMs will not work properly � Q: what to do? � A: feature-extraction question

  32. Images - color possible answers: � avg red, avg green, avg blue it turns out that this lower-bounds the histogram distance -> � no cross-talk � SAMs are applicable

  33. Images - color time performance: seq scan w/ avg RGB selectivity

  34. Multimedia - Detailed outline � multimedia � Motivation / problem definition � Main idea / time sequences � images (color; shape) � sub-pattern matching � automatic feature extraction / FastMap

  35. Images - shapes � distance function: Euclidean, on the area, perimeter, and 20 ‘moments’ � (Q: how to normalize them?

  36. Images - shapes � distance function: Euclidean, on the area, perimeter, and 20 ‘moments’ � (Q: how to normalize them? A: divide by standard deviation) �

  37. Images - shapes � distance function: Euclidean, on the area, perimeter, and 20 ‘moments’ � (Q: other ‘features’ / distance functions?

  38. Images - shapes � distance function: Euclidean, on the area, perimeter, and 20 ‘moments’ � (Q: other ‘features’ / distance functions? A1: turning angle � A2: dilations/erosions � A3: ... ) �

  39. Images - shapes � distance function: Euclidean, on the area, perimeter, and 20 ‘moments’ � Q: how to do dim. reduction?

  40. Images - shapes � distance function: Euclidean, on the area, perimeter, and 20 ‘moments’ � Q: how to do dim. reduction? � A: Karhunen-Loeve (= centered PCA/SVD)

  41. Images - shapes � Performance: ~10x faster log(# of I/Os) all kept # of features kept

  42. Case study: Informedia � Video database system, developed at CMU � 2+ TB of video data (broadcast news) � retrieval by text, image and face similarity www.informedia.cs.cmu.edu/

  43. Case study: Informedia � next foils: visualization features � by space � by time � by concept

  44. • geo mapping • automatic place recognition • ambiguity resol. + • lookup

  45. time line

  46. concept space

  47. Multimedia - Detailed outline � multimedia � Motivation / problem definition � Main idea / time sequences � images (color; shape) � sub-pattern matching � automatic feature extraction / FastMap

  48. Sub-pattern matching � Problem: find sub -sequences that match the given query pattern

  49. $price $price 1 400 day $price 1 365 30 day 1 300 day

  50. Sub-pattern matching � Q: how to proceed? � Hint: try to turn it into a ‘whole-matching’ problem (how?)

  51. Sub-pattern matching � Assume that queries have minimum duration w; (eg., w =7 days) � divide data sequences into windows of width w (overlapping, or not?)

  52. Sub-pattern matching � Assume that queries have minimum duration w; (eg., w =7 days) � divide data sequences into windows of width w (overlapping, or not?) � A: sliding, overlapping windows. Thus: trails Pictorially:

Recommend


More recommend