spa o textual similarity joins
play

Spa$o-Textual Similarity Joins Panagio$s Bouros 1,2 , Shen Ge - PowerPoint PPT Presentation

Spa$o-Textual Similarity Joins Panagio$s Bouros 1,2 , Shen Ge 1 , Nikos Mamoulis 1 1 University of Hong Kong 2 Humboldt-Universitt zu Berlin 39 th Interna$onal


  1. Spa$o-­‑Textual ¡Similarity ¡Joins ¡ Panagio$s ¡Bouros 1,2 , ¡Shen ¡Ge 1 , ¡Nikos ¡Mamoulis 1 ¡ 1 ¡University ¡of ¡Hong ¡Kong ¡ 2 ¡ Humboldt-­‑Universität ¡zu ¡Berlin ¡ 39 th ¡Interna$onal ¡Conference ¡on ¡Very ¡Large ¡Data ¡Bases ¡ August ¡29, ¡2013 ¡

  2. Complex ¡data ¡ • Data ¡are ¡becoming ¡more ¡complex ¡ – FLICKR, ¡Foursquare, ¡TwiWer, ¡Facebook… ¡ • Spa$al ¡loca$ons ¡ • Textual ¡descrip$on ¡ • Timestamps ¡ • Connec$vity ¡informa$on ¡(social) ¡ – Emerging ¡geo-­‑scien$fic ¡fields, ¡oceanography, ¡seismology ¡ • Numerical ¡aWributes ¡(measurements) ¡ • Challenges ¡for ¡new ¡complex ¡queries ¡ – Research ¡and ¡industry, ¡space ¡as ¡another ¡dimension ¡for ¡set-­‑ value ¡data ¡ 39 th ¡Interna$onal ¡Conference ¡on ¡Very ¡Large ¡Data ¡Bases ¡ August ¡29, ¡2013 ¡

  3. Mo$va$on ¡examples ¡ {sports,bar} ¡ {gardering} ¡ {bridge} ¡ {bridge} ¡ {music,theatre} ¡ {gardering,shop} ¡ {music,shop} ¡ {theatre,sports} ¡ {music} ¡ {sports,music} ¡ {bridge} ¡ • Social ¡recommenda$on ¡ • Data ¡de-­‑duplica$on ¡ • Match ¡men ¡and ¡women ¡ • Find ¡FLICKR ¡duplicates ¡ • Spa$al ¡loca$ons ¡ • Spa$al ¡loca$ons ¡ • Interests ¡ • Tags ¡descrip$on ¡ 39 th ¡Interna$onal ¡Conference ¡on ¡Very ¡Large ¡Data ¡Bases ¡ August ¡29, ¡2013 ¡

  4. Problem ¡defini$on ¡ • Spa$o-­‑textual ¡objects ¡ ¡ o ( id , loc , text ) • ST-­‑SJOIN(R,S,ε,θ) ¡ – Pair ¡of ¡objects ¡close ¡in ¡space ¡with ¡similar ¡textual ¡ descrip$on ¡ – Euclidean ¡spa$al ¡distance ¡ dist l ( r , s ) = dist ( r . loc , s . loc ) – Jaccard ¡textual ¡similarity ¡ sim t ( r , s ) = | r . text  s . text | | r . text  s . text | – Subset ¡of ¡R ¡x ¡S ¡with ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡and ¡ ¡ ¡ ¡ dist l ( r , s ) ≤ ε sim t ( r , s ) ≥ θ 39 th ¡Interna$onal ¡Conference ¡on ¡Very ¡Large ¡Data ¡Bases ¡ August ¡29, ¡2013 ¡

  5. Problem ¡defini$on ¡(cont’d) ¡ ST-­‑SJOIN(R, ¡R, ¡ε ¡= ¡0.2, ¡θ ¡= ¡0.7) ¡ x 1 {B,C} x 6 {C,D,E,F} x 2 {E,F} x 7 {A,B,C,D,F} x 3 {D,E,F} x 8 {A,B,D,E,F} x 4 {A,B,E,F} x 9 {A,B,C,D,E} x 5 {C,D,E,F} 39 th ¡Interna$onal ¡Conference ¡on ¡Very ¡Large ¡Data ¡Bases ¡ August ¡29, ¡2013 ¡

  6. Problem ¡defini$on ¡(cont’d) ¡ ST-­‑SJOIN(R, ¡R, ¡ε ¡= ¡0.2, ¡θ ¡= ¡0.7) ¡ x 1 {B,C} x 6 {C,D,E,F} x 2 {E,F} x 7 {A,B,C,D,F} x 3 {D,E,F} x 8 {A,B,D,E,F} x 4 {A,B,E,F} x 9 {A,B,C,D,E} x 5 {C,D,E,F} 39 th ¡Interna$onal ¡Conference ¡on ¡Very ¡Large ¡Data ¡Bases ¡ August ¡29, ¡2013 ¡

  7. Problem ¡defini$on ¡(cont’d) ¡ ST-­‑SJOIN(R, ¡R, ¡ε ¡= ¡0.2, ¡θ ¡= ¡0.7) ¡ x 1 {B,C} x 6 {C,D,E,F} x 2 {E,F} x 7 {A,B,C,D,F} x 3 {D,E,F} x 8 {A,B,D,E,F} x 4 {A,B,E,F} x 9 {A,B,C,D,E} x 5 {C,D,E,F} 39 th ¡Interna$onal ¡Conference ¡on ¡Very ¡Large ¡Data ¡Bases ¡ August ¡29, ¡2013 ¡

  8. Outline ¡ • Introduc$on ¡ • Background ¡on ¡set ¡similarity ¡joins ¡ • Compu$ng ¡spa$o-­‑textual ¡similarity ¡joins ¡ • Experimental ¡analysis ¡ • Conclusions ¡and ¡future ¡work ¡ 39 th ¡Interna$onal ¡Conference ¡on ¡Very ¡Large ¡Data ¡Bases ¡ August ¡29, ¡2013 ¡

  9. Set ¡similarity ¡joins ¡and ¡PPJOIN ¡ ¡ [Xiao ¡et ¡al ¡@ ¡WWW’08] ¡ Objects ¡ Inverted ¡Index ¡ A Probe ¡ B ... ¡ Z Inverted ¡index ¡to ¡compute ¡overlaps ¡[Sarawagi ¡et ¡al ¡@ ¡SIGMOD’04] ¡ • Prefix ¡filtering ¡[Chaudhuri ¡et ¡al ¡@ ¡ICDE’06] ¡ • Two-­‑phase ¡method ¡[Bayardo ¡et ¡al ¡@ ¡WWW’07] ¡ Hamming ¡distance ¡lower ¡bound ¡ • – Objects ¡by ¡length ¡ – Read-­‑Probe-­‑Index ¡ Posi$onal ¡filter ¡ • Overlap ¡upper ¡bound ¡ Suffix ¡filter ¡ • 39 th ¡Interna$onal ¡Conference ¡on ¡Very ¡Large ¡Data ¡Bases ¡ August ¡29, ¡2013 ¡

  10. Compu$ng ¡ST-­‑SJOIN ¡ • Textual ¡similarity ¡join ¡ – Build ¡upon ¡PPJOIN ¡ • Spa$al ¡distance ¡join ¡ – Filtering, ¡dynamic ¡grid ¡par$$oning, ¡R-­‑tree ¡ • Methods ¡ – PPJ ¡ – PPJ-­‑I ¡ – PPJ-­‑C ¡ – PPJ-­‑R ¡ • Grouping ¡ 39 th ¡Interna$onal ¡Conference ¡on ¡Very ¡Large ¡Data ¡Bases ¡ August ¡29, ¡2013 ¡

  11. Spa$al ¡filtering ¡and ¡PPJ ¡ ST-­‑SJOIN(R, ¡R, ¡ε ¡= ¡0.2, ¡θ ¡= ¡0.7) ¡ • Straighqorward ¡ approach ¡ – Extend ¡PPJOIN ¡ – Add ¡another ¡filter ¡before ¡ posi$onal ¡and ¡suffix ¡ ¡ ¡ dist l ( r , s ) ≤ ε x 1 {B,C} x 6 {C,D,E,F} x 2 {E,F} x 7 {A,B,C,D,F} x 3 {D,E,F} x 8 {A,B,D,E,F} x 4 {A,B,E,F} x 9 {A,B,C,D,E} x 5 {C,D,E,F} 39 th ¡Interna$onal ¡Conference ¡on ¡Very ¡Large ¡Data ¡Bases ¡ August ¡29, ¡2013 ¡

  12. Spa$al ¡filtering ¡and ¡PPJ ¡ ST-­‑SJOIN(R, ¡R, ¡ε ¡= ¡0.2, ¡θ ¡= ¡0.7) ¡ • Straighqorward ¡ ε ¡radius ¡ approach ¡ – Extend ¡PPJOIN ¡ – Add ¡another ¡filter ¡before ¡ posi$onal ¡and ¡suffix ¡ ¡ dist l ( r , s ) ≤ ε • Problem ¡ x 1 {B,C} x 6 {C,D,E,F} – Lack ¡of ¡spa$al ¡indexing ¡ x 2 {E,F} x 7 {A,B,C,D,F} – Examines ¡objects ¡no ¡ x 3 {D,E,F} x 8 {A,B,D,E,F} maWer ¡how ¡far ¡from ¡x 3 ¡ x 4 {A,B,E,F} x 9 {A,B,C,D,E} x 5 {C,D,E,F} 39 th ¡Interna$onal ¡Conference ¡on ¡Very ¡Large ¡Data ¡Bases ¡ August ¡29, ¡2013 ¡

  13. Dynamic ¡grid ¡par$$oning ¡ • Grid ¡par$$oning ¡ – On ¡the ¡fly ¡ – Extend ¡of ¡a ¡grid ¡cell ¡ equals ¡ε ¡ – Numbering ¡from ¡les ¡to ¡ right ¡from ¡boWom ¡to ¡top ¡ ε ¡ ε ¡ 39 th ¡Interna$onal ¡Conference ¡on ¡Very ¡Large ¡Data ¡Bases ¡ August ¡29, ¡2013 ¡

  14. Dynamic ¡grid ¡par$$oning ¡ • Grid ¡par$$oning ¡ – On ¡the ¡fly ¡ – Extend ¡of ¡a ¡grid ¡cell ¡ equals ¡ε ¡ – Numbering ¡from ¡les ¡to ¡ right ¡from ¡boWom ¡to ¡top ¡ • Property ¡ – Objects ¡spa$ally ¡joinable ¡ inside ¡at ¡most ¡9 ¡cells ¡ ε ¡ – S$ll ¡need ¡to ¡verify ¡w.r.t. ¡ε ¡ ε ¡ 39 th ¡Interna$onal ¡Conference ¡on ¡Very ¡Large ¡Data ¡Bases ¡ August ¡29, ¡2013 ¡

  15. Dynamic ¡grid ¡par$$oning ¡ • Grid ¡par$$oning ¡ – On ¡the ¡fly ¡ – Extend ¡of ¡a ¡grid ¡cell ¡ equals ¡ε ¡ ε ¡radius ¡ – Numbering ¡from ¡les ¡to ¡ right ¡from ¡boWom ¡to ¡top ¡ • Property ¡ – Objects ¡spa$ally ¡joinable ¡ inside ¡at ¡most ¡9 ¡cells ¡ ε ¡ – S$ll ¡need ¡to ¡verify ¡w.r.t. ¡ε ¡ ε ¡ 39 th ¡Interna$onal ¡Conference ¡on ¡Very ¡Large ¡Data ¡Bases ¡ August ¡29, ¡2013 ¡

  16. Dynamic ¡grid ¡par$$oning ¡and ¡PPJ-­‑I ¡ • Spa$al ¡informa$on ¡inside ¡ inverted ¡index ¡ – Sort ¡pos$ngs ¡by ¡cell ¡id ¡ – Lightweight ¡index ¡on ¡top ¡of ¡ pos$ngs ¡ c1 ¡ ¡ ¡ ¡ ¡c2 ¡ ¡ ¡ ¡ ¡c3 ¡ ¡ ¡ ¡ A • Joinable ¡neighborhood ¡ – At ¡most ¡three ¡cell ¡intervals ¡ ε ¡ • Spa$al ¡distance ¡join ¡with ¡ ε ¡ space ¡filling ¡curve ¡ 39 th ¡Interna$onal ¡Conference ¡on ¡Very ¡Large ¡Data ¡Bases ¡ August ¡29, ¡2013 ¡

  17. Dynamic ¡grid ¡par$$oning ¡and ¡PPJ-­‑I ¡ • Spa$al ¡informa$on ¡inside ¡ inverted ¡index ¡ c 37 : ¡[28,30], ¡[36,38], ¡[44,46] ¡ – Sort ¡pos$ngs ¡by ¡cell ¡id ¡ – Lightweight ¡index ¡on ¡top ¡of ¡ pos$ngs ¡ c1 ¡ ¡ ¡ ¡ ¡c2 ¡ ¡ ¡ ¡ ¡c3 ¡ ¡ ¡ ¡ A • Joinable ¡neighborhood ¡ c 2 : ¡[1,3], ¡[9,11] ¡ – At ¡most ¡three ¡cell ¡intervals ¡ ε ¡ • Spa$al ¡distance ¡join ¡with ¡ ε ¡ space ¡filling ¡curve ¡ 39 th ¡Interna$onal ¡Conference ¡on ¡Very ¡Large ¡Data ¡Bases ¡ August ¡29, ¡2013 ¡

Recommend


More recommend