CrowdQ: ¡ Crowdsourced ¡Query ¡Understanding ¡ ¡ Gianluca ¡Demar8ni, ¡Beth ¡Trushkowsky, ¡ Tim ¡Kraska, ¡Michael ¡J. ¡Franklin ¡
Scenario ¡ Find ¡the ¡birthdate ¡of ¡the ¡mayor ¡of ¡the ¡capital ¡ city ¡of ¡France ¡ ¡ Gianluca ¡Demar8ni ¡ 2 ¡
Gianluca ¡Demar8ni ¡ 3 ¡
Gianluca ¡Demar8ni ¡ 4 ¡
Gianluca ¡Demar8ni ¡ 5 ¡
Gianluca ¡Demar8ni ¡ 6 ¡
Mo8va8on ¡ • Web ¡Search ¡Engines ¡can ¡answer ¡simple ¡factual ¡ queries ¡directly ¡on ¡the ¡result ¡page ¡ • Users ¡with ¡complex ¡informa8on ¡needs ¡are ¡ oQen ¡unsa8sfied ¡ • Purely ¡automa8c ¡techniques ¡are ¡not ¡enough ¡ • We ¡want ¡to ¡solve ¡it ¡with ¡Crowdsourcing! ¡ Gianluca ¡Demar8ni ¡ 7 ¡
Background ¡ • Crowdsourcing ¡so ¡far ¡used ¡for ¡ data ¡processing ¡ – DB/SemWeb: ¡Data ¡integra8on ¡and ¡cleaning ¡ – IR: ¡Relevance ¡judgments ¡ ¡ We ¡use ¡the ¡crowd ¡to ¡understand ¡the ¡ query ¡ Gianluca ¡Demar8ni ¡ 8 ¡
CrowdQ ¡ • CrowdQ ¡is ¡the ¡first ¡system ¡that ¡uses ¡ crowdsourcing ¡to ¡ – Understand ¡the ¡intended ¡meaning ¡ – Build ¡a ¡structured ¡query ¡template ¡ – Answer ¡the ¡query ¡over ¡Linked ¡Open ¡Data ¡ Gianluca ¡Demar8ni ¡ 9 ¡
Gianluca ¡Demar8ni ¡ 10 ¡
CrowdQ ¡Architecture ¡ Off-‑line : ¡query ¡template ¡genera8on ¡with ¡the ¡help ¡of ¡the ¡crowd ¡ On-‑line : ¡query ¡template ¡matching ¡using ¡NLP ¡and ¡search ¡over ¡open ¡data ¡ Keyword Query On#line'Complex'Query Off#line'Complex'Query Processing Decomposition Complex User Query query Y POS + NER tagging query Log classifier N N Crowd Queries Templ + Match with existing Manager Structured Query Answer Types Vetrical query templates t1t2t3 selection, Unstructured Search, ... Template Generation Query Template Index Crowdsourcing Platform Structured Composition LOD Search Answer Result Joiner SERP Gianluca ¡Demar8ni ¡ 11 ¡ LOD Open Data Cloud
Hybrid ¡Human-‑Machine ¡Pipeline ¡ Q= ¡birthdate ¡of ¡actors ¡of ¡forrest ¡gump ¡ Query ¡annota8on ¡ Noun ¡ Noun ¡ Named ¡en8ty ¡ Verifica8on ¡ Is ¡forrest ¡gump ¡this ¡en8ty ¡in ¡the ¡query? ¡ En8ty ¡Rela8ons ¡ Which ¡is ¡the ¡rela8on ¡between: ¡actors ¡and ¡forrest ¡gump ¡ starring ¡ Schema ¡element ¡ Starring ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡<dbpedia-‑owl:starring> ¡ ¡ Verifica8on ¡ Is ¡the ¡rela8on ¡between: ¡ Indiana ¡Jones ¡– ¡Harrison ¡Ford ¡ Back ¡to ¡the ¡Future ¡– ¡Michael ¡J. ¡Fox ¡ of ¡the ¡same ¡type ¡as ¡ Forrest ¡Gump ¡-‑ ¡actors ¡ ¡ Gianluca ¡Demar8ni ¡ 12 ¡ ¡ ¡
Structured ¡query ¡genera8on ¡ ¡ E I Q= ¡birthdate ¡of ¡actors ¡of ¡forrest ¡gump ¡ V O M SELECT ¡?y ¡?x ¡ WHERE ¡{ ¡?y ¡<dbpedia-‑owl:birthdate> ¡?x ¡. ¡ ¡ ¡ ¡?z ¡<dbpedia-‑owl:starring> ¡?y ¡. ¡ ¡ E ¡ ¡ ¡?z ¡<rdfs:label> ¡‘Forrest ¡Gump’ ¡} ¡ I V O M Results ¡from ¡BTC09: ¡ Gianluca ¡Demar8ni ¡ 13 ¡
Current ¡Status ¡ • Realize ¡the ¡vision ¡ • Running ¡demo: ¡ – Daniel ¡Haas, ¡Daniel ¡Bruckner, ¡Jonathan ¡Harper ¡ • Next ¡Steps ¡ – Evalua8on ¡of ¡Crowd ¡effec8veness ¡at ¡each ¡step ¡ – Comparison ¡hybrid ¡vs ¡machine ¡pipeline ¡ Gianluca ¡Demar8ni ¡ 14 ¡
Conclusions ¡ • CrowdQ: ¡an ¡hybrid ¡approach ¡to ¡complex ¡query ¡ understanding ¡ • Combines ¡techniques ¡from ¡DB, ¡NLP, ¡IR, ¡Data ¡ Mining, ¡and ¡Human ¡Intelligence ¡ ¡ • Ini8al ¡experiments ¡show ¡the ¡poten8al ¡of ¡ CrowdQ ¡ Gianluca ¡Demar8ni ¡ 15 ¡
Recommend
More recommend