Which ¡Concepts ¡Are ¡Worth ¡ Extrac2ng? ¡ Arash ¡Termehchy # , ¡Ali ¡Vakilian*, ¡Yodsawalai ¡ Chodpathumwan*, ¡Marianne ¡Winsle>* ¡ ¡ # Oregon ¡State ¡University ¡ ¡ ¡ *University ¡of ¡Illinois ¡at ¡Urbana-‑Champaign ¡
The ¡vast ¡majority ¡of ¡data ¡is ¡not ¡structured. ¡ Scien;fic ¡ar;cles, ¡HTML ¡pages, ¡… ¡ ¡ Users ¡ <article id=1> Keyword ¡query ¡ ¡ Michael Jordan is a former American professional basketball player ... Michael ¡Jordan ¡Statue ¡ </article> <article id=2> Michael Jordan is a full professor at the University of California, Berkeley ... article id=1 ✗ </article> article id=4 ✗ Ranked ¡list ¡ <article id=3> article id=2 ✗ The Michael Jordan’s sculpture is in the front of article id=3 ✓ Union Center … </article> <article id=4> poor ¡ranking ¡quality ¡= ¡ All six championship teams of Chicago Bulls were led by Michael Jordan and … frustrated ¡user ¡ </article>
Informa;on ¡extrac;on ¡comes ¡to ¡the ¡rescue! ¡ ¡ ¡ ¡ It ¡extracts ¡and ¡organizes ¡the ¡concepts ¡that ¡appear ¡in ¡ unstructured ¡informa2on. ¡ ¡ Athlete ¡ <ar2cle ¡id=1> ¡ ¡ ¡Michael ¡Jordan ¡is ¡a ¡former ¡American ¡ ¡ NaOonality ¡ professional ¡basketball ¡player ¡... ¡ </ar2cle> ¡ ¡ <ar2cle ¡id=2> ¡ ¡ ScienOst ¡ ¡Michael ¡Jordan ¡is ¡a ¡full ¡professor ¡at ¡the ¡ University ¡of ¡California, ¡Berkeley ¡... ¡ University ¡ </ar2cle> ¡ ¡ <ar2cle ¡id=3> ¡ ¡ ¡The ¡Michael ¡Jordan’s ¡sculpture ¡is ¡in ¡the ¡front ¡ Artwork ¡ of ¡Union ¡Center ¡… ¡ </ar2cle> ¡ ¡ <ar2cle ¡id=4> ¡ ¡ ¡All ¡six ¡championship ¡teams ¡of ¡Chicago ¡Bulls ¡ Club ¡ were ¡led ¡by ¡Michael ¡Jordan ¡and ¡… ¡ </ar2cle> ¡
Users ¡can ¡submit ¡more ¡structured ¡queries. ¡ ¡ ¡ <ar2cle ¡id=1> ¡ ¡ Michael ¡Jordan ¡is ¡a ¡former ¡American ¡ ¡ professional ¡ ¡basketball ¡player ¡... ¡ Artwork( Michael ¡Jordan ) ¡ ¡ </ar2cle> ¡ ¡ <ar2cle ¡id=2> ¡ ¡ ¡Michael ¡Jordan ¡is ¡a ¡full ¡professor ¡at ¡the ¡ University ¡of ¡California, ¡Berkeley ¡... ¡ </ar2cle> ¡ ¡ <ar2cle ¡id=3> ¡ ¡ article id=3 ✓ The ¡Michael ¡Jordan’s ¡sculpture ¡is ¡in ¡the ¡front ¡ Ranked ¡list ¡ of ¡Union ¡Center ¡… ¡ </ar2cle> ¡ ¡ <ar2cle ¡id=4> ¡ ¡ Artwork ¡ All ¡six ¡championship ¡teams ¡of ¡Chicago ¡Bulls ¡ were ¡led ¡by ¡Michael ¡Jordan ¡and ¡… ¡ </ar2cle> ¡
The ¡instances ¡of ¡each ¡concept ¡is ¡extracted ¡ by ¡a ¡program ¡called ¡ extractor. ¡ ¡ It ¡is ¡costly ¡to ¡develop, ¡execute, ¡and ¡ maintain ¡ an ¡ extractor. ¡ ¡ Developing ¡thousands ¡of ¡rules; ¡finding, ¡selecOng, ¡and ¡extracOng ¡ • relevant ¡features; ¡… ¡. ¡Harder ¡in ¡specific ¡domains ¡like ¡medicine. ¡ ¡ ExecuOng ¡an ¡extractor ¡may ¡take ¡several ¡days. ¡ ¡ • Re-‑wriOng ¡and ¡re-‑execuOng ¡extractors ¡as ¡the ¡underlying ¡data ¡ • set ¡evolves. ¡ ¡ ¡ Different ¡concepts ¡have ¡different ¡costs: ¡ Email ¡versus ¡ Scien;st ¡ ¡ ¡ ¡
Most ¡domains ¡have ¡a ¡large ¡number ¡of ¡concepts. ¡ Plant ¡Ontology ¡(plantontology.org) : ¡thousands ¡ concepts. ¡ ¡ • An ¡enterprise ¡has ¡limited ¡amount ¡of ¡resources. ¡ ¡ • Most ¡users ¡cannot ¡wait ¡for ¡a ¡fully ¡extracted ¡ ¡ data ¡set. ¡ • We ¡have ¡to ¡extract ¡a ¡subset ¡of ¡concepts ¡in ¡the ¡ domain: ¡a ¡ conceptual ¡design ¡for ¡the ¡data. ¡ ¡
Cost ¡effec2ve ¡conceptual ¡design ¡problem ¡ ¡ ¡Conceptual ¡design ¡S ¡is ¡ cost ¡effec5ve ¡if ¡ ¡ Cost ¡funcOon ¡ • ¡ ¡ ¡ ¡ ¡ ∑ w ( C ) ≤ B Fixed ¡ ¡budget ¡ C ∈ S • S ¡improves ¡the ¡ranking ¡quality ¡of ¡answering ¡queries ¡more ¡ than ¡other ¡feasible ¡designs. ¡ Currently ¡guided ¡by ¡ intuiOon. ¡ We ¡have ¡to ¡quanOfy ¡this: ¡ the ¡benefit ¡of ¡a ¡design ¡
Conceptual ¡design ¡ S ¡directly ¡helps ¡answering ¡queries ¡ whose ¡concepts ¡are ¡in ¡ S . ¡ ScienOst ¡ <ar2cle ¡id=2> ¡ ¡ ¡Michael ¡Jordan ¡is ¡a ¡full ¡professor ¡at ¡the ¡ Scientist( Michael ¡Jordan ) ¡ ¡ University ¡of ¡California, ¡Berkeley ¡... ¡ </ar2cle> ¡ ¡ <ar2cle ¡id=3> ¡ ¡ ¡The ¡Michael ¡Jordan ¡statue ¡is ¡a ¡bronze ¡ article id=2 ✓ sculpture ¡of ¡the ¡basketball ¡player ¡… ¡ </ar2cle> ¡ ¡ The ¡accuracy ¡of ¡ The ¡porOon ¡of ¡queries ¡ extracOng ¡ C ¡ whose ¡concepts ¡are ¡ C ¡ ¡ ∑ u ( C ) ac ( C ) C ∈ S 8 ¡
What ¡about ¡queries ¡whose ¡concepts ¡are ¡not ¡in ¡the ¡ design? ¡ If ¡the ¡concepts ¡are ¡mutually ¡exclusive ¡concepts, ¡we ¡can ¡ ignore ¡the ¡instances ¡of ¡the ¡concepts ¡in ¡the ¡design. ¡ ScienOst ¡ <ar2cle ¡id=2> ¡ ¡ ¡Michael ¡Jordan ¡is ¡a ¡full ¡professor ¡at ¡the ¡ Artwork( Michael ¡Jordan ) ¡ ¡ Whatever ¡ University ¡of ¡California, ¡Berkeley ¡... ¡ the ¡answer ¡ </ar2cle> ¡ ¡ is, ¡it ¡is ¡not ¡ <ar2cle ¡id=3> ¡ ¡ ¡The ¡Michael ¡Jordan ¡statue ¡is ¡a ¡bronze ¡ a ¡scienOst. ¡ article id=3 ✓ sculpture ¡of ¡the ¡basketball ¡player ¡… ¡ </ar2cle> ¡ ¡ 9 ¡
Concepts ¡are ¡mutually ¡exclusive. ¡ Generally, ¡the ¡concepts ¡with ¡more ¡instances ¡in ¡the ¡ ¡collecOon ¡ are ¡more ¡likely ¡to ¡appear ¡in ¡the ¡top-‑K ¡answers. ¡ The ¡porOon ¡of ¡ queries ¡whose ¡ concepts ¡are ¡ C ¡ ¡ The ¡porOon ¡of ¡enOOes ¡in ¡ the ¡collecOon ¡that ¡belong ¡ to ¡C, ¡ frequency ¡of ¡C ¡ d ( C ) ∑ u ( C ) ∑ d ( E ) C ∉ S E ∉ S The ¡porOon ¡of ¡enOOes ¡in ¡the ¡ collecOon ¡whose ¡concepts ¡ are ¡not ¡in ¡ S . ¡ 10 ¡
What ¡about ¡queries ¡whose ¡concepts ¡are ¡not ¡in ¡the ¡ design? ¡ If ¡there ¡is ¡no ¡constraint ¡regarding ¡the ¡overlap ¡of ¡concepts, ¡we ¡ have ¡to ¡consider ¡all ¡concepts ¡in ¡the ¡data. ¡ ¡ ScienOst ¡ <ar2cle ¡id=2> ¡ ¡ Researcher( Michael ¡Jordan ) ¡ ¡ ¡Michael ¡Jordan ¡is ¡a ¡full ¡professor ¡at ¡the ¡ University ¡of ¡California, ¡Berkeley ¡... ¡ </ar2cle> ¡ ¡ <ar2cle ¡id=4> ¡ ¡ Michael ¡Jordan ¡is ¡a ¡computaOonal ¡ article id=2 ✗ chemist ¡in ¡the ¡Center ¡for ¡System ¡ article id=4 ✓ Biology ¡ </ar2cle> ¡ 11 ¡
What ¡about ¡queries ¡whose ¡concepts ¡are ¡not ¡in ¡the ¡ design? ¡ If ¡there ¡is ¡not ¡constraint ¡regarding ¡the ¡overlap ¡of ¡concepts. ¡ The ¡porOon ¡of ¡ queries ¡whose ¡ concepts ¡are ¡ C ¡ ¡ The ¡porOon ¡of ¡enOOes ¡in ¡ the ¡collecOon ¡that ¡belong ¡ ∑ to ¡C, ¡ frequency ¡of ¡C ¡ u ( C ) d ( C ) C ∉ S 12 ¡
Cost ¡effec2ve ¡conceptual ¡design ¡problem ¡ Given ¡a ¡fixed ¡budget ¡ B , ¡cost ¡funcOon ¡ w, ¡ find ¡conceptual ¡ design ¡S ¡such ¡that ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡and ¡ ∑ w ( C ) ≤ B C ∈ S Case ¡1) ¡If ¡the ¡concepts ¡are ¡mutually ¡exclusive ¡concepts ¡ d ( C ) ∑ ∑ Max u ( C ) ac ( C ) u ( C ) + ∑ d ( C ) C ∈ S C ∉ S C ∉ S Case ¡2) ¡No ¡constraints ¡regarding ¡the ¡overlap ¡of ¡concepts: ¡ ∑ ∑ Max u ( C ) d ( C ) u ( C ) d ( C ) + C ∈ S C ∉ S
Recommend
More recommend