The ¡Crea(on ¡of ¡a ¡Corpus ¡of ¡ English ¡Metalanguage ¡ Shomir ¡Wilson ¡ Carnegie ¡Mellon ¡(current ¡affilia(on) ¡ University ¡of ¡Maryland ¡(research ¡ performed) ¡ ¡ ACL ¡2012 ¡– ¡10 ¡July ¡2012 ¡
Speaking ¡or ¡Wri(ng ¡About ¡Language: ¡ Observa(ons ¡ When ¡we ¡write ¡or ¡speak ¡ about ¡language ¡ (to ¡ discuss ¡words, ¡phrases, ¡syntax, ¡meaning…): ¡ – We ¡oOen ¡convey ¡very ¡direct, ¡salient ¡informa(on ¡ about ¡language. ¡ – We ¡tend ¡to ¡be ¡instruc(ve, ¡and ¡we ¡(oOen) ¡try ¡to ¡be ¡ easily ¡understood. ¡ – We ¡do ¡this ¡to ¡clarify ¡the ¡meaning ¡of ¡words ¡or ¡ phrases ¡we ¡(or ¡our ¡audience) ¡use. ¡ 2012-‑07-‑10 ¡ Shomir ¡Wilson ¡-‑ ¡ACL ¡2012 ¡ 2 ¡
Examples ¡ 1) ¡This ¡is ¡some(mes ¡called ¡ tough ¡love . ¡ 2) ¡I ¡wrote ¡“ meet ¡outside ” ¡on ¡the ¡chalkboard. ¡ 3) ¡ Has ¡is ¡a ¡conjuga(on ¡of ¡the ¡verb ¡ have . ¡ 4) ¡The ¡buYon ¡labeled ¡ go ¡was ¡illuminated. ¡ 5) ¡That ¡bus, ¡was ¡its ¡name ¡ 61C ? ¡ 6) ¡ Mississippi ¡is ¡fun ¡to ¡spell. ¡ 7) He ¡said, ¡“ Dinner ¡is ¡served .” ¡ 2012-‑07-‑10 ¡ Shomir ¡Wilson ¡-‑ ¡ACL ¡2012 ¡ 3 ¡
And ¡Yet… ¡ Metalanguage ¡(some(mes ¡described ¡as ¡ self-‑ referen/al ¡language , ¡or ¡the ¡“men(on” ¡part ¡of ¡ the ¡use-‑men(on ¡dis(nc(on) ¡should ¡be ¡fer(le ¡ ground ¡for ¡language ¡technologies. ¡However: ¡ – Metalinguis(c ¡construc(ons ¡have ¡atypical ¡ proper(es. ¡ – Metalanguage ¡defies ¡trends ¡in ¡language ¡(e.g., ¡in ¡ syntax, ¡word ¡senses, ¡topicality) ¡that ¡language ¡ technologies ¡usually ¡exploit. ¡ 2012-‑07-‑10 ¡ Shomir ¡Wilson ¡-‑ ¡ACL ¡2012 ¡ 4 ¡
What ¡Goes ¡Wrong ¡ Dialog System: Where do you (ROOT � wish to depart from? � (S � (NP � User: Arlington. � (NP (DT The) (NN button)) � Dialog System: Departing from (VP (VBN labeled) � Allegheny West. Is this right? � (S � (VP (VB go))))) � User: No, I said “Arlington”. � (VP (VBD was) � Dialog System: Please say where (VP (VBN illuminated))) � you are leaving from. � (. .))) � The word "bank" can refer to many things. � Dialog ¡System: ¡Let’s ¡Go! ¡(Carnegie ¡Mellon ¡University) ¡ � Parser: ¡Stanford ¡Parser ¡(Stanford ¡University) ¡ bank: n|1| a financial institution that accepts Word ¡Sense ¡Disambigua/on: ¡IMS ¡(Na/onal ¡University ¡of ¡Singapore) ¡ deposits and channels the money into lending activities � 2012-‑07-‑10 ¡ Shomir ¡Wilson ¡-‑ ¡ACL ¡2012 ¡ 5 ¡
Metalanguage ¡and ¡Men(oned ¡ Language ¡ The ¡goal ¡of ¡this ¡project ¡was ¡to ¡provide ¡a ¡basis ¡ for ¡the ¡study ¡of ¡metalanguage ¡(i.e., ¡ language ¡ about ¡language ) ¡in ¡English. ¡ A ¡beYer ¡understanding ¡of ¡metalanguage ¡will ¡ enable ¡us ¡to ¡construct ¡language ¡technologies ¡ that ¡(at ¡worst) ¡can ¡cope ¡with ¡it ¡and ¡(at ¡best) ¡ exploit ¡the ¡informa(on ¡it ¡conveys. ¡ To ¡make ¡the ¡problem ¡tractable, ¡the ¡focus ¡was ¡on ¡ men/oned ¡ language : ¡instances ¡of ¡metalanguage ¡that ¡can ¡be ¡explicitly ¡ delimited ¡within ¡a ¡sentence. ¡ 2012-‑07-‑10 ¡ Shomir ¡Wilson ¡-‑ ¡ACL ¡2012 ¡ 6 ¡
Previous ¡Efforts ¡ • Two ¡proof-‑of-‑concept ¡corpora ¡preceded ¡this ¡one: ¡ – A ¡“pilot ¡corpus” ¡established ¡that ¡Wikipedia ¡was ¡a ¡fer(le ¡ source ¡of ¡men(oned ¡language ¡[1]. ¡ – A ¡“combined ¡cues ¡corpus” ¡validated ¡the ¡combina(on ¡of ¡ lexical ¡and ¡stylis(c ¡cues ¡to ¡gather ¡candidate ¡instances ¡[2]. ¡ • Anderson, ¡et ¡al. ¡[3] ¡gathered ¡a ¡metalanguage ¡corpus ¡of ¡ human ¡dialog—but ¡it ¡lacked ¡word-‑ ¡or ¡phrase-‑level ¡ annota(ons ¡and ¡contained ¡substan(al ¡noise. ¡ • Many ¡have ¡discussed ¡men(oned ¡language ¡or ¡ metalanguage ¡in ¡purely ¡theore(cal ¡terms ¡(Saka, ¡ Cappelen, ¡Lepore, ¡Maier, ¡Geach, ¡Partee, ¡et ¡al.). ¡ [1] ¡Shomir ¡Wilson. ¡"Dis(nguishing ¡use ¡and ¡men(on ¡in ¡natural ¡language". ¡NAACL ¡HLT ¡Student ¡Research ¡Workshop, ¡2010 ¡ [2] ¡Shomir ¡Wilson ¡"In ¡search ¡of ¡the ¡use-‑men(on ¡dis(nc(on ¡and ¡its ¡impact ¡on ¡language ¡processing ¡tasks". ¡CICLING ¡2011 ¡ [3] ¡Anderson, ¡ML, ¡Yoshi ¡A ¡Okamoto, ¡Darsana ¡Josyula, ¡and ¡Donald ¡Perlis. ¡"The ¡Use-‑Men(on ¡Dis(nc(on ¡and ¡its ¡Importance ¡to ¡HCI." ¡ EDILOLG ¡2002 ¡ ¡ 2012-‑07-‑10 ¡ Shomir ¡Wilson ¡-‑ ¡ACL ¡2012 ¡ 7 ¡
Men(oned ¡Language: ¡A ¡Defini(on ¡ The ¡following ¡defini(on ¡was ¡used ¡in ¡previous ¡efforts ¡to ¡ build ¡pilot ¡corpora ¡of ¡men(oned ¡language: ¡ For ¡T ¡a ¡token ¡or ¡a ¡set ¡of ¡tokens ¡in ¡a ¡sentence, ¡if ¡T ¡is ¡ produced ¡to ¡draw ¡a?en@on ¡to ¡a ¡property ¡of ¡the ¡token ¡T ¡ or ¡the ¡type ¡of ¡T, ¡then ¡T ¡is ¡an ¡instance ¡of ¡men@oned ¡ language. ¡ Example: ¡“The ¡cat ¡is ¡on ¡the ¡mat” ¡is ¡a ¡sentence. ¡ New ¡in ¡the ¡present ¡effort: ¡an ¡equivalent ¡subs(tu(on-‑ based ¡“labeling ¡rubric” ¡was ¡used ¡to ¡produce ¡consistent ¡ results. ¡The ¡rubric ¡appears ¡in ¡the ¡paper. ¡ 2012-‑07-‑10 ¡ Shomir ¡Wilson ¡-‑ ¡ACL ¡2012 ¡ 8 ¡
Corpus ¡Crea(on: ¡Overview ¡ • A ¡randomly ¡subset ¡of ¡English ¡Wikipedia ¡ar(cles ¡was ¡ chosen ¡as ¡a ¡text ¡source. ¡ • To ¡make ¡human ¡annota(on ¡tractable: ¡sentences ¡were ¡ examined ¡only ¡if ¡they ¡fit ¡a ¡combina(on ¡of ¡cues: ¡ The ¡term ¡ chip ¡has ¡a ¡similar ¡meaning. ¡ Metalinguis(c ¡cue ¡ Stylis(c ¡cue: ¡italic ¡text, ¡bold ¡text, ¡or ¡quoted ¡text ¡ • Mechanical ¡Turk ¡did ¡not ¡work ¡well ¡for ¡labeling. ¡ • Candidate ¡instances ¡were ¡labeled ¡by ¡a ¡human ¡annotator. ¡ A ¡subset ¡were ¡labeled ¡by ¡mul(ple ¡annotators ¡to ¡verify ¡ the ¡reliability ¡of ¡the ¡corpus. ¡ 2012-‑07-‑10 ¡ Shomir ¡Wilson ¡-‑ ¡ACL ¡2012 ¡ 9 ¡
Collec(on ¡and ¡Filtering ¡ 5,000 ¡Wikipedia ¡ar(cles ¡(in ¡HTML) ¡ Ar/cle ¡sec/on ¡filtering ¡and ¡sentence ¡tokenizer ¡ Main ¡body ¡text ¡of ¡ar(cles ¡ 23 ¡hand-‑selected ¡ metalinguis(c ¡cues ¡ Stylis/c ¡cue ¡filter ¡ WordNet ¡crawl ¡ 17,753 ¡sentences ¡containing ¡ 25,716 ¡instances ¡of ¡highlighted ¡text ¡ 8,735 ¡metalinguis(c ¡cues ¡ Metalinguis/c ¡cue ¡proximity ¡filter ¡ 1,914 ¡sentences ¡containing ¡ 2,393 ¡candidate ¡instances ¡ Human ¡annotator ¡ ¡ 629 ¡instances ¡of ¡men(oned ¡language ¡ 1,764 ¡nega(ve ¡instances ¡ ¡ Random ¡selec/on ¡procedure ¡for ¡ ¡ 100 ¡instances ¡labeled ¡by ¡three ¡addi(onal ¡ 100 ¡instances ¡ human ¡annotators ¡ 2012-‑07-‑10 ¡ Shomir ¡Wilson ¡-‑ ¡ACL ¡2012 ¡ 10 ¡
Recommend
More recommend