Ef#iciency ¡in ¡Resource ¡ Creation ¡ HS: ¡Computational ¡Linguistics ¡for ¡Low-‑Resource ¡Languages ¡ ¡ Mengfei ¡Zhou ¡ June ¡1, ¡2016 ¡ ¡ ¡ Ins4tute ¡for ¡Computa4onal ¡Linguis4cs ¡ ¡ University ¡Heidelberg ¡ 1 ¡ ¡ ¡
Motivation ¡ • A ¡lack ¡of ¡annotated ¡data ¡ • Collec4on ¡of ¡data ¡is ¡neither ¡easy ¡nor ¡cheap ¡ • We ¡may ¡have ¡a ¡lot ¡of ¡English ¡annotated ¡data, ¡ but ¡for ¡a ¡new ¡language, ¡how ¡can ¡we ¡effec4vely ¡ create ¡annotated ¡data? ¡ ¡ 2 ¡
Big ¡Picture ¡ How ¡can ¡we ¡create ¡annotated ¡data ¡effec4vely? ¡ ¡ ¡ -‑ Approach ¡1: ¡ac4ve ¡learning ¡using ¡human ¡annota4on ¡ ß ¡effec4ve! ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡task: ¡base ¡noun ¡phrase ¡chunking ¡ -‑ Approach ¡2: ¡human ¡rule ¡wri4ng ¡ ß ¡not ¡effec4ve! ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡task: ¡base ¡noun ¡phrase ¡chunking ¡ -‑ Approach ¡3: ¡projec4on ¡across ¡aligned ¡corpora ¡ ß ¡effec4ve! ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡task: ¡1. ¡part-‑of-‑speech ¡tagger ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡2. ¡morphological ¡analyzer ¡ ¡ ¡ 3 ¡
Big ¡Picture ¡ How ¡can ¡we ¡create ¡annotated ¡data ¡effec4vely? ¡ ¡ ¡ -‑ Approach ¡1: ¡ac4ve ¡learning ¡using ¡human ¡annota4on ¡ ß ¡effec4ve! ¡ ¡ Ngai ¡& ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡task: ¡base ¡noun ¡phrase ¡chunking ¡ Yarowsky ¡ -‑ Approach ¡2: ¡human ¡rule ¡wri4ng ¡ ß ¡not ¡effec4ve! ¡ 2000 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡task: ¡base ¡noun ¡phrase ¡chunking ¡ -‑ Approach ¡3: ¡projec4on ¡across ¡aligned ¡corpora ¡ ß ¡effec4ve! ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡task: ¡1. ¡part-‑of-‑speech ¡tagger ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡2. ¡morphological ¡analyzer ¡ ¡ ¡ 4 ¡
Big ¡Picture ¡ How ¡can ¡we ¡create ¡annotated ¡data ¡effec4vely? ¡ ¡ ¡ -‑ Approach ¡1: ¡ac4ve ¡learning ¡using ¡human ¡annota4on ¡ ß ¡effec4ve! ¡ ¡ Ngai ¡& ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡task: ¡base ¡noun ¡phrase ¡chunking ¡ Yarowsky ¡ -‑ Approach ¡2: ¡human ¡rule ¡wri4ng ¡ ß ¡not ¡effec4ve! ¡ 2000 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡task: ¡base ¡noun ¡phrase ¡chunking ¡ -‑ Approach ¡3: ¡projec4on ¡across ¡aligned ¡corpora ¡ ß ¡effec4ve! ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡task: ¡1. ¡part-‑of-‑speech ¡tagger ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡2. ¡morphological ¡analyzer ¡ ¡ Yarowsky ¡ et ¡al ¡2001 ¡ 5 ¡
Presentation ¡Outline ¡ ¡ Ngai ¡& ¡ • Base ¡noun ¡phrase ¡chunking ¡ Yarowsky ¡ • Ac4ve ¡learning: ¡the ¡basics ¡ 2000 ¡ • Apply ¡ac4ve ¡learning ¡to ¡base ¡noun ¡phrase ¡chunking ¡ • Learning ¡by ¡rules ¡for ¡base ¡noun ¡phrase ¡chunking ¡ • Comparison ¡(human ¡cost, ¡performance): ¡rule ¡wri4ng ¡vs. ¡ annota4on ¡ -‑-‑-‑-‑-‑-‑-‑-‑-‑-‑-‑-‑-‑-‑-‑-‑-‑-‑-‑-‑-‑-‑-‑-‑-‑-‑-‑-‑-‑-‑-‑-‑-‑-‑-‑-‑-‑-‑-‑-‑-‑-‑-‑-‑-‑-‑-‑-‑-‑-‑-‑-‑-‑-‑-‑-‑-‑-‑-‑-‑-‑-‑-‑-‑-‑-‑-‑-‑-‑-‑-‑-‑ projec4on ¡across ¡aligned ¡corpora ¡applying ¡to ¡2 ¡tasks ¡ ¡ ¡ ¡ ¡1. ¡part-‑of-‑speech ¡tagger ¡(detailed) ¡ Yarowsky ¡ ¡ ¡ ¡ ¡2. ¡morphological ¡analyzer ¡(basic) ¡ ¡ et ¡al ¡2001 ¡ 6 ¡ ¡
Base ¡Noun ¡Phrase ¡Chunking ¡ -‑ Each ¡of ¡these ¡larger ¡boxes ¡is ¡a ¡NP ¡chunk ¡ -‑ Amount ¡of ¡work ¡has ¡been ¡done ¡in ¡this ¡domain ¡and ¡many ¡ different ¡methods ¡have ¡been ¡applied ¡ -‑ Ramshaw ¡& ¡Marcus’ ¡transforma4on ¡rules-‑based ¡system ¡ (f-‑measure ¡92.0) ¡is ¡regarded ¡as ¡the ¡de ¡facto ¡standard ¡for ¡ 7 ¡ the ¡domain ¡
Which ¡approach ¡can ¡work ¡ better? ¡ Rule-‑wri4ng ¡approach ¡ Labeling ¡data ¡and ¡ -‑> ¡directly ¡encode ¡ using ¡ac4ve ¡learning ¡ linguis4c ¡knowledge ¡ -‑> ¡label ¡sentences ¡& ¡ ¡ let ¡the ¡machine ¡sort ¡it ¡ ¡ out ¡ ra4onalist ¡approach ¡ induc4onist ¡approach ¡ 8 ¡
Active ¡Learning: ¡the ¡basics ¡ ¡ Learner-‑guided ¡selec4on ¡to ¡reduce ¡annota4on ¡effort ¡ ¡ picture ¡from ¡Rehbein ¡& ¡Ruppenhofer’s ¡slide ¡ ¡ 9 ¡
Active ¡Learning: ¡the ¡basics ¡ ¡ ¡ picture ¡from ¡Rehbein ¡& ¡Ruppenhofer ¡2016‘s ¡slide ¡ 10 ¡
Active ¡Learning: ¡the ¡basics ¡ ¡ ¡ picture ¡from ¡Rehbein ¡& ¡Ruppenhofer ¡2016’s ¡slide ¡ 11 ¡
Active ¡Learning: ¡the ¡basics ¡ ¡ Which ¡one ¡is ¡the ¡most ¡useful ¡example ¡for ¡classifier? ¡ ¡ 12 ¡ picture ¡from ¡Rehbein ¡& ¡Ruppenhofer ¡2016‘s ¡slide ¡
Active ¡Learning: ¡the ¡basics ¡ ¡ Which ¡one ¡is ¡the ¡most ¡useful ¡example ¡for ¡classifier? ¡ ¡ 13 ¡ picture ¡from ¡Rehbein ¡& ¡Ruppenhofer ¡2016‘s ¡slide ¡
Active ¡Learning: ¡the ¡basics ¡ ¡ Which ¡one ¡is ¡the ¡most ¡useful ¡example ¡for ¡classifier? ¡ ¡ the ¡more ¡ uncertain ¡the ¡ example, ¡the ¡ useful ¡it ¡would ¡ ¡ be ¡to ¡have ¡this ¡ example ¡ annotated ¡!! ¡ 14 ¡ picture ¡from ¡Rehbein ¡& ¡Ruppenhofer ¡2016‘s ¡slide ¡
Query-‑by-‑committee ¡approach ¡ • How ¡can ¡we ¡find ¡the ¡most ¡uncertain ¡examples? ¡ • Query-‑by-‑commieee ¡approach ¡uses ¡mul4ple ¡ models ¡to ¡evaluate ¡the ¡data, ¡and ¡candidates ¡for ¡ annota4on ¡are ¡drawn ¡from ¡the ¡pool ¡of ¡examples ¡ in ¡which ¡the ¡models ¡disagree. ¡ 15 ¡
Apply ¡active ¡learning ¡to ¡base ¡ noun ¡phrase ¡chunking ¡ corpus ¡C ¡ 16 ¡
Apply ¡active ¡learning ¡to ¡base ¡ noun ¡phrase ¡chunking ¡ C: ¡15-‑18 ¡of ¡ corpus ¡C ¡ the ¡Wall ¡ Street ¡Journal ¡ Treebank ¡ 17 ¡
Apply ¡active ¡learning ¡to ¡base ¡ noun ¡phrase ¡chunking ¡(Step ¡1) ¡ C: ¡15-‑18 ¡of ¡ corpus ¡C ¡ the ¡Wall ¡ Street ¡Journal ¡ arbitrarily ¡pick ¡t ¡sentences ¡ Treebank ¡ for ¡hand ¡annota4on ¡ Seed ¡set ¡ t ¡= ¡100 ¡ 18 ¡
Apply ¡active ¡learning ¡to ¡base ¡ noun ¡phrase ¡chunking ¡(Step ¡2) ¡ t ¡ training ¡ corpus ¡C ¡ set ¡T ¡ delete ¡these ¡t ¡sentences ¡ put ¡these ¡t ¡sentences ¡into ¡T ¡ from ¡C ¡ C: ¡15-‑18 ¡of ¡ Seed ¡set ¡ the ¡Wall ¡ t ¡= ¡100 ¡ Street ¡Journal ¡ Treebank ¡ 19 ¡
Apply ¡active ¡learning ¡to ¡base ¡ noun ¡phrase ¡chunking ¡(Step ¡3) ¡ t1 ¡ t2 ¡ t3 ¡ m ¡= ¡3 ¡ divide ¡T ¡into ¡m ¡subset ¡ 20 ¡
Recommend
More recommend