creation hs computational linguistics for low resource
play

Creation HS: Computational Linguistics for Low-Resource - PowerPoint PPT Presentation

Ef#iciency in Resource Creation HS: Computational Linguistics for Low-Resource Languages Mengfei Zhou June 1, 2016 Ins4tute for Computa4onal Linguis4cs


  1. Ef#iciency ¡in ¡Resource ¡ Creation ¡ HS: ¡Computational ¡Linguistics ¡for ¡Low-­‑Resource ¡Languages ¡ ¡ Mengfei ¡Zhou ¡ June ¡1, ¡2016 ¡ ¡ ¡ Ins4tute ¡for ¡Computa4onal ¡Linguis4cs ¡ ¡ University ¡Heidelberg ¡ 1 ¡ ¡ ¡

  2. Motivation ¡ • A ¡lack ¡of ¡annotated ¡data ¡ • Collec4on ¡of ¡data ¡is ¡neither ¡easy ¡nor ¡cheap ¡ • We ¡may ¡have ¡a ¡lot ¡of ¡English ¡annotated ¡data, ¡ but ¡for ¡a ¡new ¡language, ¡how ¡can ¡we ¡effec4vely ¡ create ¡annotated ¡data? ¡ ¡ 2 ¡

  3. Big ¡Picture ¡ How ¡can ¡we ¡create ¡annotated ¡data ¡effec4vely? ¡ ¡ ¡ -­‑ Approach ¡1: ¡ac4ve ¡learning ¡using ¡human ¡annota4on ¡ ß ¡effec4ve! ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡task: ¡base ¡noun ¡phrase ¡chunking ¡ -­‑ Approach ¡2: ¡human ¡rule ¡wri4ng ¡ ß ¡not ¡effec4ve! ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡task: ¡base ¡noun ¡phrase ¡chunking ¡ -­‑ Approach ¡3: ¡projec4on ¡across ¡aligned ¡corpora ¡ ß ¡effec4ve! ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡task: ¡1. ¡part-­‑of-­‑speech ¡tagger ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡2. ¡morphological ¡analyzer ¡ ¡ ¡ 3 ¡

  4. Big ¡Picture ¡ How ¡can ¡we ¡create ¡annotated ¡data ¡effec4vely? ¡ ¡ ¡ -­‑ Approach ¡1: ¡ac4ve ¡learning ¡using ¡human ¡annota4on ¡ ß ¡effec4ve! ¡ ¡ Ngai ¡& ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡task: ¡base ¡noun ¡phrase ¡chunking ¡ Yarowsky ¡ -­‑ Approach ¡2: ¡human ¡rule ¡wri4ng ¡ ß ¡not ¡effec4ve! ¡ 2000 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡task: ¡base ¡noun ¡phrase ¡chunking ¡ -­‑ Approach ¡3: ¡projec4on ¡across ¡aligned ¡corpora ¡ ß ¡effec4ve! ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡task: ¡1. ¡part-­‑of-­‑speech ¡tagger ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡2. ¡morphological ¡analyzer ¡ ¡ ¡ 4 ¡

  5. Big ¡Picture ¡ How ¡can ¡we ¡create ¡annotated ¡data ¡effec4vely? ¡ ¡ ¡ -­‑ Approach ¡1: ¡ac4ve ¡learning ¡using ¡human ¡annota4on ¡ ß ¡effec4ve! ¡ ¡ Ngai ¡& ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡task: ¡base ¡noun ¡phrase ¡chunking ¡ Yarowsky ¡ -­‑ Approach ¡2: ¡human ¡rule ¡wri4ng ¡ ß ¡not ¡effec4ve! ¡ 2000 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡task: ¡base ¡noun ¡phrase ¡chunking ¡ -­‑ Approach ¡3: ¡projec4on ¡across ¡aligned ¡corpora ¡ ß ¡effec4ve! ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡task: ¡1. ¡part-­‑of-­‑speech ¡tagger ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡2. ¡morphological ¡analyzer ¡ ¡ Yarowsky ¡ et ¡al ¡2001 ¡ 5 ¡

  6. Presentation ¡Outline ¡ ¡ Ngai ¡& ¡ • Base ¡noun ¡phrase ¡chunking ¡ Yarowsky ¡ • Ac4ve ¡learning: ¡the ¡basics ¡ 2000 ¡ • Apply ¡ac4ve ¡learning ¡to ¡base ¡noun ¡phrase ¡chunking ¡ • Learning ¡by ¡rules ¡for ¡base ¡noun ¡phrase ¡chunking ¡ • Comparison ¡(human ¡cost, ¡performance): ¡rule ¡wri4ng ¡vs. ¡ annota4on ¡ -­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑-­‑ projec4on ¡across ¡aligned ¡corpora ¡applying ¡to ¡2 ¡tasks ¡ ¡ ¡ ¡ ¡1. ¡part-­‑of-­‑speech ¡tagger ¡(detailed) ¡ Yarowsky ¡ ¡ ¡ ¡ ¡2. ¡morphological ¡analyzer ¡(basic) ¡ ¡ et ¡al ¡2001 ¡ 6 ¡ ¡

  7. Base ¡Noun ¡Phrase ¡Chunking ¡ -­‑ Each ¡of ¡these ¡larger ¡boxes ¡is ¡a ¡NP ¡chunk ¡ -­‑ Amount ¡of ¡work ¡has ¡been ¡done ¡in ¡this ¡domain ¡and ¡many ¡ different ¡methods ¡have ¡been ¡applied ¡ -­‑ Ramshaw ¡& ¡Marcus’ ¡transforma4on ¡rules-­‑based ¡system ¡ (f-­‑measure ¡92.0) ¡is ¡regarded ¡as ¡the ¡de ¡facto ¡standard ¡for ¡ 7 ¡ the ¡domain ¡

  8. Which ¡approach ¡can ¡work ¡ better? ¡ Rule-­‑wri4ng ¡approach ¡ Labeling ¡data ¡and ¡ -­‑> ¡directly ¡encode ¡ using ¡ac4ve ¡learning ¡ linguis4c ¡knowledge ¡ -­‑> ¡label ¡sentences ¡& ¡ ¡ let ¡the ¡machine ¡sort ¡it ¡ ¡ out ¡ ra4onalist ¡approach ¡ induc4onist ¡approach ¡ 8 ¡

  9. Active ¡Learning: ¡the ¡basics ¡ ¡ Learner-­‑guided ¡selec4on ¡to ¡reduce ¡annota4on ¡effort ¡ ¡ picture ¡from ¡Rehbein ¡& ¡Ruppenhofer’s ¡slide ¡ ¡ 9 ¡

  10. Active ¡Learning: ¡the ¡basics ¡ ¡ ¡ picture ¡from ¡Rehbein ¡& ¡Ruppenhofer ¡2016‘s ¡slide ¡ 10 ¡

  11. Active ¡Learning: ¡the ¡basics ¡ ¡ ¡ picture ¡from ¡Rehbein ¡& ¡Ruppenhofer ¡2016’s ¡slide ¡ 11 ¡

  12. Active ¡Learning: ¡the ¡basics ¡ ¡ Which ¡one ¡is ¡the ¡most ¡useful ¡example ¡for ¡classifier? ¡ ¡ 12 ¡ picture ¡from ¡Rehbein ¡& ¡Ruppenhofer ¡2016‘s ¡slide ¡

  13. Active ¡Learning: ¡the ¡basics ¡ ¡ Which ¡one ¡is ¡the ¡most ¡useful ¡example ¡for ¡classifier? ¡ ¡ 13 ¡ picture ¡from ¡Rehbein ¡& ¡Ruppenhofer ¡2016‘s ¡slide ¡

  14. Active ¡Learning: ¡the ¡basics ¡ ¡ Which ¡one ¡is ¡the ¡most ¡useful ¡example ¡for ¡classifier? ¡ ¡ the ¡more ¡ uncertain ¡the ¡ example, ¡the ¡ useful ¡it ¡would ¡ ¡ be ¡to ¡have ¡this ¡ example ¡ annotated ¡!! ¡ 14 ¡ picture ¡from ¡Rehbein ¡& ¡Ruppenhofer ¡2016‘s ¡slide ¡

  15. Query-­‑by-­‑committee ¡approach ¡ • How ¡can ¡we ¡find ¡the ¡most ¡uncertain ¡examples? ¡ • Query-­‑by-­‑commieee ¡approach ¡uses ¡mul4ple ¡ models ¡to ¡evaluate ¡the ¡data, ¡and ¡candidates ¡for ¡ annota4on ¡are ¡drawn ¡from ¡the ¡pool ¡of ¡examples ¡ in ¡which ¡the ¡models ¡disagree. ¡ 15 ¡

  16. Apply ¡active ¡learning ¡to ¡base ¡ noun ¡phrase ¡chunking ¡ corpus ¡C ¡ 16 ¡

  17. Apply ¡active ¡learning ¡to ¡base ¡ noun ¡phrase ¡chunking ¡ C: ¡15-­‑18 ¡of ¡ corpus ¡C ¡ the ¡Wall ¡ Street ¡Journal ¡ Treebank ¡ 17 ¡

  18. Apply ¡active ¡learning ¡to ¡base ¡ noun ¡phrase ¡chunking ¡(Step ¡1) ¡ C: ¡15-­‑18 ¡of ¡ corpus ¡C ¡ the ¡Wall ¡ Street ¡Journal ¡ arbitrarily ¡pick ¡t ¡sentences ¡ Treebank ¡ for ¡hand ¡annota4on ¡ Seed ¡set ¡ t ¡= ¡100 ¡ 18 ¡

  19. Apply ¡active ¡learning ¡to ¡base ¡ noun ¡phrase ¡chunking ¡(Step ¡2) ¡ t ¡ training ¡ corpus ¡C ¡ set ¡T ¡ delete ¡these ¡t ¡sentences ¡ put ¡these ¡t ¡sentences ¡into ¡T ¡ from ¡C ¡ C: ¡15-­‑18 ¡of ¡ Seed ¡set ¡ the ¡Wall ¡ t ¡= ¡100 ¡ Street ¡Journal ¡ Treebank ¡ 19 ¡

  20. Apply ¡active ¡learning ¡to ¡base ¡ noun ¡phrase ¡chunking ¡(Step ¡3) ¡ t1 ¡ t2 ¡ t3 ¡ m ¡= ¡3 ¡ divide ¡T ¡into ¡m ¡subset ¡ 20 ¡

Recommend


More recommend