Language Resource Addition: Dictionary or Corpus? Shinsuke Mori Graham Neubig Kyoto University NAIST 2014 May 29 1 / 30
Table of Contents Overview Morphological Analysis Evaluation Realistic Cases Conclusion 2 / 30
NLP for Applications ◮ Machine learning approach 1. Annotation standard 2. Language resource (Texts with annotations) 3. Classifiers ◮ High accuracy in the general domain ◮ We have enough large annotated data ◮ Not sufficiently accurate for various texts ◮ Achieve a high accuracy by all means!! 3 / 30
Language Resource Addition for ML-based NLP ✓ ✏ Language resource addition never betrays!! ✒ ✑ ◮ As dictionary entries ◮ Without context ⇒ Improve NLP ◮ Easy for tool users ··· You just edit the dictionary. ◮ As an annotated corpus ··· You need re-training. ◮ Not easy for tool users ◮ With context ⇒ Improve more? 4 / 30
Task for Experiments ◮ Japanese morphological analysis = WS + PT ✓ ✏ Word segmentation (WS) 吾輩は猫である ex.) I am a cat ⇓ 吾輩 は 猫 で あ る ✒ ✑ ✓ ✏ Part-of-speech tagging (PT) 吾輩 は 猫 で あ る ex.) ⇓ N P N P V Suf ✒ ✑ ◮ Most ambiguity lies in WS 5 / 30
Sequence-based Approach (SB) ◮ MeCab: CRF-based joint method [Kudo 04] 吾輩 は 猫 で あ る N P N P V Suf ◮ refers to the word to be tagged w , the word sequences to its left w − and right w + , and their POS ◮ requires fully annotated language resources ✞ ☎ ex.) 吾輩 /N は /P 猫 /N で /P あ /V る /Suf ✝ ✆ Cf. [Tsuboi 08] 6 / 30
Pointwise Approach (PW) ◮ KyTea: 2-step pointwise method (SVM or other) [Neubig 11] ◮ Word segmentation ⇒ POS tagging 吾 輩 は 猫 で あ る 0 1 1 1 1 1 ◮ refers to only the word to be tagged w , and the character sequences to its left c − and right c + ◮ never refers to any estimated values! ◮ is trainable from partially annotated language resources ✞ ☎ ex.) 吾輩は 猫 である ✝ ✆ no annot. no annot. 7 / 30
Pointwise Approach (PW) ◮ KyTea: 2-step pointwise method (SVM or other) [Neubig 11] ◮ Word segmentation ⇒ POS tagging 吾 輩 は 猫 で あ る N ◮ refers to only the word to be tagged w , and the character sequences to its left c − and right c + ◮ never refers to any estimated values! ◮ is trainable from partially annotated language resources ✞ ☎ ex.) 吾輩は 猫 /N である ✝ ✆ no annot. no annot. 8 / 30
Dictionary or Corpus ✓ ✏ Dictionary word1/POS1,POS2 word2/POS2,POS3 . . . ✒ ✑ ✓ ✏ Corpus left context word1/POS1 right context left context word1/POS2 right context left context word2/POS2 right context left context word2/POS3 right context . . . ✒ ✑ ◮ Unknown words are found in real texts with contexts 9 / 30
Experimental Setting 1. BCCWJ (Balanced Corpus of Contemporary Written Japanese) [Maekawa 08] Corpus Domain #words General 784k (Core Data - Yahoo!QA) General + Web 898k (Core Data) Web for test 13.0k Dictionary Domain #words Coverage (word/POS) General 29.7k 96.3% General + Web 32.5k 97.9% 10 / 30
MA and method ◮ Morphological analyzer 1. MeCab: CRF-based joint method [Kudo 04] 2. KyTea: 2-step pointwise method [Neubig 11] ◮ Adaptation strategies 1. No adaptation: Use the corpus and the dictionary in the general domain. 2. Dictionary addition (no re-training): Add words appearing in the Web training corpus to the dictionary (MeCab only). 3. Dictionary addition (re-training): + estimate the weights on the general domain training data. 4. Corpus addition: Add annotated sentences in the Web training corpus and train the parameters. 11 / 30
Accuracy Mesurement ◮ N REF : the number of word-POS pairs in the correct sentence ◮ N SY S : in the system output ◮ N LCS : the length of the LCS (longuest common subsequence) Recall = N LCS Prec. = N LCS , . N REF N SY S ◮ F-measure: the harmonic mean of the Recall and the Prec. � − 1 � 1 2 N LCS 2( R − 1 + P − 1 ) F = = . N REF + N SY S 12 / 30
Word Segmentation Accuracy Adaptation strategy MeCab KyTea No adaptation 95.20% 95.54% Dict. addition (no re-training) 96.59% - Dict. addition (re-training) 96.55% 96.75% Corpus addition 96.85% 97.15% ◮ Dictionary addition: +1.35% (MeCab), +1.21% (KyTea) ◮ Corpus addition: +0.30% (MeCab), +0.40% (KyTea) 75~80% Without context With context 13 / 30
Realistic Cases ◮ The previous experiments are somewhat artificial or in-vitro ◮ Full annotation required ✞ ☎ ex.) 吾輩 /N は /P 猫 /N で /P あ /V る /Suf ✝ ✆ ◮ Two real adaptation scenarios or in-vivo ◮ Partial annotation ✞ ☎ ex.) 吾輩は 猫 /N である ✝ ✆ no annot. no annot. ◮ Only KyTea (MeCab does not support such data) ◮ focusing on word segmentation where most ambiguity lies 14 / 30
Case 1: Recipe Text Analysis for Procedural Text Understanding 1. 各 各 各 各 / ホット ホット ホット ホット ドッグ ドッグ ドッグ ドッグ パン /F パン パン パン の の の の / 内側 内側 内側 内側 /F に に に に 、 、 、 、 / マヨネーズ マヨネーズ マヨネーズ マヨネーズ /F 、 、 、 、 / マスタード マスタード マスタード /F マスタード 、 、 、 、 / 甘味 甘味 甘味 甘味 料 料 /F 料 料 F-part-of (each) ( cmi ) (mayonnaise) (mustard) (sweet relish) (hot dog buns) (of) (Incide) を を を を / 広げ 広げ /Ac 広げ 広げ る る る る 。 。 。 。 d-obj d-obj d-obj ◮ Recipe flow graph i-obj d-obj ( cmd ) (spread) ( infl. ) corpus [Mori 14] / フランクフルト フランクフルト フランクフルト フランクフルト /F を を を を / 入れ 入れ /Ac 入れ 入れ 、 、 、 、 / 13 13 13 13 × × × × 9 9 9 9 “ /St “ “ “ の の の の / オーブン オーブン オーブン オーブン 皿 /T 皿 皿 皿 に に に に / 置 置 置 置 /Ac く く く く 。 。 。 。 i-obj other-mod d-obj i-obj (05/29 Session: (of) (baking dish) ( cmi ) (place) ( infl. ) (frankfurter) ( cmd ) (fill) (13 x 9 “) 2. 各 各 各 各 / ホット ホット ドッグ ホット ホット ドッグ ドッグ /F ドッグ に に に に / チリ チリ チリ チリ /F 、 、 、 、 / チーズ チーズ /F チーズ チーズ 、 、 、 、 / オニオン オニオン オニオン オニオン /F を を を を / ふりかけ ふりかけ /Ac ふりかけ ふりかけ る る る る 。 。 。 。 F-eq i-obj P34 - Corpora and d-obj d-obj d-obj (each) (hot dog) ( cmi ) (chili) (cheese) (onion) ( cmd ) (sprinkle) ( infl. ) d-obj 3. / アルミホイル アルミホイル アルミホイル アルミホイル /T で で で で / 覆 覆 /Ac 覆 覆 い い い い 、 、 、 、 / オーブン オーブン オーブン オーブン /T に に に に / 置 置 置 /Ac 置 く く く く 。 。 。 。 Annotation) T-comp d-obj i-obj (aluminum foil) (cmc) (cover) ( infl. ) (oven) ( cmi ) (place) ( infl. ) そして そして そして そして 、 、 、 、 / 350 350 350 350 度 度 度 度 /St で で で で / 45 45 45 45 分 分 分 分 間 間 間 間 /D / 焼 焼 焼 焼 /Ac く く く く 。 。 。 。 T-comp d-obj other-mod (then) (350 degrees) (cmc) (45 minutes) (bake) ( infl. ) ◮ Specifications #Sent. #NEs #Words #Char. Training 1,760 13,197 33,088 50,002 Test 724 – 13,147 19,975 15 / 30
Recommend
More recommend