Natural Language Processing Morphology Artificial Intelligence Lecture 7 Karim Bouzoubaa
Content • Introduction • Why? • Morphological processes • Types of Morphemes • Morphology in NLP – computational morphology • Tools
Introduction • Morphology ¡is ¡the ¡domain ¡of ¡linguis5cs ¡that ¡ analyzes ¡the ¡internal ¡structure ¡of ¡words ¡ • According ¡ to ¡ the ¡ classical ¡ approach ¡ in ¡ linguis5cs, ¡ words ¡ are ¡ formed ¡ of ¡ morphemes, ¡which ¡are ¡the ¡minimal ¡(that ¡is, ¡ non-‑decomposable) ¡ linguis5c ¡ units ¡ that ¡ carry ¡meaning ¡
why? • Many ¡ language ¡ processing ¡ applica5ons ¡ need ¡ to ¡ extract ¡the ¡informa5on ¡encoded ¡in ¡the ¡words ¡ – Parsers ¡ which ¡ analyze ¡ sentence ¡ structure ¡ need ¡ to ¡ know/check ¡agreement ¡between ¡ • subjects ¡and ¡verbs ¡ • Adjec5ves ¡and ¡nouns ¡ – Informa5on ¡retrieval ¡systems ¡benefit ¡from ¡know ¡what ¡ the ¡stem ¡of ¡a ¡word ¡is ¡ – Machine ¡transla5on ¡systems ¡need ¡to ¡analyze ¡words ¡to ¡ their ¡ components ¡ and ¡ generate ¡ words ¡ with ¡ specific ¡ features ¡in ¡the ¡target ¡language ¡
computational morphology
computational morphology - analysis
computational morphology - generation
Morphological processes • Three ¡ main ¡ morphological ¡ processes, ¡ used ¡ in ¡many ¡languages, ¡can ¡be ¡dis5nguished: ¡ – Inflec5on ¡( قاصلإ ) ¡ – Deriva5on ¡( قاقتشا ) ¡ – Compounding ¡( بيكرت ) ¡
inflection • Phenomena of declination and conjugation (change of number, gender, time, person, mode and case). It does not change the POS of a word o Horse Horse s o Eat eat ing o Likes like d
inflection • Inflection does not induce a grammatical category change • The various words linked by inflection (or inflected forms) are by lemmatization, represented by a single form, the lemma, which corresponds for the English language • to the infinitive of the verbs • to the masculine singular of the adjectives • and to the singular for the nouns Word Eating Liked strongs schools Lemma eat like strong school
inflection • For the Arabic language, the stem represents the word without the prefix and the suffix, and the lemma corresponds to the singular of the stem for the nouns and for the verbs with the past form conjugated to the third person of the singular of their stems
Derivation • Formation of new words thanks to the addition of affixes to the root • Derivational morphology produces a new word with usually a different part-of-speech category. – e.g., make a verb from a noun. • The new word is said to be derived from the old word – happy (Adj) ⇒ happi+ness (Noun) – nation/national/nationalise/ – nationalist/nationalism/
Derivation • In French, we can distinguish three derivational operations: – derivation by prefixation [prefix + root] (precancer = [pre- cancer]) – derivation by suffixation [root+ suffix] (cancerous = [cancer + them]) – para synthetic training [prefix + root+ suffix] (intravenous = [intra + vein + euse])
Derivation • In Arabic, the derivation is done by applying models to the roots
Composition • Combina5on ¡ of ¡ two ¡ or ¡ more ¡ bases ¡ to ¡ form ¡ a ¡ new ¡ word ¡ • For ¡ example, ¡ you ¡ can ¡ add ¡ a ¡ free ¡ morpheme ¡ to ¡ another ¡free ¡morpheme ¡(eg ¡ blackboard, ¡underflow, ¡overflow ) ¡ • In ¡Arabic, ¡the ¡composi5on ¡is ¡present ¡essen5ally ¡in ¡the ¡ proper ¡names ¡( ملعلا ¡ ءامسأ ). ¡
Types of morphemes • The ¡stem: ¡it ¡corresponds ¡to ¡what ¡remains ¡of ¡the ¡word ¡once ¡the ¡ flexional ¡ affixes ¡ removed. ¡ It ¡ does ¡ not ¡ therefore ¡ necessarily ¡ cons5tute ¡ an ¡ atomic ¡ en5ty ¡ and ¡ can ¡ be ¡ further ¡ decomposed ¡ into ¡deriva5onal ¡and ¡radical ¡affixes ¡ • The ¡lemma: ¡it ¡carries ¡the ¡main ¡meaning ¡of ¡the ¡word ¡ • The ¡root: ¡is ¡an ¡abstract ¡en5ty, ¡bearing ¡common ¡sense ¡to ¡all ¡the ¡ words ¡formed ¡from ¡this ¡root ¡ • The ¡words ¡base, ¡radical ¡and ¡root ¡refer ¡to ¡very ¡similar ¡no5ons ¡
Types of morphemes • Affix ¡( دئازلا ): ¡By ¡adding ¡to ¡a ¡root ¡or ¡radical, ¡it ¡creates ¡a ¡ new ¡word ¡while ¡changing ¡the ¡meaning ¡or ¡func5on ¡ – Prefix ¡( قباسلا ) : ¡Affix ¡who ¡stands ¡before ¡the ¡radical ¡ – Suffix ¡( قحللا ) : ¡Affix ¡who ¡places ¡himself ¡aRer ¡the ¡radical ¡ – Infix ¡( لخاد ) : ¡Affix ¡that ¡can ¡be ¡placed ¡in ¡the ¡middle ¡of ¡the ¡ radical, ¡following ¡phonological ¡rules ¡of ¡placement ¡
Types of morphemes (prefix) Lemma Root
Computational morphology
Computational morphology
Computational morphology
Morphology in NLP • Stemming: ¡it ¡consists ¡in ¡segmen5ng ¡the ¡word ¡in ¡ ¡ – prefix ¡+ ¡stem ¡+ ¡suffix ¡ • Lemma5zing: ¡ it ¡ brings ¡ back ¡ the ¡ (inflec5onal) ¡ variants ¡ of ¡ the ¡ same ¡ word ¡ to ¡ their ¡ canonical ¡ form ¡which ¡is ¡the ¡lemma ¡ • Roo5ng: ¡it ¡aims ¡to ¡search ¡for ¡the ¡roots ¡of ¡words. ¡ ¡
Morphology in NLP • Morpho-‑syntac5c ¡analysis: ¡it ¡consists ¡of ¡analyzing ¡each ¡ word ¡to ¡associate ¡various ¡types ¡of ¡informa5on ¡such ¡as ¡ its ¡gramma5cal ¡category, ¡its ¡morphological ¡features ¡as ¡ well ¡as ¡the ¡corresponding ¡lemma ¡
Morphology in NLP • Stemming: ¡it ¡consists ¡in ¡segmen5ng ¡the ¡word ¡in ¡ ¡ – prefix ¡+ ¡stem ¡+ ¡suffix ¡ • Lemma5zing: ¡ it ¡ brings ¡ back ¡ the ¡ (inflec5onal) ¡ variants ¡ of ¡ the ¡ same ¡ word ¡ to ¡ their ¡ canonical ¡ form ¡which ¡is ¡the ¡lemma ¡ • Roo5ng: ¡it ¡aims ¡to ¡search ¡for ¡the ¡roots ¡of ¡words. ¡ ¡
ambiguity
disambiguation
disambiguation
implementation • implementa5on ¡ approaches ¡ for ¡ computa5onal ¡ morphology: ¡ – List ¡all ¡word-‑forms ¡as ¡a ¡database ¡ – Heuris5c/rule ¡based ¡affix ¡stripping ¡ – Finite ¡state ¡approaches ¡
demo • h W p s : / / w w w . y o u t u b e . c o m / w a t c h ? v=yGKTphqxR9Q ¡ • hWp://www.nltk.org/howto/stem.html ¡ • www.gate.ac.uk ¡ ¡ • hWp://arabic.emi.ac.ma:8080/SafarWeb_V2/ ¡ • hWp://arabic.emi.ac.ma/safar/ ¡
Recommend
More recommend