Expressions polylexicales EP en TAL EPV Annotation Identification automatique Wrap-up Expressions polylexicales dans la linguistique computationnelle: on n’est pas sorti de l’auberge Agata Savary Université de Tours, France Seminaire LIFAT, 4 juillet 2019 1/20
Expressions polylexicales EP en TAL EPV Annotation Identification automatique Wrap-up Expressions polylexicales (EN: multiword expressions , MWEs) Qu’y a-t-il ‘quel est le problème’ de spécial avec les expressions mises en exergue ‘mises en évidence’? Si vous avez tant besoin de couper l’herbe sous le pied de quelqu’un, je vous proposerais de vous en prendre au rédacteur-en-chef , Monsieur Jean-Marc Petit . 2/20
Expressions polylexicales EP en TAL EPV Annotation Identification automatique Wrap-up Expressions polylexicales Définition Combinaisons de plusieurs mots qui possèdent des propriétés irrégulières au niveau du lexique, de la grammaire, de la sémantique, etc. Sémantique non-compositionnelle Le sens global n’est pas déductible de manière régulière à partir des sens des composants, et des liens syntaxiques qui les relient. couper l’herbe sous le pied de quelqu’un ‘empêcher quelqu’un de réussir’ s’en prendre à quelqu’un ‘prendre quelqu’un pour cible, lui attribuer une faute’ Propriété difficile à tester. On simule ce test par d’autres tests de "surface". 3/20
Expressions polylexicales EP en TAL EPV Annotation Identification automatique Wrap-up Les casse-pieds ‘qui ennuient/dérangent’ de la linguistique computationnelle Pervasiveness Jusqu’à 40% des mots d’un texte appartiennent à des expressions polylexicales. [4, 7] Si vous avez tant besoin de couper l’herbe sous le pied de quelqu’un, je vous proposerais de vous en prendre au rédacteur-en-chef , Monsieur Jean-Marc Petit . Ici: 17 composants d’EP sur 30 mot du texte → 57% Non-compositionalité Méthodes informatiques sont compositionnelles Phénomènes complexes sont décomposés en problèmes plus simples. Sous problèmes reçoivent des solutions autonomes, qui sont ensuites composées pour fournir solutions globales. EP sont sémantiquement non-compositionnelles , donc posent problème pour le tâches du TAL orientées sémantiquement . 4/20
Expressions polylexicales EP en TAL EPV Annotation Identification automatique Wrap-up Traduction automatique Traductions mot-à-mot ne captent pas le sens idiomatique. 5/20
Expressions polylexicales EP en TAL EPV Annotation Identification automatique Wrap-up Fouille d’opinion La tâche Prédire automatiquement la valence (positive, neutre ou négative) de l’opinion exprimée par un texte Je soutiens les gilets jaunes. Je suis très respectueux de leur cause. Il ne faut pas accepter ce geste. Rien ne le justifie ! Cela s’appelle une agression. Simple technique Les mots simples sont annotés avec une valence élémentaire: respectueux → 1, agression → -2, justifier → 1 Des règles locales modifient la valence élémentaire: très, grand doublent la valence; très respectueux → 1*2 = 2 La négation inverse la valence: rien ne le justifie → -1*1=-1 Non-compositionnalité Texte Valence calculée Valence réelle bras 0 d’honneur 1 1 -2 avoir un coup 0 de foudre − 1 -1 2 6/20
Expressions polylexicales EP en TAL EPV Annotation Identification automatique Wrap-up Solutions Identifier automatiquement les EP dans le texte. Leur appliquer des traitements spéciaux: traduction automatique reformuler une EP avant la traduction il boit comme un trou → il est alcoolique → he is an alcoholic fouille d’opinion attribuer une valence à une EP en entier avoir un [ coup de foudre ] 2 7/20
Expressions polylexicales EP en TAL EPV Annotation Identification automatique Wrap-up Focus sur les EP verbales Expressions polylexicales verbales (EPV) EPV = expression polylexicale dont la tête (le mot dominant) est un verbe (EN) verbal multiword expressions ( VMWEs ) Défis posés par les EPV Discontinuités: prendre les choses trop à coeur Variabilité: elle a tourné la page de son mariage vs. plusieurs pages de sa vie seront tournées Ambiguité: lecture littérale vs. idiomatique elle tourne la page de son mariage vs. elle tourne la dernière page du livre Recouvrement: vous présentez 1 ou avez récemment présenté 2 un saignement 1 , 2 Mots graphiques vs. mots syntaxiques ES abstener | se ‘s’abstenir’ vs. me abstengo Langues variées ⇒ comportements variés, traditions linguistic divergentes 8/20
Expressions polylexicales EP en TAL EPV Annotation Identification automatique Wrap-up EPV: état de l’art en TAL Modélisation des EPV par annotation en corpus Corpus PARSEME [8] Identification automatique des EPV PARSEME shared task on automatic identification of verbal MWEs [5] 9/20
Expressions polylexicales EP en TAL EPV Annotation Identification automatique Wrap-up Annotation d’EP en corpus 10/20
Expressions polylexicales EP en TAL EPV Annotation Identification automatique Wrap-up Corpus PARSEME d’EPV Coopération internationale réseau scientifique européen PARSEME: 20 équipes nationales ANR PARSEME-FR - émanation française de ce réseau terminologie et méthodologie unifiées ( guide d’annotation ) corpus de 20 langues, 6 millions de mots, 80 mille EP annotées Familles de langues Balto-slaves : bulgare (BG), croate (HR), lituanien (LT), polonais (PL), slovène (SL) Germaniques : allemand (DE), anglais (EN) Romanes : espagnol (ES), français (FR), italien (IT), portugais brésilien (PT), roumain (RO) Autres : arabe (AR), basque (EU), farsi (FA), grec (EL), hébreu (HE), hindi (HI), hongrois (HU), turc (TR) 11/20
Expressions polylexicales EP en TAL EPV Annotation Identification automatique Wrap-up Format CUPT: extension du format CoNLL-U 1 Vous il _ _ 2 nsubj _ _ * PRON 2 présentez présenter _ _ 0 root _ _ 1:LVC.full VERB 3 ou ou CCONJ _ _ 6 cc _ _ * 4 avez avoir _ _ 6 aux _ _ * AUX 5 récemment récemment ADV _ _ 6 advmod _ _ * 6 présenté présenter _ _ 2 conj _ _ 2:LVC.full VERB 7 un un _ _ 8 det _ _ * DET 8 saignement saignement NOUN _ _ 2 obj _ _ 1;2 obj conj root cc aux nsubj advmod det vous présenter 1 ou avez récemment présenté 2 un saignement 1 , 2 12/20
Expressions polylexicales EP en TAL EPV Annotation Identification automatique Wrap-up MWE identification (MWEI) [3] INPUT: text OUTPUT: text annotated with MWEs 13/20
Expressions polylexicales EP en TAL EPV Annotation Identification automatique Wrap-up PARSEME shared task on automatic identification of VMWEs [9, 5] Goal Automatically identify all VMWE occurrences in running text. Two tracks Closed : only use the provided training/dev data Open : use the provided data + any external resource corpora, lexicons, grammars, language models, word embeddings, . . . Evaluation dimensions Precision, recall and F1-measure Per-language scores vs. cross-lingual macro-averages Precise-span measure vs. partial-match measure General measure (all VMWEs) vs. phenomenon-specific measure (e.g. unseen VMWEs) 14/20
Expressions polylexicales EP en TAL EPV Annotation Identification automatique Wrap-up MWE identification by sequential tagging BIO tagging The prime minister paid an important visit to the president . O B I B O O I O O O O BIO tagging with nesting The prime minister paid a few important visits to the president . O B I B b i O I O O O O b and i stand for begin and inside of nested MWEs Sequential tagging Decoding (finding the most probable sequence of tags) can be done by a sequential tagger (a model trained on annotated data), based on: Hidden Markov Model (+ Viterbi algorithm) Conditional Random Fields bi-directional Long Short Term Memory networks 15/20
Expressions polylexicales EP en TAL EPV Annotation Identification automatique Wrap-up Parsing-based MWE identification Technique 1: sequential tagging with parsing features The parsing data (e.g. the dependency labels) are used as features in CRF The parsing data are attached to word embeddings on input of a neural net Discontinuities in VMWEs are handled by [6] self-attention a and a graph convolutional network b which takes on input all the words syntactically connected to the current word a Self-attention = an attention mechanism relating different positions of a single sequence in order to compute a representation of the same sequence. Here: it attends to long-range relations. b A convolutional NN = a NN in which neuron in one layer is connected to only a subset of neurons in the preceding layer. Here: a graph CNN should leverage dependency parse information. 16/20
Expressions polylexicales EP en TAL EPV Annotation Identification automatique Wrap-up Parsing-based MWE identification Technique 2: sequential tagging of tree traversals The sentence is read not linearly but following the traversal of the syntactic tree CRF-based sequential IO (B is omitted) tagging is applied to this traversal punct paid root obj det Joe visit nsubj amod Joe paid a short visit . a short ⇒ = paid Joe visit a short ⇒ I O I O O Technique 3: candidate extraction + parsing-based classification [varIDE, Blois] Words from seen VMWEs are used to identify VMWE candidates (disregarding syntax) The candidates are classified based on various morpho-syntactic features (including dependencies) 17/20
Recommend
More recommend