constructing a valence lexicon for a treebank of german
play

Constructing a Valence Lexicon for a Treebank of German Erhard W. - PowerPoint PPT Presentation

Constructing a Valence Lexicon for a Treebank of German Erhard W. Hinrichs, Kathrin Beck {eh, kbeck}@sfs.uni-tuebingen.de University of Tbingen Seminar fr Sprachwissenschaft Germany 12/13/10 Erhard Hinrichs, Kathrin Beck


  1. Constructing a Valence Lexicon for a Treebank of German Erhard W. Hinrichs, Kathrin Beck {eh, kbeck}@sfs.uni-tuebingen.de University of Tübingen Seminar für Sprachwissenschaft Germany 12/13/10 ¡Erhard ¡Hinrichs, ¡Kathrin ¡Beck ¡ ¡ CLARA ¡Course ¡on ¡Treebank ¡Annota?on ¡

  2. The TüBa-D/Z Treebank German newspaper corpus: Annotation scheme: Ø data source: die tageszeitung (taz) Ø context-free backbone Ø ca. 36 000 sentences Ø PS grammar + predicate argument structure Ø semi-automatic annotation Ø topological fields ‘But there would be intelligent solutions which do not cost money.’ 12/13/10 ¡Erhard ¡Hinrichs, ¡Kathrin ¡Beck ¡ ¡ CLARA ¡Course ¡on ¡Treebank ¡Annota?on ¡

  3. Other Valence Lexica § PropBank (Palmer et al. 2005) additional layer of semantic roles in the Penn Treebank § FrameNet (Baker et al. 1998) based on frame semantics § Prague valency lexicon PDT-VALLEX (Haji č et al. 2003) created on the basis of the Prague Dependency Treebank 12/13/10 ¡Erhard ¡Hinrichs, ¡Kathrin ¡Beck ¡ ¡ CLARA ¡Course ¡on ¡Treebank ¡Annota?on ¡

  4. The TüBa-D/Z Valence Lexicon The valence lexicon: Example entry of a polysemous verb: einsetzen: ON [einsetzen] OA (R4-5603) Ø constructed in lockstep with the ======= Bsp: Wir haben Computer eingesetzt ‘ We used the computer. ’ development of the TüBa ‑ D/Z ON [einsetzen] OA FOPP (für, gegen) (R4-3126) Bsp: Wir setzen uns für eine Feuerpause ein Ø The number of verb lemmas and ‘We supported a cease fire.’ valence frames corresponds with Bsp: Gegen den Widerstand setzt der Senat Polizeiknüppel ein (R4-27058) the number of sentences in the ‘Against the resistance the senate used billy clubs.’ TüBa-D/Z ON [einsetzen] (R4-2903) Bsp: Schneefall hatte eingesetzt Ø 4896 distinct verb lemmas ‘ Snowfall had set in. ’ ON [einsetzen] OA PRED (R4-17034) Ø 8013 valence frames (total) Bsp: Gourmetköche setzen sie als Garnitur ein ‘ Gourmet cooks used it as garnish. ’ Ø 717 distinct valence frames ON [einsetzen] OD OA (N5-37382) Bsp: Man setzt den Pflanzen neue Gene ein ‘ One inserts new genes into the plants. ’ 12/13/10 ¡Erhard ¡Hinrichs, ¡Kathrin ¡Beck ¡ ¡ CLARA ¡Course ¡on ¡Treebank ¡Annota?on ¡

  5. Grammatical Function Labels Inventory of grammatical function labels used in the valence lexicon: Label Description Ø coincides with the edge labels ON nominative object (incl. subject clauses) used in the syntactic annotation OG genitive object OD dative object Ø corresponds directly to syntax OA accusative object ¡ OS sentential object OPP obligatory prepositional object FOPP facultative prepositional object OADVP adverbial object OADJP adjectival object PRED predicate OV verbal object 12/13/10 ¡Erhard ¡Hinrichs, ¡Kathrin ¡Beck ¡ ¡ CLARA ¡Course ¡on ¡Treebank ¡Annota?on ¡

  6. Quantitative Analysis I Accession rates for frames, verb lemmas, and their combinations in ranges of 5000 sentences: 9000 8000 Number of frames 7000 Number verb lemmas 6000 combined 5000 4000 3000 2000 1000 0 0 5000 10000 15000 20000 25000 30000 35000 40000 Number of annotated sentences 12/13/10 ¡Erhard ¡Hinrichs, ¡Kathrin ¡Beck ¡ ¡ CLARA ¡Course ¡on ¡Treebank ¡Annota?on ¡

  7. Quantitative Analysis I Accession rates for frames, verb lemmas, and their combinations in ranges of 5000 sentences: 9000 8000 Number of frames 7000 Number verb lemmas 6000 combined 5000 5.9% ¡ 4000 8.5% ¡ 9.0% ¡ 10.0% ¡ 3000 10.4% ¡ 17.4% ¡ 2000 33.9% ¡ 1000 0 0 5000 10000 15000 20000 25000 30000 35000 40000 Number of annotated sentences 12/13/10 ¡Erhard ¡Hinrichs, ¡Kathrin ¡Beck ¡ ¡ CLARA ¡Course ¡on ¡Treebank ¡Annota?on ¡

  8. Quantitative Analysis II ¡ Distribution of valence frames over sentence number range (r) for the 15 verb lemmas with the highest number of valence frames: Valence frames per verb lemma 16 14 r 40 000 12 10 r 35 000 8 r 30 000 6 r 25 000 4 r 20 000 2 0 r 15 000 machen: schreiben: denken: halten: lassen: nehmen: sehen: geben: sagen: sprechen: tun: finden: haben: sein: stehen: r 10 000 r 5000 Lemma 12/13/10 ¡Erhard ¡Hinrichs, ¡Kathrin ¡Beck ¡ ¡ CLARA ¡Course ¡on ¡Treebank ¡Annota?on ¡

  9. Quantitative Analysis III ¡ Top 30 list of valence frames Number of distinct valence frames: ON FOPP (an) ON OPP (mit) ON OA FOPP (auf) Ø 717 distinct valence frames ON FOPP (über) ON OA FOPP (an) (including prepositions) ON OADJP ON FOPP (mit) EMPTY ON FOPP (in) Ø The frequency of occurrence ON OPP (in) ON OA FOPP (zu) for a specific valence frame ON OA FOPP (in) Valence frame ON OD (PASSIV) ranges from ON OA OPP (in) ON OADVP ON OPP (auf) ON OA OS 2243 (ON OA) ON OA OD ON OA FOPP (mit) down to ON PRED (PASSIV) ON OD OS ON PRED 3 (36 distinct valence frames) OA (INFINITIV) ON OA PRED 2 (67 distinct valence frames) ON OD ON OD OA 1 (488 distinct valence frames) ON OS ON (PASSIV) ON ON OA 0 500 1000 1500 2000 2500 Frequency 12/13/10 ¡Erhard ¡Hinrichs, ¡Kathrin ¡Beck ¡ ¡ CLARA ¡Course ¡on ¡Treebank ¡Annota?on ¡

  10. Quantitative Analysis IV Valence frame count per verb lemma and frequency count: Valence frames Frequency Verb lemma 4896 verb lemmas (total) per verb lemma count machen 16 1 schreiben 15 1 67.3% (3294 verb lemmas): 1 frame denken, halten 14 2 lassen, nehmen, sehen 13 3 18.8% (921 verb lemmas): 2 frames geben, sagen, sprechen, tun 12 4 7.1% (347 verb lemmas): 3 frames finden, haben, sein, stehen 11 4 entscheiden ... wissen 10 9 3.0% (146 verb lemmas): 4 frames bleiben … verpflichten 9 6 bekommen … ziehen 8 15 1.7% (85 verb lemmas): 5 frames anfangen … zahlen 7 25 abstimmen … wünschen 6 33 anbieten … zwingen 5 85 1.8% (88 verb lemmas): 6-10 frames abfahren … zustimmen 4 146 abgeben … zweifeln 3 347 0.3% (15 verb lemmas): more than abbrechen … zutreffen 2 921 aalen … zwitschern 1 3294 10 frames 12/13/10 ¡Erhard ¡Hinrichs, ¡Kathrin ¡Beck ¡ ¡ CLARA ¡Course ¡on ¡Treebank ¡Annota?on ¡

  11. Conclusion and Future Work Current state of work: Ø TüBa-D/Z: ca. 40 000 sentences Ø Valence Lexicon: 4947 distinct verb lemmas 8139 valence frames (total) 755 distinct valence frames Integration with other resources of German (e.g. GermaNet): Benefits: Ø opportunity to clarify the intended sense of a verb by matches of verb senses with valence frames Ø empirical verification of the relationship between the correlation of distinct valence frames and sense distinction 12/13/10 ¡Erhard ¡Hinrichs, ¡Kathrin ¡Beck ¡ ¡ CLARA ¡Course ¡on ¡Treebank ¡Annota?on ¡

  12. Thank you for your attention ¡ 12/13/10 ¡Erhard ¡Hinrichs, ¡Kathrin ¡Beck ¡ ¡ CLARA ¡Course ¡on ¡Treebank ¡Annota?on ¡

  13. Quantitative Analysis V Correlation of lemma frequency with the number of valence frames per verb: Valence frame count Lemma Lemma frequency per verb sein 10009 11 Top 20 correlation of lemma frequency werden 6545 7 and valence frame count per verb haben 5766 11 können 2164 6 sollen 1418 6 ¡ müssen 1373 5 wollen 1294 8 geben 1021 12 sagen 922 12 machen 801 16 kommen 668 10 lassen 626 13 gehen 562 10 stehen 475 11 sehen 462 13 bleiben 409 9 dürfen 379 5 heißen 364 10 wissen 364 10 finden 361 11 12/13/10 ¡Erhard ¡Hinrichs, ¡Kathrin ¡Beck ¡ ¡ CLARA ¡Course ¡on ¡Treebank ¡Annota?on ¡

  14. Quantitative Analysis VI Top 100 correlation of lemma frequency and valence frame count: Ø weak correlation ¡ 100 90 LF Relative frequency 80 VFC 70 60 Linear (VFC) 50 40 30 20 10 0 sein sollen sagen gehen dürfen erklären halten spielen gelten leben glauben scheinen ziehen brauchen erreichen fragen einsetzen tragen verstehen übernehmen bestätigen unterstützen anbieten verlassen ausgehen Lemma 12/13/10 ¡Erhard ¡Hinrichs, ¡Kathrin ¡Beck ¡ ¡ CLARA ¡Course ¡on ¡Treebank ¡Annota?on ¡

Recommend


More recommend