The ¡development ¡of ¡corpus ¡ linguis4cs ¡in ¡Chinese ¡context ¡ ¡ Richard ¡Xiao ¡
An ¡overview ¡ • Taking ¡a ¡historical ¡approach ¡to ¡the ¡development ¡of ¡ CCL, ¡where ¡appropriate ¡in ¡contrast ¡to ¡ECL ¡ • Highligh>ng ¡the ¡key ¡points ¡and ¡unique ¡challenges ¡in ¡the ¡ development ¡ • Iden>fying ¡possible ¡fruiDul ¡avenues ¡of ¡development ¡ where ¡ECL ¡and ¡CCL ¡can ¡inform ¡and ¡learn ¡from ¡each ¡other ¡ • Three ¡areas ¡of ¡research ¡deeply ¡influenced ¡by ¡corpora ¡ – Lexicography ¡ – Descrip>ve ¡grammars ¡ – Interlanguage ¡analysis ¡ 2 ¡
Corpus ¡revolu>on ¡in ¡lexicography ¡ • Earlier ¡corpus-‑informed ¡lexicographic ¡studies ¡ ¡ – Thorndike ’ s ¡(1921) ¡ The ¡Teacher ’ s ¡Word ¡Book ¡ – The ¡ 1 st ¡edi>on ¡of ¡ American ¡Heritage ¡Dic6onary ¡(1969) ¡ • Real ¡star>ng ¡point ¡of ¡corpus-‑based ¡lexicography: ¡Sinclair ’ s ¡ COBUILD ¡in ¡1980 ¡ – Providing ¡data, ¡ideas ¡and ¡analyses ¡for ¡Collins, ¡to ¡help ¡them ¡develop ¡a ¡ new ¡corpus-‑based ¡dic>onary ¡(the ¡Collins ¡COBUILD ¡dic>onary, ¡1987) ¡ • Frequency, ¡colloca>on, ¡authen>c ¡illustra>ve ¡examples, ¡and ¡ contextual ¡and ¡genre ¡varia>on ¡are ¡all ¡forms ¡of ¡data ¡which ¡now ¡ commonly ¡appear ¡in ¡corpus-‑based ¡dic>onaries ¡ – Longman ¡Dic6onary ¡of ¡Contemporary ¡English ¡(LDOCE, ¡3rd ¡edi>on) ¡ – Oxford ¡Advanced ¡Learner’s ¡Dic6onary ¡(OALD, ¡5th ¡edi>on) ¡ – Cambridge ¡Interna6onal ¡Dic6onary ¡of ¡English ¡ – Macmillan ¡English ¡Dic6onary ¡ 3 ¡
Corpora ¡in ¡Chinese ¡lexicography ¡ • The ¡first ¡study ¡of ¡Chinese ¡character ¡frequency ¡in ¡a ¡ modern ¡sense ¡dated ¡back ¡as ¡early ¡as ¡the ¡1920s ¡ – Li ¡Jinxi ¡(1922): ¡‘Sta>s>cal ¡study ¡of ¡basic ¡vocabulary ¡in ¡ Chinese’ ¡ • Chen ¡Heqin ¡(1922, ¡1928) ¡ The ¡Applied ¡Glossary ¡of ¡ Modern ¡Chinese ¡( 《语体文应用字汇》 ) ¡ – A ¡paper-‑based ¡corpus ¡of ¡diverse ¡sources ¡amoun>ng ¡to ¡ well ¡over ¡0.5 ¡M ¡Chinese ¡characters ¡ – Taking ¡Chen ¡and ¡9 ¡assistants ¡nearly ¡3 ¡years ¡ – A ¡list ¡of ¡4,261 ¡most ¡frequently ¡and ¡widely ¡used ¡Chinese ¡ characters ¡ – Later ¡revised ¡and ¡republished ¡as ¡the ¡booklet ¡by ¡the ¡ Commercial ¡Press ¡in ¡1928 ¡ 4 ¡
Corpora ¡in ¡Chinese ¡lexicography ¡ • Chen’s ¡(1922, ¡1928) ¡frequency ¡list ¡of ¡Chinese ¡ characters ¡was ¡influenced ¡by ¡Thorndike’s ¡(1921) ¡ English ¡word ¡list ¡ • But ¡the ¡contribu>on ¡of ¡Chen ’ s ¡list ¡to ¡Chinese ¡is ¡ more ¡significant ¡than ¡the ¡contribu>on ¡of ¡ Thorndike’s ¡(1921) ¡list ¡to ¡English ¡because ¡the ¡ former ¡has ¡not ¡only ¡contributed ¡to ¡primary ¡ educa>on ¡and ¡the ¡promo>on ¡of ¡literacy ¡in ¡China, ¡ it ¡has ¡also ¡helped ¡to ¡shape ¡present-‑day ¡Chinese. ¡ – Phone>c ¡language ¡vs. ¡script ¡language ¡ – Timeliness ¡of ¡Chen ’ s ¡character ¡list ¡ 5 ¡
Corpora ¡in ¡Chinese ¡lexicography ¡ • Chen’s ¡list ¡is ¡the ¡forerunner ¡of ¡today’s ¡word ¡frequency ¡lists ¡and ¡ frequency ¡dic>onaries ¡of ¡Chinese ¡derived ¡from ¡computer ¡corpora ¡ • Since ¡the ¡founding ¡of ¡P. ¡R. ¡China, ¡the ¡central ¡government ¡and ¡local ¡ authori>es ¡have ¡also ¡published ¡a ¡range ¡of ¡lists ¡of ¡Chinese ¡words ¡ and ¡characters ¡ – Register ¡of ¡Common ¡Characters ¡(MoE ¡1950): ¡1,017 ¡characters ¡ – List ¡of ¡Common ¡Characters ¡(MoE ¡1952): ¡2,000 ¡characters ¡ – List ¡of ¡Common ¡Characters ¡in ¡ Putonghua ¡Common ¡Speech ¡(Shandong ¡ Provincial ¡Commission ¡of ¡Educa>on ¡1958): ¡3,000 ¡characters ¡ – Three ¡Thousand ¡Common ¡Words ¡in ¡ Putonghua ¡Common ¡Speech ¡ (Commicee ¡of ¡Language ¡Reform ¡1962) ¡ – A ¡List ¡of ¡Four ¡Thousand ¡Words ¡for ¡Foreign ¡Students ¡(BLCU ¡1964) ¡ – List ¡of ¡Common ¡Used ¡Characters ¡(Beijing ¡Municipality ¡Commission ¡of ¡ Educa>on ¡ ¡1965): ¡3,100 ¡characters ¡ 6 ¡
Corpora ¡in ¡Chinese ¡lexicography ¡ • With ¡the ¡rapid ¡development ¡of ¡corpus ¡linguis>cs ¡in ¡general ¡and ¡ Chinese ¡language ¡processing ¡in ¡par>cular, ¡the ¡long ¡standing ¡ tradi>on ¡of ¡studying ¡word ¡and ¡character ¡frequency ¡in ¡Chinese ¡ linguis>cs ¡has ¡been ¡con>nued ¡into ¡the ¡new ¡millennium ¡ – Liu ¡(1973): ¡ Frequency ¡Dic6onary ¡of ¡Chinese ¡Words ¡ – Project ¡Code ¡748 ¡(1976): ¡ A ¡Comprehensive ¡Frequency ¡Table ¡of ¡ Character ¡Usage ¡in ¡ ¡Modern ¡Chinese ¡ ¡ – Beihang ¡University ¡(1985): ¡ A ¡Frequency ¡Table ¡of ¡Character ¡Usage ¡in ¡ Modern ¡Chinese ¡ – BLCU ¡(1986): ¡ A ¡Frequency ¡Dic6onary ¡of ¡Modern ¡Chinese ¡ – Na>onal ¡Language ¡Commicee ¡(1988): ¡ Commonly ¡Used ¡Characters ¡in ¡ Modern ¡Chinese ¡ ¡ – Hong ¡Kong ¡Polytechnic ¡University ¡(1991-‑1997): ¡ A ¡Chinese ¡Word ¡Bank ¡ from ¡Mainland ¡China, ¡Taiwan, ¡and ¡Hong ¡Kong ¡ – HSK ¡Commicee ¡(1992, ¡2001): ¡ The ¡HSK ¡Lexical ¡Syllabus ¡ – Xiao, ¡Rayson ¡and ¡McEnery ¡(2009): ¡ A ¡Frequency ¡Dic6onary ¡of ¡Mandarin ¡ Chinese ¡ 7 ¡
Roles ¡of ¡corpora ¡in ¡compiling ¡ ¡ New ¡Word ¡Dic6onary ¡for ¡Chinese ¡as ¡a ¡Foreign ¡Language ¡ (Cui ¡2011: ¡85) ¡ 8 ¡
Corpora ¡in ¡Chinese ¡lexicography ¡ • The ¡study ¡of ¡neologism ¡is ¡an ¡important ¡area ¡of ¡lexicography ¡which ¡ can ¡benefit ¡greatly ¡from ¡the ¡corpus ¡approach ¡ – Corpora ¡can ¡provide ¡the ¡necessary ¡sources ¡of ¡data ¡as ¡well ¡as ¡the ¡ method ¡for ¡reasonably ¡iden>fying ¡new ¡words ¡or ¡new ¡meaning ¡/ ¡usage ¡ of ¡exis>ng ¡words ¡ • A ¡Dic6onary ¡of ¡New ¡Words ¡in ¡Modern ¡Chinese ¡ (Kang ¡2003) ¡ – 20,000 ¡new ¡words ¡that ¡have ¡gained ¡currency ¡and ¡remained ¡rela>vely ¡ stable ¡in ¡1978 ¡-‑2000 ¡ – Based ¡on ¡a ¡huge ¡corpus ¡composed ¡of ¡ ¡over ¡25 ¡years’ ¡archive ¡data ¡of ¡ some ¡major ¡newspapers ¡and ¡magazines ¡ • The ¡Global ¡Dic6onary ¡on ¡Chinese ¡Neologism ¡ (Tsou ¡& ¡You ¡2010) ¡ – 1,600 ¡Chinese ¡neologisms ¡that ¡have ¡entered ¡the ¡Chinese ¡language ¡ since ¡2000 ¡ – Based ¡on ¡400-‑M ¡character ¡LIVAC ¡corpus ¡specifically ¡designed ¡to ¡ monitor ¡language ¡development ¡in ¡Chinese ¡speech ¡communi>es ¡ 9 ¡
Corpora ¡in ¡Chinese ¡lexicography ¡ • Parallel ¡corpora ¡in ¡bilingual ¡lexicography ¡ • Defini>on ¡usually ¡in ¡the ¡target ¡language ¡ • Only ¡par>ally ¡equivalent ¡to ¡the ¡headword ¡ ¡ • An ¡abstract ¡generalisa>on ¡of ¡the ¡typical ¡meanings ¡ of ¡the ¡word, ¡hard ¡to ¡cover ¡all ¡of ¡its ¡meanings ¡fully ¡ • Bilingual ¡examples ¡cited ¡from ¡parallel ¡corpora ¡ can ¡complement ¡missing ¡meanings ¡ 10 ¡
Recommend
More recommend