human language computing in indian languages a holistic
play

Human Language Computing in Indian Languages - A Holistic - PowerPoint PPT Presentation

Human Language Computing in Indian Languages - A Holistic Perspective Swaran Lata Country Manager , W3C India Director & Head , TDIL Programme , Dept of Informa=on


  1. Human Language Computing in Indian Languages - A Holistic Perspective Swaran ¡Lata ¡ Country ¡Manager ¡, ¡W3C ¡India ¡ ¡ Director ¡& ¡Head ¡, ¡TDIL ¡Programme ¡, ¡Dept ¡of ¡Informa=on ¡Technology ¡, ¡ ¡Govt.of ¡India ¡ E-­‑mail ¡: ¡slata@mit.gov.in ¡ 1 ¡

  2. Organization of presentation: • Languages of India and its distribution • Technology Development for Indian Languages Programme • Phases of TDIL Programme • Paradigm Shift –Consortium mode projects • Linguistic Resources developed • Standardization Efforts - Core - Linguistic Resources • Testing and Evaluation Initiatives • Possible Collaborations with EU Programme • Future Directions 2 ¡

  3. ……INDIA: A Primer Languages of India • Total Population: INDIA 1,028,737,436 (Source: STATES: 28 10 States Census of India 2001) UT: 07 03 UTs 01 State 01 States • Language’s (Percentage to total population) 01 State (41.03) 01 State HINDI 01 State GUJARATI 02 States 02 UTs (4.48) BENGALI I (8.11) A T H A R M 9 9 ) ( 6 . M A N I P 01 State 01 States U R I ( 0 . 1 4 ) (3.21) MALAYALAM 01 State 02 States TELUGU (7.19) 01 State 01 States 01 UTs 01 State 01 UTs

  4. Linguistic Scenario in India Source – Census 2001, India Language Speakers Percentage to State(s) total population Assamese 13,168,484 1.28 Assam Bengali 83,369,769 8.11 Andaman & Nicobar Islands, Assam, Tripura, West Bengal Bodo 1,350,478 0.13 Assam Dogri 2,282,589 0.22 Jammu and Kashmir Gujarati 46,091,617 4.48 Dadra and Nagar Haveli, Daman and Diu, Gujarat Hindi 422,048,642 41.03 Andaman and Nicobar Islands, Arunachal Pradesh, Bihar, Chandigarh, Chhattisgarh, Delhi, Haryana, Himachal Pradesh, Jharkhand, Madhya Pradesh, Rajasthan, Uttar Pradesh and Uttarakhand Kannada 37,924,011 3.69 Karnataka. Kashmiri 5,527,698 0.54 Jammu and Kashmir Konkani 2,489,015 0.24 Goa, Karnataka, Maharashtra, Kerala Maithili 12,179,122 1.18 Bihar Malayalam 33,066,392 3.21 Kerala, Andaman and Nicobar Islands, Lakshadweep, Puducherry Manipuri (also 1,466,705 0.14 Manipur Meetei (Mayak) Marathi 71,936,894 6.99 Maharashtra, Goa, Dadra & Nagar Haveli, Daman and Diu, Madhya Pradesh, Karnataka Nepali 2,871,749 0.28 Sikkim, West Bengal, Assam Oriya 33,017,446 3.21 Orissa Punjabi 29,102,477 2.83 Chandigarh, Delhi, Haryana, Punjab Sanskrit 14,135 Negligible Heritage Language Santhali 6,469,600 0.63 Santhal tribals of the Chota Nagpur Plateau (comprising the states of Bihar, Chhattisgarh, Jharkhand, Orissa) Sindhi 2,535,485 0.25 Non-regional language. Tamil 60,793,814 5.91 Tamil Nadu, Andaman & Nicobar Islands, Puducherry; Telugu 74,002,856 7.19 Andaman & Nicobar Islands, Andhra Pradesh, Puducherry; Urdu 51,536,111 5.01 Jammu and Kashmir, Andhra Pradesh, Delhi, Bihar, Uttar Pradesh 4 ¡

  5. No. ¡of ¡Speakers 5 ¡

  6. Official Indian Languages & Scripts Language Sl. No. Script Hindi 1. Devanagari 2. Sanskrit Devanagari 3. Marathi Devanagari 4. Konkani Devanagari 5. Nepali Devanagari 6. Maithili Devanagari 7. Sindhi Devanagari 8. Bodo Devanagari Dogri 9. Devanagari 10. Bengali Bengali 11. Assamese Bengali 12. Manipuri Bengali, Meetei (Mayak) 13. Gujarati Gujarati 14. Kannada Kannada 15. Malayalam Malayalam 16. Oriya Oriya Punjabi 17. Gurmukhi 18. Tamil Tamil 19. Telugu Telugu 20. Urdu Arabic 21. Santhali Ol-Chiki, Devanagai, 22. Kashmiri Perso-Arabic, Devanagari

  7. ……INDIA: A Primer ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ Unknown ¡Ancient ¡Scripts ¡ ¡ Northern ¡ ¡ ¡Scripts ¡ Southern ¡ ¡ ¡Scripts ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Indus ¡Script ¡ (Gupta ¡Scripts) ¡ 2000 ¡BC ¡ Grantha ¡ ¡(proto ¡Brahmi ¡Scripts) ¡ Tamil ¡ 8th ¡ Malayalam ¡ ¡ ? ¡ Century ¡ ¡ ¡ ¡ ¡ ¡ ¡ Kharoshthi ¡ Pallava ¡ Southern ¡ Brahmi ¡ 400 ¡BC ¡ Script ¡400 ¡ Granth ¡ Sinhalese ¡ Script ¡ BC-­‑300 ¡BC ¡ Sinhali ¡ Cental ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Landa ¡ Sharda ¡ Brahmi ¡ Sinhali ¡ 3 rd ¡BC ¡ 7 th ¡ Brahmi ¡Script ¡ century ¡ (Ashokan) ¡ Ku=l ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡South-­‑eastern ¡Asian-­‑ ¡ Gurmukhi ¡ Burmese, ¡Thai, ¡ ¡ ¡Cambodian, ¡ Nagari ¡ Indonesian, ¡Malasiyan, ¡ Gaur ¡ vietbames, ¡Philipines ¡etc ¡ 8 th ¡Century ¡ ¡ ¡Jain ¡ Nepali ¡ Nagari ¡ ¡ Telugu ¡ (Newari) ¡ Gauri ¡ Oriya ¡ Central ¡Asian ¡ ¡ 12 th ¡Century ¡ Kaithi ¡ Assamese ¡ Tibetan ¡ Devanagari ¡ Bangla ¡ Kannadda ¡ Maithali ¡ Gujara? ¡ 10 th ¡Century ¡ ¡Kole ¡hat ¡ 13th ¡Century ¡ Meetei ¡ ¡VeVashut ¡ Ol-­‑Chiki ¡ 7 ¡

  8. ……INDIA: A Primer Languages of India Language Tree of India Indo-­‑ ¡Aryan ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Dravidian ¡ ¡ ¡ ¡ ¡Tibeto-­‑Burman ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Austric ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Nagroid ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Others ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Mainly ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡(Sino-­‑Tibetan ¡or ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Austro-­‑Asia=c ¡ ¡ ¡ ¡ ¡ ¡ ¡[Andamani] ¡ ¡ ¡ ¡ ¡ ¡Gondi, ¡Oraon, ¡ ¡(Eastern, ¡ ¡Western ¡and ¡ ¡ ¡ ¡ ¡ ¡ ¡(Southern ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Mangoloid) ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Central ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Khod, ¡Barushaski ¡ Northern ¡Parts ¡ ¡ ¡ ¡ ¡ ¡part ¡of ¡India ) ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Eastern ¡NE ¡ of ¡India) ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡1. ¡Munda ¡or ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Kol ¡Group ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡2. ¡Mon, ¡Khamer ¡Group ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Khasi, ¡Nicobarese ¡ Vedic ¡Sanskrit ¡ Northern ¡ Tibetan ¡ Central ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡3. ¡Santhali, ¡Mundari ¡ Group ¡ Group ¡ Sikkimese ¡ ¡ ¡ ¡Himalayan ¡ Brahui, ¡ Bho=a, ¡Bal=, ¡ Gondi, ¡ ¡ ¡ ¡ ¡ ¡Kinaurii ¡ Malto, ¡ Sherpa, ¡ ¡Classic ¡ Khond, ¡ Kurukh ¡ Luhuli, ¡ Sanskrit ¡ Kui, ¡ ¡ ¡ ¡ ¡ ¡Limbu ¡ Assam ¡Burmese ¡ Ladakhi ¡ Manda, ¡ pari, ¡ Prakrit/ ¡Pali ¡ ¡ ¡Kukichin: ¡Maithie ¡(Manipuri), ¡Lushai ¡(Mizo) ¡ Godaba, ¡ ¡Southern ¡ ¡ ¡ ¡ Pengo, ¡ ¡BODO: ¡Bodo, ¡Rabha, ¡Garo, ¡Raj ¡bangsi, ¡Koch, ¡ Group ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ North ¡Assam ¡ Naiki, ¡ Mach, ¡Dimasa, ¡Kachari, ¡Chu=ya, ¡haijons, ¡Tipra ¡ ¡Apbhransh ¡ Tamil, ¡Toda, ¡ Kuri, ¡ (Tripuri) ¡ Adi ¡ Telugu ¡ Malayalam, ¡ ¡NAGA: ¡Angami, ¡AO, ¡Lotha, ¡Lepcha, ¡Sema, ¡ Naga ¡ Modern ¡Indian ¡Languages ¡ ¡ Kannada, ¡Tulu, ¡ Mao, ¡Konyak, ¡Kabui ¡ Kodagu, ¡Kota ¡ Mikir ¡ Hindi, ¡Marathi, ¡Urdu, ¡Gujra?, ¡Punjabi, ¡ ¡ ¡ ¡Mikir ¡ Kuki-­‑dim ¡ Kashmiri, ¡Assamese, ¡Bangla, ¡ Oriya,Sindhi ¡and ¡others ¡ Singhpo ¡ Mogh ¡ 8 ¡

  9. States Chhattisgarh Arunachal Pradesh Karnataka Kerala Madhya Pradesh Himachal Pradesh Hindi Hindi Assamese Kannada Malayalam Hindi Maharashtra Manipur Mizoram Nagaland Orissa Punjab Manipuri (Meitei) English Oriya Punjabi Marathi Mizo,English Andhra Tamil Nadu Chandigarh Sikkim Tripura Rajasthan Pradesh Tamil Punjabi Hindi Nepali, English Bengali Telugu English, Kokborok Urdu Hindi Languages Lakshadweep Haryana Jharkhand Meghalaya Goa Gujarat Malayalam Konkani Hindi Hindi Gujarati English Punjabi Santhali Marathi Hindi English Khasi, Garo Dadra and Uttar Pradesh West Bengal Assam Bihar Daman and Diu Nagar Haveli Hindi Bengali Assamese Maithli Gujarati Gujarati Bengali Urdu Nepali Hindi English Marathi Marathi Bodo Urdu Hindi Jammu and Andaman and Delhi Puducherry Uttarakhand Kashmir Nicobar Islands Hindi Urdu Tamil Hindi Hindi Punjabi Kashmiri Malayala Sanskrit Bengali m Urdu Telugu Dogri Urdu Tamil , Telugu

Recommend


More recommend