中文信息處理和漢語研究現狀和發(fā)展.ppt_第1頁
中文信息處理和漢語研究現狀和發(fā)展.ppt_第2頁
中文信息處理和漢語研究現狀和發(fā)展.ppt_第3頁
中文信息處理和漢語研究現狀和發(fā)展.ppt_第4頁
中文信息處理和漢語研究現狀和發(fā)展.ppt_第5頁
已閱讀5頁,還剩19頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1 中文信息處理與漢語研究 現狀和發(fā)展 詹衛(wèi)東北京大學中文系北京大學漢語語言學研究中心北京 100871zwd 全國語言文字信息化工作會議 湖南 長沙 2003 10 5 10 6 2 提綱 中文信息處理研究的格局中文信息處理的現狀和發(fā)展趨勢語言知識資源的建設面向中文信息處理的漢語研究 3 一中文信息處理研究的格局 信息的兩個層次 符號層 中文 漢語 漢字內容層 符號所承載的意義中文信息處理的兩個層次 字符處理 輸入 存儲 輸出等 內容處理 詞語切分 詞性標注 結構分析 意義理解 推理 翻譯 等等 信號vs 信息 4 符號層的信息處理 拼音文字 小字符集 比較容易非拼音文字 大字符集 難度很大 漢字是一個大字符集 說文解字 東漢 9353字 玉篇 南朝 收錄16 917字 廣韻 宋代 收字26 194字 字匯 明朝 收錄33 197字 康熙字典 清朝 收錄47 043字 漢語大字典 1992年 5 6萬 中華字海 1994年 8 6萬 拉丁字母只有26個符號斯拉夫字母只有33個符號阿爾明尼亞字母只有38個符號泰米爾字母只有36個符號緬甸字母只有52個符號泰文字母只有44個符號老撾字母只有27個符號藏文字母只有35個符號韓文字母只有24個符號日文假名只有48個符號 5 符號層的信息處理 漢字輸入 自動輸入 鍵盤輸入 字形識別 聲音識別 手寫體識別 印刷體識別 在線手寫 脫機手寫 整字鍵盤 通用鍵盤 主輔式 感應式 形碼 音碼 形音結合碼 1 2 3 4 5 6 7 8 9 6 內容層的信息處理 形態(tài)豐富的語言 inflectinglanguage 處理難形態(tài)不豐富的語言 analyticlanguage 處理更難 7 內容層的信息處理 機器翻譯全過程 8 內容層處理對符號層處理的反作用 9 內容層處理對符號層處理的反作用 10 內容層處理對符號層處理的反作用 11 內容層處理對符號層處理的反作用 12 二中文信息處理的現狀和發(fā)展趨勢 現狀符號層的處理成果已經得到廣泛應用 中文輸入 字庫 字處理軟件 排版 內容層的處理目前在詞語識別和詞性標注方面已經取得重要進展 句子結構分析和語義分析方面仍有待探索 13 系統(tǒng)演示 北京大學現代漢語分詞 詞性標注 句法分析系統(tǒng) 孫斌 劉群 常寶寶 詹衛(wèi)東等 14 中文信息處理的發(fā)展趨勢 發(fā)展趨勢信息產品的多樣化網絡的迅速發(fā)展積累更多基礎資源 開發(fā)更多應用系統(tǒng) 內容層的處理將受到越來越多的重視 信息家電 內容計算 15 三語言知識資源的建設 現代漢語語法信息詞典基于配價理論的現代漢語語義詞典現代漢語短語結構信息庫2700萬字現代漢語分詞與詞性標注語料庫句子對齊的漢英雙語語料庫現代漢語樹庫現代漢語短語結構規(guī)則庫 16 資源演示 現代漢語語義詞典 詹衛(wèi)東 王惠等 漢英平行語料庫 常寶寶 柏曉靜等 現代漢語樹庫 詹衛(wèi)東 常寶寶等 17 四面向中文信息處理的語言學研究 充分重視各個層次上的語言歧義研究拓展語言現象的研究面強調研究結果的可操作性 推動語言知識的形式化 系統(tǒng)化和規(guī)?;?加強語言知識庫的工程建設 為中文信息處理 內容層的處理 積累更多基礎資源 18 歧義示例 張店區(qū)大學生不看重大城市戶口 19 歧義示例 續(xù) 有三百多種樹 20 歧義示例 續(xù) 請轉告李宇明司長下午三點出發(fā) vvnnttv 21 要讓計算機 理解 一個句子 實際上要解決下面兩個核心問題 1 一個句子的結構和意義是什么 2 如何得到一個句子的結構和意義 第一個問題是 What 的問題 這是理論語言學關心的問題 第二個問題是 How 的問題 這是計算語言學關心的問題 也就是面向中文信息處理的語言研究需要關心的問題 結語 22 參考文獻 慈林林魯元魁 1999 中文信息處理新技術展望 計算機世界 1999年第44期 產品與技術 版 專題報道 劉夢松 1998 中文信息處理軟件概述 計算機世界 1998年第26期 技術專題 版 許嘉璐 2002 現狀和設想 試論中文信息處理與現代漢語研究 中國語文 2000年第6期 俞士汶 朱學鋒 2002 關于漢語信息處理的認識及其研究方略 語言文字應用 2002年第3期 俞士汶 朱學鋒 王惠 2001 的新進展 中文信息學報 2001年第1期 詹衛(wèi)東 常寶寶 俞士汶 2002 機器翻譯與語言研究 語言科學 2002年第1期 創(chuàng)刊號 詹衛(wèi)東 2000 80年代以來漢語信息處理研究述評 當代語言學 2000年第2期 張華平 2003 中文信息處理技術發(fā)展簡史 中文信息處理開放平臺網站 23 國內外重要的語言知識資源舉例 WordNet http www cogsci princeton edu wn FrameN

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論