




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、Corpus Linguistics0961128 洪萱眉中文詞彙網路:跨語言知識處理基礎架構的設計理念與實踐 黃居仁 謝舒凱 洪嘉馡 陳韻竹 蘇依莉 陳永祥 黃勝偉Ø 1 前言 a. 中文詞網小組(Chinese WordNet Group) 結合分析詳盡的中文詞彙詞義資料,與網路科技的技術,初步開發(fā)了中文詞彙(Chinese WordNet),以利於提供中文詞彙詞義的相關訊息,也便於從事中文詞彙詞義的研究所需。 b. 在語言內部知識的完整表達上,則是建立在完整的詞義關係系統(tǒng)上,利用類義詞(paranym) 整合對比語意關係為主的詞彙網路與界定語意場的不同分類系統(tǒng)(taxonomy
2、),更以完整標記的跨語言詞義關係作為多語知識系統(tǒng)對應的基礎。Ø 2. 中文詞彙意義的知識檢索研究發(fā)展2.1 詞義與義面區(qū)分的基礎與應用a. 詞網是以詞義(sense) 與語意關係為人類語言知識表達的基本架構。建構完成的詞彙語意網,一方面可作為語言學研究的素材,另一方面在資訊處理上,可作為自然語言處理以及諸多實際應用的基石。b. 詞網裡有兩項重要的元素:(i) 以詞彙為依據(jù)的詞彙分組(即所謂的同義詞集(synset)。(ii) 連繫詞集的語意關係。 2.2 詞義判準原則a. 對某一詞彙在語境中傳達訊息的理解,區(qū)分出相同的彙(形)的不同涵義,即稱為意義(meaning);根據(jù)適當?shù)臉藴剩?/p>
3、判斷初步析分的合理性、進行意義的分合、細分等而得到最後的結果,稱為詞義(sense)。在某些語境下,詞可能會受語境影響而暫時改變意義,但人們是可區(qū)分出,而這樣的意義區(qū)分,稱為義面(meaning facet),是中文詞網中處理文獻中所謂規(guī)則化多義(regular polysemy)的重要創(chuàng)新。b. 詞義判斷標準有五個基本原則:(1)一義一項、(2)一物一義、(3)一事一義、(4)義不隨境遷和(5) 義面由觀點與語境定義。 2.3 詞義描述規(guī)範黃居仁等(2003)所提出之詞義區(qū)辨原則與操作原作,是中文詞義資料庫建檔與詞義區(qū)辨小詞典篇纂的依據(jù)。本詞典盡可能提供各詞目(lemma)完整而且正確的訊息
4、,包含標音(漢音拼音和國語注音)、釋義、英文對譯、詞類、例句和附註。Ø 3.中文詞彙知識檢索系統(tǒng)設計 3.1 SSMS系統(tǒng) (Sinica Sense Management System)a. 為了讓機器讀取並儲存大量的詞彙詞義區(qū)的資料,以詞彙知識為基礎,來整合詞彙詞義的訊息,開發(fā)了中研究詞彙詞義管理系統(tǒng)(SSMS)。(Huang et,al.,2005)b. 功能: 進行詞彙的查詢、詞義的新增、修改以及例句和WordNet同義詞集的查詢和輪入。3.2 CWN介面 在設計階段,以使用者角度和系統(tǒng)功能發(fā)展角度為考量,共同建立起系統(tǒng)架構與操作流程,詳細描述系統(tǒng)範圍內相關之資料結構以及操作
5、步驟,特別設計一套整合式即時查詢的方法(陳 等,2006),提供系統(tǒng)使用者一個整合查詢介面快速查詢及瀏覽有興趣的各個詞義資訊。主要的出發(fā)點是對詞彙與語義相關的內容,做廣泛與有效的檢索,同時也藉著檢索的比對,來確保釋義語言及語義區(qū)分的一致性及強健性。此外,從2006年開始,中文詞網詞義區(qū)分資料庫的成果網路化,以方便提供給使用者直接查詢。因此,目前命名為中文詞彙網路(Chinese WordNet)。3.3 Sense Tagging系統(tǒng) 為了證實已分析的詞義可完整地表現(xiàn)在實際語言上,詞網小組設計出一個超過十一萬詞的大規(guī)模中文詞義全文標示語料系統(tǒng),已經分析過的詞義為基礎,以中研院平衡語料庫為標示對
6、象,從中摘錄56篇完整文章,利用N-Gram與搭配資訊等語言知識,並結合機器學習技巧以及機率模式的方式作為處理自動詞義標示的前置作業(yè)工作,最後為達高精確之效果,再將自動產生之標示結果經由人工校訂而成。 a. 由於人工標示需要昂貴的成本,造成語料庫標示語意工作的難產,因此,提出一套自動詞義標示的方法,作為標示詞義的前置作業(yè),再經由專門人士校訂。根據(jù)柯等(2007)的研究,自動標示詞義的方法,採用誘導式方法(bootstrap)逐步方寬標示條件,來擴增標式語料。 b. 自動標示詞義可分為兩個階段:(i) N-gram模式:將標示出詞義的資料加入訓練集中,以作為第二階段的訓練語料。而使用N-gram
7、的目的為擴大訓練集和過濾訓練資料集的雜訊。(ii) 搭配:使用搭配資訊來增加標示集數(shù)量,搭配資訊是一種很強的語言關係,能決定目標詞彙之詞義。3.4 中英雙語知識本體詞網 (Bilingual Ontological Wordnet, 簡稱BOW)a. 為了追求語言知識架構的豐富性,詞網小組採用建議上層共用知識本體(Suggested Upper Merged Ontology, 簡稱SUMO)為基礎來進行語言知識的對照。 c. Sinica BOW主要使用的資源有: WordNet, ECTEC(English-Chinese Translation Equivalents Database)
8、,及SUMO。 (i) ECTEC: 由WordNet為基礎,經由現(xiàn)有的中英或英中電子辭典的詞形對應,替每個同義詞集的詞義找出相對應的中譯詞組,再經由人工檢驗。 (ii) SUMO: 知識本體是以格式化的方式表達概念(concept)、關係(relation)和公理(anxioms)。上層知識本體將一般性、後設性(meta)、摘要性及哲學類的概念指出,所以特殊領域的概念可由其中的概念涵蓋,但特殊領域的知識本體由各領域自行制訂。Ø 4. 詞彙語意關係表達與預測 4.1 詞彙語意關係表達 a. 在CWN裡,參考了普林斯頓WordNet的語意關係連結,如:同義詞、反義詞等。另外, 詞網小組
9、也開發(fā)了類義詞(paranymy)的語義關係連結,主要以WordNet為框架,在姊妹詞彙(sister terms) 中的解釋豐富的概念關係(rich conceptual relations)。 b. 類義詞可以為兩大類: (i) 相對類義詞(contrary paranymy): 除了有比較級和最高級外,語意關係的詞彙也可以是中等程度的詞彙,例如:溫的。此外,又可被分為類成認知、感官類(perceptional paradigms)或約定俗成類(conventional paradigms)。 (ii) 重疊類義詞(Overlapping Paranymy): 兩個姊妹詞彙共同擁有一些相同
10、的特徵。根據(jù)語言約定俗成的用法來解釋與區(qū)分,通常與語言的使用與經驗相符合。例如:箱子vs.盒子,河vs.江。 4.2 詞彙語意關係預測 詞網小組提出一個模形 Bootstrapping from Multilingual Wordnets。此模型是基於中文詞網小組一系列之相關研究所得出。主要論點為假定在詞彙語意標記上,可借力於其他已成形的詞網的跨語詞義關係資源。因此,詞網小組提出了平行進行詞義標記所涉及之邏輯條件,並以反向回饋驗證。Ø 5. 語言知識整合與應用 中文詞彙網路的發(fā)展過程中,與歐洲語言、日語以及兩岸中文之詞彙對應進行了語言知識整合與應用之嘗試。5.1 跨語言知識系統(tǒng)的對比
11、與應用 為了解決全球多語化所帶來的問題,中文詞彙網路小組設計跨語言的知識資訊整合平臺。設計核心主軸為產生的內容可協(xié)作的(content interoperability) 標準化製作,跨語言之分散性知識與交換機制,及其存取與檢索介面。實作方法:以知識本體驅動的方式,利用上層知識本體與全球詞彙網路網格之串接作為知識核心,以文本知識發(fā)掘與語意分析技術為輔。 5.2 兩岸詞彙對應a. Chinese Concept Distionary (CCD)中英語的詞網: 發(fā)展架構以WordNet為主。依據(jù)CCD發(fā)展手冊記載,詞義的首要條件不可以破壞原本WordNet之於同義詞集定義概念與其語義關係架構。此外,CCD的研究團隊不止表現(xiàn)對中文詞彙內涵的表達,也發(fā)展了中文詞彙語義與概念的關係性,以利於強調中文的特質。b. CCD的研究團隊專注在整個CCD的架構,提出同一概念的同義詞集的定義,其所呈現(xiàn)的概念、定義和概念網的上下位語義關係,每一個同義詞集都有其基本關係,彼此之間也有語義關係的存在。c. 繁體中文系統(tǒng)的英中對譯(CWN) 與 簡體中文系統(tǒng)的英中對譯(CCD),將詞類分為四大類來進行對比:名詞、動詞、形容詞和副詞。以WordNet為主,檢測在同一個Synset 中,將CWN的對譯詞彙與CCD的對譯詞彙加以進行比對。d. 在同一個Synset中,CWN和CCD可能都會有多個相對應的對譯詞彙。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年中國全自動三色紡織袋印刷機行業(yè)投資前景及策略咨詢研究報告
- 教育技術引領下的自適應教育實踐與探索
- 教育建筑防雷接地系統(tǒng)全面解析
- 心理驅動教育心理學在學生管理中的應用
- 醫(yī)療健康領域中的精準教學技術應用
- 云南省科技廳事業(yè)單位真題2024
- 2024年永州祁陽市人民醫(yī)院招聘筆試真題
- 天津王瑞雪培訓課件
- 沙發(fā)護理維修培訓課件
- 2025山東信息職業(yè)技術學院單招《物理》考前沖刺練習試題附參考答案詳解(突破訓練)
- 2025年陜西省中考數(shù)學試題(解析版)
- 小學生匯報講課件
- 2025浙江嘉興市海寧市嘉睿人力招聘5人筆試參考題庫附帶答案詳解析版
- 2025年安徽蚌埠市龍子湖區(qū)東方人力資源有限公司招聘筆試參考題庫含答案解析
- 2025至2030中國云計算行業(yè)產業(yè)運行態(tài)勢及投資規(guī)劃深度研究報告
- 2025中考歷史高頻點速記大全
- 《STP戰(zhàn)略規(guī)劃與應用》課件
- 【中學】【主題班會】護紅色根脈 圓復興夢想
- 2025年特種設備作業(yè)人員氣瓶充裝P證考試題庫
- 《智能駕駛輔助系統(tǒng)ADAS》課件
- 2024年自然資源部所屬單位招聘筆試真題
評論
0/150
提交評論