中文詞匯網(wǎng)路跨語(yǔ)言知識(shí)處理基礎(chǔ)架構(gòu)的設(shè)計(jì)理念與實(shí)踐_第1頁(yè)
中文詞匯網(wǎng)路跨語(yǔ)言知識(shí)處理基礎(chǔ)架構(gòu)的設(shè)計(jì)理念與實(shí)踐_第2頁(yè)
中文詞匯網(wǎng)路跨語(yǔ)言知識(shí)處理基礎(chǔ)架構(gòu)的設(shè)計(jì)理念與實(shí)踐_第3頁(yè)
中文詞匯網(wǎng)路跨語(yǔ)言知識(shí)處理基礎(chǔ)架構(gòu)的設(shè)計(jì)理念與實(shí)踐_第4頁(yè)
中文詞匯網(wǎng)路跨語(yǔ)言知識(shí)處理基礎(chǔ)架構(gòu)的設(shè)計(jì)理念與實(shí)踐_第5頁(yè)
已閱讀5頁(yè),還剩1頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、Corpus Linguistics0961128 洪萱眉中文詞彙網(wǎng)路:跨語(yǔ)言知識(shí)處理基礎(chǔ)架構(gòu)的設(shè)計(jì)理念與實(shí)踐 黃居仁 謝舒凱 洪嘉馡 陳韻竹 蘇依莉 陳永祥 黃勝偉Ø 1 前言 a. 中文詞網(wǎng)小組(Chinese WordNet Group) 結(jié)合分析詳盡的中文詞彙詞義資料,與網(wǎng)路科技的技術(shù),初步開(kāi)發(fā)了中文詞彙(Chinese WordNet),以利於提供中文詞彙詞義的相關(guān)訊息,也便於從事中文詞彙詞義的研究所需。 b. 在語(yǔ)言內(nèi)部知識(shí)的完整表達(dá)上,則是建立在完整的詞義關(guān)係系統(tǒng)上,利用類義詞(paranym) 整合對(duì)比語(yǔ)意關(guān)係為主的詞彙網(wǎng)路與界定語(yǔ)意場(chǎng)的不同分類系統(tǒng)(taxonomy

2、),更以完整標(biāo)記的跨語(yǔ)言詞義關(guān)係作為多語(yǔ)知識(shí)系統(tǒng)對(duì)應(yīng)的基礎(chǔ)。Ø 2. 中文詞彙意義的知識(shí)檢索研究發(fā)展2.1 詞義與義面區(qū)分的基礎(chǔ)與應(yīng)用a. 詞網(wǎng)是以詞義(sense) 與語(yǔ)意關(guān)係為人類語(yǔ)言知識(shí)表達(dá)的基本架構(gòu)。建構(gòu)完成的詞彙語(yǔ)意網(wǎng),一方面可作為語(yǔ)言學(xué)研究的素材,另一方面在資訊處理上,可作為自然語(yǔ)言處理以及諸多實(shí)際應(yīng)用的基石。b. 詞網(wǎng)裡有兩項(xiàng)重要的元素:(i) 以詞彙為依據(jù)的詞彙分組(即所謂的同義詞集(synset)。(ii) 連繫詞集的語(yǔ)意關(guān)係。 2.2 詞義判準(zhǔn)原則a. 對(duì)某一詞彙在語(yǔ)境中傳達(dá)訊息的理解,區(qū)分出相同的彙(形)的不同涵義,即稱為意義(meaning);根據(jù)適當(dāng)?shù)臉?biāo)準(zhǔn),

3、判斷初步析分的合理性、進(jìn)行意義的分合、細(xì)分等而得到最後的結(jié)果,稱為詞義(sense)。在某些語(yǔ)境下,詞可能會(huì)受語(yǔ)境影響而暫時(shí)改變意義,但人們是可區(qū)分出,而這樣的意義區(qū)分,稱為義面(meaning facet),是中文詞網(wǎng)中處理文獻(xiàn)中所謂規(guī)則化多義(regular polysemy)的重要?jiǎng)?chuàng)新。b. 詞義判斷標(biāo)準(zhǔn)有五個(gè)基本原則:(1)一義一項(xiàng)、(2)一物一義、(3)一事一義、(4)義不隨境遷和(5) 義面由觀點(diǎn)與語(yǔ)境定義。 2.3 詞義描述規(guī)範(fàn)黃居仁等(2003)所提出之詞義區(qū)辨原則與操作原作,是中文詞義資料庫(kù)建檔與詞義區(qū)辨小詞典篇纂的依據(jù)。本詞典盡可能提供各詞目(lemma)完整而且正確的訊息

4、,包含標(biāo)音(漢音拼音和國(guó)語(yǔ)注音)、釋義、英文對(duì)譯、詞類、例句和附註。Ø 3.中文詞彙知識(shí)檢索系統(tǒng)設(shè)計(jì) 3.1 SSMS系統(tǒng) (Sinica Sense Management System)a. 為了讓機(jī)器讀取並儲(chǔ)存大量的詞彙詞義區(qū)的資料,以詞彙知識(shí)為基礎(chǔ),來(lái)整合詞彙詞義的訊息,開(kāi)發(fā)了中研究詞彙詞義管理系統(tǒng)(SSMS)。(Huang et,al.,2005)b. 功能: 進(jìn)行詞彙的查詢、詞義的新增、修改以及例句和WordNet同義詞集的查詢和輪入。3.2 CWN介面 在設(shè)計(jì)階段,以使用者角度和系統(tǒng)功能發(fā)展角度為考量,共同建立起系統(tǒng)架構(gòu)與操作流程,詳細(xì)描述系統(tǒng)範(fàn)圍內(nèi)相關(guān)之資料結(jié)構(gòu)以及操作

5、步驟,特別設(shè)計(jì)一套整合式即時(shí)查詢的方法(陳 等,2006),提供系統(tǒng)使用者一個(gè)整合查詢介面快速查詢及瀏覽有興趣的各個(gè)詞義資訊。主要的出發(fā)點(diǎn)是對(duì)詞彙與語(yǔ)義相關(guān)的內(nèi)容,做廣泛與有效的檢索,同時(shí)也藉著檢索的比對(duì),來(lái)確保釋義語(yǔ)言及語(yǔ)義區(qū)分的一致性及強(qiáng)健性。此外,從2006年開(kāi)始,中文詞網(wǎng)詞義區(qū)分資料庫(kù)的成果網(wǎng)路化,以方便提供給使用者直接查詢。因此,目前命名為中文詞彙網(wǎng)路(Chinese WordNet)。3.3 Sense Tagging系統(tǒng) 為了證實(shí)已分析的詞義可完整地表現(xiàn)在實(shí)際語(yǔ)言上,詞網(wǎng)小組設(shè)計(jì)出一個(gè)超過(guò)十一萬(wàn)詞的大規(guī)模中文詞義全文標(biāo)示語(yǔ)料系統(tǒng),已經(jīng)分析過(guò)的詞義為基礎(chǔ),以中研院平衡語(yǔ)料庫(kù)為標(biāo)示對(duì)

6、象,從中摘錄56篇完整文章,利用N-Gram與搭配資訊等語(yǔ)言知識(shí),並結(jié)合機(jī)器學(xué)習(xí)技巧以及機(jī)率模式的方式作為處理自動(dòng)詞義標(biāo)示的前置作業(yè)工作,最後為達(dá)高精確之效果,再將自動(dòng)產(chǎn)生之標(biāo)示結(jié)果經(jīng)由人工校訂而成。 a. 由於人工標(biāo)示需要昂貴的成本,造成語(yǔ)料庫(kù)標(biāo)示語(yǔ)意工作的難產(chǎn),因此,提出一套自動(dòng)詞義標(biāo)示的方法,作為標(biāo)示詞義的前置作業(yè),再經(jīng)由專門(mén)人士校訂。根據(jù)柯等(2007)的研究,自動(dòng)標(biāo)示詞義的方法,採(cǎi)用誘導(dǎo)式方法(bootstrap)逐步方寬標(biāo)示條件,來(lái)擴(kuò)增標(biāo)式語(yǔ)料。 b. 自動(dòng)標(biāo)示詞義可分為兩個(gè)階段:(i) N-gram模式:將標(biāo)示出詞義的資料加入訓(xùn)練集中,以作為第二階段的訓(xùn)練語(yǔ)料。而使用N-gram

7、的目的為擴(kuò)大訓(xùn)練集和過(guò)濾訓(xùn)練資料集的雜訊。(ii) 搭配:使用搭配資訊來(lái)增加標(biāo)示集數(shù)量,搭配資訊是一種很強(qiáng)的語(yǔ)言關(guān)係,能決定目標(biāo)詞彙之詞義。3.4 中英雙語(yǔ)知識(shí)本體詞網(wǎng) (Bilingual Ontological Wordnet, 簡(jiǎn)稱BOW)a. 為了追求語(yǔ)言知識(shí)架構(gòu)的豐富性,詞網(wǎng)小組採(cǎi)用建議上層共用知識(shí)本體(Suggested Upper Merged Ontology, 簡(jiǎn)稱SUMO)為基礎(chǔ)來(lái)進(jìn)行語(yǔ)言知識(shí)的對(duì)照。 c. Sinica BOW主要使用的資源有: WordNet, ECTEC(English-Chinese Translation Equivalents Database)

8、,及SUMO。 (i) ECTEC: 由WordNet為基礎(chǔ),經(jīng)由現(xiàn)有的中英或英中電子辭典的詞形對(duì)應(yīng),替每個(gè)同義詞集的詞義找出相對(duì)應(yīng)的中譯詞組,再經(jīng)由人工檢驗(yàn)。 (ii) SUMO: 知識(shí)本體是以格式化的方式表達(dá)概念(concept)、關(guān)係(relation)和公理(anxioms)。上層知識(shí)本體將一般性、後設(shè)性(meta)、摘要性及哲學(xué)類的概念指出,所以特殊領(lǐng)域的概念可由其中的概念涵蓋,但特殊領(lǐng)域的知識(shí)本體由各領(lǐng)域自行制訂。Ø 4. 詞彙語(yǔ)意關(guān)係表達(dá)與預(yù)測(cè) 4.1 詞彙語(yǔ)意關(guān)係表達(dá) a. 在CWN裡,參考了普林斯頓WordNet的語(yǔ)意關(guān)係連結(jié),如:同義詞、反義詞等。另外, 詞網(wǎng)小組

9、也開(kāi)發(fā)了類義詞(paranymy)的語(yǔ)義關(guān)係連結(jié),主要以WordNet為框架,在姊妹詞彙(sister terms) 中的解釋豐富的概念關(guān)係(rich conceptual relations)。 b. 類義詞可以為兩大類: (i) 相對(duì)類義詞(contrary paranymy): 除了有比較級(jí)和最高級(jí)外,語(yǔ)意關(guān)係的詞彙也可以是中等程度的詞彙,例如:溫的。此外,又可被分為類成認(rèn)知、感官類(perceptional paradigms)或約定俗成類(conventional paradigms)。 (ii) 重疊類義詞(Overlapping Paranymy): 兩個(gè)姊妹詞彙共同擁有一些相同

10、的特徵。根據(jù)語(yǔ)言約定俗成的用法來(lái)解釋與區(qū)分,通常與語(yǔ)言的使用與經(jīng)驗(yàn)相符合。例如:箱子vs.盒子,河vs.江。 4.2 詞彙語(yǔ)意關(guān)係預(yù)測(cè) 詞網(wǎng)小組提出一個(gè)模形 Bootstrapping from Multilingual Wordnets。此模型是基於中文詞網(wǎng)小組一系列之相關(guān)研究所得出。主要論點(diǎn)為假定在詞彙語(yǔ)意標(biāo)記上,可借力於其他已成形的詞網(wǎng)的跨語(yǔ)詞義關(guān)係資源。因此,詞網(wǎng)小組提出了平行進(jìn)行詞義標(biāo)記所涉及之邏輯條件,並以反向回饋驗(yàn)證。Ø 5. 語(yǔ)言知識(shí)整合與應(yīng)用 中文詞彙網(wǎng)路的發(fā)展過(guò)程中,與歐洲語(yǔ)言、日語(yǔ)以及兩岸中文之詞彙對(duì)應(yīng)進(jìn)行了語(yǔ)言知識(shí)整合與應(yīng)用之嘗試。5.1 跨語(yǔ)言知識(shí)系統(tǒng)的對(duì)比

11、與應(yīng)用 為了解決全球多語(yǔ)化所帶來(lái)的問(wèn)題,中文詞彙網(wǎng)路小組設(shè)計(jì)跨語(yǔ)言的知識(shí)資訊整合平臺(tái)。設(shè)計(jì)核心主軸為產(chǎn)生的內(nèi)容可協(xié)作的(content interoperability) 標(biāo)準(zhǔn)化製作,跨語(yǔ)言之分散性知識(shí)與交換機(jī)制,及其存取與檢索介面。實(shí)作方法:以知識(shí)本體驅(qū)動(dòng)的方式,利用上層知識(shí)本體與全球詞彙網(wǎng)路網(wǎng)格之串接作為知識(shí)核心,以文本知識(shí)發(fā)掘與語(yǔ)意分析技術(shù)為輔。 5.2 兩岸詞彙對(duì)應(yīng)a. Chinese Concept Distionary (CCD)中英語(yǔ)的詞網(wǎng): 發(fā)展架構(gòu)以WordNet為主。依據(jù)CCD發(fā)展手冊(cè)記載,詞義的首要條件不可以破壞原本W(wǎng)ordNet之於同義詞集定義概念與其語(yǔ)義關(guān)係架構(gòu)。此外,CCD的研究團(tuán)隊(duì)不止表現(xiàn)對(duì)中文詞彙內(nèi)涵的表達(dá),也發(fā)展了中文詞彙語(yǔ)義與概念的關(guān)係性,以利於強(qiáng)調(diào)中文的特質(zhì)。b. CCD的研究團(tuán)隊(duì)專注在整個(gè)CCD的架構(gòu),提出同一概念的同義詞集的定義,其所呈現(xiàn)的概念、定義和概念網(wǎng)的上下位語(yǔ)義關(guān)係,每一個(gè)同義詞集都有其基本關(guān)係,彼此之間也有語(yǔ)義關(guān)係的存在。c. 繁體中文系統(tǒng)的英中對(duì)譯(CWN) 與 簡(jiǎn)體中文系統(tǒng)的英中對(duì)譯(CCD),將詞類分為四大類來(lái)進(jìn)行對(duì)比:名詞、動(dòng)詞、形容詞和副詞。以WordNet為主,檢測(cè)在同一個(gè)Synset 中,將CWN的對(duì)譯詞彙與CCD的對(duì)譯詞彙加以進(jìn)行比對(duì)。d. 在同一個(gè)Synset中,CWN和CCD可能都會(huì)有多個(gè)相對(duì)應(yīng)的對(duì)譯詞彙。

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論