




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、中文全文信息檢索系統(tǒng)中索引項(xiàng)技術(shù)及分詞系統(tǒng)的實(shí)現(xiàn) 中文全文信息檢索系統(tǒng)中索引項(xiàng)技術(shù)及分詞系統(tǒng)的實(shí)現(xiàn) 摘要:本文對中文全文檢索系統(tǒng)中常用的索引項(xiàng)技術(shù)n元語法,字,n元語法,詞進(jìn)行了介紹并討論了其各自的特點(diǎn)。然后著重介紹了以詞為索引項(xiàng)的方法及全文檢索中的漢字分詞問題。最后給出了一種混合型最大匹配分詞算法。 關(guān)鍵詞:信息檢索 中文信息處理 分詞 the indexing term technology of chinese information retrie
2、val and implement of segmentation system abstractthe paper discuss the technology of indexing term ,such as n-gray , character, word ,used in chinese information retrieval . we also introduce the method of using word as indexing term and the problem of segmentation ,then paper presents a mix m
3、ax match algorithm. 1 引言在全文信息檢索系統(tǒng)中,索引項(xiàng)的選擇是一個基本的,也是非常重要的問題。對輸入的文檔及用戶查詢要做的第一件事就是將它們分解為索引項(xiàng)的集合,然后才有可能計(jì)算出查詢與文檔的相關(guān)度。在英文的全文信息檢索系統(tǒng)中,將查詢及文檔分解為索引項(xiàng)集合是件非常簡單的事因?yàn)橥ǔ_x用詞為索引項(xiàng), 而英文中詞與詞之間存在分隔符(如空格)。對中文全文信息檢索系統(tǒng)來說將查詢及文檔分解為索引項(xiàng)集合就復(fù)雜些。首先要確定以什么單位為索引項(xiàng),是以字,詞還是短語為索引項(xiàng)?現(xiàn)有的研究中大部份認(rèn)為應(yīng)以詞為索引項(xiàng)。這是因?yàn)槭紫纫栽~為單位比較符合人的自然思維習(xí)慣,其次以詞為索引項(xiàng)就可以借用英文全文
4、檢索系統(tǒng)中已有的理論及方法。</p· 上一頁· 1· 2· 3· 4· 5· 下一頁 以詞為索引項(xiàng),就要進(jìn)行分詞,也就是將由漢字組成的連續(xù)字符串分解為詞的集合,要進(jìn)行正確的分詞不是一件十分容易的事,首先在中文中字與之間,詞與詞之間是不存在分隔符的,因此分詞一般都要借助詞典來進(jìn)行,而中文的構(gòu)詞非常靈活,詞的數(shù)目幾乎是無限的,因此要構(gòu)造完備的詞典是不可能的。為了克服以詞為索引項(xiàng)所帶來的困難,人們提出了一些別的方法如以字
5、為索引項(xiàng),以二元,三元語法為索引項(xiàng)等。 本文首先對各種類型的索引項(xiàng)技術(shù)作簡單介紹,分析它們應(yīng)用于中文檢索中的優(yōu)缺點(diǎn),然后著重討論以詞為索引項(xiàng)時的分詞系統(tǒng)的設(shè)計(jì)及實(shí)現(xiàn)。 2 索引項(xiàng)及中文文本的表示方式 2.1 字 使用字為索引項(xiàng)是最簡單的方法,將文本分解為索引項(xiàng)時非常容易實(shí)現(xiàn)。按照gb2312的規(guī)定共有6763個漢字。這樣索引集合就非常小,最大不會超過6763。在這一點(diǎn)上與其它索引項(xiàng)技術(shù)(如詞,n元語法)相比優(yōu)點(diǎn)是非明顯的。但以字為索引單位也有其明顯的缺點(diǎn)。首先是匹配的準(zhǔn)確性不高,例如用戶的查詢?yōu)?"識別",而某文檔中存在 "
6、你是否還認(rèn)別的人?" 這樣一句話。則基于字的檢索方法則會認(rèn)為該查詢與文檔是相關(guān)的。其次在中文中同一概念可以有多種表達(dá)方式如 "中文","漢語","國語"?;谧值臋z索方法是無法處理這類問題的。 2.2 n元語法 在全文檢索中常用的為二元及三元語。二元語法的思想為將文本中所有相鄰漢字均作為索引項(xiàng),這樣前一個索引項(xiàng)的后一個字與下一索引項(xiàng)頭個字是相同的。例如有一個字符串c1c2c3c4c5,則由它生成的索引項(xiàng)為c1c2,c2c3,c3c4,c4c5。三元語法的思想與二元語法相同,差別僅為三元語法的索引項(xiàng)由三個
7、字構(gòu)成,例如對上面的字符串由其生成的三元語法索引項(xiàng)為c1c2c3,c2c3c4,c3c4c5。</p· 上一頁· 1· 2· 3· 4· 5· 下一頁 同樣n元法的優(yōu)點(diǎn)為將文本分解為索引項(xiàng)集合是十分容易的。但其索引空間是十分巨大的。使用n元語法同樣也會使系統(tǒng)無法利用語言學(xué)知識。 2.3 詞 目前大多數(shù)研究者認(rèn)為中文全文檢索也應(yīng)以詞為索引單位。也就是索引項(xiàng)應(yīng)該為中文的詞。這樣做的好處是十分明顯的。
8、首先符合人的習(xí)慣,有利于提高查詢的準(zhǔn)確性,也便于系統(tǒng)利用語言學(xué)知識。如果要進(jìn)一步設(shè)計(jì)跨語種查詢系統(tǒng)則非要以詞為索引項(xiàng)不可。但使用詞為索引項(xiàng)則應(yīng)先解決好分詞問題。 3. 一種混合型正向最大匹配算法 中文分詞問題的研究己有二十多年歷吏。其間己提出了多種分詞算法。總的來說這些算法可分為四大類。第一類為基于詞典的機(jī)械分詞算法。第二類為基于統(tǒng)計(jì)的分詞算法。第三類為第一類和第二類的混合型分詞算法。第四類為基于知識的分詞專家系統(tǒng)。 但各種分詞算法均有其適用領(lǐng)域,針對全文檢索中文檔數(shù)量大,要求速度快的特點(diǎn)。我們設(shè)計(jì)了一個混合型正向最大匹配算法,該算法可利用規(guī)則及字頻信息來處理分詞
9、中的歧義并使用了三詞塊方法1。為加快分詞過程中詞的查找速度,按首字索引結(jié)構(gòu)對詞典進(jìn)行了組織。 3.1 三詞塊及處理歧義的規(guī)則 三詞塊是一種處理分詞歧義的方法。分詞中遇到歧義時(假設(shè)有一字符串c1c2c3c4c5c6,當(dāng)前處理到漢字c1,且c1為詞c1c2也為詞),則向前多找兩個詞,這種由三個詞組成的串稱之為三詞塊。處理中我們將找出所有可能的三詞塊并且認(rèn)為具有最大長度的三詞塊是最有可能的分詞。</p· 上一頁· 1· 2· 3· 4· 5· 下一頁
10、60; 假設(shè)有字符串c1c2c3c4c5c6,且c1,c1c2均為詞并有如下一些可能的三詞塊。1 c1 c2 c3c42 c1c2 c3c4 c53 c1c2 c3c4 c5c6具有最大長度的詞塊為第三個。這樣我們就認(rèn)為第三個詞塊中的c1c2為正確的分法。取其為詞。從c3外再次開始進(jìn)行分詞,一直到字符串結(jié)束。 我們所設(shè)計(jì)的分詞算法以正向最大匹配算法為框架。分詞過程中遇到歧義時則應(yīng)用下例規(guī)則加以解決。 規(guī)則1具有最大長度的詞塊的第一個詞為正確分詞。 規(guī)則2 如具有最大長度的詞塊不唯一則尋找具有最小詞長變化的三詞塊。該規(guī)則的隱含假設(shè)為在文檔中詞長是均勻分布的。 例如: 1 研究 生命 的 起源 2 研究生 命 的 起源 按規(guī)則選取塊1中的"研究"為正確分詞。 規(guī)則3 當(dāng)具有最大長度的詞塊不唯一并且有相同的詞長變化則具最大平均詞的塊中的第一個詞為正確分詞。該規(guī)則的隱含假設(shè)為遇到多字詞的概率大于遇到一字詞的概率。該規(guī)則僅當(dāng)某些詞塊由一個或二個詞構(gòu)成時才有用。 規(guī)則4 當(dāng)前面規(guī)則均不能確定選取那詞塊時,則分
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 合唱排練合同協(xié)議書范本
- 身體控制測試題及答案
- 跨境電商平臺開發(fā)投標(biāo)書參考范文
- 班主任管理經(jīng)驗(yàn)的心得體會
- 做餅干的教學(xué)課件
- DB13T 2312-2015 毛皮和皮革材質(zhì)鑒別通 用方法
- 企業(yè)文化與員工美術(shù)興趣小組計(jì)劃
- DB13T 2317-2015 太陽能熱水系統(tǒng)用耐熱塑料管材
- 觀看社會責(zé)任教育片心得體會
- 醫(yī)療領(lǐng)域中的患者心理分析與應(yīng)對
- 【MOOC】人工智能:模型與算法-浙江大學(xué) 中國大學(xué)慕課MOOC答案
- 2024年重慶高考化學(xué)試題卷(含答案解析)
- 2025屆高三政治最后一節(jié)課學(xué)科考前指導(dǎo)
- MOOC 電力電子學(xué)-華中科技大學(xué) 中國大學(xué)慕課答案
- 道路交通事故現(xiàn)場勘查課件
- 門店電表記錄表
- 組態(tài)王雙機(jī)熱備
- 綠地圖繪制指南
- 山體植被恢復(fù)項(xiàng)目綠化工程施工組織設(shè)計(jì)
- 初級長拳現(xiàn)用圖解(第一路)
- 塑料制品公司質(zhì)量手冊
評論
0/150
提交評論