




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、精選優(yōu)質(zhì)文檔-傾情為你奉上實(shí)驗(yàn)報(bào)告1 雙向匹配中文分詞 小組信息目錄摘要 - 1理論描述 - 1算法描述 - 2詳例描述 - 3軟件演示 - 4總結(jié) - 6 摘要 這次實(shí)驗(yàn)的內(nèi)容是中文分詞,現(xiàn)有的分詞算法可分為三大類:基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計(jì)的分詞方法。按照是否與詞性標(biāo)注過程相結(jié)合,又可以分為單純分詞方法和分詞與標(biāo)注相結(jié)合的一體化方法。而我們用到的分詞算法是基于字符串的分詞方法(又稱機(jī)械分詞方法)中的正向最大匹配算法和逆向匹配算法。一般說來,逆向匹配的切分精度略高于正向匹配,遇到的歧義現(xiàn)象也較少。統(tǒng)計(jì)結(jié)果表明,單純使用正向最大匹配的錯(cuò)誤率為1/169,單純使用逆向
2、最大匹配的錯(cuò)誤率為1/245。 理論描述中文分詞指的是將一個(gè)漢字序列切分成一個(gè)一個(gè)單獨(dú)的詞。中文分詞是文本挖掘的基礎(chǔ),對(duì)于輸入的一段中文,成功的進(jìn)行中文分詞,可以達(dá)到電腦自動(dòng)識(shí)別語句含義的效果。它是信息提取、信息檢索、機(jī)器翻譯、文本分類、自動(dòng)文摘、語音識(shí)別、文本語音轉(zhuǎn)換、自然語言理解等中文信息處理領(lǐng)域的基礎(chǔ)。雙向最大匹配算法是兩個(gè)算法的集合,主要包括:正向最大匹配算法和逆向最大匹配算法如果兩個(gè)算法得到相同的分詞結(jié)果,那就認(rèn)為是切分成功,否則,就出現(xiàn)了歧義現(xiàn)象或者是未登錄詞問題。正向最大匹配算法:從左到右將待分詞文本中的幾個(gè)連續(xù)字符與詞表匹配,如果匹配上,則切分出一個(gè)詞。逆向最大匹配算法:從右到
3、左將待分詞文本中的幾個(gè)連續(xù)字符與詞表匹配,如果匹配上,則切分出一個(gè)詞。 算法描述本文實(shí)現(xiàn)雙向匹配算法,具體算法描述如下: 正向最大匹配算法MM:/對(duì)純中文句子s1的正向減字最大匹配分詞string CHzSeg:SegmentHzStrMM(CDict &dict,string s1)conststring s2=;/保存句子s1的分詞結(jié)果while(!s1.empty()unsigned int len=s1.size();/如果待切分的句子大于最大切分單元/len=最大切分單元,否則len=句子的長(zhǎng)度if(lenMAX_WORD_LENGTH)len=MAX_WORD_LENGTH;/取s
4、1句子最左邊長(zhǎng)度len為的子句子string w=s1.substr(0,len);/判斷剛剛?cè)〕鰜淼淖泳渥邮遣皇且粋€(gè)詞bool isw=dict.IsWord(w);/當(dāng)w中至少有一個(gè)中文字&不能構(gòu)成字的時(shí)候,減去最右邊的一個(gè)中文字while(len2&isw=false)/減去最右邊的一個(gè)中文字len-=2;w=w.substr(0,len);/再次判斷減字后的w是不是構(gòu)成一個(gè)詞isw=dict.IsWord(w);s2+=w+SEPARATOR;s1=s1.substr(w.size();/end whilereturn s2;逆向最大匹配算法RMM: /對(duì)純中文句子s1的逆向減字最大匹
5、配分詞string CHzSeg:SegmentHzStrRMM(CDict &dict,string s1)conststring s2=;/保存句子s1的分詞結(jié)果while(!s1.empty()unsigned int len=s1.size();/如果待切分的句子大于最大切分單元/len=最大切分單元,否則len=句子的長(zhǎng)度if(lenMAX_WORD_LENGTH)len=MAX_WORD_LENGTH;/取s1句子最右邊長(zhǎng)度len為的子句子string w=s1.substr(s1.length()-len,len);/判斷剛剛?cè)〕鰜淼淖泳渥邮遣皇且粋€(gè)詞bool isw=dict.
6、IsWord(w);/當(dāng)w中至少有一個(gè)中文字&不能構(gòu)成字的時(shí)候,減去最左邊的一個(gè)中文字while(len2&isw=false)/減去最左邊的一個(gè)中文字len-=2;w=s1.substr(s1.length()-len,len);/再次判斷減字后的w是不是構(gòu)成一個(gè)詞isw=dict.IsWord(w);w=w+SEPARATOR;s2=w+s2;/分出一個(gè)詞后的s1s1=s1.substr(0,s1.length()-len);return s2; 詳例描述: 逆向最大匹配思想是從右向左切分,以“對(duì)外經(jīng)濟(jì)技術(shù)合作與交流不斷擴(kuò)大”為例,詳細(xì)描述算法如下 :輸入例句:S1=“對(duì)外經(jīng)濟(jì)技術(shù)合作與交
7、流不斷擴(kuò)大” ;定義:最大詞長(zhǎng)MaxLen = 6;S2= “”;分隔符 = “/ ”;逆向減字最大匹配分詞算法過程如下:(1)S2=“”;S1不為空,從S1右邊取出候選子串W=“斷擴(kuò)大”;(2)查詞表,W不在詞表中,將W最左邊一個(gè)字去掉,得到W=“擴(kuò)大”;(3)查詞表,“擴(kuò)大”在詞表中,將W加入到S2中,S2=“ 擴(kuò)大/ ”,并將W從S1中去掉,此時(shí)S1=“對(duì)外經(jīng)濟(jì)技術(shù)合作與交流不斷”;(4)S1不為空,于是從S1左邊取出候選子串W=“流不斷”;(5)查詞表,W不在詞表中,將W最左邊一個(gè)字去掉,得到W=“不斷”;(6)查詞表,“不斷”在詞表中,將W加入到S2中,S2=“不斷/ 擴(kuò)大/ ”,并
8、將W從S1中去掉,此時(shí)S1=“對(duì)外經(jīng)濟(jì)技術(shù)合作與交流”;(7)S1不為空,于是從S1左邊取出候選子串W=“與交流”;(8)查詞表,W不在詞表中,將W最左邊一個(gè)字去掉,得到W=“交流”;(9)查詞表,“交流”在詞表中,將W加入到S2中,S2=“交流/ 不斷/ 擴(kuò)大/ ”,并將W從S1中去掉,此時(shí)S1=“對(duì)外經(jīng)濟(jì)技術(shù)合作與”;(10)S1不為空,于是從S1左邊取出候選子串W=“合作與”;(11)查詞表,W不在詞表中,將W最左邊一個(gè)字去掉,得到W=“作與”;(12)查詞表,W不在詞表中,將W最左邊一個(gè)字去掉,得到W=“與”;(13)查詞表,“與”在詞表中,將W加入到S2中,S2=“與/ 交流/ 不斷
9、/ 擴(kuò)大/ ”,并將W從S1中去掉,此時(shí)S1=“對(duì)外經(jīng)濟(jì)技術(shù)合作”;(14)S1不為空,于是從S1左邊取出候選子串W=“術(shù)合作”;(15)查詞表,W不在詞表中,將W最左邊一個(gè)字去掉,得到W=“合作”;(16)查詞表,“交流”在詞表中,將W加入到S2中,S2=“合作/ 與/ 交流/ 不斷/ 擴(kuò)大/ ”,并將W從S1中去掉,此時(shí)S1=“對(duì)外經(jīng)濟(jì)技術(shù)”;(17)S1不為空,于是從S1左邊取出候選子串W=“濟(jì)技術(shù)”;(18)查詞表,W不在詞表中,將W最左邊一個(gè)字去掉,得到W=“技術(shù)”;(19)查詞表,“交流”在詞表中,將W加入到S2中,S2=“技術(shù)/ 合作/ 與/ 交流/ 不斷/ 擴(kuò)大/”,并將W從S
10、1中去掉,此時(shí)S1=“對(duì)外經(jīng)濟(jì)(20)S1不為空,于是從S1左邊取出候選子串W=“外經(jīng)濟(jì)”;(21)查詞表,W不在詞表中,將W最左邊一個(gè)字去掉,得到W=“經(jīng)濟(jì)”;(22)查詞表,“交流”在詞表中,將W加入到S2中,S2=“經(jīng)濟(jì)/ 技術(shù)/ 合作/ 與/ 交流/ 不斷/ 擴(kuò)大/ ”,并將W從S1中去掉,此時(shí)S1=“對(duì)外”; (23)S1不為空,由于此時(shí)S1只剩下“對(duì)外”于是從S1左邊取出候選子串W=“對(duì)外”;(24)查詞表,“對(duì)外”在詞表中,將W加入到S2中,S2=“對(duì)外/ 經(jīng)濟(jì)/ 技術(shù)/ 合作/ 與/ 交流/ 不斷/ 擴(kuò)大/ ”,并將W從S1中去掉,此時(shí)S1=“”;(25)S1為空,輸出S2作為分詞結(jié)果,分詞過程結(jié)束。正向匹配法思想與逆向一樣,只是從左向右切分,因此只舉例逆向最大匹配算法描述。 軟件演示: 軟件界面:選擇分詞所要的方式(正向或逆向),然后輸入所要分詞的內(nèi)容,分詞結(jié)果就會(huì)在右邊顯示出來。正向最大匹配分詞結(jié)果:逆向最大匹
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 高端智能車庫所有權(quán)轉(zhuǎn)讓合同模板
- 車庫租賃及新能源汽車充電設(shè)備租賃合同范本
- 拆遷補(bǔ)償居間代理合同范本
- 車輛購置獎(jiǎng)勵(lì)及售后服務(wù)保障合同
- 股權(quán)激勵(lì)方案T公司部分股權(quán)轉(zhuǎn)讓合同
- 文化創(chuàng)意園區(qū)場(chǎng)地合作經(jīng)營合同
- 拆遷安置補(bǔ)償與新建住宅買賣合同
- 離婚協(xié)議中成年子女撫養(yǎng)權(quán)分配及財(cái)產(chǎn)分割合同
- 特種車輛租賃與安全服務(wù)管理協(xié)議
- 高端商務(wù)寫字樓租賃安全協(xié)議書
- 廣州市人力資源和社會(huì)保障局事業(yè)單位招聘工作人員【共500題附答案解析】模擬試卷
- 物資進(jìn)出庫臺(tái)賬
- 花卉栽植檢驗(yàn)批質(zhì)量驗(yàn)收記錄
- 《種樹郭橐駝傳》閱讀練習(xí)及答案(三)
- 重大項(xiàng)目風(fēng)險(xiǎn)點(diǎn)防范管理流程圖
- 2022年四川省自貢市中考英語試題
- SJG 74-2020 深圳市安裝工程消耗量定額-高清現(xiàn)行
- 羅斯308父母代種雞飼養(yǎng)管理要點(diǎn)
- 自動(dòng)扶梯、自動(dòng)人行道安全裝置測(cè)試記錄
- 建設(shè)工程質(zhì)量成本管理課件
- 綠色施工管理體系及管理制度匯編
評(píng)論
0/150
提交評(píng)論