




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、機器翻譯的自動評測技術(shù)機器翻譯技術(shù)本文介紹了機器翻譯評測的基本原理以及常用評測標(biāo)準(zhǔn),包括人工評測方法、基于n元匹配的BLEUff口NIST自動評測方法。機器翻譯領(lǐng)域最困難的任務(wù)之一就是對給定的翻譯系統(tǒng)或者翻譯算法進(jìn)行評價,我們稱其為機器翻譯評測。由于機器翻譯所處理的對象語言本身存在某種程度的歧義,無法像數(shù)學(xué)公式或者物理模型那樣簡單客觀地描述出來,這使得為機器翻譯結(jié)果進(jìn)行客觀的打分變得非常困難。最早的方法是人工評測,這種方法得到的結(jié)果一般是十分準(zhǔn)確的,但評測的成本太高,周期過長(評測過程可能長達(dá)幾周甚至數(shù)月),評價結(jié)果也會隨著評價人的變化和時間的推移而不同,這使得評價結(jié)果不可重復(fù),缺乏客觀性,因
2、此,機器翻譯的自動評測應(yīng)運而生。實踐證明,機器翻譯的評測尤其是自動評測對機器翻譯研究的影響十分巨大,對研究發(fā)展和技術(shù)進(jìn)步起著非常重要的引導(dǎo)作用?;趎元匹配的自動評測方法如果一個機器翻譯評測系統(tǒng)只根據(jù)源語言文本就能自動地為若干譯文打分并選擇出其中最好的結(jié)果,那么這個評測系統(tǒng)本身就是一個質(zhì)量更好的機器翻譯系統(tǒng)了。因此,自動評測最初的出發(fā)點就是給出一些標(biāo)準(zhǔn)的翻譯結(jié)果,然后比較機器生成的譯文與這些翻譯之間的相似程度。我們稱這些標(biāo)準(zhǔn)的翻譯為參考譯文(或者參考答案)。同一個句子可以有多個不同的參考譯文,這些參考譯文都表達(dá)同一個含義,但可能使用了不同的詞匯,或者雖然使用了相同的詞匯但在句中的詞序不同。這樣
3、一來,機器翻譯自動評測的問題轉(zhuǎn)換為比較機器翻譯系統(tǒng)輸出的一個翻譯結(jié)果和多個通過人工產(chǎn)生的正確的參考譯文之間的相似度的問題,使用不同的相似度計算方法即可得到不同的自動評測方法。例如,考慮如下兩個機器翻譯系統(tǒng)生成的翻譯結(jié)果:源語言文本:今年前兩月廣東高新技術(shù)產(chǎn)品出口37.6億美元系統(tǒng)譯文1:Thenewhigh-techproductsinGuangdongexported3.76billiondollarsinthefirsttwomonthsthisyear系統(tǒng)譯文2:Thisyear,theformertwoofGuangdong,theexportofhi-techproducts37.6
4、yiUSdollars從直觀上看,上面兩個翻譯結(jié)果的質(zhì)量有較大的差別,第一個翻譯結(jié)果明顯通順、流暢、易于理解,如何將這種人的直觀印象與具體的客觀分?jǐn)?shù)統(tǒng)一起來?這里引入三個人工翻譯的參考譯文來進(jìn)行比較:參考譯文1:GuangdongsexportofnewhightechnologyproductsamountstoUS$3.76billioninfirsttwomonthsofthisyear參考譯文2:GuangdongsExportsUS$3.76BillionWorthofHighTechnologyProductsintheFirstTwoMonthsofThisyear參考譯文3:I
5、nthefirst2monthsthisyear,theexportvolumeofnewhigh-techproductsinGuangdongProvincereached3.76billionUSdollars可以看出,質(zhì)量較好的系統(tǒng)譯文1與三個參考譯文共現(xiàn)了很多個翻譯片段:與參考譯文1共現(xiàn)“3.76billion”,與參考譯文3共現(xiàn)“dollars”,與參考譯文2共現(xiàn)“inthefirsttwomonths”和“thisyear”。相比而言,系統(tǒng)譯文2與上述三個參考譯文的共現(xiàn)片段比較少。通過上述比較,可以很容易地寫出一個評價算法來評價上述翻譯結(jié)果的質(zhì)量。通過引入一個稱為n元匹配的概念,
6、可對翻譯結(jié)果1給出比翻譯結(jié)果2更高的分?jǐn)?shù)。n元匹配的含義是:翻譯結(jié)果與參考譯文句子中的任意連續(xù)n個單詞完全相同,這里的n值可以取任意正整數(shù)?;趎元匹配的策略非常與常用的準(zhǔn)確度的計算思想類似,首先統(tǒng)計系統(tǒng)譯文與參考譯文中共現(xiàn)的n元匹配的個數(shù),再除以相應(yīng)的系統(tǒng)譯文中n元詞的總數(shù),用這個比值來表示相應(yīng)的n元準(zhǔn)確率。機器翻譯評測領(lǐng)域目前使用最為廣泛的自動評測方法是BLEU(BilingualEvaluationUnderstudy),就基于n元匹配的這一類方法中的典型代表,由IBM于xx年提出。類似的方法還包括NIST方法,該方法由美國標(biāo)準(zhǔn)和技術(shù)研究所提出并命名,它在BLEU!f法的基礎(chǔ)上,綜合考慮
7、了每個n元詞的權(quán)重,對于那些在參考譯文中出現(xiàn)次數(shù)更少的詞賦給更高的權(quán)重以體現(xiàn)其所包含的信息量。BLEU和NIST是最常用的兩種機器翻譯自動評測方法,但這一類評測方法并不是在真正地評價系統(tǒng)譯文與原文的一致程度,而是根據(jù)若干個參考譯文為系統(tǒng)譯文打分而已。系統(tǒng)得分似乎與待翻譯的原文沒有關(guān)系,參考譯文的數(shù)量多寡與質(zhì)量好壞才是影響評測結(jié)果的關(guān)鍵因素?;跍?zhǔn)確率和召回率的自動評測方法基于n元匹配的自動評測方法是一種基于準(zhǔn)確率的方法,與參考譯文越相似的系統(tǒng)譯文可獲得越高的分?jǐn)?shù)。研究人員提出了一些同時考慮召回率的自動評測方法,其中比較典型的是紐約大學(xué)提出的GTMF測方法。該方法應(yīng)用了圖的最大匹配算法來計算詞的
8、共現(xiàn)次數(shù)。圖1描述了這個計算過程。圖1中的黑點表示參考譯文和系統(tǒng)譯文共現(xiàn)的詞的位置。圖中的B和C都存在兩次以上的共現(xiàn),這些點被認(rèn)為是互相沖突的,在實際計算時應(yīng)避免重復(fù),只保留一個即可。使用圖搜索算法找到最大匹配的區(qū)塊,如圖中灰色部分所示,并在此基礎(chǔ)上計算最大匹配塊長度MMS準(zhǔn)確率和召回率都通過MM磁行計算,在上例中分別為4.6/8和4.6/10。系統(tǒng)最終的得分使用準(zhǔn)確率和召回率的調(diào)和平均值F值來表示。基于GTM勺評測標(biāo)準(zhǔn)最大的優(yōu)點在于,沒有人為地設(shè)置匹配時的最高階數(shù)值(即n元匹配中的n的最大值,BLEU!f法一般只考慮到4元或者5元匹配),圖的最大匹配算法會自動地尋找針對某個參考譯文的最大匹配
9、詞數(shù)。據(jù)稱這種基于F值的自動方法與人工評測的一致性可以比BLEUMg者NIST更高。其缺點在于,計算MM葬身是一個“NP難”的問題,比較費時。引入語言知識的自動評測方法BLEU、NIST以及GT昉法都是基于字面的完全匹配,并沒有理解系統(tǒng)譯文和參考譯文的含義,引入多個參考譯文只能在一定程度上減輕這方面的缺陷。研究人員嘗試使用基于更多語言學(xué)知識的評測方法來評價翻譯質(zhì)量的好壞。早在十幾年前,北京大學(xué)計算語言學(xué)研究所的俞士汶教授就提出了一種基于測試點的機器翻譯自動評價方法。這種方法并不直接評價譯文句子,而是考慮系統(tǒng)譯文在給定的測試點上的質(zhì)量。其基本原理類似于在考試出題時設(shè)置考點,考生答題時答到相應(yīng)的考點即可得分?;跍y試點的評測方法是一種非常巧妙的方法。使用這種評測方法,通過對評測結(jié)果進(jìn)行細(xì)致深入的分析,很容易知道系統(tǒng)在哪些語言問題上處理得不夠好,有針對性地對系統(tǒng)進(jìn)行改進(jìn)即可進(jìn)一步提高系統(tǒng)翻譯的質(zhì)量。近幾年來研究人員又提出了一些融合了語義知識的機器翻譯評測方法,由美國南加州大學(xué)信息科學(xué)研究所的ZhouLiang等人提出的ParaE
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 子癇前期重度術(shù)后護理
- 2025年零售門店數(shù)字化技術(shù)應(yīng)用在顧客互動營銷中的策略報告
- 隧道洞內(nèi)安全培訓(xùn)
- 北森創(chuàng)業(yè)培訓(xùn)
- 數(shù)字貨幣對傳統(tǒng)金融監(jiān)管模式的挑戰(zhàn)與應(yīng)對策略報告001
- 金山產(chǎn)品經(jīng)理手冊 -金山營銷制勝之道
- 檢驗科危險化學(xué)品培訓(xùn)
- 企業(yè)后備干部培訓(xùn)方案
- 臍部護理總結(jié)與計劃書
- 2025年預(yù)制菜供應(yīng)鏈協(xié)同與冷鏈配送模式研究報告
- 產(chǎn)品質(zhì)量鑒定程序規(guī)范 總則
- 草晶華工作計劃
- DZ∕T 0388-2021 礦區(qū)地下水監(jiān)測規(guī)范(正式版)
- 腦干損傷護理常規(guī)
- MOOC 數(shù)值天氣預(yù)報-南京信息工程大學(xué) 中國大學(xué)慕課答案
- 跨座式單軌交通工程接觸網(wǎng)系統(tǒng)技術(shù)標(biāo)準(zhǔn)
- 教師口語智慧樹知到期末考試答案2024年
- 從乙醇的結(jié)構(gòu)看其發(fā)生化學(xué)反應(yīng)時鍵的斷裂位置和方式
- 2024年江西贛州旅游投資集團限公司招聘13人高頻考題難、易錯點模擬試題(共500題)附帶答案詳解
- 小學(xué)信息技術(shù)所有知識點大匯總(最全)
- 好老師是民族的希望
評論
0/150
提交評論