handout+4+機(jī)器翻譯與計(jì)算機(jī)輔助翻譯比較分析.pdf_第1頁(yè)
handout+4+機(jī)器翻譯與計(jì)算機(jī)輔助翻譯比較分析.pdf_第2頁(yè)
handout+4+機(jī)器翻譯與計(jì)算機(jī)輔助翻譯比較分析.pdf_第3頁(yè)
handout+4+機(jī)器翻譯與計(jì)算機(jī)輔助翻譯比較分析.pdf_第4頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

語(yǔ)言技術(shù)研究 機(jī)器翻譯與計(jì)算機(jī)輔助翻譯比較分析 梁三云 揚(yáng)州大學(xué) 外國(guó)語(yǔ)學(xué)院英語(yǔ)系 江蘇揚(yáng)州 225009 摘 要 機(jī)器翻譯 MT Machine Translation 和計(jì)算機(jī)輔助翻譯 CAT Computer Aided Transla2 tion 是兩個(gè)既有聯(lián)系又有本質(zhì)區(qū)別的概念 本文首先回顧了機(jī)器翻譯的歷史 系統(tǒng)比較了機(jī)器翻譯和 計(jì)算機(jī)輔助翻譯在設(shè)計(jì)理念 應(yīng)用范圍以及翻譯引擎三個(gè)方面各自的特點(diǎn) 得出了兩者都有各自的優(yōu) 勢(shì) 在發(fā)展上不能厚此薄彼的結(jié)論 關(guān)鍵詞 機(jī)器翻譯 計(jì)算機(jī)輔助翻譯 翻譯記憶 中圖分類號(hào) H319 3文獻(xiàn)標(biāo)識(shí)碼 A文章編號(hào) 100125795 2004 062004220004 MT or CAT That Is the Question L IAN G San2yun Foreign Languages College Yangzhou University Yangzhou Jiangsu 225009 China Abstract Machine Translation and Computer Aided Translation are two concepts interrelated with each other yet different in nature This paper reviewing the history of Machine Translation and systemati2 cally comparing the respective features of MT and CAT in the concept of design the scope of application and the translation engine concludes that both of them retain their own advantages and that we should not favor one more than the other in development Key words Machine Translation Computer Aided Translation Translation Memory 從古希臘時(shí)代起 人們就夢(mèng)想著用機(jī)器翻譯語(yǔ)言 可直到1903年 古圖拉特 Couturat 和洛 Leau 在 通 用語(yǔ)言的歷史 一書(shū)中才第一次提出了 機(jī)器翻譯 德 文是ein mechanisches Uebersetzen 這個(gè)術(shù)語(yǔ) 而世界 上第一次真正意義的機(jī)器翻譯試驗(yàn)是1954年美國(guó)喬 治敦大學(xué)在國(guó)際商用機(jī)器公司 IBM公司 的協(xié)同下 用IBM2701計(jì)算機(jī) 把幾個(gè)簡(jiǎn)單的俄語(yǔ)句子翻譯成英 語(yǔ) 沒(méi)過(guò)多久 剛剛經(jīng)歷了萌芽期的機(jī)器翻譯就遭當(dāng) 頭棒喝 1966年 美國(guó)科學(xué)院成立的語(yǔ)言自動(dòng)處理咨 詢委員會(huì) Automatic Language Processing Advisory Committee 簡(jiǎn)稱ALPAC委員會(huì) 調(diào)查了機(jī)器翻譯的 研究情況 并發(fā)表黑皮書(shū) 語(yǔ)言與機(jī)器 翻譯和語(yǔ)言學(xué) 中的計(jì)算機(jī) 簡(jiǎn)稱ALPAC報(bào)告 對(duì)機(jī)器翻譯采取否 定的態(tài)度 使得機(jī)器翻譯出現(xiàn)了一片蕭條 直到20世 紀(jì)70年代 機(jī)器翻譯才出現(xiàn)了復(fù)蘇的局面 到目前 雖然機(jī)器翻譯歷經(jīng)了70多年的研究 機(jī)譯的譯文質(zhì)量 確實(shí)還是不能令人滿意 以至于近來(lái)有人說(shuō) MT 不 是machine translation的縮寫(xiě) 而是mad translation 瘋 子的翻譯 的縮寫(xiě) Snell2Hornby也表達(dá)了她對(duì)機(jī)器 翻譯的看法 毫無(wú)疑問(wèn) 技術(shù)的產(chǎn)物 無(wú)論怎么復(fù)雜 都不能和人腦的創(chuàng)造能力相媲美 Snell2Hornby 1988 1995 66 機(jī)器翻譯遭遇了難以克服的技術(shù)障礙 似乎走到了山窮水盡的地步 在這種情況下 采用翻 譯記憶 translation memory 技術(shù)的計(jì)算機(jī)輔助翻譯系 作者簡(jiǎn)介 梁三云 19662 男 碩士 講師 研究方向 翻譯理論研究與應(yīng)用語(yǔ)言學(xué) 收稿日期 2004202209 24 第100期 2004年12月 外語(yǔ)電化教學(xué) ETFL T No 100 Dec 2004 統(tǒng) 又稱翻譯工作站 workbench 應(yīng)運(yùn)而生了 翻譯記 憶軟件除了提供一般的翻譯記憶功能以外 還可提供 文件格式的分解與合成 術(shù)語(yǔ)庫(kù)管理 翻譯項(xiàng)目管理 語(yǔ)料庫(kù)加工與對(duì)齊等一系列輔助翻譯工具 1 機(jī)器翻譯 機(jī)器翻譯 machine translation 又稱機(jī)譯 MT 是利用計(jì)算機(jī)把一種自然語(yǔ)言轉(zhuǎn)變成另一種自然語(yǔ)言 的過(guò)程 用以完成這一過(guò)程的軟件叫做機(jī)器翻譯系 統(tǒng) 機(jī)器翻譯所依賴的自動(dòng)翻譯技術(shù)包括語(yǔ)音翻譯和 文字翻譯 主要的關(guān)鍵技術(shù)有四個(gè)方面 單詞分析 語(yǔ) 法分析 意義分析和文理分析 它的工作過(guò)程是 先把 語(yǔ)句分成各個(gè)單詞 通過(guò)存放于機(jī)器數(shù)據(jù)庫(kù)內(nèi)的電子 字典查清詞義 根據(jù)語(yǔ)法規(guī)則分析語(yǔ)句的意思 并把它 變換成概念構(gòu)造 然后借助語(yǔ)言模型生成目標(biāo)語(yǔ)言 其中 語(yǔ)言模型即是原語(yǔ)言和目標(biāo)語(yǔ)言間的中間語(yǔ)言 各種語(yǔ)言通過(guò)它可譯成另一種所需語(yǔ)言 如果配上雙 向翻譯軟件 自動(dòng)翻譯系統(tǒng)就能翻譯多種語(yǔ)言 機(jī)器翻譯的實(shí)現(xiàn)技術(shù)原理主要有兩大分支 基于 語(yǔ)法分析和基于語(yǔ)料庫(kù) 1 所謂基于語(yǔ)法分析的技術(shù)就是對(duì)源語(yǔ)言語(yǔ)句 的詞法 語(yǔ)義 語(yǔ)法和句法進(jìn)行分析并進(jìn)行判斷和取 舍 然后重新進(jìn)行排列組合 最后生成目標(biāo)語(yǔ)言 這一 系列過(guò)程均是模仿人腦進(jìn)行翻譯的過(guò)程 盡管計(jì)算機(jī) 具有良好的存儲(chǔ)記憶和執(zhí)行功能 但它卻缺少良好的 思維功能 而人類的翻譯工作恰恰是一種極其復(fù)雜的 邏輯思維過(guò)程 要解決這一矛盾就必須將輸入計(jì)算機(jī) 的語(yǔ)言公式化 規(guī)則化 規(guī)則設(shè)計(jì)的實(shí)質(zhì)是尋找一種 規(guī)則描述語(yǔ)言 用于描述自然語(yǔ)言 使其能被計(jì)算機(jī) 處理 陳光火 1999 42 由于自然語(yǔ)言具有靈活性 復(fù) 雜性和開(kāi)放性等特點(diǎn) 規(guī)則的建立和完善是很難的 因 此目前用該方法作出的翻譯軟件 其譯文的可讀性不太 理想 該方法在機(jī)器翻譯研究的初期占主導(dǎo)地位 2 基于語(yǔ)料庫(kù)技術(shù)的工作原理是利用統(tǒng)計(jì)學(xué)和 概率方法建立一個(gè)包含各種句型的雙語(yǔ)對(duì)照語(yǔ)料庫(kù) 在翻譯時(shí) 從語(yǔ)料庫(kù)中抽取與輸入句子相類似的例句 然后模仿例句來(lái)實(shí)現(xiàn)源語(yǔ)言與目標(biāo)語(yǔ)言的轉(zhuǎn)換 采用 這種技術(shù)能夠得到可讀性和準(zhǔn)確性較好的譯文 但這 種方法的難點(diǎn)在于龐大語(yǔ)料庫(kù)構(gòu)筑及其有效運(yùn)行機(jī)制 的建立 這種技術(shù)目前已越來(lái)越受到重視并已在很多 產(chǎn)品的開(kāi)發(fā)中得到應(yīng)用 IBM的統(tǒng)計(jì)機(jī)器翻譯模型 就是IBM公司Peter Brown等研究者按照這種方法 以英法雙語(yǔ)對(duì)照加拿大議會(huì)辯論記錄為雙語(yǔ)語(yǔ)料庫(kù) 開(kāi)發(fā)了一個(gè)英法機(jī)器翻譯系統(tǒng) 從他們發(fā)表的文章來(lái) 看 實(shí)驗(yàn)的結(jié)果相當(dāng)不錯(cuò) 已經(jīng)超出了傳統(tǒng)的基于規(guī)則 的翻譯系統(tǒng) 劉群 2002 27 30 2 機(jī)器輔助翻譯 翻譯記憶 TM 翻譯記憶 TM Translation Memory 是 譯者運(yùn) 用計(jì)算機(jī)程序部分參與翻譯過(guò)程的一種翻譯策略 Shuttleworth 第二種主要 用于翻譯原文經(jīng)過(guò)簡(jiǎn)化的材料 第三種類型則需要譯 者介入翻譯過(guò)程之中 在人機(jī)對(duì)話中完成翻譯任務(wù) 第 四種批處理型又稱 詞典易于更新式批處理型 該 類型的系統(tǒng)工作時(shí)先輸入全部原文 由機(jī)器查閱詞典 然后一次性產(chǎn)生全部譯文 柯平 1995 49 最后一 種類型則是用來(lái)翻譯所有輸入機(jī)器的材料 當(dāng)前 全 文翻譯軟件中的通用類軟件占據(jù)了市場(chǎng)的絕大多數(shù) 國(guó)內(nèi)的有 通譯2000 金山快譯 net2001等 前者可 以進(jìn)行全文自動(dòng)翻譯 批量翻譯以及交互式翻譯等功 能 后者則注重互聯(lián)網(wǎng)的翻譯系統(tǒng) 網(wǎng)頁(yè)和電子郵件的 翻譯 增加了計(jì)算機(jī) 經(jīng)貿(mào) 電子等專業(yè)詞庫(kù) 3 2 應(yīng)用范圍不同 從機(jī)器翻譯的角度來(lái)看 日常翻譯的材料主要可 分為以下6類 柯平 1995 47 文學(xué)作品 非文 學(xué)出版物 網(wǎng)頁(yè)及計(jì)算機(jī)相關(guān)材料 法律文件 情報(bào)資料 文摘 文學(xué)翻譯是 傳達(dá)作者的全部意 圖 即包括經(jīng)過(guò)他深思熟慮的 也包括他無(wú)意識(shí)的意 圖 即作者對(duì)在讀者思想感情上產(chǎn)生藝術(shù)作用的全部 意圖 斯米爾諾夫 見(jiàn) 蘇聯(lián)文學(xué)百科全書(shū) 翻譯 辭條 轉(zhuǎn)引自 譚載喜 1988 文學(xué) 翻譯過(guò)程不是一個(gè) 簡(jiǎn)單的語(yǔ)碼轉(zhuǎn)換過(guò)程 而是一個(gè)極其復(fù)雜的心理過(guò)程 是一個(gè)非線性的波浪式前進(jìn)的動(dòng)態(tài)思維過(guò)程 王金 銓 2002 471 即使對(duì)于專業(yè)翻譯工作者來(lái)說(shuō) 文學(xué)翻 譯也不是件容易的事 更何況是對(duì)于沒(méi)有任何認(rèn)知能 力的機(jī)器 筆者曾讓機(jī)器試譯了下面兩句 1 The plant has been in operation for several weeks 2 The operation of this drug lasted two hours 機(jī)器譯文分別為 1 植物生效幾個(gè)星期了 2 這 藥的操作持續(xù)了二個(gè)小時(shí) 正確的譯文分別為 1 工廠已開(kāi)工幾個(gè)星期了 2 這種藥的藥效持續(xù)了兩個(gè)小時(shí) 這兩個(gè)句子的文學(xué)意味還不是很濃 若是真的讓 機(jī)器來(lái)翻譯小說(shuō) 詩(shī)歌 結(jié)果可想而知 文學(xué)翻譯的出 路還是在于機(jī)器輔助翻譯 由譯者占據(jù)主導(dǎo)地位指導(dǎo) 機(jī)器的翻譯行為 而機(jī)器只為譯者提供翻譯記憶 片斷 匹配 術(shù)語(yǔ)統(tǒng)一的服務(wù) 非文學(xué)出版物的機(jī)器翻譯一 直在進(jìn)行 產(chǎn)品說(shuō)明書(shū) 天氣預(yù)報(bào)等一些基于專業(yè)語(yǔ)料 庫(kù)的材料的翻譯效果還是不錯(cuò)的 例如 蒙特利爾大 學(xué)研制的英法翻譯系統(tǒng)進(jìn)行天氣預(yù)報(bào)的自動(dòng)翻譯 多 年來(lái)每天自動(dòng)翻譯1 5002 000份天氣預(yù)報(bào)材料 具有 很強(qiáng)的實(shí)用性 由于計(jì)算機(jī)的不斷更新?lián)Q代 網(wǎng)絡(luò)技 術(shù)的日新月異 世界上有70 以上的網(wǎng)站都是用英文 編寫(xiě)的 而只有12 13 的網(wǎng)站是由漢語(yǔ)編寫(xiě)而成 的 互聯(lián)網(wǎng)以及與計(jì)算機(jī)相關(guān)材料的翻譯很大一部分 依賴機(jī)器翻譯 機(jī)器翻譯在這方面發(fā)揮著機(jī)器輔助翻 譯所不能比擬的作用 據(jù)新浪網(wǎng)報(bào)道 微軟在機(jī)器翻 譯領(lǐng)域取得了重大突破 它研制的機(jī)器翻譯軟件不僅 僅局限于單字或單詞的翻譯 而是準(zhǔn)確地提供短語(yǔ)級(jí) 譯文 它甚至可以對(duì)文本進(jìn)行總結(jié) 給出摘要和近似 的翻譯 從而使用戶不需要閱讀 翻譯整篇文章便可以 了解大概內(nèi)容 這對(duì)很多對(duì)英語(yǔ)不是很熟悉的人們來(lái) 說(shuō)不啻于一個(gè)福音 法律文件對(duì)措辭和術(shù)語(yǔ)的準(zhǔn)確性 有著極高的要求 而擁有龐大的專業(yè)法律語(yǔ)料庫(kù)的機(jī) 器翻譯軟件也能勉強(qiáng)勝任此類翻譯 不過(guò) 最好還是 44 梁三云 機(jī)器翻譯與計(jì)算機(jī)輔助翻譯比較分析 采用人機(jī)互動(dòng)的方式才能最大限度地避免不必要的麻 煩 機(jī)器輔助翻譯在這方面也有著很大的潛力 情報(bào) 使用機(jī)器進(jìn)行翻譯是由來(lái)已久 包括美國(guó)中央情報(bào)局 和原克格勃在內(nèi)的許多機(jī)構(gòu)和組織都正致力于人工智 能的開(kāi)發(fā) 力求研制出功能先進(jìn) 復(fù)雜的翻譯軟件 處 理各種敏感的情報(bào)資料 美國(guó)空軍每年要用機(jī)器翻譯 1700萬(wàn)字的情報(bào)資料 情報(bào)人員關(guān)心的是翻譯的可讀 性的問(wèn)題 再粗糙的翻譯對(duì)于他們來(lái)說(shuō)都是很有價(jià)值 的材料 3 3 翻譯引擎不同 機(jī)器翻譯軟件更注重綜合功能 要保證翻譯效果 因此對(duì)語(yǔ)法庫(kù) 專業(yè)詞庫(kù)等的要求較高 但機(jī)器輔助 翻譯軟件是通過(guò)句庫(kù)自動(dòng)匹配實(shí)現(xiàn)的 并不需要語(yǔ)法 而需要大量的資源庫(kù) 即語(yǔ)料庫(kù) 這主要由翻譯專業(yè) 人員在使用過(guò)程中進(jìn)行添加 以滿足自己的需要 上 文已經(jīng)全面介紹了機(jī)器翻譯實(shí)現(xiàn)技術(shù)原理的兩大主要 分支 基于語(yǔ)法分析和基于語(yǔ)料庫(kù) 下面著重介紹機(jī) 器輔助翻譯的翻譯引擎 一般來(lái)說(shuō) 機(jī)器輔助翻譯的翻譯引擎包括四個(gè)方面 1 在翻譯過(guò)程中 翻譯記憶軟件會(huì)自動(dòng)記憶翻 譯結(jié)果 當(dāng)譯者再次進(jìn)行翻譯時(shí) 翻譯記憶會(huì)搜索記 憶庫(kù) 就當(dāng)前句子與庫(kù)中存在的翻譯單元進(jìn)行對(duì)比和 匹配 挑出系統(tǒng)設(shè)定值范圍之內(nèi)的翻譯單元 作為參考 譯文 如果譯者設(shè)定的匹配值為60 則軟件會(huì)給出 匹配值高于或等于此值的參考譯文 譯者可以選擇接 受該譯文 也可以做一些修改 修改后的新譯文會(huì)自動(dòng) 存入記憶庫(kù) 供以后使用 2 支持網(wǎng)絡(luò)共享記憶庫(kù)功能 當(dāng)多個(gè)譯者進(jìn)行 同一個(gè)翻譯項(xiàng)目時(shí) 他們可以通過(guò)局域網(wǎng)共享一個(gè)翻 譯記憶庫(kù) 以國(guó)產(chǎn)雅信CAT翻譯系統(tǒng)為例 它的網(wǎng)絡(luò) 版內(nèi)設(shè)網(wǎng)絡(luò)共享記憶庫(kù)的功能 這就使得整個(gè)翻譯工 作組能夠高效率地協(xié)同翻譯 成員遇到已有翻譯結(jié)果 的單詞 詞組 句子或片斷時(shí)不需要重新翻譯 只要參 照組內(nèi)成員的翻譯結(jié)果即可 這樣也使得同一篇作品 內(nèi)部的術(shù)語(yǔ)得以最大化的統(tǒng)一 3 術(shù)語(yǔ)管理功能 術(shù)語(yǔ)管理是TM軟件翻譯引 擎的另一個(gè)重要特點(diǎn) 幾乎每篇文檔都有很多的專業(yè) 術(shù)語(yǔ) 尤其是在科技翻譯文獻(xiàn)當(dāng)中 術(shù)語(yǔ)的前后一致 性是編輯校對(duì)時(shí)的一個(gè)重要方面 我們時(shí)??梢栽谝?些出版的譯著中看到一些前后不一致的術(shù)語(yǔ)翻譯 使 得讀者在理解時(shí)出現(xiàn)了上下文的脫節(jié) 極大地影響了 翻譯的質(zhì)量 翻譯記憶軟件中有一個(gè)術(shù)語(yǔ)管理工具來(lái) 規(guī)范所有的專業(yè)術(shù)語(yǔ) 譯者只需一次性建立一個(gè)或多 個(gè)標(biāo)準(zhǔn)術(shù)語(yǔ)列表 翻譯時(shí) 翻譯記憶軟件會(huì)自動(dòng)識(shí)別出 那些字詞或結(jié)構(gòu)是已定義的術(shù)語(yǔ) 并且給出相應(yīng)的術(shù) 語(yǔ)譯文 保證術(shù)語(yǔ)的統(tǒng)一 例如 在塔多思 TRADOS 系統(tǒng)中有一個(gè)叫MultiTerm術(shù)語(yǔ)存放的工具 在翻譯 時(shí) Workbench 工作站 會(huì)搜索MultiTerm的數(shù)據(jù)庫(kù) 如果該術(shù)語(yǔ)存在 它的翻譯就會(huì)顯示在Workbench的 窗口中 4 多語(yǔ)種間雙向互譯功能 由于翻譯記憶實(shí)現(xiàn) 的是原文和譯文的比較和匹配 因此 翻譯記憶軟件支 持多語(yǔ)種之間的雙向互譯 以全球最著名的翻譯記憶 軟件德國(guó)塔多思 TRADOS 為例 該公司的產(chǎn)品基于 UNICODE 統(tǒng)一字符編碼 支持60多種語(yǔ)言 其中包 括對(duì)漢語(yǔ) 日語(yǔ) 韓語(yǔ) 阿拉伯語(yǔ)等雙字節(jié)和雙向語(yǔ)種 的支持 以上機(jī)器輔助翻譯軟件 CAT 的特點(diǎn)都是機(jī)器翻 譯 MT 的翻譯引擎中所沒(méi)有的 但是 這并不說(shuō)明機(jī) 器翻譯就一定不如機(jī)器輔助翻譯 這兩種軟件都有其 發(fā)揮各自重要作用的功能和領(lǐng)域 4 結(jié)論 盡管機(jī)器翻譯存在著這樣或那樣的問(wèn)題 它的譯 作有時(shí)候還不能實(shí)現(xiàn) 信 達(dá) 雅 中的第一個(gè)標(biāo)準(zhǔn) 但 是它的易用性為人們提供了極大的方便 它所擁有的 網(wǎng)頁(yè)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論