語音識(shí)別技術(shù)綜述_第1頁
語音識(shí)別技術(shù)綜述_第2頁
語音識(shí)別技術(shù)綜述_第3頁
語音識(shí)別技術(shù)綜述_第4頁
語音識(shí)別技術(shù)綜述_第5頁
已閱讀5頁,還剩15頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、精選優(yōu)質(zhì)文檔-傾情為你奉上語音識(shí)別技術(shù)綜述專心-專注-專業(yè)語音識(shí)別技術(shù)綜述電子信息工程 2010級(jí)1班 郭珊珊【摘要】隨著計(jì)算機(jī)處理能力的迅速提高,語音識(shí)別技術(shù)得到了飛速發(fā)展,該技術(shù)的發(fā)展和應(yīng)用改變了人們的生產(chǎn)和生活方式,正逐步成為計(jì)算機(jī)處理技術(shù)中的關(guān)鍵技術(shù)。語音技術(shù)的應(yīng)用已經(jīng)成為一個(gè)具有競爭性的新興高技術(shù)產(chǎn)業(yè)?!娟P(guān)鍵詞】語音識(shí)別;語音識(shí)別原理;語音識(shí)別發(fā)展;產(chǎn)品語音識(shí)別是以語音為研究對(duì)象,通過語音信號(hào)處理和模式識(shí)別讓機(jī)器人自動(dòng)識(shí)別和理解人類口述的語言。語音識(shí)別技術(shù)就是讓機(jī)器通過識(shí)別和理解過程把語音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的命令或文本的高新技術(shù)。1 語音識(shí)別的原理語音識(shí)別系統(tǒng)本質(zhì)是一種模式識(shí)別系統(tǒng),包括

2、特征提取、模式匹配、參考模式庫等三個(gè)基本單位元。未知語音經(jīng)過話筒變換成電信號(hào)后加載識(shí)別系統(tǒng)的輸入端,首先經(jīng)過預(yù)處理,再根據(jù)人的語音特點(diǎn)建立語音模型,對(duì)輸入的語音信號(hào)進(jìn)行分析,并抽取所需特征,在此基礎(chǔ)上建立語音識(shí)別所需的模板。計(jì)算機(jī)在識(shí)別過程中要根據(jù)語音識(shí)別的模型,將計(jì)算機(jī)中存放的語音模板與輸入的語音信號(hào)的特征進(jìn)行比較,根據(jù)一定的搜索和匹配策略,找出一系列最優(yōu)的與輸入語音匹配的模板。然后根據(jù)此模板的定義,通過查表可給出計(jì)算機(jī)的識(shí)別結(jié)果。這種最優(yōu)的結(jié)果與特征的選擇、語音模型的好壞、模板是否準(zhǔn)確都有直接的關(guān)系。2 語音識(shí)別系統(tǒng)的分類 語音識(shí)別系統(tǒng)可以根據(jù)對(duì)輸入語音的限制加以分類。 2.1從說話者與識(shí)

3、別系統(tǒng)的相關(guān)性考慮可以將識(shí)別系統(tǒng)分為3類:(1)特定人語音識(shí)別系統(tǒng):僅考慮對(duì)于專人的話音進(jìn)行識(shí)別;(2)非特定人語音系統(tǒng):識(shí)別的語音與人無關(guān),通常要用大量不同人的語音數(shù)據(jù)庫對(duì)識(shí)別系統(tǒng)進(jìn)行學(xué)習(xí);(3)多人的識(shí)別系統(tǒng):通常能識(shí)別一組人的語音,或者成為特定組語音識(shí)別系統(tǒng),該系統(tǒng)僅要求對(duì)要識(shí)別的那組人的語音進(jìn)行訓(xùn)練。 2.2從說話的方式考慮也可以將識(shí)別系統(tǒng)分為3類:(1)孤立詞語音識(shí)別系統(tǒng):孤立詞識(shí)別系統(tǒng)要求輸入每個(gè)詞后要停頓;(2)連接詞語音識(shí)別系統(tǒng):連接詞輸入系統(tǒng)要求對(duì)每個(gè)詞都清楚發(fā)音,一些連音現(xiàn)象開始出現(xiàn);(3)連續(xù)語音識(shí)別系統(tǒng):連續(xù)語音輸入是自然流利的連續(xù)語音輸入,大量連音和變音會(huì)出現(xiàn)。 2.

4、3從識(shí)別系統(tǒng)的詞匯量大小考慮也可以將識(shí)別系統(tǒng)分為3類:(1)小詞匯量語音識(shí)別系統(tǒng)。通常包括幾十個(gè)詞的語音識(shí)別系統(tǒng)。(2)中等詞匯量的語音識(shí)別系統(tǒng)。通常包括幾百個(gè)詞到上千個(gè)詞的識(shí)別系統(tǒng)。(3)大詞匯量語音識(shí)別系統(tǒng)。通常包括幾千到幾萬個(gè)詞的語音識(shí)別系統(tǒng)。隨著計(jì)算機(jī)與數(shù)字信號(hào)處理器運(yùn)算能力以及識(shí)別系統(tǒng)精度的提高,識(shí)別系統(tǒng)根據(jù)詞匯量大小進(jìn)行分類也不斷進(jìn)行變化。目前是中等詞匯量的識(shí)別系統(tǒng)到將來可能就是小詞匯量的語音識(shí)別系統(tǒng)。這些不同的限制也確定了語音識(shí)別系統(tǒng)的困難度。3語音識(shí)別技術(shù)的發(fā)展3.1國外研究歷史及現(xiàn)狀語音識(shí)別的研究工作可以追溯到20世紀(jì)50年代AT&T貝爾實(shí)驗(yàn)室的Audry系統(tǒng),它是第

5、一個(gè)可以識(shí)別十個(gè)英文數(shù)字的語音識(shí)別系統(tǒng)。 但真正取得實(shí)質(zhì)性進(jìn)展,并將其作為一個(gè)重要的課題開展研究則是在60年代末70年代初。這首先是因?yàn)橛?jì)算機(jī)技術(shù)的發(fā)展為語音識(shí)別的實(shí)現(xiàn)提供了硬件和軟件的可能,更重要的是語音信號(hào)線性預(yù)測編碼(LPC)技術(shù)和動(dòng)態(tài)時(shí)間規(guī)整(DTW)技術(shù)的提出,有效的解決了語音信號(hào)的特征提取和不等長匹配問題。這一時(shí)期的語音識(shí)別主要基于模板匹配原理,研究的領(lǐng)域局限在特定人,小詞匯表的孤立詞識(shí)別,實(shí)現(xiàn)了基于線性預(yù)測倒譜和DTW技術(shù)的特定人孤立詞語音識(shí)別系統(tǒng);同時(shí)提出了矢量量化(VQ)和隱馬爾可夫模型(HMM)理論。 隨著應(yīng)用領(lǐng)域的擴(kuò)大,小詞匯表、特定人、孤立詞等這些對(duì)語音識(shí)別的約束條件需

6、要放寬,與此同時(shí)也帶來了許多新的問題:第一,詞匯表的擴(kuò)大使得模板的選取和建立發(fā)生困難;第二,連續(xù)語音中,各個(gè)音素、音節(jié)以及詞之間沒有明顯的邊界,各個(gè)發(fā)音單位存在受上下文強(qiáng)烈影響的協(xié)同發(fā)音(Co-articulation)現(xiàn)象;第三,非特定人識(shí)別時(shí),不同的人說相同的話相應(yīng)的聲學(xué)特征有很大的差異,即使相同的人在不同的時(shí)間、生理、心理狀態(tài)下,說同樣內(nèi)容的話也會(huì)有很大的差異;第四,識(shí)別的語音中有背景噪聲或其他干擾。因此原有的模板匹配方法已不再適用。 實(shí)驗(yàn)室語音識(shí)別研究的巨大突破產(chǎn)生于20世紀(jì)80年代末:人們終于在實(shí)驗(yàn)室突破了大詞匯量、連續(xù)語音和非特定人這三大障礙,第一次把這三個(gè)特性都集成在一個(gè)系統(tǒng)中,

7、比較典型的是卡耐基梅隆大學(xué)(CarnegieMellonUniversity)的Sphinx系統(tǒng),它是第一個(gè)高性能的非特定人、大詞匯量連續(xù)語音識(shí)別系統(tǒng)。 這一時(shí)期,語音識(shí)別研究進(jìn)一步走向深入,其顯著特征是HMM模型和人工神經(jīng)元網(wǎng)絡(luò)(ANN)在語音識(shí)別中的成功應(yīng)用。HMM模型的廣泛應(yīng)用應(yīng)歸功于AT&TBell實(shí)驗(yàn)室Rabiner等科學(xué)家的努力,他們把原本艱澀的HMM純數(shù)學(xué)模型工程化,從而為更多研究者了解和認(rèn)識(shí),從而使統(tǒng)計(jì)方法成為了語音識(shí)別技術(shù)的主流。 統(tǒng)計(jì)方法將研究者的視線從微觀轉(zhuǎn)向宏觀,不再刻意追求語音特征的細(xì)化,而是更多地從整體平均(統(tǒng)計(jì))的角度來建立最佳的語音識(shí)別系統(tǒng)。在聲學(xué)模型方

8、面,以Markov鏈為基礎(chǔ)的語音序列建模方法HMM(隱式Markov鏈)比較有效地解決了語音信號(hào)短時(shí)穩(wěn)定、長時(shí)時(shí)變的特性,并且能根據(jù)一些基本建模單元構(gòu)造成連續(xù)語音的句子模型,達(dá)到了比較高的建模精度和建模靈活性。在語言層面上,通過統(tǒng)計(jì)真實(shí)大規(guī)模語料的詞之間同現(xiàn)概率即N元統(tǒng)計(jì)模型來區(qū)分識(shí)別帶來的模糊音和同音詞。另外,人工神經(jīng)網(wǎng)絡(luò)方法、基于文法規(guī)則的語言處理機(jī)制等也在語音識(shí)別中得到了應(yīng)用。 20世紀(jì)90年代前期,許多著名的大公司如IBM、蘋果、ATT和NTT都對(duì)語音識(shí)別系統(tǒng)的實(shí)用化研究投以巨資。語音識(shí)別技術(shù)有一個(gè)很好的評(píng)估機(jī)制,那就是識(shí)別的準(zhǔn)確率,而這項(xiàng)指標(biāo)在20世紀(jì)90年代中后期實(shí)驗(yàn)室研究中得到了

9、不斷的提高。比較有代表性的系統(tǒng)有:IBM公司推出的ViaVoice和DragonSystem公司的NaturallySpeaking,Nuance公司的NuanceVoicePlatform語音平臺(tái),Microsoft的Whisper,Sun的VoiceTone等。 其中IBM公司于1997年開發(fā)出漢語ViaVoice語音識(shí)別系統(tǒng),次年又開發(fā)出可以識(shí)別上海話、廣東話和四川話等地方口音的語音識(shí)別系統(tǒng)ViaVoice'98。它帶有一個(gè)32,000詞的基本詞匯表,可以擴(kuò)展到65,000詞,還包括辦公常用詞條,具有“糾錯(cuò)機(jī)制”,其平均識(shí)別率可以達(dá)到95%。該系統(tǒng)對(duì)新聞?wù)Z音識(shí)別具有較高的精度,是

10、目前具有代表性的漢語連續(xù)語音識(shí)別系統(tǒng)。 3.2國內(nèi)研究歷史及現(xiàn)狀我國語音識(shí)別研究工作起步于五十年代,但近年來發(fā)展很快。研究水平也從實(shí)驗(yàn)室逐步走向?qū)嵱?。?987年開始執(zhí)行國家863計(jì)劃后,國家863智能計(jì)算機(jī)專家組為語音識(shí)別技術(shù)研究專門立項(xiàng),每兩年滾動(dòng)一次。我國語音識(shí)別技術(shù)的研究水平已經(jīng)基本上與國外同步,在漢語語音識(shí)別技術(shù)上還有自己的特點(diǎn)與優(yōu)勢,并達(dá)到國際先進(jìn)水平。中科院自動(dòng)化所、聲學(xué)所、清華大學(xué)、北京大學(xué)、哈爾濱工業(yè)大學(xué)、上海交通大學(xué)、中國科技大學(xué)、北京郵電大學(xué)、華中科技大學(xué)等科研機(jī)構(gòu)都有實(shí)驗(yàn)室進(jìn)行過語音識(shí)別方面的研究,其中具有代表性的研究單位為清華大學(xué)電子工程系與中科院自動(dòng)化研究所模式識(shí)別

11、國家重點(diǎn)實(shí)驗(yàn)室。 清華大學(xué)電子工程系語音技術(shù)與專用芯片設(shè)計(jì)課題組,研發(fā)的非特定人漢語數(shù)碼串連續(xù)語音識(shí)別系統(tǒng)的識(shí)別精度,達(dá)到94.8%(不定長數(shù)字串)和96.8%(定長數(shù)字串)。在有5%的拒識(shí)率情況下,系統(tǒng)識(shí)別率可以達(dá)到96.9%(不定長數(shù)字串)和98.7%(定長數(shù)字串),這是目前國際最好的識(shí)別結(jié)果之一,其性能已經(jīng)接近實(shí)用水平。研發(fā)的5000詞郵包校核非特定人連續(xù)語音識(shí)別系統(tǒng)的識(shí)別率達(dá)到98.73%,前三選識(shí)別率達(dá)99.96%;并且可以識(shí)別普通話與四川話兩種語言,達(dá)到實(shí)用要求。 中科院自動(dòng)化所及其所屬模式科技(Pattek)公司2002年發(fā)布了他們共同推出的面向不同計(jì)算平臺(tái)和應(yīng)用的“天語”中文語

12、音系列產(chǎn)品PattekASR,結(jié)束了中文語音識(shí)別產(chǎn)品自1998年以來一直由國外公司壟斷的歷史。 4 語音識(shí)別的方法一般來說,語音識(shí)別的方法有三種:基于聲道模型和語音知識(shí)的方法、模板匹配的方法以及利用人工神經(jīng)網(wǎng)絡(luò)的方法。 4.1基于語音學(xué)和聲學(xué)的方法該方法起步較早,在語音識(shí)別技術(shù)提出的開始,就有了這方面的研究,但由于其模型及語音知識(shí)過于復(fù)雜,現(xiàn)階段沒有達(dá)到實(shí)用的階段。 通常認(rèn)為常用語言中有有限個(gè)不同的語音基元,而且可以通過其語音信號(hào)的頻域或時(shí)域特性來區(qū)分。這樣該方法分為兩步實(shí)現(xiàn): 第一步,分段和標(biāo)號(hào) 把語音信號(hào)按時(shí)間分成離散的段,每段對(duì)應(yīng)一個(gè)或幾個(gè)語音基元的聲學(xué)特性。然后根據(jù)相應(yīng)聲學(xué)特性對(duì)每個(gè)分

13、段給出相近的語音標(biāo)號(hào) 第二步,得到詞序列 根據(jù)第一步所得語音標(biāo)號(hào)序列得到一個(gè)語音基元網(wǎng)格,從詞典得到有效的詞序列,也可結(jié)合句子的文法和語義同時(shí)進(jìn)行。 4.2模板匹配的方法模板匹配的方法發(fā)展比較成熟,目前已達(dá)到了實(shí)用階段。在模板匹配方法中,要經(jīng)過四個(gè)步驟:特征提取、模板訓(xùn)練、模板分類、判決。常用的技術(shù)有三種:動(dòng)態(tài)時(shí)間規(guī)整(DTW)、隱馬爾可夫(HMM)理論、矢量量化(VQ)技術(shù)。 4.2.1動(dòng)態(tài)時(shí)間規(guī)整(DTW) 語音信號(hào)的端點(diǎn)檢測是進(jìn)行語音識(shí)別中的一個(gè)基本步驟,它是特征訓(xùn)練和識(shí)別的基礎(chǔ)。所謂端點(diǎn)檢測就是在語音信號(hào)中的各種段落(如音素、音節(jié)、詞素)的始點(diǎn)和終點(diǎn)的位置,從語音信號(hào)中排除無聲段。在早

14、期,進(jìn)行端點(diǎn)檢測的主要依據(jù)是能量、振幅和過零率。但效果往往不明顯。60年代日本學(xué)者Itakura提出了動(dòng)態(tài)時(shí)間規(guī)整算法(DTW:DynamicTimeWarping)。算法的思想就是把未知量均勻的升長或縮短,直到與參考模式的長度一致。在這一過程中,未知單詞的時(shí)間軸要不均勻地扭曲或彎折,以使其特征與模型特征對(duì)正。 4.2.2隱馬爾可夫法(HMM) 隱馬爾可夫法(HMM)是70年代引入語音識(shí)別理論的,它的出現(xiàn)使得自然語音識(shí)別系統(tǒng)取得了實(shí)質(zhì)性的突破。HMM方法現(xiàn)已成為語音識(shí)別的主流技術(shù),目前大多數(shù)大詞匯量、連續(xù)語音的非特定人語音識(shí)別系統(tǒng)都是基于HMM模型的。HMM是對(duì)語音信號(hào)的時(shí)間序列結(jié)構(gòu)建立統(tǒng)計(jì)模

15、型,將之看作一個(gè)數(shù)學(xué)上的雙重隨機(jī)過程:一個(gè)是用具有有限狀態(tài)數(shù)的Markov鏈來模擬語音信號(hào)統(tǒng)計(jì)特性變化的隱含的隨機(jī)過程,另一個(gè)是與Markov鏈的每一個(gè)狀態(tài)相關(guān)聯(lián)的觀測序列的隨機(jī)過程。前者通過后者表現(xiàn)出來,但前者的具體參數(shù)是不可測的。人的言語過程實(shí)際上就是一個(gè)雙重隨機(jī)過程,語音信號(hào)本身是一個(gè)可觀測的時(shí)變序列,是由大腦根據(jù)語法知識(shí)和言語需要(不可觀測的狀態(tài))發(fā)出的音素的參數(shù)流??梢奌MM合理地模仿了這一過程,很好地描述了語音信號(hào)的整體非平穩(wěn)性和局部平穩(wěn)性,是較為理想的一種語音模型。 4.2.3矢量量化(VQ) 矢量量化(VectorQuantization)是一種重要的信號(hào)壓縮方法。與HMM相比

16、,矢量量化主要適用于小詞匯量、孤立詞的語音識(shí)別中。其過程是:將語音信號(hào)波形的k個(gè)樣點(diǎn)的每一幀,或有k個(gè)參數(shù)的每一參數(shù)幀,構(gòu)成k維空間中的一個(gè)矢量,然后對(duì)矢量進(jìn)行量化。量化時(shí),將k維無限空間劃分為M個(gè)區(qū)域邊界,然后將輸入矢量與這些邊界進(jìn)行比較,并被量化為“距離”最小的區(qū)域邊界的中心矢量值。矢量量化器的設(shè)計(jì)就是從大量信號(hào)樣本中訓(xùn)練出好的碼書,從實(shí)際效果出發(fā)尋找到好的失真測度定義公式,設(shè)計(jì)出最佳的矢量量化系統(tǒng),用最少的搜索和計(jì)算失真的運(yùn)算量,實(shí)現(xiàn)最大可能的平均信噪比。 核心思想可以這樣理解:如果一個(gè)碼書是為某一特定的信源而優(yōu)化設(shè)計(jì)的,那么由這一信息源產(chǎn)生的信號(hào)與該碼書的平均量化失真就應(yīng)小于其他信息的

17、信號(hào)與該碼書的平均量化失真,也就是說編碼器本身存在區(qū)分能力。 在實(shí)際的應(yīng)用過程中,人們還研究了多種降低復(fù)雜度的方法,這些方法大致可以分為兩類:無記憶的矢量量化和有記憶的矢量量化。無記憶的矢量量化包括樹形搜索的矢量量化和多級(jí)矢量量化。 4.3神經(jīng)網(wǎng)絡(luò)的方法利用人工神經(jīng)網(wǎng)絡(luò)的方法是80年代末期提出的一種新的語音識(shí)別方法。人工神經(jīng)網(wǎng)絡(luò)(ANN)本質(zhì)上是一個(gè)自適應(yīng)非線性動(dòng)力學(xué)系統(tǒng),模擬了人類神經(jīng)活動(dòng)的原理,具有自適應(yīng)性、并行性、魯棒性、容錯(cuò)性和學(xué)習(xí)特性,其強(qiáng)的分類能力和輸入-輸出映射能力在語音識(shí)別中都很有吸引力。但由于存在訓(xùn)練、識(shí)別時(shí)間太長的缺點(diǎn),目前仍處于實(shí)驗(yàn)探索階段。 由于ANN不能很好的描述語音

18、信號(hào)的時(shí)間動(dòng)態(tài)特性,所以常把ANN與傳統(tǒng)識(shí)別方法結(jié)合,分別利用各自優(yōu)點(diǎn)來進(jìn)行語音識(shí)別。5 語音識(shí)別產(chǎn)品語音識(shí)別產(chǎn)品技術(shù)的應(yīng)用可以分為兩個(gè)發(fā)展方向:一個(gè)方向是大詞匯量連續(xù)語音識(shí)別系統(tǒng),主要應(yīng)用于計(jì)算機(jī)的聽寫機(jī),以及與電話網(wǎng)或者互聯(lián)網(wǎng)相結(jié)合的語音信息查詢服務(wù)系統(tǒng),這些系統(tǒng)都是在計(jì)算機(jī)平臺(tái)上實(shí)現(xiàn)的;另外一個(gè)重要的發(fā)展方向是小型化、便攜式語音產(chǎn)品的應(yīng)用,如無線手機(jī)上的撥號(hào)、汽車設(shè)備的語音控制、智能玩具、家電遙控等方面的應(yīng)用,這些應(yīng)用系統(tǒng)大都使用專門的硬件系統(tǒng)實(shí)現(xiàn),特別是近幾年來迅速發(fā)展的語音信號(hào)處理專用芯片(Application Specific Integrated Circuit,ASIC)和語

19、音識(shí)別片上系統(tǒng)(System on Chip,SOC)的出現(xiàn),為其廣泛應(yīng)用創(chuàng)造了極為有利的條件。5.1 Nuance的Dragon Dictation Dragon Dictation(中文名稱:聲龍聽寫)是由 Nuance 公司推出的適用于iPhone,iPad和 iPod touch用戶的一款語音識(shí)別應(yīng)用軟件,將用戶的語音轉(zhuǎn)換成文字。軟件目前支持美國英語、英國英語、澳大利亞英語、法語、德語、意大利語、西班牙語、日語、韓語和中文。Dragon Dictation可以將我們說的話轉(zhuǎn)換成文字,然后直接發(fā)送短信、電子郵件 或是發(fā)布到微博等SNS網(wǎng)站上。使用剪貼板粘貼語音轉(zhuǎn)成的文本保存,做其他用途。

20、同時(shí)還有有智能選字、選詞的列表建議。語音操控的修正界面為用戶提供了更方便的修正功能。5.2 Google公司的Voice Actions Voice Actions是google推出的語音搜索應(yīng)用程序,通過它,你可以用語音給運(yùn)行 Voice Actions 的 手機(jī)下命令,諸如發(fā)信息、打電話、聽音樂等。它提供了非常堅(jiān)實(shí)可靠的聲音識(shí)別引擎,較高識(shí)別度令人稱奇。并且它也推出了針對(duì)中國用戶的中文版。 5.3 蘋果公司的SiriSiri是蘋果公司在其產(chǎn)品iphone4s上應(yīng)用的一項(xiàng)語音控制功能。技術(shù)來源于美國國防部高級(jí)研究規(guī)劃局所公布的 CALO 計(jì)劃:一個(gè)讓軍方簡化處理一些繁復(fù)庶務(wù),并具學(xué)習(xí)、組織以

21、及認(rèn)知能力的數(shù)字助理,其所衍生出來的民用版軟件 Siri 虛擬個(gè)人助理。Siri可以令iPhone4S變身為一臺(tái)智能化機(jī)器人,利用Siri用戶可以通過手機(jī)讀短信、介紹餐廳、詢問天氣、語音設(shè)置鬧鐘等。Siri可以支持自然語言輸入,并且可以調(diào)用系統(tǒng)自帶的天氣預(yù)報(bào)、日程安排、搜索資料等應(yīng)用。還能夠不斷學(xué)習(xí)新的聲音和語調(diào),提供對(duì)話式的應(yīng)答。Siri目前支持四種語言:英文,法文,德文,日語。其中英文分美式,英式,澳大利亞式。5.4 VocreVorce是一款非常受歡迎的iPhone口譯應(yīng)用,它旨在幫助經(jīng)常處于不同語言環(huán)境中的人們輕松突破語言障礙、實(shí)現(xiàn)自由溝通。有了Vocre,你在與外國人聊天時(shí),只需打開 Vocre,選擇對(duì)方的語言和性別,剩下的事情Vocre會(huì)幫你解決。當(dāng)你的 iPhone 豎著放時(shí)對(duì)它講話,把它橫過來,它會(huì)自動(dòng)翻譯你對(duì)它說的話。Vocre 通過 Nuance 將語音轉(zhuǎn)換成文字,通過他們自己的眾包機(jī)器學(xué)習(xí)技術(shù),將文字翻譯之后,再通過 iSpeech 重新將文字轉(zhuǎn)換成語音。通過Vorce軟件,來自不同國家有不同語言背景的兩個(gè)人可以自由交流。5.5 IBM的ViaVoice和微軟的Speech SDK IBM ViaVoice 是一種通過麥克風(fēng)輸入中文的一種程序。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論