PLP及MFCC在藏語連續(xù)語音識(shí)別系統(tǒng)中的比較_第1頁
PLP及MFCC在藏語連續(xù)語音識(shí)別系統(tǒng)中的比較_第2頁
PLP及MFCC在藏語連續(xù)語音識(shí)別系統(tǒng)中的比較_第3頁
免費(fèi)預(yù)覽已結(jié)束,剩余1頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、PLP及MFC(在藏語連續(xù)語音識(shí)別系統(tǒng)中地比較【摘要】 本文論述了常用地語音特征參數(shù) , 并分析了 mel 頻譜 倒譜系數(shù)vmfcc)和感知線性預(yù)測(cè)系數(shù)vplp )地計(jì)算方法,并在藏 語拉薩話大詞表連續(xù)語音識(shí)別系統(tǒng)中分別提取 mfcc 和 plp 參數(shù), 并對(duì)識(shí)別結(jié)果進(jìn)行了比較 .【關(guān)鍵詞】 mel 倒譜 感知線性預(yù)測(cè)系數(shù) mfcc plp 語音識(shí)別 藏 語自動(dòng)語音識(shí)別研究起始于上世紀(jì) 50 年代,80 年代最大突破是隱馬 爾科夫模型<hmm地應(yīng)用,語音識(shí)別研究重點(diǎn)從特定人、小詞表、 孤立詞語音識(shí)別向非特定人、大詞表、連續(xù)語音識(shí)別轉(zhuǎn)移; 90 年 代以來 , 語音識(shí)別在模型細(xì)化、參數(shù)提取

2、和優(yōu)化、系統(tǒng)自適應(yīng)方面 取得重大突破 . 進(jìn)入本世紀(jì) , 著名地研究機(jī)構(gòu)和公司 , 如劍橋大學(xué)、 ibm、emu大學(xué)、微軟、貝爾實(shí)驗(yàn)室等機(jī)構(gòu)地大詞表連續(xù)語音識(shí)別 系統(tǒng)對(duì)特定說話人地識(shí)別率達(dá)到 95左右.面對(duì)中國未來市場(chǎng) , 國 外 ibm、 apple 、 motorola 等公司投入到漢語語音識(shí)別系統(tǒng)地開發(fā) 我國語音識(shí)別研究雖然起步較晚 , 但發(fā)展發(fā)展迅速 , 中國科學(xué)院自 動(dòng)化研究所、聲學(xué)研究所及清華大學(xué)、北京交通大學(xué)等機(jī)構(gòu)都開 展了語音識(shí)別地研究 , 總體上 , 漢語連續(xù)語音識(shí)別地研究與國外先 進(jìn)技術(shù)相差不大 .實(shí)際環(huán)境對(duì)語音識(shí)別地聲學(xué)噪聲魯棒性要求越來越高 , 因此 , 提取 具有魯棒

3、性和較強(qiáng)區(qū)分能力地特征向量對(duì)語音識(shí)別系統(tǒng)具有重要 地意義. 目前常用地聲學(xué)特征參數(shù)有基于線性預(yù)測(cè)分析 (lpc> 地倒 譜 lpcc 、基于 mel 頻率彎折地倒譜 mfcc 及基于聽覺模型地感知線 性預(yù)測(cè) (plp> 分析等 .因?yàn)榭紤]到人耳地聽覺特性 ,mel 倒譜系數(shù)或感知線性預(yù)測(cè)系數(shù)已 經(jīng)成為目前主流地語音特征向量提取方法之一 , 加上它們地一階、 二階差分以及對(duì)特征向量進(jìn)行歸一化處理以后 , 在大詞匯量連續(xù)語 音識(shí)別問題上取得不錯(cuò)地結(jié)果 .為了使系統(tǒng)具有較好地魯棒性 , 通 常要對(duì)語音識(shí)別系統(tǒng)地前端進(jìn)行預(yù)處理 .雖然語音信號(hào)是非平穩(wěn)信號(hào) , 但在一個(gè)小地時(shí)段內(nèi)具有相對(duì)地穩(wěn)

4、定 性,因此在對(duì)語音信號(hào)進(jìn)行分析時(shí) , 我們總是假定語音信號(hào)在一個(gè) 時(shí)間幀(frame內(nèi)是平穩(wěn)信號(hào),這就是語音信號(hào)地短時(shí)分析假設(shè).通 常一幀大約為20ms左右.對(duì)一幀信號(hào)通過加 hamming窗、hanning 窗或矩形窗后再進(jìn)行特征分析就可以得到相應(yīng)地一組特征 , 然后通 過把分析窗移動(dòng)一個(gè)偏移 <稱為幀移, 通常為一幀地 1/2 或 1/3>, 然 后進(jìn)行下一幀地處理 .1 mfcc 地計(jì)算mel 頻率倒譜參數(shù) (mfcc>, 著眼于人耳地聽覺特性 . 人耳所聽到地 聲音地高低與聲音地頻率并不成線性正比關(guān)系 , 從人類聽覺系統(tǒng)地 研究成果來看 , 人耳分辨聲音頻率地過程猶

5、如一種取對(duì)數(shù)地功能 , 而 mel 頻率尺度則更符合人耳地聽覺特性 .類似于臨界頻帶地劃分 , 可以將語音頻率劃分成一系列三角形地濾 波器序列 , 即 mel 濾波器組 .mel 頻率和頻率地關(guān)系如下:mel(f>=2595lg(1+f/700> mel頻率帶寬隨頻率地增長而變化,在1000hz以下,大致呈線性分 布,帶寬為100hz左右,在lOOOhz以上呈對(duì)數(shù)增長將頻譜通過24 個(gè)三角濾波器 , 其中中心頻率在 1000hz 以上和以下地各 12個(gè). 濾 波器地中心頻率間隔特點(diǎn)是在lOOOhz以下為線性分布,1OOOhz以 上為等比數(shù)列分布 .圖 1 mel 三角濾波器mfcc

6、 地具體計(jì)算過程如下:1> 由原始信號(hào)計(jì)算其 dft, 得到離散譜 s n n n t ( > =1,2,., ;2> 三角濾波器地輸出則為此頻率帶寬內(nèi)所有信號(hào)幅度譜加權(quán)和l = 1,2,243> 對(duì)所有濾波器輸出作對(duì)數(shù)運(yùn)算ln<y<l )l= 1,2,244> 作離散余弦變換 <dct )得到 mel 頻率倒譜參數(shù) (mfcc>.i = 1,2,p,p為mfcc參數(shù)地階數(shù),取p= 12.2plp 地計(jì)算感知線性預(yù)測(cè) (plp> 技術(shù)涉及到聽力、心理、物理學(xué)地三個(gè)概念: (1>臨界波段頻譜分辨率; (2>等響度曲線; (3

7、>強(qiáng)度- 響度功率定 律. 使用一個(gè)自回歸全極點(diǎn)模型去逼近聽覺頻譜 .5 階地全極點(diǎn)模型 能有效地抑制聽覺頻譜中與話者有關(guān)地細(xì)節(jié)信息 . 與傳統(tǒng)地線性預(yù) 測(cè)(lp>分析相比,在強(qiáng)調(diào)聽覺這方面,plp分析更為合理.plp 分析流程:(1>使用 fft 用對(duì)原始信號(hào)從時(shí)域變換到頻域 , 得到功率譜 ; (2>關(guān)鍵波段頻譜分析 <critical-band spectral resolution):以不同于 mel 頻譜分析地新地臨界波段曲線進(jìn)行分段離散卷積 ,產(chǎn) 生臨界波段功率譜地樣點(diǎn) .(3>等響度預(yù)加重 (equal-loudness pre-emphasi

8、s> :樣值化地通 過模擬地等響度曲線進(jìn)行預(yù)加重(4> 利用強(qiáng)度 - 響度冪律 (intensity-loudness power law> 進(jìn)行立 方根幅度壓縮(5> 自回歸建模 (auto-regressive modeling> :利用全極點(diǎn)頻譜 建模地自相關(guān)方法由全極點(diǎn)模型地頻譜去逼近 . 基本原理是:對(duì)© ( 3 >進(jìn)行逆dft變換,產(chǎn)生自相關(guān)函數(shù).前mi+1個(gè)自相關(guān)值用于 從 yule-walker 方程中解出 m 階全極點(diǎn)模型地自回歸系數(shù) .3. 實(shí)驗(yàn)結(jié)果分別提取 12 維 plp 和 mfcc 特征參數(shù) ,1 維歸一化短時(shí)能量 ,

9、并求 其一階差分及二階差分 , 共 39 維 mfcc 和 plp 特征參數(shù) .以音素為聲學(xué)建模單元,采用5狀態(tài)地連續(xù)hmm模型<見圖2),其 中 1、5 狀態(tài)只起連接作用 , 沒有觀測(cè)概率 , 第 2、3、4 狀態(tài)有 gmm 概率分布 , 假設(shè)特征參數(shù)是相互獨(dú)立地 , 所以規(guī)定協(xié)方差矩陣為對(duì) 角陣.圖2五狀態(tài)hmn模型結(jié)構(gòu)聲學(xué)模型地訓(xùn)練基于 4007句朗讀式地特定人男聲語料 , 共 2.84 小 時(shí), 結(jié)合藏語語言學(xué)和語音學(xué)地研究成果 , 對(duì)拉薩話中全部 50 個(gè)音 素進(jìn)行分類,共劃分了 38個(gè)音素類別集,對(duì)全部72個(gè)聲韻母設(shè)計(jì) 了 72個(gè)類別集,根據(jù)其前后語境分別建立決策樹問題集,生

10、成決策 樹,生成三音子模型后逐步增加高斯混合度.選擇50句短句作為測(cè)試集,測(cè)試集與訓(xùn)練集為同一發(fā)音人,但發(fā)音 文本完全獨(dú)立,同時(shí),測(cè)試集語料與語言模型地訓(xùn)練語料也完全獨(dú) 立,測(cè)試集共有885個(gè)單音節(jié),其中界外詞voov) 25個(gè),全部為緊縮 音節(jié).當(dāng)特征參數(shù)分別為pip和mfcc時(shí),實(shí)驗(yàn)結(jié)果如下 <三音子triphone 模型地狀態(tài)數(shù)為584):由藏語大詞表連續(xù)語音識(shí)別地實(shí)驗(yàn)結(jié)果來看,plp和mfcc地效果 相差不大.參考文獻(xiàn)1 lawre nee rab in er, bii ng-hwa ng jua ng. fun dame ntalsof speech recog nition m.北京:清華大學(xué)出版社.1993:2鄭方,吳文虎,方棣棠.連續(xù)無限制語音流中關(guān)鍵詞識(shí)別地 研究現(xiàn)狀c.第四屆全國人機(jī)語音通訊學(xué)術(shù)會(huì)議,北京,1996:3高升,徐波,黃泰翼.基于決策樹地漢語三音子模型j .聲學(xué)學(xué)報(bào),2000,11(2>:271-2764 julia n james odell. the use of con text in

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論