


下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、信息處理仿真實(shí)驗(yàn) 語音處理局部一、實(shí)驗(yàn)?zāi)康陌此鶎W(xué)相關(guān)語音處理的知識,自己設(shè)計(jì)一個(gè)孤立詞語音識別程序,分析 所設(shè)計(jì)系統(tǒng)的特性。熟悉不同模塊間如何進(jìn)行有效的組合,以及模塊內(nèi)的設(shè) 計(jì),重點(diǎn)掌握特征參數(shù)的提取和模式識別方法,并對不同的特征參數(shù)提取方 法和模式匹配方法有大概的了解,知道其不同的優(yōu)缺點(diǎn)。二、實(shí)驗(yàn)內(nèi)容1、熟悉預(yù)處理、特征參數(shù)提取、模式匹配三個(gè)模塊的原理,并設(shè)計(jì)這三 個(gè)模塊的matlab子程序。2、設(shè)計(jì)主程序,將上述3個(gè)模塊合理組合構(gòu)成一個(gè)系統(tǒng),訓(xùn)練模板并測試。實(shí)驗(yàn)原理及設(shè)計(jì)步驟1、孤立詞語音識別系統(tǒng):先用端點(diǎn)檢測將語音中有用的語音局部提取出來即將頭部和尾部的靜音局部除掉,然后提取語音信號的M
2、el尺度倒譜參 數(shù)(MFCC)進(jìn)行動態(tài)歸整(DTW算法)后與模板庫里面的標(biāo)準(zhǔn)語音作比擬,具2、各模塊解析預(yù)處理:包括反混疊失真濾波器、預(yù)加重器、端點(diǎn)檢測和噪聲濾波器。這里將預(yù)加重器和噪聲濾波器放在下一個(gè)模塊里,所以預(yù)處理主要進(jìn)行端點(diǎn) 檢測以捕捉到數(shù)據(jù)中的語音信息。端點(diǎn)檢測采用雙門限法來檢測端點(diǎn)。同時(shí),利用過零率檢測清音,用短 時(shí)能量檢測濁音,兩者配合。整個(gè)語音信號的端點(diǎn)檢測可以分為四段:靜音、 過渡段、語音段、結(jié)束。程序中使用一個(gè)變量status來表示當(dāng)前所處的狀態(tài)。在靜音段,如果能量或過零率超越了低門限,就應(yīng)該開始標(biāo)記起始點(diǎn),進(jìn) 入過渡段。在過渡段中,由于參數(shù)的數(shù)值比擬小,不能確信是否處于真
3、正的語音段,因此只要兩個(gè)參數(shù)的數(shù)值都回落到低門限以下,就將當(dāng)前狀態(tài)恢復(fù)到靜音狀態(tài)。而如果在過渡段中兩個(gè)參數(shù)中任意一個(gè)超過了高門限, 就可以確信進(jìn)入語 音段了。一些突發(fā)性的噪聲可以引發(fā)短時(shí)能量或過零率的數(shù)值很高,但是往往不能維持足夠長的時(shí)間,這些可以通過設(shè)定最短時(shí)間門限來判別。當(dāng)前狀態(tài)處于語 音段時(shí),如果兩個(gè)參數(shù)的數(shù)值降低到低門限以下,而且總的計(jì)時(shí)長度小于最 短時(shí)間門限,那么認(rèn)為這是一段噪音,繼續(xù)掃描以后的語音數(shù)據(jù)。否那么就標(biāo)記 好結(jié)束端點(diǎn),并返回特征參數(shù)提?。撼S玫恼Z音識別參數(shù)有線性預(yù)測參數(shù) LPC線性預(yù)測倒 譜參數(shù)LPCC和Mel尺度倒譜參數(shù)MFCC等。這里提取語音信號的 Mel尺度 倒譜參
4、數(shù)MFCC步驟如下:語音信號特征 參數(shù)圖3.2特征參數(shù)提取分析: 預(yù)加重 加漢明窗 FFTy(n) x(n)-0.97x( n 1)Xw(n) y(n) w(n)Xw(k)N 1j2 nk/N en 0這里直接采用現(xiàn)成的FFT快速算法。 對頻譜進(jìn)行三角濾波程序采用歸一化mel濾波器組系數(shù) 計(jì)算每個(gè)濾波器的輸出能量N 12S(m) ln Xw(k) Hm(k)0 m Mk 0離散余弦變換DCT得到MFCCMC(n) S(m)cos n(m 0.5) / M n 1,2,., pm 1通常協(xié)方差矩陣一般取對角陣,三角濾波器組的對數(shù)能量輸出之間存在 著很大的相關(guān),采用 DCT這種正交變換可以去除參數(shù)
5、之間的相關(guān)性,從而 使后端識別模型采用對角陣具有更高的識別率歸一化倒譜提升w = 1 + 6 * sin( u / 12) 1 u 12 w = w/max(w)計(jì)算差分系數(shù)并合并 mfcc 參數(shù)和一階差分 mfcc 參數(shù)將其作為一個(gè)整體,讓參數(shù)更完備模式匹配:有矢量量化技術(shù)、 DTW HMM技術(shù)、人工神經(jīng)網(wǎng)絡(luò)技術(shù)。 目前,語音識別的匹配主要應(yīng)用HMM和DTW兩種算法。DTW算法由于沒 有一個(gè)有效地用統(tǒng)計(jì)方法進(jìn)行訓(xùn)練的框架, 也不容易將低層和頂層的各種知 識用到語音識別算法中,因此在解決大詞匯量、連續(xù)語音、非特定人語音識 別問題時(shí)較之 HMM 算法相形見絀。 HMM 是一種用參數(shù)表示的 ,用于
6、描述隨 機(jī)過程統(tǒng)計(jì)特性的概率模型。而對于孤立詞識別,HMM算法和DTW算法在相 同條件下,識別效果相差不大,又由于DTW算法本身既簡單又有效,但HMM 算法要復(fù)雜得多。 它需要在訓(xùn)練階段提供大量的語音數(shù)據(jù) ,通過反復(fù)計(jì)算才能 得到參數(shù)模型,而DTW算法的訓(xùn)練中幾乎不需要額外的計(jì)算。 鑒于此,DTW更 適合本系統(tǒng)的要求。DTW算法原理:該算法基于動態(tài)規(guī)劃DP的思想,解決了發(fā)音長短不 一的模板匹配問題。如果把測試模板的各個(gè)幀號n=1N在一個(gè)二維直角坐標(biāo) 系中的橫軸上標(biāo)出,把參考模板的各幀號 m=1M 在縱軸上標(biāo)出,通過這些 表示幀號的整數(shù)坐標(biāo)畫出一些縱橫線即可形成一個(gè)網(wǎng)絡(luò), 網(wǎng)絡(luò)中的每一個(gè)交 叉點(diǎn)
7、n,m表示測試模式中某一幀的交匯點(diǎn)。DP算法可以歸結(jié)為尋找一 條通過此網(wǎng)絡(luò)中假設(shè)干格點(diǎn)的路徑, 路徑通過的格點(diǎn)即為測試和參考模板中 進(jìn)行計(jì)算的幀號。路徑不是隨意選擇的,首先任何一種語音的發(fā)音快慢都有 可能變化,但是其各局部的先后次序不可能改變,因此所選的路徑必定是從 左下角出發(fā),在右上角結(jié)束。DTW算法可以直接按上面的描述來實(shí)現(xiàn),即分配兩個(gè) NX M的矩陣,分 別為積累距離矩陣D和幀匹配距離矩陣d,其中幀匹配距離矩陣di, j的 值為測試模板的第i幀與參考模板的第j幀間的距離。D :N,M丨即為最正 確匹配路徑所對應(yīng)的匹配距離。無論在訓(xùn)練和建立模板階段還是在識別階段,都先采用端點(diǎn)算法確定語 音
8、的起點(diǎn)和終點(diǎn)。已存入模板庫的各個(gè)詞條稱為參考模板,一個(gè)參考模板可 表示為R=R 1,R2,Rm,RM, m為訓(xùn)練語音幀 的時(shí)序標(biāo)號, m=1 為起點(diǎn)語音幀, m=M 為終點(diǎn)語音幀,因此 M 為該模板所 包含的語音幀總數(shù),R m為第m幀的語音特征矢量。所要識別的一個(gè)輸 入詞條語音稱為測試模板,可表示為 T=T 1,T2,Tn, T N,n為測試語音幀的時(shí)序標(biāo)號,n=1為起點(diǎn)語音幀,n=N為終點(diǎn)語音 幀,因此N為該模板所包含的語音幀總數(shù),Tn為第n幀的語音特征矢量。 參考模板與測試模板采用相同形式的 MFCC系數(shù)、相同的幀長、相同的窗函 數(shù)和相同的幀移。假設(shè)測試和參考模板分別用 T和R表示,為了比
9、擬它們之間的相似度, 可以計(jì)算它們之間的距離 DT,R,距離越小那么相似度越高。為了計(jì)算這一 失真距離,應(yīng)從 T 和 R 中各個(gè)對應(yīng)幀之間的距離算起。設(shè) n 和 m 分別是 T 和R中任意選擇的幀號,dTn:, Rm表示這兩幀特征矢量之間的距離。 距離函數(shù)取決于實(shí)際采用的距離度量,在 DTW算法中通常采用歐氏距離。四、實(shí)驗(yàn)結(jié)果及分析首先通過訓(xùn)練得到詞匯表中 '盤古 ''伏羲''女媧 ''神農(nóng) '各參考語音的特征 序列,直接將這些序列存儲為模板。 在進(jìn)行識別時(shí), 將待識語音的特征序列依次 與各參考語音特征序列進(jìn)行 DTW 匹配,最后
10、得到的總失真度最小且小于識別閾 值的就認(rèn)為是識別結(jié)果:正在計(jì)算參考模板的參數(shù) .ans =6824ans =7324ans = 6524ans = 6724正在計(jì)算測試模板的參數(shù) .ans =5024ans =6724ans =5324ans =5024正在進(jìn)行模板匹配 .正在計(jì)算匹配結(jié)果 .測試模板1 的識別結(jié)果為:盤古測試模板2 的識別結(jié)果為:伏羲測試模板3 的識別結(jié)果為:女媧測試模板4 的識別結(jié)果為:神農(nóng)分析:從輸出的結(jié)果看,識別得到了正確的結(jié)果,這是由于采用了預(yù)加重、 歸一化導(dǎo)譜提升、參加差分系數(shù)。為了進(jìn)一步驗(yàn)證識別的正確性,看一下匹 配距離距陣 dist 的數(shù)據(jù):dist = 1.0
11、e+004 *2.31214.77227.22964.62766.82742.85809.49807.19587.25066.66242.40805.37983.97504.71984.77173.6102距離距陣的對角線上是正確匹配模板的對應(yīng)分?jǐn)?shù),可見對角線上的 4 個(gè)數(shù)值都是在本行中最小的,由此驗(yàn)證了識別結(jié)果的正確性。但由于需要對大量路徑及這些路徑中的所有節(jié)點(diǎn)進(jìn)行匹配計(jì)算,導(dǎo)致 計(jì)算量極大,隨著詞匯量的增大其識別過程甚至將到達(dá)難以接受的程度,因 此無法直接應(yīng)用于大、中詞匯量識別系統(tǒng)。五、實(shí)驗(yàn)體會與思考這次實(shí)驗(yàn),我所做的工作主要是設(shè)計(jì)并實(shí)現(xiàn)各模塊的合理組合。雖然在 學(xué)習(xí)課程中已經(jīng)對MATLA
12、B有過一定的理論學(xué)習(xí),但是要讀懂 MATLAB的程 序還需要找相關(guān)的書來看, 通過這次實(shí)踐,對 matlab 的語法與應(yīng)用更加了解, 培養(yǎng)了我們獨(dú)立分析問題和解決問題的能力。在設(shè)計(jì)過程中,我通過查閱大量有關(guān)資料,與同學(xué)交流經(jīng)驗(yàn)和自學(xué),并 向老師請教等方式,使自己學(xué)到了不少知識,也經(jīng)歷了不少艱辛,但收獲同 樣巨大。在整個(gè)設(shè)計(jì)中我懂得了許多東西,也培養(yǎng)了我獨(dú)立工作的能力,樹 立了對自己工作能力的信心, 相信會對今后的學(xué)習(xí)工作生活有非常重要的影 響。而且大大提高了動手的能力,使我充分體會到了在創(chuàng)造過程中探索的艱 難和成功時(shí)的喜悅。雖然這個(gè)設(shè)計(jì)做的也不太好,但是在設(shè)計(jì)過程中所學(xué)到 的東西是這次實(shí)驗(yàn)的最
13、大收獲和財(cái)富,使我終身受益。要實(shí)現(xiàn)這個(gè)Dtw與Test的算法,主要是弄懂它的幀匹配距離的由來和累 積距離的計(jì)算公式。這也是實(shí)現(xiàn)本系統(tǒng)最難得一環(huán),經(jīng)過不斷的調(diào)試修改, 最終實(shí)現(xiàn)了算法的要求。Dtw 算法采用動態(tài)規(guī)劃技術(shù),存在一些問題: (1)運(yùn)算量大。由于要找出 最正確匹配點(diǎn),因此要考慮多種可能的情況雖然路徑限制減少了運(yùn)算量, 但運(yùn)算量仍然很大,因而使識別速度減慢這在大詞匯量的識別中是一個(gè)嚴(yán) 重缺點(diǎn)。 (2)識別性能過分依賴于端點(diǎn)檢測。 端點(diǎn)檢測的精度隨著不同音素而 有所不同,有些音素的瑞點(diǎn)檢測精度較低。由此影響識別率的提高。(3)沒有充分利用語音信號的時(shí)序動態(tài)信息。在檢測語音信號的端點(diǎn)時(shí), 一般采用平均能量或平均幅度
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 西藏取水收費(fèi)管理辦法
- 異地辦公團(tuán)隊(duì)管理辦法
- 移動推車定置管理辦法
- 萊蕪瓷器修復(fù)培訓(xùn)課件
- 高三上期末數(shù)學(xué)試卷
- 高考模擬感人數(shù)學(xué)試卷
- 定西市歷年中考數(shù)學(xué)試卷
- 德陽市期末高二數(shù)學(xué)試卷
- 2025年03月浙江紹興嵊州市婦幼保健院第一次招聘編外合同制人員12人筆試歷年專業(yè)考點(diǎn)(難、易錯(cuò)點(diǎn))附帶答案詳解
- 2025至2030打印機(jī)市場行業(yè)市場深度研究與戰(zhàn)略咨詢分析報(bào)告
- 2025年中考物理熱點(diǎn)題型專項(xiàng)訓(xùn)練:實(shí)驗(yàn)之探究平面鏡成像的特點(diǎn) (解析版)
- SEAtech 石油石化ICS網(wǎng)絡(luò)安全解決方案
- 班級管理中的法治教育實(shí)踐
- 高二【數(shù)學(xué)(人教A版)】用空間向量研究距離、夾角問題(2)-教學(xué)設(shè)計(jì)
- 中頻藥物透入治療
- 四好農(nóng)村路培訓(xùn)
- 《瀝青及瀝青混合料》課件
- 醫(yī)療物聯(lián)網(wǎng)標(biāo)準(zhǔn)與規(guī)范-洞察分析
- 綜合機(jī)電供應(yīng)及安裝專業(yè)分包工程機(jī)電系統(tǒng)調(diào)試方案
- 城市軌道交通車輛智慧運(yùn)維系統(tǒng)技術(shù)規(guī)范
- 信息安全保密三員培訓(xùn)
評論
0/150
提交評論