




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、實驗題目1.基于MATLAB的語音信號時域特征分析2.基于MATLAB分析語音信號頻域特征小組合作否姓名班級信息安全學 號一、 實驗目的1. 本實驗要求掌握時域特征分析原理,并利用已學知識,編寫程序求解語音信號短時過零率、短時能量、短時自相關(guān)特征,分析實驗結(jié)果,并能掌握借助時域分析方法所求得的參數(shù)分析語音信號的基音周期及共振峰。2.本實驗要求掌握傅里葉分析原理,會利用已學的知識,編寫程序估計短時譜、倒譜,畫出語譜圖,并分析實驗結(jié)果,在此基礎(chǔ)上,借助頻域分析方法所求得的參數(shù)分析語音信號的基音周期或共振峰。二實驗環(huán)境一臺裝cool edit pro2.1和MATLAB的計算機。三、實驗內(nèi)容與步驟實
2、驗原理:1.窗口的選擇通過對發(fā)聲機理的認識,語音信號可以認為是短時平穩(wěn)的。在550ms的范圍內(nèi),語音頻譜特性和一些物理特性參數(shù)基本保持不變。我們將每個短時的語音稱為一個分析幀。一般幀長取1030ms。我們采用一個長度有限的窗函數(shù)來截取語音信號形成分析幀。通常會采用矩形窗和漢明窗。圖1.1給出了這兩種窗函數(shù)在幀長N=50時的時域波形。圖1.1 矩形窗和Hamming窗的時域波形矩形窗的定義:一個N點的矩形窗函數(shù)定義為如下 hamming窗的定義:一個N點的hamming窗函數(shù)定義為如下 這兩種窗函數(shù)都有低通特性,通過分析這兩種窗的頻率響應幅度特性可以發(fā)現(xiàn)(如圖1.2):矩形窗的主瓣寬度?。?*p
3、i/N),具有較高的頻率分辨率,旁瓣峰值大(-13.3dB),會導致泄漏現(xiàn)象;漢明窗的主瓣寬8*pi/N,旁瓣峰值低(-42.7dB),可以有效的克服泄漏現(xiàn)象,具有更平滑的低通特性。因此在語音頻譜分析時常使用漢明窗,在計算短時能量和平均幅度時通常用矩形窗。表1.1對比了這兩種窗函數(shù)的主瓣寬度和旁瓣峰值。 圖1.2 矩形窗和Hamming窗的頻率響應表1.1 矩形窗和hamming窗的主瓣寬度和旁瓣峰值窗函數(shù)主瓣寬度旁瓣峰值矩形窗4*pi/N13.3dBhamming8*pi/N42.7dB2.短時能量 由于語音信號的能量隨時間變化,清音和濁音之間的能量差別相當顯著。因此對語音的短時能量進行分析
4、,可以描述語音的這種特征變化情況。定義短時能量為:,其中N為窗長 特殊地,當采用矩形窗時,可簡化為: 圖1.3和圖1.4給出了不同矩形窗和hamming窗長的短時能量函數(shù),我們發(fā)現(xiàn):在用短時能量反映語音信號的幅度變化時,不同的窗函數(shù)以及相應窗的長短均有影響。hamming窗的效果比矩形窗略好。但是,窗的長短影響起決定性作用。窗過大(N 很大),等效于很窄的低通濾波器,不能反映幅度En的變化;窗過?。?N 很?。?,短時能量隨時間急劇變化,不能得到平滑的能量函數(shù)。在11.025kHz左右的采樣頻率下,N 選為100200比較合適。短時能量函數(shù)的應用:1)可用于區(qū)分清音段與濁音段。En值大對應于濁音
5、段,En值小對應于清音段。2)可用于區(qū)分濁音變?yōu)榍逡艋蚯逡糇優(yōu)闈嵋舻臅r間(根據(jù)En值的變化趨勢)。3)對高信噪比的語音信號,也可以用來區(qū)分有無語音(語音信號的開始點或終止點)。無信號(或僅有噪聲能量)時,En值很小,有語音信號時,能量顯著增大。 圖1.3 不同矩形窗長的短時能量函數(shù) 圖1.4 不同hamming窗長的短時能量函數(shù) 3短時平均過零率過零率可以反映信號的頻譜特性。當離散時間信號相鄰兩個樣點的正負號相異時,我們稱之為“過零”,即此時信號的時間波形穿過了零電平的橫軸。統(tǒng)計單位時間內(nèi)樣點值改變符號的次數(shù)具可以得到平均過零率。定義短時平均過零率: 其中為符號函數(shù),在矩形窗條件下,可以簡化為
6、 短時過零率可以粗略估計語音的頻譜特性。由語音的產(chǎn)生模型可知,發(fā)濁音時,聲帶振動,盡管聲道有多個共振峰,但由于聲門波引起了頻譜的高頻衰落,因此濁音能量集中于3KZ以下。而清音由于聲帶不振動,聲道的某些部位阻塞氣流產(chǎn)生類白噪聲,多數(shù)能量集中在較高頻率上。高頻率對應著高過零率,低頻率對應著低過零率,那么過零率與語音的清濁音就存在著對應關(guān)系。.圖1.5為某一語音在矩形窗條件下求得的短時能量和短時平均過零率。分析可知:清音的短時能量較低,過零率高,濁音的短時能量較高,過零率低。清音的過零率為0.5左右,濁音的過零率為0.1左右,兩但者分布之間有相互交疊的區(qū)域,所以單純依賴于平均過零率來準確判斷清濁音是
7、不可能的,在實際應用中往往是采用語音的多個特征參數(shù)進行綜合判決。短時平均過零率的應用:1)區(qū)別清音和濁音。例如,清音的過零率高,濁音的過零率低。此外,清音和濁音的兩種過零分布都與高斯分布曲線比較吻合。2)從背景噪聲中找出語音信號。語音處理領(lǐng)域中的一個基本問題是,如何將一串連續(xù)的語音信號進行適當?shù)姆指?,以確定每個單詞語音的信號,亦即找出每個單詞的開始和終止位置。3)在孤立詞的語音識別中,可利用能量和過零作為有話無話的鑒別。 圖1.5 矩形窗條件下的短時平均過零率4、短時自相關(guān)函數(shù)自相關(guān)函數(shù)用于衡量信號自身時間波形的相似性。清音和濁音的發(fā)聲機理不同,因而在波形上也存在著較大的差異。濁音的時間波形呈
8、現(xiàn)出一定的周期性,波形之間相似性較好;清音的時間波形呈現(xiàn)出隨機噪聲的特性,樣點間的相似性較差。因此,我們用短時自相關(guān)函數(shù)來測定語音的相似特性。短時自相關(guān)函數(shù)定義為: 令,并且,可以得到: 圖6給出了清音的短時自相關(guān)函數(shù)波形,圖7給出了不同矩形窗長條件下(窗長分別為N=70,N=140,N=210,N=280)濁音的短時自相關(guān)函數(shù)波形。由圖1.6、圖1.7短時自相關(guān)函數(shù)波形分析可知:清音接近于隨機噪聲,清音的短時自相關(guān)函數(shù)不具有周期性,也沒有明顯突起的峰值,且隨著延時k的增大迅速減小;濁音是周期信號,濁音的短時自相關(guān)函數(shù)呈現(xiàn)明顯的周期性,自相關(guān)函數(shù)的周期就是濁音信號的周期,根據(jù)這個性質(zhì)可以判斷一
9、個語音信號是清音還是濁音,還可以判斷濁音的基音周期。濁音語音的周期可用自相關(guān)函數(shù)中第一個峰值的位置來估算。所以在語音信號處理中,自相關(guān)函數(shù)常用來作以下兩種語音信號特征的估計:1)區(qū)分語音是清音還是濁音;2)估計濁音語音信號的基音周期。 圖1.6 清音的短時自相關(guān)函數(shù)圖1.7 不同矩形窗長條件下的濁音的短時自相關(guān)函數(shù) 5、時域分析方法的應用1)基音頻率的估計首先可利用時域分析(短時能量、短時過零率、短時自相關(guān))方法的某一個特征或某幾個特征的結(jié)合,判定某一語音有效的清音和濁音段;其次,針對濁音段,可直接利用短時自相關(guān)函數(shù)估計基音頻率,其方法是:估算濁音段第一最大峰的位置,再利用抽樣率計算基音頻率,
10、舉例來說,若某一語音濁音段的第一最大峰值約為35個抽樣點,設(shè)抽樣頻率為11.025KHZ,則基音頻率為11025/35=315 HZ。但是,實際上第一最大峰值位置有時并不一定與基音周期吻合。一方面與窗長有關(guān),另一方面還與聲道特性有關(guān)。鑒于此,可采用三電平削波法先進行預處理。2)語音端點的檢測與估計可利用時域分析(短時能量、短時過零率、短時自相關(guān))方法的某一個特征或某幾個特征的結(jié)合,判定某一語音信號的端點,尤其在有噪聲干擾時,如何準確檢測語音信號的端點,這在語音處理中是富有挑戰(zhàn)性的一個課題。6.短時傅立葉變換由于語音信號是短時平穩(wěn)的隨機信號,某一語音信號幀的短時傅立葉變換的定義為: (2.1)其
11、中w(n-m)是實窗口函數(shù)序列,n表示某一語音信號幀。令n-m=k',則得到 (2.2)于是可以得到 (2.3)假定 (4)則可以得到 (5)同樣,不同的窗口函數(shù),將得到不同的傅立葉變換式的結(jié)果。由上式可見,短時傅立葉變換有兩個變量:n和,所以它既是時序n的離散函數(shù),又是角頻率的連續(xù)函數(shù)。與離散傅立葉變換逼近傅立葉變換一樣,如令=2k/N,則得離散的短時傅立葉吧如下: (6)7.語譜圖水平方向是時間軸,垂直方向是頻率軸,圖上的灰度條紋代表各個時刻的語音短時譜。語譜圖反映了語音信號的動態(tài)頻率特性,在語音分析中具有重要的實用價值。被成為可視語言。語譜圖的時間分辨率和頻率分辨率是由窗函數(shù)的特
12、性決定的。時間分辨率高,可以看出時間波形的每個周期及共振峰隨時間的變化,但頻率分辨率低,不足以分辨由于激勵所形成的細微結(jié)構(gòu),稱為寬帶語譜圖;而窄帶語譜圖正好與之相反。寬帶語譜圖可以獲得較高的時間分辨率,反映頻譜的快速時變過程;窄帶語譜圖可以獲得較高的頻率分辨率,反映頻譜的精細結(jié)構(gòu)。兩者相結(jié)合,可以提供帶兩與語音特性相關(guān)的信息。語譜圖上因其不同的灰度,形成不同的紋路,稱之為“聲紋”。聲紋因人而異,因此可以在司法、安全等場合得到應用。8.復倒譜和倒譜復倒譜是x(n)的Z變換取對數(shù)后的逆Z變換,其表達式如下: (7)倒譜c(n)定義為x(n)取Z變換后的幅度對數(shù)的逆Z變換,即 (8)在時域上,語音產(chǎn)
13、生模型實際上是一個激勵信號與聲道沖激響應的卷積。對于濁音,激勵信號可以由周期脈沖序列表示;對于清音,激勵信號可以由隨機噪聲序列表示。聲道系統(tǒng)相當于參數(shù)緩慢變化的零極點線性濾波器。這樣經(jīng)過同態(tài)處理后,語音信號的復倒譜,激勵信號的復倒譜,聲道系統(tǒng)的復倒譜之間滿足下面的關(guān)系: (9)由于倒譜對應于復倒譜的偶部,因此倒譜與復倒譜具有同樣的特點,很容易知道語音信號的倒譜,激勵信號的倒譜以及聲道系統(tǒng)的倒譜之間滿足下面關(guān)系: (10)濁音信號的倒譜中存在著峰值,它的出現(xiàn)位置等于該語音段的基音周期,而清音的倒譜中則不存在峰值。利用這個特點我們可以進行清濁音的判斷,并且可以估計濁音的基音周期。9.基因周期估計濁
14、音信號的倒譜中存在峰值,它的出現(xiàn)位置等于該語音段的基音周期,而清音的倒譜中則不存在峰值。利用倒譜的這個特點,我們可以進行語音的清濁音判決,并且可以估計濁音的基音周期。首先計算語音的倒譜,然后在可能出現(xiàn)的基因周期附近尋找峰值。如果倒譜峰值超過了預先設(shè)置的門限,則輸入語音判斷為濁音,其峰值位置就是基因周期的估計值;反之,如果沒有超出門限的峰值的話,則輸入語音為清音。10.共振峰估計對倒譜進行濾波,取出低時間部分進行進行逆特征系統(tǒng)處理,可以得到一個平滑的對數(shù)譜函數(shù),這個對數(shù)譜函數(shù)顯示了輸入語音段的共振峰結(jié)構(gòu),同時譜的峰值對應于共振峰頻率。通過此對數(shù)譜進行峰值檢測,就可以估計出前幾個共振峰的頻率和強度
15、。對于濁音的聲道特性,可以采用前三個共振峰來描述;清音不具備共振峰特點。實驗步驟及結(jié)果:打開Cool edit pro開始錄音1) 短時能量 (1)加矩形窗a=wavread('C:Usersk01WEI.wav');subplot(6,1,1),plot(a);N=32;for i=2:6h=linspace(1,1,2.(i-2)*N); En=conv(h,a.*a); subplot(6,1,i),plot(En);if(i=2) legend('N=32');elseif(i=3) legend('N=64');elseif(i=4)
16、legend('N=128');elseif(i=5) legend('N=256');elseif(i=6) legend('N=512');endend(2)加漢明窗 a=wavread('C:Usersk01WEI.wav');subplot(6,1,1),plot(a);N=32;for i=2:6h=hanning(2.(i-2)*N);%形成一個漢明窗,長度為2.(i-2)*N En=conv(h,a.*a);% 求短時能量函數(shù)En subplot(6,1,i),plot(En);if(i=2) legend('
17、;N=32');elseif(i=3) legend('N=64');elseif(i=4) legend('N=128');elseif(i=5) legend('N=256');elseif(i=6) legend('N=512');endend2) 短時平均過零率a=wavread('C:Usersk01WEI.wav');n=length(a);N=320;subplot(3,1,1),plot(a);h=linspace(1,1,N);En=conv(h,a.*a); %求卷積得其短時能量函數(shù)En
18、subplot(3,1,2),plot(En); for i=1:n-1 if a(i)>=0 b(i)= 1; else b(i) = -1; end if a(i+1)>=0 b(i+1)=1; else b(i+1)= -1; end w(i)=abs(b(i+1)-b(i); %求出每相鄰兩點符號的差值的絕對值 end k=1; j=0;while (k+N-1)<n Zm(k)=0; for i=0:N-1; Zm(k)=Zm(k)+w(k+i); end j=j+1; k=k+N/2; %每次移動半個窗 end for w=1:j Q(w)=Zm(160*(w-1
19、)+1)/(2*N); %短時平均過零率 end subplot(3,1,3),plot(Q),grid;3) 自相關(guān)函數(shù) N=240Y=WAVREAD('C:Usersk01WEI.wav');x=Y(13271:13510);x=x.*rectwin(240);R=zeros(1,240);for k=1:240for n=1:240-kR(k)=R(k)+x(n)*x(n+k);endend j=1:240;plot(j,R);grid; 短時譜 1)短時譜 cleara=wavread('C:Usersk01DesktopWENWEI.wav');sub
20、plot(2,1,1),plot(a);title('original signal');gridN=256;h=hamming(N);for m=1:N b(m)=a(m)*h(m)end y=20*log(abs(fft(b)subplot(2,1,2)plot(y);title('短時譜');grid2)語譜圖 x,fs,nbits=wavread('C:Usersk01DesktopWENWEI.wav')specgram(x,512,fs,100); xlabel('時間(s)');ylabel('頻率(Hz)&
21、#39;);title('語譜圖');3)倒譜和復倒譜(1)加矩形窗時的倒譜和復倒譜cleara=wavread('C:Usersk01DesktopWENWEI.wav',4000,4350);N=300;h=linspace(1,1,N);for m=1:Nb(m)=a(m)*h(m);end c=cceps(b);c=fftshift(c);d=rceps(b);d=fftshift(d); subplot(2,1,1)plot(d);title('加矩形窗時的倒譜')subplot(2,1,2)plot(c);title('加矩形
22、窗時的復倒譜')(2)加漢明窗時的倒譜和復倒譜cleara=wavread('C:Usersk01DesktopWENWEI.wav',4000,4350);N=300;h=hamming(N);for m=1:Nb(m)=a(m)*h(m);end c=cceps(b);c=fftshift(c);d=rceps(b);d=fftshift(d); subplot(2,1,1)plot(d);title('加漢明窗時的倒譜')subplot(2,1,2)plot(c);title('加漢明窗時的復倒譜')四、實驗過程與分析語音信號是一種
23、非平穩(wěn)的時變信號,它攜帶著各種信息。在語音編碼、語音合成、語音識別和語音增強等語音處理中無一例外需要提取語音中包含的各種信息。語音信號分析的目的就在與方便有效的提取并表示語音信號所攜帶的信息。語音信號分析可以分為時域和變換域等處理方法,其中時域分析是最簡單的方法,直接對語音信號的時域波形進行分析,提取的特征參數(shù)主要有語音的短時能量,短時平均過零率,短時自相關(guān)函數(shù)等。信號的傅立葉表示在信號的分析與處理中起著重要的作用。因為對于線性系統(tǒng)來說,可以很方便地確定其對正弦或復指數(shù)和的響應,所以傅立葉分析方法能完善地解決許多信號分析和處理問題。另外,傅立葉表示使信號的某些特性變得更明顯,因此,它能更深入地
24、說明信號的各項紅物理現(xiàn)象。由于語音信號是隨著時間變化的,通常認為,語音是一個受準周期脈沖或隨機噪聲源激勵的線性系統(tǒng)的輸出。輸出頻譜是聲道系統(tǒng)頻率響應與激勵源頻譜的乘積。聲道系統(tǒng)的頻率響應及激勵源都是隨時間變化的,因此一般標準的傅立葉表示雖然適用于周期及平穩(wěn)隨機信號的表示,但不能直接用于語音信號。由于語音信號可以認為在短時間內(nèi),近似不變,因而可以采用短時分析法。五、實驗總結(jié)通過本次實驗,我知道了:短時能量分析和過零率分析作為語音信號時域分析中最基本的方法。但是很多情況表明使用單一的一種方法并不能得到理想的檢測結(jié)果,這是因為短時能量分析是通過能量的高低來區(qū)分清音和濁音,不容易確定語音信號片段的起始
25、點;而過零率分析僅僅是表明清音的過零率高于濁音,對噪聲的存在比較敏感,如果背景中有反復穿越坐標軸的隨機噪聲,會產(chǎn)生大量的虛假過零率,影響檢測結(jié)果。對于背景噪聲和清音的區(qū)分則顯得無能為力。將這兩種方法結(jié)合起來,通過短時能量分析去除高頻環(huán)境噪聲的干擾,用過零率分析去除低頻的干擾,檢測效果較好。但綜合考慮后,由于這兩種方法本身的局限性以及過零率門限值和短時能量門限值的選取,使得檢測的范圍和精度僅限于單個單詞,而對整個句子的檢測還達不到令人滿意的效果。復倒譜一個函數(shù)的傅里葉變換的對數(shù)的傅里葉反變換。對褶積信號的線性分離作用,在實際信號處理中很有用處,例如可應用于通信、建筑聲學、地震分析、地質(zhì)勘探和語音
26、處理等領(lǐng)域。尤其在語音處理方面,應用復倒譜算法可制成同態(tài)預測聲碼器系統(tǒng),用于高度保密的通信。 在離散信號x(n)情況下,用z變換表示復倒譜,可以寫作 復倒譜可以利用同態(tài)系統(tǒng)中一種特定的特征系統(tǒng)來求得,如圖所示。為了區(qū)別于用一般方法所求得的頻譜(spectrum),將spectrum這一詞前半部(spec)字母順序顛倒即成cepstrum,根據(jù)詞形定名為倒譜。又因頻譜一般為復數(shù)譜,故稱為復倒譜。為了說明復倒譜的性質(zhì),假設(shè)已知兩信號x1(n)和x2(n)相褶積而得到的時間函數(shù)x(n),對它們分別求其離散傅里葉變換,寫作 X()=DFT【x(n)】 X1()=DFT【x1(n)】X2()=DFT【x2(n)】按上述定義,可得到如下關(guān)系式 =IDFTlog【X1()】+IDFTlog【X2()】由此可見,通過復
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年中國可移動的模塊化結(jié)構(gòu)行業(yè)市場全景分析及前景機遇研判報告
- 2025年中國可編程照明行業(yè)市場全景分析及前景機遇研判報告
- 2025年中國抗衰老眼霜行業(yè)市場全景分析及前景機遇研判報告
- 氨綸抽條密絲絨項目投資可行性研究分析報告(2024-2030版)
- 口腔健康與肌膚護理
- syb培訓動畫課件
- 2025年 什邡市市級機關(guān)遴選考試筆試試題附答案
- 2025-2030年中國產(chǎn)銷化工油漆類行業(yè)深度研究分析報告
- 護具系列項目可行性研究報告
- 2025年 北京市海淀區(qū)學院路小學招聘考試筆試試題附答案
- 工圖機械制圖試卷專題11綜合型組合體三視圖求法習題
- 新版建設(shè)工程工程量清單計價標準解讀
- 初中數(shù)學專題講座課件
- 【MOOC】人像攝影-中國傳媒大學 中國大學慕課MOOC答案
- 【MOOC】計算機組成原理-電子科技大學 中國大學慕課MOOC答案
- 【MOOC】電路分析AⅡ-西南交通大學 中國大學慕課MOOC答案
- 小學生數(shù)學邏輯推理題100道及答案解析
- 基本氣象要素
- 食品安全規(guī)章制度模板打印
- 2024年永平縣小升初全真數(shù)學模擬預測卷含解析
- 2002版《水利工程施工機械臺時費定額》
評論
0/150
提交評論