數(shù)字語(yǔ)音信號(hào)的處理.doc_第1頁(yè)
數(shù)字語(yǔ)音信號(hào)的處理.doc_第2頁(yè)
數(shù)字語(yǔ)音信號(hào)的處理.doc_第3頁(yè)
數(shù)字語(yǔ)音信號(hào)的處理.doc_第4頁(yè)
數(shù)字語(yǔ)音信號(hào)的處理.doc_第5頁(yè)
已閱讀5頁(yè),還剩32頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

語(yǔ)音信號(hào)的特征提取作者:李楊 指導(dǎo)老師:詹恩奇摘 要 語(yǔ)音信號(hào)的采集與分析技術(shù)是一門(mén)涉及面很廣的交叉科學(xué),它的應(yīng)用和發(fā)展與語(yǔ)音學(xué)、聲音測(cè)量學(xué)、電子測(cè)量技術(shù)以及數(shù)字信號(hào)處理等學(xué)科緊密聯(lián)系。其中語(yǔ)音采集和分析儀器的小型化、智能化、數(shù)字化以及多功能化的發(fā)展越來(lái)越快,分析速度較以往也有了大幅度的高。本文簡(jiǎn)要介紹了語(yǔ)音信號(hào)采集與分析的發(fā)展史以及語(yǔ)音信號(hào)的特征、采集與分析方法,并通過(guò)PC機(jī)錄制自己的一段聲音,運(yùn)用Matlab進(jìn)行仿真分析,最后加入噪聲進(jìn)行濾波處理,比較濾波前后的變化。關(guān)鍵詞:語(yǔ)音信號(hào),特征提取, MatlabAudio signal acquisition and analysisAuthor: li yang Teacher guidance:zhan enqiAbstractSpeech signal acquisition and analysis techniques are a wide range of cross-scientific,Its application and development of voice study, sound measurement study, electronic measuring technology, and digital signal processing disciplines, such as close contact。Collection and analysis of voice one of the small-scale equipment, intelligence, digital and multi-functional development of more and more quickly, faster than the previous analysis has been substantially high。This paper introduces the voice signal acquisition and analysis of the history of the development, as well as the characteristics of speech signal,Collection and analysis methods,Recording machine through the PC section of my own voices,the use of Matlab for simulation analysis,finally add the noise filter to deal with,comparison of filter before and after Change。Keywords:audio signal, acquisition and analysis,MATLAB 目 錄摘 要Abstract目 錄1 緒 論1.1 課題的背景與意義1.2 國(guó)內(nèi)外研究現(xiàn)狀1.3 本文主要工作1.4本文的仿真軟件Matlab2 語(yǔ)音信號(hào)的特點(diǎn)與采集2.1 語(yǔ)音信號(hào)的特點(diǎn)2.2語(yǔ)音信號(hào)的采集3 語(yǔ)音信號(hào)的分析3.1基于MATLAB的語(yǔ)音信號(hào)時(shí)域特征分析3.2基于MATLAB的語(yǔ)音信號(hào)時(shí)域特征分析3.3基于MATLAB的語(yǔ)音信號(hào)LPC分析總 結(jié)致 謝參 考 文 獻(xiàn)附錄一:附錄二:附錄三:1 緒 論1.1 課題的背景與意義通過(guò)語(yǔ)音傳遞倍息是人類(lèi)最重要、最有效、最常用和最方便的交換信息的形式。語(yǔ)言是人類(lèi)持有的功能聲音是人類(lèi)常用的工具,是相互傳遞信息的最主要的手段。因此,語(yǔ)音信號(hào)是人們構(gòu)成思想疏通和感情交流的最主要的途徑。并且,由于語(yǔ)言和語(yǔ)音與人的智力活動(dòng)密切相關(guān),與社會(huì)文化和進(jìn)步緊密相連,所以它具有最大的信息容量和最高的智能水平。現(xiàn)在,人類(lèi)已開(kāi)始進(jìn)入了信息化時(shí)代,用現(xiàn)代手段研究語(yǔ)音信號(hào),使人們能更加有效地產(chǎn)生、傳輸、存儲(chǔ)、獲取和應(yīng)用語(yǔ)音信息,這對(duì)于促進(jìn)社會(huì)的發(fā)展具有十分重要的意義。 讓計(jì)算機(jī)能聽(tīng)懂人類(lèi)的語(yǔ)言,是人類(lèi)自計(jì)算機(jī)誕生以來(lái)夢(mèng)寐以求的想法。隨著計(jì)算機(jī)越來(lái)越向便攜化方向發(fā)展,隨著計(jì)算環(huán)境的日趨復(fù)雜化,人們?cè)絹?lái)越迫切要求擺脫鍵盤(pán)的束縛而代之以語(yǔ)音輸人這樣便于使用的、自然的、人性化的輸人方式。作為高科鼓應(yīng)用領(lǐng)域的研究熱點(diǎn),語(yǔ)音信號(hào)采集與分析從理論的研究到產(chǎn)品的開(kāi)發(fā)已經(jīng)走過(guò)了幾十個(gè)春秋并且取得了長(zhǎng)足的進(jìn)步。它正在直接與辦公、交通、金融、公安、商業(yè)、旅游等行業(yè)的語(yǔ)音咨詢(xún)與管理工業(yè)生產(chǎn)部門(mén)的語(yǔ)聲控制,電話(huà)、電信系統(tǒng)的自動(dòng)撥號(hào)、輔助控制與查詢(xún)以及醫(yī)療衛(wèi)生和福利事業(yè)的生活支援系統(tǒng)等各種實(shí)際應(yīng)用領(lǐng)域相接軌,并且有望成為下一代操作系統(tǒng)和應(yīng)用程序的用戶(hù)界面。可見(jiàn),語(yǔ)音信號(hào)采集與分析的研究將是一項(xiàng)極具市場(chǎng)價(jià)值和挑戰(zhàn)性的工作。我們今天進(jìn)行這一領(lǐng)域的研究與開(kāi)拓就是要讓語(yǔ)音信號(hào)處理技術(shù)走人人們的日常生活當(dāng)中,并不斷朝更高目標(biāo)而努力。語(yǔ)音信號(hào)采集與分析之所以能夠那樣長(zhǎng)期地、深深地吸引廣大科學(xué)工作者去不斷地對(duì)其進(jìn)行研究和探討,除了它的實(shí)用性之外,另一個(gè)重要原因是,它始終與當(dāng)時(shí)信息科學(xué)中最活躍的前沿學(xué)科保持密切的聯(lián)系并且一起發(fā)展。語(yǔ)音信號(hào)采集與分析是以語(yǔ)音語(yǔ)言學(xué)和數(shù)字信號(hào)處理為基礎(chǔ)而形成的一門(mén)涉及面很廣的綜合性學(xué)科,與心理、生理學(xué)、計(jì)算機(jī)科學(xué)、通信與信息科學(xué)以及模式識(shí)別和人工智能等學(xué)科都有著非常密切的關(guān)系。對(duì)語(yǔ)音信號(hào)采集與分析的研究一直是數(shù)字信號(hào)處理技術(shù)發(fā)展的重要推動(dòng)力量。因?yàn)樵S多處理的新方法的提出,首先是在語(yǔ)音信號(hào)處理中獲得成功,然后再推廣到其他領(lǐng)域。1.2 國(guó)內(nèi)外研究現(xiàn)狀語(yǔ)音信號(hào)的采集與分析作為一個(gè)重要的研究領(lǐng)域,已經(jīng)有很長(zhǎng)的研究歷史1。但是它的快速發(fā)展可以說(shuō)是從1940年前后Dudley的聲碼器(vocoder)和potter等人的可見(jiàn)語(yǔ)音Visible Speech)開(kāi)始的。1952年貝爾(Bell)實(shí)驗(yàn)室的Davis等人首次研制成功能識(shí)別十個(gè)英語(yǔ)數(shù)字的實(shí)驗(yàn)裝置。1956年Olson和Belar等人采用8個(gè)帶通濾波器組提取頻譜參數(shù)作為語(yǔ)音的特征,研制成功一臺(tái)簡(jiǎn)單的語(yǔ)音打字機(jī)。20世紀(jì)60年代初由于Faut和Steven的努力,奠定了語(yǔ)音生成理論的基礎(chǔ),在此基礎(chǔ)上語(yǔ)音合成的研究得到了扎實(shí)的進(jìn)展。 20世紀(jì)60年代中期形成的一系列數(shù)字信號(hào)處理方法和技術(shù),如數(shù)字濾波器、快速博里葉變換(FFT)等成為語(yǔ)音信號(hào)數(shù)字處理的理論和技術(shù)基礎(chǔ)。在方法上,隨著電子計(jì)算機(jī)的發(fā)展,以往的以硬件為中心的研究逐漸轉(zhuǎn)化為以軟件為主的處理研究。然而,在語(yǔ)音識(shí)別領(lǐng)域內(nèi),初期有幾種語(yǔ)音打字機(jī)的研究也很活躍,但后來(lái)已全部停了下來(lái),這說(shuō)明了當(dāng)時(shí)人們對(duì)話(huà)音識(shí)別難度的認(rèn)識(shí)得到了加深。所以1969年美國(guó)貝爾研究所的Pierce感嘆地說(shuō)“語(yǔ)音識(shí)別向何處去?”。 到了1970年,好似反駁Pierce的批評(píng),單詞識(shí)別裝置開(kāi)始了實(shí)用化階段,其后實(shí)用化的進(jìn)程進(jìn)一步高漲,實(shí)用機(jī)的生產(chǎn)銷(xiāo)售也上了軌道。此外社會(huì)上所宣傳的聲紋(Voice Print)識(shí)別,即說(shuō)話(huà)人識(shí)別的研究也扎扎實(shí)實(shí)地開(kāi)展起來(lái),并很快達(dá)到了實(shí)用化的階段。到了1971年,以美國(guó)ARPA(American Research Projects Agency)為主導(dǎo)的“語(yǔ)音理解系統(tǒng)”的研究計(jì)劃也開(kāi)始起步。這個(gè)研究計(jì)劃不僅在美國(guó)園內(nèi),而且對(duì)世界各國(guó)都產(chǎn)生了很大的影響,它促進(jìn)了連續(xù)語(yǔ)音識(shí)別研究的興起。歷時(shí)五年的龐大的ARPA研究計(jì)劃,雖然在語(yǔ)音理解、語(yǔ)言統(tǒng)計(jì)模型等方面的研究積累了一些經(jīng)驗(yàn),取得了許多成果,但沒(méi)能達(dá)到巨大投資應(yīng)得的成果,在1976年停了下來(lái),進(jìn)入了深刻的反省階段。但是,在整個(gè)20世紀(jì)70年代還是有幾項(xiàng)研究成果對(duì)語(yǔ)音信號(hào)處理技術(shù)的進(jìn)步和發(fā)展產(chǎn)生了重大的影響。這就是20世紀(jì)70年代初由板倉(cāng)(Itakura)提出的動(dòng)態(tài)時(shí)間規(guī)整(DTW)技術(shù),使語(yǔ)音識(shí)別研究在匹配算法方面開(kāi)辟了新思路;20世紀(jì)70年代中期線(xiàn)性預(yù)測(cè)技術(shù)(LPC)被用于語(yǔ)音信號(hào)處理,此后隱馬爾可夫模型法(HNMM)也獲得初步成功,該技術(shù)后來(lái)在語(yǔ)音信號(hào)處理的多個(gè)方面獲得巨大成功;20世紀(jì)70年代未,Linda、Buzo、Gray和Markel等人首次解決了矢量量化(VQ)碼書(shū)生成的方法,并首先將矢量量化技術(shù)用于語(yǔ)音編碼獲得成功。從此矢量量化技術(shù)不僅在語(yǔ)音識(shí)別、語(yǔ)音編碼和說(shuō)話(huà)人識(shí)別等方面發(fā)揮了重要作用,而且很快推廣到其他許多領(lǐng)域。因此,20世紀(jì)80年代開(kāi)始出現(xiàn)的語(yǔ)音信號(hào)處理技術(shù)產(chǎn)品化的熱溯,與上述語(yǔ)音信號(hào)處理新技術(shù)的推動(dòng)作用是分不開(kāi)的。 20世紀(jì)80年代,由于矢量量化、隱馬爾可夫模型和人工神經(jīng)網(wǎng)絡(luò)(ANN)等相繼被應(yīng)用于語(yǔ)音信號(hào)處理,并經(jīng)過(guò)不斷改進(jìn)與完善,使得語(yǔ)音信號(hào)處理技術(shù)產(chǎn)生了突破性的進(jìn)展。其中,隱馬爾可夫模型作為語(yǔ)音信號(hào)的一種統(tǒng)計(jì)模型,在語(yǔ)音信號(hào)處理的各個(gè)領(lǐng)域中獲得了廣泛的應(yīng)用。其理論基礎(chǔ)是1970年前后,由Baum等人建立起來(lái)的,隨后,由美國(guó)卡內(nèi)基梅隆大學(xué) (CMU)的Baker和美國(guó)IBM公司的Jelinek等人將其應(yīng)用到語(yǔ)音識(shí)別中。由于美國(guó)貝爾實(shí)驗(yàn)室的Babiner等人在20世紀(jì)80年代中期,對(duì)隱馬爾可夫模型深人淺出的介紹,才使世界各國(guó)從事語(yǔ)音信號(hào)處理的研究人員了解和熟悉,進(jìn)而成為一個(gè)公認(rèn)的研究熱點(diǎn),也是目前語(yǔ)音識(shí)別等的主流研究途徑。進(jìn)入20世紀(jì)90年代以來(lái),語(yǔ)音信號(hào)采集與分析在實(shí)用化方面取得了許多實(shí)質(zhì)性的研究進(jìn)展。其中,語(yǔ)音識(shí)別逐漸由實(shí)驗(yàn)室走向?qū)嵱没?。一方面,?duì)聲學(xué)語(yǔ)音學(xué)統(tǒng)計(jì)模型的研究逐漸深入,魯棒的語(yǔ)音識(shí)別、基于語(yǔ)音段的建模方法及隱馬爾可夫模型與人工種經(jīng)網(wǎng)絡(luò)的結(jié)合成為研究的熱點(diǎn)。另一方面,為了語(yǔ)音識(shí)別實(shí)用化的需要,講者自適應(yīng)、聽(tīng)覺(jué)模型、快速搜索識(shí)別算法以及進(jìn)一步的語(yǔ)言模型的研究等課題倍受關(guān)注。 1.3 本文主要工作本文簡(jiǎn)要介紹了語(yǔ)音信號(hào)采集與分析的發(fā)展史以及語(yǔ)音信號(hào)的特征、采集與分析方法,并通過(guò)PC機(jī)錄制自己的一段聲音,運(yùn)用Matlab進(jìn)行仿真分析,最后加入噪聲進(jìn)行濾波處理,比較濾波前后的變化。第2章主要介紹語(yǔ)音信號(hào)的特點(diǎn)與采集,仿真主要是驗(yàn)證奈奎斯特定理。第3章主要是對(duì)語(yǔ)音信號(hào)進(jìn)行時(shí)域、頻域上的分析,如短時(shí)功率譜,短時(shí)能量,短時(shí)平均過(guò)零率,語(yǔ)譜圖分析等等。最后是對(duì)語(yǔ)音信號(hào)的線(xiàn)性預(yù)測(cè)分析1.4本文的仿真軟件MatlabMATLAB 是美國(guó)MathWorks公司出品的商業(yè)數(shù)學(xué)軟件,用于算法開(kāi)發(fā)、數(shù)據(jù)可視化、數(shù)據(jù)分析以及數(shù)值計(jì)算的高級(jí)技術(shù)計(jì)算語(yǔ)言和交互式環(huán)境,主要包括MATLAB和Simulink兩大部分4。MATLAB是矩陣實(shí)驗(yàn)室(Matrix Laboratory)的簡(jiǎn)稱(chēng),和Mathematica、Maple并稱(chēng)為三大數(shù)學(xué)軟件。它在數(shù)學(xué)類(lèi)科技應(yīng)用軟件中在數(shù)值計(jì)算方面首屈一指。MATLAB可以進(jìn)行矩陣運(yùn)算、繪制函數(shù)和數(shù)據(jù)、實(shí)現(xiàn)算法、創(chuàng)建用戶(hù)界面、連接其他編程語(yǔ)言的程序等,主要應(yīng)用于工程計(jì)算、控制設(shè)計(jì)、信號(hào)處理與通訊、圖像處理、信號(hào)檢測(cè)、金融建模設(shè)計(jì)與分析等領(lǐng)域。MATLAB的基本數(shù)據(jù)單位是矩陣,它的指令表達(dá)式與數(shù)學(xué)、工程中常用的形式十分相似,故用MATLAB來(lái)解算問(wèn)題要比用C,F(xiàn)ORTRAN等語(yǔ)言完相同的事情簡(jiǎn)捷得多,并且mathwork也吸收了像Maple等軟件的優(yōu)點(diǎn),使MATLAB成為一個(gè)強(qiáng)大的數(shù)學(xué)軟件。在新的版本中也加入了對(duì)C,F(xiàn)ORTRAN,C+,JAVA的支持??梢灾苯诱{(diào)用,用戶(hù)也可以將自己編寫(xiě)的實(shí)用程序?qū)氲組ATLAB函數(shù)庫(kù)中方便自己以后調(diào)用,此外許多的MATLAB愛(ài)好者都編寫(xiě)了一些經(jīng)典的程序,用戶(hù)可以直接進(jìn)行下載就可以用。2 語(yǔ)音信號(hào)的特點(diǎn)與采集2.1 語(yǔ)音信號(hào)的特點(diǎn)通過(guò)對(duì)大量語(yǔ)音信號(hào)的觀察和分析發(fā)現(xiàn),語(yǔ)音信號(hào)主要有下面兩個(gè)特點(diǎn): 在頻域內(nèi),語(yǔ)音信號(hào)的頻譜分量主要集中在3003400Hz的范圍內(nèi)。利用這個(gè)特點(diǎn),可以用一個(gè)防混迭的帶通濾波器將此范圍內(nèi)的語(yǔ)音信號(hào)頻率分量取出,然后按8kHz的采樣率對(duì)語(yǔ)音信號(hào)進(jìn)行采樣,就可以得到離散的語(yǔ)音信號(hào)。 在時(shí)域內(nèi),語(yǔ)音信號(hào)具有“短時(shí)性”的特點(diǎn),即在總體上,語(yǔ)音信號(hào)的特征是隨著時(shí)間而變化的,但在一段較短的時(shí)間間隔內(nèi),語(yǔ)音信號(hào)保持平穩(wěn)。在濁音段表現(xiàn)出周期信號(hào)的特征,在清音段表現(xiàn)出隨機(jī)噪聲的特征。下面是一段語(yǔ)音信號(hào)的時(shí)域波形圖(圖2.1)和頻域圖(圖2.2),由這兩個(gè)圖可以看出語(yǔ)音信號(hào)的兩個(gè)特點(diǎn)。 圖2.1語(yǔ)音信號(hào)時(shí)域波形圖 圖2.2語(yǔ)音信號(hào)頻域波形圖 2.2語(yǔ)音信號(hào)的采集在將語(yǔ)音信號(hào)進(jìn)行數(shù)字化前,必須先進(jìn)行防混疊預(yù)濾波,預(yù)濾波的目的有兩個(gè):抑制輸入信導(dǎo)各領(lǐng)域分量中頻率超出fs/2的所有分量(fs為采樣頻率),以防止混疊干擾。抑制50Hz的電源工頻干擾。這樣,預(yù)濾波器必須是一個(gè)帶通濾波器,設(shè)其上、下截止顏率分別是fH和fL,則對(duì)于絕大多數(shù)語(yǔ)音編譯碼器,fH=3400Hz、fL60100Hz、采樣率為fs8kHz;而對(duì)丁語(yǔ)音識(shí)別而言,當(dāng)用于電話(huà)用戶(hù)時(shí),指標(biāo)與語(yǔ)音編譯碼器相同。當(dāng)使用要求較高或很高的場(chǎng)合時(shí)fH4500Hz或8000Hz、fL60Hz、fs10kHz或20kHz。為了將原始模擬語(yǔ)音信號(hào)變?yōu)閿?shù)字信號(hào),必須經(jīng)過(guò)采樣和量化兩個(gè)步驟,從而得到時(shí)間和幅度上均為離散的數(shù)字語(yǔ)音信號(hào)。采樣也稱(chēng)抽樣,是信號(hào)在時(shí)間上的離散化,即按照一定時(shí)間間隔t在模擬信號(hào)x(t)上逐點(diǎn)采取其瞬時(shí)值。采樣時(shí)必須要注意滿(mǎn)足奈奎斯特定理,即采樣頻率fs必須以高于受測(cè)信號(hào)的最高頻率兩倍以上的速度進(jìn)行取樣,才能正確地重建波它是通過(guò)采樣脈沖和模擬信號(hào)相乘來(lái)實(shí)現(xiàn)的。下圖時(shí)一段語(yǔ)音信號(hào)在采樣頻率44.1KHz情況下的頻譜圖。圖2.3 采樣頻率44.1KHz情況下的頻譜圖由圖可知,這段語(yǔ)音信號(hào)的頻率主要集中在1KHz左右,當(dāng)采樣頻率為44.1KHz時(shí),由于采樣頻率比較大,所以采樣點(diǎn)數(shù)就越密,所得離散信號(hào)就越逼近于原信號(hào),頻譜也沒(méi)有發(fā)生混疊。圖2.4 采樣頻率500HZ情況下的頻譜圖對(duì)上述信號(hào)進(jìn)行1/80采樣頻率抽取,即采樣頻率變?yōu)閷⒔?00Hz時(shí),由于采樣頻率比較小,所以采樣點(diǎn)數(shù)就稀疏,所得離散信號(hào)就越偏離于原信號(hào),頻譜也發(fā)生了混疊。在采樣的過(guò)程中應(yīng)注意采樣間隔的選擇和信號(hào)混淆:對(duì)模擬信號(hào)采樣首先要確定采樣間隔。如何合理選擇t涉及到許多需要考慮的技術(shù)因素。一般而言,采樣頻率越高,采樣點(diǎn)數(shù)就越密,所得離散信號(hào)就越逼近于原信號(hào)。但過(guò)高的采樣頻率并不可取,對(duì)固定長(zhǎng)度(T)的信號(hào),采集到過(guò)大的數(shù)據(jù)量(N=T/t),給計(jì)算機(jī)增加不必要的計(jì)算工作量和存儲(chǔ)空間;若數(shù)據(jù)量(N)限定,則采樣時(shí)間過(guò)短,會(huì)導(dǎo)致一些數(shù)據(jù)信息被排斥在外。采樣頻率過(guò)低,采樣點(diǎn)間隔過(guò)遠(yuǎn),則離散信號(hào)不足以反映原有信號(hào)波形特征,無(wú)法使信號(hào)復(fù)原,造成信號(hào)混淆。根據(jù)采樣定理,當(dāng)采樣頻率大于信號(hào)的兩倍帶寬時(shí),采樣過(guò)程不會(huì)丟失信息,利用理想濾波器可從采樣信號(hào)中不失真地重構(gòu)原始信號(hào)波形。量化是對(duì)幅值進(jìn)行離散化,即將振動(dòng)幅值用二進(jìn)制量化電平來(lái)表示。量化電平按級(jí)數(shù)變化,實(shí)際的振動(dòng)值是連續(xù)的物理量。具體振值用舍入法歸到靠近的量化電平上。 語(yǔ)音信號(hào)經(jīng)過(guò)預(yù)濾波和采樣后,由AD變換器變換為二址制數(shù)字碼。這種防混疊濾波通常與模數(shù)轉(zhuǎn)換器做在一個(gè)集成塊內(nèi),因此目前來(lái)說(shuō),語(yǔ)音信號(hào)的數(shù)字化的質(zhì)量還是有保證的。市面上購(gòu)買(mǎi)到的普通聲卡在這方面做的都很好,語(yǔ)音聲波通過(guò)話(huà)筒輸入到聲卡后直接獲得的是經(jīng)過(guò)防混疊濾波、A/D變換、量化處理的離散的數(shù)字信號(hào)。在實(shí)際工作中,我們可以利用windows自帶的錄音機(jī)錄制語(yǔ)音文件,圖2.5是基于PC機(jī)的語(yǔ)音信號(hào)采集過(guò)程,聲卡可以完成語(yǔ)音波形的A/D轉(zhuǎn)換,獲得WAVE文件,為后續(xù)的處理儲(chǔ)備原材料。調(diào)節(jié)錄音機(jī)保存界面的“更改”選項(xiàng),可以存儲(chǔ)各種格式的WAVE文件。Windows自帶的錄音機(jī)聲音麥克風(fēng)聲卡濾波采樣A/D轉(zhuǎn)換 Wav圖2.5 基于PC機(jī)的語(yǔ)音信號(hào)采集過(guò)程 采集到語(yǔ)音信號(hào)之后,需要對(duì)語(yǔ)音信號(hào)進(jìn)行分析,如語(yǔ)音信號(hào)的時(shí)域分析、頻譜分析、語(yǔ)譜圖分析以及加噪濾波等處理。 3 語(yǔ)音信號(hào)的分析3.1基于MATLAB的語(yǔ)音信號(hào)時(shí)域特征分析3.1.1 原理分析語(yǔ)音信號(hào)是一種非平穩(wěn)的時(shí)變信號(hào),它攜帶著各種信息。在語(yǔ)音編碼、語(yǔ)音合成、語(yǔ)音識(shí)別和語(yǔ)音增強(qiáng)等語(yǔ)音處理中無(wú)一例外需要提取語(yǔ)音中包含的各種信息。語(yǔ)音信號(hào)分析的目的就在與方便有效的提取并表示語(yǔ)音信號(hào)所攜帶的信息。語(yǔ)音信號(hào)分析可以分為時(shí)域和變換域等處理方法,其中時(shí)域分析是最簡(jiǎn)單的方法,直接對(duì)語(yǔ)音信號(hào)的時(shí)域波形進(jìn)行分析,提取的特征參數(shù)主要有語(yǔ)音的短時(shí)能量,短時(shí)平均過(guò)零率,短時(shí)自相關(guān)函數(shù)等。3.1.2 窗口的選擇通過(guò)對(duì)發(fā)聲機(jī)理的認(rèn)識(shí),語(yǔ)音信號(hào)可以認(rèn)為是短時(shí)平穩(wěn)的。在550ms的范圍內(nèi),語(yǔ)音頻譜特性和一些物理特性參數(shù)基本保持不變。我們將每個(gè)短時(shí)的語(yǔ)音稱(chēng)為一個(gè)分析幀。一般幀長(zhǎng)取1030ms。我們采用一個(gè)長(zhǎng)度有限的窗函數(shù)來(lái)截取語(yǔ)音信號(hào)形成分析幀。通常會(huì)采用矩形窗和漢明窗。圖3.1給出了這兩種窗函數(shù)在幀長(zhǎng)N=50時(shí)的時(shí)域波形。圖3.1 矩形窗和Hamming窗的時(shí)域波形矩形窗的定義:一個(gè)N點(diǎn)的矩形窗函數(shù)定義為如下 hamming窗的定義:一個(gè)N點(diǎn)的hamming窗函數(shù)定義為如下 這兩種窗函數(shù)都有低通特性,通過(guò)分析這兩種窗的頻率響應(yīng)幅度特性可以發(fā)現(xiàn)(如圖3.2):矩形窗的主瓣寬度?。?*pi/N),具有較高的頻率分辨率,旁瓣峰值大(-13.3dB),會(huì)導(dǎo)致泄漏現(xiàn)象;漢明窗的主瓣寬8*pi/N,旁瓣峰值低(-42.7dB),可以有效的克服泄漏現(xiàn)象,具有更平滑的低通特性。因此在語(yǔ)音頻譜分析時(shí)常使用漢明窗,在計(jì)算短時(shí)能量和平均幅度時(shí)通常用矩形窗。表1.1對(duì)比了這兩種窗函數(shù)的主瓣寬度和旁瓣峰值。 圖3.2 矩形窗和Hamming窗的頻率響應(yīng)表3.1 矩形窗和hamming窗的主瓣寬度和旁瓣峰值窗函數(shù)主瓣寬度旁瓣峰值矩形窗4*pi/N13.3dBhamming8*pi/N42.7dB3.1.3 短時(shí)能量 由于語(yǔ)音信號(hào)的能量隨時(shí)間變化,清音和濁音之間的能量差別相當(dāng)顯著。因此對(duì)語(yǔ)音的短時(shí)能量進(jìn)行分析,可以描述語(yǔ)音的這種特征變化情況。定義短時(shí)能量為:,其中N為窗長(zhǎng) 特殊地,當(dāng)采用矩形窗時(shí),可簡(jiǎn)化為: 圖3.3和圖3.4給出了不同矩形窗和hamming窗長(zhǎng)的短時(shí)能量函數(shù),我們發(fā)現(xiàn):在用短時(shí)能量反映語(yǔ)音信號(hào)的幅度變化時(shí),不同的窗函數(shù)以及相應(yīng)窗的長(zhǎng)短均有影響。hamming窗的效果比矩形窗略好。但是,窗的長(zhǎng)短影響起決定性作用。窗過(guò)大(N 很大),等效于很窄的低通濾波器,不能反映幅度En的變化;窗過(guò)?。?N 很小),短時(shí)能量隨時(shí)間急劇變化,不能得到平滑的能量函數(shù)。在11.025kHz左右的采樣頻率下,N 選為100200比較合適。短時(shí)能量函數(shù)的應(yīng)用:1)可用于區(qū)分清音段與濁音段。En值大對(duì)應(yīng)于濁音段,En值小對(duì)應(yīng)于清音段。2)可用于區(qū)分濁音變?yōu)榍逡艋蚯逡糇優(yōu)闈嵋舻臅r(shí)間(根據(jù)En值的變化趨勢(shì))。3)對(duì)高信噪比的語(yǔ)音信號(hào),也可以用來(lái)區(qū)分有無(wú)語(yǔ)音(語(yǔ)音信號(hào)的開(kāi)始點(diǎn)或終止點(diǎn))。無(wú)信號(hào)(或僅有噪聲能量)時(shí),En值很小,有語(yǔ)音信號(hào)時(shí),能量顯著增大。 圖3.3 不同矩形窗長(zhǎng)的短時(shí)能量函數(shù) 圖3.4 不同hamming窗長(zhǎng)的短時(shí)能量函數(shù) 3.1.4 短時(shí)平均過(guò)零率過(guò)零率可以反映信號(hào)的頻譜特性。當(dāng)離散時(shí)間信號(hào)相鄰兩個(gè)樣點(diǎn)的正負(fù)號(hào)相異時(shí),我們稱(chēng)之為“過(guò)零”,即此時(shí)信號(hào)的時(shí)間波形穿過(guò)了零電平的橫軸。統(tǒng)計(jì)單位時(shí)間內(nèi)樣點(diǎn)值改變符號(hào)的次數(shù)具可以得到平均過(guò)零率。定義短時(shí)平均過(guò)零率: 其中為符號(hào)函數(shù),在矩形窗條件下,可以簡(jiǎn)化為 短時(shí)過(guò)零率可以粗略估計(jì)語(yǔ)音的頻譜特性。由語(yǔ)音的產(chǎn)生模型可知,發(fā)濁音時(shí),聲帶振動(dòng),盡管聲道有多個(gè)共振峰,但由于聲門(mén)波引起了頻譜的高頻衰落,因此濁音能量集中于3KZ以下。而清音由于聲帶不振動(dòng),聲道的某些部位阻塞氣流產(chǎn)生類(lèi)白噪聲,多數(shù)能量集中在較高頻率上。高頻率對(duì)應(yīng)著高過(guò)零率,低頻率對(duì)應(yīng)著低過(guò)零率,那么過(guò)零率與語(yǔ)音的清濁音就存在著對(duì)應(yīng)關(guān)系。.圖3.5為某一語(yǔ)音在矩形窗條件下求得的短時(shí)能量和短時(shí)平均過(guò)零率。分析可知:清音的短時(shí)能量較低,過(guò)零率高,濁音的短時(shí)能量較高,過(guò)零率低。清音的過(guò)零率為0.5左右,濁音的過(guò)零率為0.1左右,兩但者分布之間有相互交疊的區(qū)域,所以單純依賴(lài)于平均過(guò)零率來(lái)準(zhǔn)確判斷清濁音是不可能的,在實(shí)際應(yīng)用中往往是采用語(yǔ)音的多個(gè)特征參數(shù)進(jìn)行綜合判決。短時(shí)平均過(guò)零率的應(yīng)用:1)區(qū)別清音和濁音。例如,清音的過(guò)零率高,濁音的過(guò)零率低。此外,清音和濁音的兩種過(guò)零分布都與高斯分布曲線(xiàn)比較吻合。2)從背景噪聲中找出語(yǔ)音信號(hào)。語(yǔ)音處理領(lǐng)域中的一個(gè)基本問(wèn)題是,如何將一串連續(xù)的語(yǔ)音信號(hào)進(jìn)行適當(dāng)?shù)姆指?,以確定每個(gè)單詞語(yǔ)音的信號(hào),亦即找出每個(gè)單詞的開(kāi)始和終止位置。3)在孤立詞的語(yǔ)音識(shí)別中,可利用能量和過(guò)零作為有話(huà)無(wú)話(huà)的鑒別。 圖3.5 形窗條件下的短時(shí)平均過(guò)零率3.1.5 短時(shí)自相關(guān)函數(shù)自相關(guān)函數(shù)用于衡量信號(hào)自身時(shí)間波形的相似性。清音和濁音的發(fā)聲機(jī)理不同,因而在波形上也存在著較大的差異。濁音的時(shí)間波形呈現(xiàn)出一定的周期性,波形之間相似性較好;清音的時(shí)間波形呈現(xiàn)出隨機(jī)噪聲的特性,樣點(diǎn)間的相似性較差。因此,我們用短時(shí)自相關(guān)函數(shù)來(lái)測(cè)定語(yǔ)音的相似特性。短時(shí)自相關(guān)函數(shù)定義為: 令,并且,可以得到: 圖3.6給出了清音的短時(shí)自相關(guān)函數(shù)波形,圖7給出了不同矩形窗長(zhǎng)條件下(窗長(zhǎng)分別為N=70,N=140,N=210,N=280)濁音的短時(shí)自相關(guān)函數(shù)波形。由圖3.6、圖3.7短時(shí)自相關(guān)函數(shù)波形分析可知:清音接近于隨機(jī)噪聲,清音的短時(shí)自相關(guān)函數(shù)不具有周期性,也沒(méi)有明顯突起的峰值,且隨著延時(shí)k的增大迅速減??;濁音是周期信號(hào),濁音的短時(shí)自相關(guān)函數(shù)呈現(xiàn)明顯的周期性,自相關(guān)函數(shù)的周期就是濁音信號(hào)的周期,根據(jù)這個(gè)性質(zhì)可以判斷一個(gè)語(yǔ)音信號(hào)是清音還是濁音,還可以判斷濁音的基音周期。濁音語(yǔ)音的周期可用自相關(guān)函數(shù)中第一個(gè)峰值的位置來(lái)估算。所以在語(yǔ)音信號(hào)處理中,自相關(guān)函數(shù)常用來(lái)作以下兩種語(yǔ)音信號(hào)特征的估計(jì):1)區(qū)分語(yǔ)音是清音還是濁音;2)估計(jì)濁音語(yǔ)音信號(hào)的基音周期。 圖3.6 清音的短時(shí)自相關(guān)函數(shù)圖3.7 不同矩形窗長(zhǎng)條件下的濁音的短時(shí)自相關(guān)函數(shù)3.2基于MATLAB的語(yǔ)音信號(hào)頻域特征分析3.2.1 原理分析 信號(hào)的傅立葉表示在信號(hào)的分析與處理中起著重要的作用。因?yàn)閷?duì)于線(xiàn)性系統(tǒng)來(lái)說(shuō),可以很方便地確定其對(duì)正弦或復(fù)指數(shù)和的響應(yīng),所以傅立葉分析方法能完善地解決許多信號(hào)分析和處理問(wèn)題。另外,傅立葉表示使信號(hào)的某些特性變得更明顯,因此,它能更深入地說(shuō)明信號(hào)的各項(xiàng)紅物理現(xiàn)象。由于語(yǔ)音信號(hào)是隨著時(shí)間變化的,通常認(rèn)為,語(yǔ)音是一個(gè)受準(zhǔn)周期脈沖或隨機(jī)噪聲源激勵(lì)的線(xiàn)性系統(tǒng)的輸出。輸出頻譜是聲道系統(tǒng)頻率響應(yīng)與激勵(lì)源頻譜的乘積。聲道系統(tǒng)的頻率響應(yīng)及激勵(lì)源都是隨時(shí)間變化的,因此一般標(biāo)準(zhǔn)的傅立葉表示雖然適用于周期及平穩(wěn)隨機(jī)信號(hào)的表示,但不能直接用于語(yǔ)音信號(hào)。由于語(yǔ)音信號(hào)可以認(rèn)為在短時(shí)間內(nèi),近似不變,因而可以采用短時(shí)分析法。3.2.2. 短時(shí)傅立葉變換由于語(yǔ)音信號(hào)是短時(shí)平穩(wěn)的隨機(jī)信號(hào),某一語(yǔ)音信號(hào)幀的短時(shí)傅立葉變換的定義為: (1)其中w(n-m)是實(shí)窗口函數(shù)序列,n表示某一語(yǔ)音信號(hào)幀。令n-m=k,則得到 (2)于是可以得到 (3)假定 (4)則可以得到 (5)同樣,不同的窗口函數(shù),將得到不同的傅立葉變換式的結(jié)果。由上式可見(jiàn),短時(shí)傅立葉變換有兩個(gè)變量:n和,所以它既是時(shí)序n的離散函數(shù),又是角頻率的連續(xù)函數(shù)。與離散傅立葉變換逼近傅立葉變換一樣,如令=2k/N,則得離散的短時(shí)傅立葉吧如下: (6)3.2.3 語(yǔ)譜圖水平方向是時(shí)間軸,垂直方向是頻率軸,圖上的灰度條紋代表各個(gè)時(shí)刻的語(yǔ)音短時(shí)譜。語(yǔ)譜圖反映了語(yǔ)音信號(hào)的動(dòng)態(tài)頻率特性,在語(yǔ)音分析中具有重要的實(shí)用價(jià)值。被成為可視語(yǔ)言。語(yǔ)譜圖的時(shí)間分辨率和頻率分辨率是由窗函數(shù)的特性決定的。時(shí)間分辨率高,可以看出時(shí)間波形的每個(gè)周期及共振峰隨時(shí)間的變化,但頻率分辨率低,不足以分辨由于激勵(lì)所形成的細(xì)微結(jié)構(gòu),稱(chēng)為寬帶語(yǔ)譜圖;而窄帶語(yǔ)譜圖正好與之相反。寬帶語(yǔ)譜圖可以獲得較高的時(shí)間分辨率,反映頻譜的快速時(shí)變過(guò)程;窄帶語(yǔ)譜圖可以獲得較高的頻率分辨率,反映頻譜的精細(xì)結(jié)構(gòu)。兩者相結(jié)合,可以提供帶兩與語(yǔ)音特性相關(guān)的信息。語(yǔ)譜圖上因其不同的灰度,形成不同的紋路,稱(chēng)之為“聲紋”。聲紋因人而異,因此可以在司法、安全等場(chǎng)合得到應(yīng)用。3.2.4 復(fù)倒譜和倒譜復(fù)倒譜是x(n)的Z變換取對(duì)數(shù)后的逆Z變換,其表達(dá)式如下: (7)倒譜c(n)定義為x(n)取Z變換后的幅度對(duì)數(shù)的逆Z變換,即 (8)在時(shí)域上,語(yǔ)音產(chǎn)生模型實(shí)際上是一個(gè)激勵(lì)信號(hào)與聲道沖激響應(yīng)的卷積。對(duì)于濁音,激勵(lì)信號(hào)可以由周期脈沖序列表示;對(duì)于清音,激勵(lì)信號(hào)可以由隨機(jī)噪聲序列表示。聲道系統(tǒng)相當(dāng)于參數(shù)緩慢變化的零極點(diǎn)線(xiàn)性濾波器。這樣經(jīng)過(guò)同態(tài)處理后,語(yǔ)音信號(hào)的復(fù)倒譜,激勵(lì)信號(hào)的復(fù)倒譜,聲道系統(tǒng)的復(fù)倒譜之間滿(mǎn)足下面的關(guān)系: (9)由于倒譜對(duì)應(yīng)于復(fù)倒譜的偶部,因此倒譜與復(fù)倒譜具有同樣的特點(diǎn),很容易知道語(yǔ)音信號(hào)的倒譜,激勵(lì)信號(hào)的倒譜以及聲道系統(tǒng)的倒譜之間滿(mǎn)足下面關(guān)系: (10)濁音信號(hào)的倒譜中存在著峰值,它的出現(xiàn)位置等于該語(yǔ)音段的基音周期,而清音的倒譜中則不存在峰值。利用這個(gè)特點(diǎn)我們可以進(jìn)行清濁音的判斷,并且可以估計(jì)濁音的基音周期。3.2.5 基因周期估計(jì)濁音信號(hào)的倒譜中存在峰值,它的出現(xiàn)位置等于該語(yǔ)音段的基音周期,而清音的倒譜中則不存在峰值。利用倒譜的這個(gè)特點(diǎn),我們可以進(jìn)行語(yǔ)音的清濁音判決,并且可以估計(jì)濁音的基音周期。首先計(jì)算語(yǔ)音的倒譜,然后在可能出現(xiàn)的基因周期附近尋找峰值。如果倒譜峰值超過(guò)了預(yù)先設(shè)置的門(mén)限,則輸入語(yǔ)音判斷為濁音,其峰值位置就是基因周期的估計(jì)值;反之,如果沒(méi)有超出門(mén)限的峰值的話(huà),則輸入語(yǔ)音為清音。3.2.6共振峰估計(jì)對(duì)倒譜進(jìn)行濾波,取出低時(shí)間部分進(jìn)行進(jìn)行逆特征系統(tǒng)處理,可以得到一個(gè)平滑的對(duì)數(shù)譜函數(shù),這個(gè)對(duì)數(shù)譜函數(shù)顯示了輸入語(yǔ)音段的共振峰結(jié)構(gòu),同時(shí)譜的峰值對(duì)應(yīng)于共振峰頻率。通過(guò)此對(duì)數(shù)譜進(jìn)行峰值檢測(cè),就可以估計(jì)出前幾個(gè)共振峰的頻率和強(qiáng)度。對(duì)于濁音的聲道特性,可以采用前三個(gè)共振峰來(lái)描述;清音不具備共振峰特點(diǎn)。3.2.7 結(jié)果分析 短時(shí)譜 圖3.8 短時(shí)譜 語(yǔ)譜圖 圖3.9 語(yǔ)譜圖 倒譜和復(fù)倒譜圖3.1.10、3.1.11是加矩形窗和漢明窗的倒譜圖和復(fù)倒譜圖,圖中橫軸的單位是Hz,縱軸的單位是dB。圖3.10 加矩形窗時(shí)的倒譜和復(fù)倒譜圖 圖3.11 加漢明窗時(shí)倒譜和復(fù)倒譜圖 基因周期和共振峰估計(jì) 圖3.12 倒譜圖分析第15幀其中第一峰值出現(xiàn)在第2個(gè)樣點(diǎn),窗長(zhǎng)為512(64ms),抽樣頻率為11KHz,說(shuō)明基因頻率就在這個(gè)點(diǎn)上,其基因頻率為5.5KHz,基音周期為0.182ms。3.3 基于MATLAB的LPC分析3.3.1 技術(shù)介紹線(xiàn)性預(yù)測(cè)分析是最有效的語(yǔ)音分析技術(shù)之一,在語(yǔ)音編碼、語(yǔ)音合成、語(yǔ)音識(shí)別和說(shuō)話(huà)人識(shí)別等語(yǔ)音處理領(lǐng)域中得到了廣泛的應(yīng)用。語(yǔ)音線(xiàn)性預(yù)測(cè)的基本思想是:一個(gè)語(yǔ)音信號(hào)的抽樣值可以用過(guò)去若干個(gè)取樣值的線(xiàn)性組合來(lái)逼近。通過(guò)使實(shí)際語(yǔ)音抽樣值與線(xiàn)性預(yù)測(cè)抽樣值的均方誤差達(dá)到最小,可以確定唯一的一組線(xiàn)性預(yù)測(cè)系數(shù)。采用線(xiàn)性預(yù)測(cè)分析不僅能夠得到語(yǔ)音信號(hào)的預(yù)測(cè)波形,而且能夠提供一個(gè)非常好的聲道模型。如果將語(yǔ)音模型看作激勵(lì)源通過(guò)一個(gè)線(xiàn)性時(shí)不變系統(tǒng)產(chǎn)生的輸出,那么可以利用LP分析對(duì)聲道參數(shù)進(jìn)行估值,以少量低信息率的時(shí)變參數(shù)精確地描述語(yǔ)音波形及其頻譜的性質(zhì)。此外,LP分析還能夠?qū)舱穹?、功率譜等語(yǔ)音參數(shù)進(jìn)行精確估計(jì),LP分析得到的參數(shù)可以作為語(yǔ)音識(shí)別的重要參數(shù)之一。由于語(yǔ)音是一種短時(shí)平穩(wěn)信號(hào),因此只能利用一段語(yǔ)音來(lái)估計(jì)模型參數(shù)。此時(shí)有兩種方案:一種是將長(zhǎng)的語(yǔ)音序列加窗,然后對(duì)加窗語(yǔ)音進(jìn)行LP分析,只要限定窗的長(zhǎng)度就可以保證分析的短時(shí)性,這種方案稱(chēng)為自相關(guān)法;另一種方案不對(duì)語(yǔ)音加窗,而是在計(jì)算均方預(yù)測(cè)誤差時(shí)限制其取和區(qū)間,這樣可以導(dǎo)出LP分析的自協(xié)方差法。3.3.2 LP分析基本原理驗(yàn)原理LP分析為線(xiàn)性時(shí)不變因果穩(wěn)定系統(tǒng)V(z)建立一個(gè)全極點(diǎn)模型,并利用均方誤差準(zhǔn)則,對(duì)已知的語(yǔ)音信號(hào)s(n)進(jìn)行模型參數(shù)估計(jì)。如果利用P個(gè)取樣值來(lái)進(jìn)行預(yù)測(cè),則稱(chēng)為P階線(xiàn)性預(yù)測(cè)。假設(shè)用過(guò)去P個(gè)取樣值的加權(quán)之和來(lái)預(yù)測(cè)信號(hào)當(dāng)前取樣值,則預(yù)測(cè)信號(hào)為: (1)其中加權(quán)系數(shù)用表示,稱(chēng)為預(yù)測(cè)系數(shù),則預(yù)測(cè)誤差為: (2)要使預(yù)測(cè)最佳,則要使短時(shí)平均預(yù)測(cè)誤差最小有: (3) (4)令 (5) 最小的可表示成: (6)顯然,誤差越接近于零,線(xiàn)性預(yù)測(cè)的準(zhǔn)確度在均方誤差最小的意義上為最佳,由此可以計(jì)算出預(yù)測(cè)系數(shù)。通過(guò)LPC分析,由若干幀語(yǔ)音可以得到若干組LPC參數(shù),每組參數(shù)形成一個(gè)描繪該幀語(yǔ)音特征的矢量,即LPC特征矢量。由LPC特征矢量可以進(jìn)一步得到很多種派生特征矢量,例如線(xiàn)性預(yù)測(cè)倒譜系數(shù)、線(xiàn)譜對(duì)特征、部分相關(guān)系數(shù)、對(duì)數(shù)面積比等等。不同的特征矢量具有不同的特點(diǎn),它們?cè)谡Z(yǔ)音編碼和識(shí)別領(lǐng)域有著不同的應(yīng)用價(jià)值。3.3.3 自相關(guān)法在最佳線(xiàn)性預(yù)測(cè)中,若用下式定義的時(shí)間平均最小均方準(zhǔn)則代替(3)式的集合平均最小均方準(zhǔn)則,即令 (7) 事實(shí)上就是短時(shí)自相關(guān)函數(shù),因而 (8) (9)根據(jù)平穩(wěn)隨機(jī)信號(hào)的自相關(guān)性質(zhì),可得 (10) 由(6)式,可得: (11) 綜上所述,可以得到如下矩陣形式: (12)值得注意的是,自相關(guān)法在計(jì)算預(yù)測(cè)誤差時(shí),數(shù)據(jù)段的兩端都需要加P個(gè)零取樣值,因而可造成譜估計(jì)失真。特別是在短數(shù)據(jù)段的情況下,這一現(xiàn)實(shí)更為嚴(yán)重。另外,當(dāng)預(yù)測(cè)系數(shù)量化時(shí),有可能造成實(shí)際系統(tǒng)的不穩(wěn)定。自相關(guān)解法主要有杜賓算法、格型算法和舒爾算法等幾種高效遞推算法。3.3.4 協(xié)方差法如果在最佳線(xiàn)性預(yù)測(cè)中,用下式定義的時(shí)間平均最小均方準(zhǔn)則代替(3)式的集合平均最小均方準(zhǔn)則,則可得到類(lèi)似的方程: (13) 可以看出,這里的數(shù)據(jù)段兩端不需要添加零取樣值。在理論上,協(xié)方差法計(jì)算出來(lái)的預(yù)測(cè)系數(shù)有可能造成預(yù)測(cè)誤差濾波器的不穩(wěn)定,但在實(shí)際上當(dāng)每幀信號(hào)取樣足夠多時(shí),其計(jì)算結(jié)果將與自相關(guān)法的結(jié)果很接近,因而穩(wěn)定性一般是能夠保證的 (當(dāng)然這種方法也有量化效應(yīng)可能引起不穩(wěn)定的缺點(diǎn))。協(xié)方差解法的最大優(yōu)點(diǎn)在于不存在自相關(guān)法中兩端出現(xiàn)很大預(yù)測(cè)誤差的情況,在N和P相差不大時(shí),其參數(shù)估值比自相關(guān)法要精確的多。但是在語(yǔ)音信號(hào)處理時(shí),往往取N在200左右。此時(shí),自相關(guān)法具有較大誤差的段落在整個(gè)語(yǔ)音段中所占的比例很小,參數(shù)估值也是比較準(zhǔn)確的。在這種情況下,協(xié)方差法誤差較小的優(yōu)點(diǎn)就不再突出,其缺乏高效遞推算法的缺點(diǎn)成為了制約因素。所以,在語(yǔ)音信號(hào)處理中往往使用高效的自相關(guān)法。3.3.5 全極點(diǎn)聲道模型將線(xiàn)性預(yù)測(cè)分析應(yīng)用于語(yǔ)音信號(hào)處理,不僅是為了利用其預(yù)測(cè)功能,更因?yàn)樗峁┝艘粋€(gè)非常好的聲道模型。將式(2)所示的方程看成是濾波器在語(yǔ)音信號(hào)激勵(lì)下的輸入輸出方程,則該濾波器稱(chēng)為預(yù)測(cè)誤差濾波器,其e(n)是輸出誤差。變換到z域,P階預(yù)測(cè)誤差濾波器的系統(tǒng)函數(shù)為 (14) 可以看出,如果將預(yù)測(cè)誤差e(n)作為激勵(lì)信號(hào),使其通過(guò)預(yù)測(cè)誤差濾波器的逆濾波器H(Z),即 (15) 則H(Z)的輸出為語(yǔ)音信號(hào)s(n),也就是說(shuō),H(Z)在預(yù)測(cè)誤差e(n)的激勵(lì)下可以合成語(yǔ)音。因此,H(Z)被稱(chēng)為語(yǔ)音信號(hào)的全極點(diǎn)模型,也稱(chēng)為語(yǔ)音合成器。該模型的參數(shù)就是P階線(xiàn)性預(yù)測(cè)的預(yù)測(cè)系數(shù)。因?yàn)轭A(yù)測(cè)誤差含有語(yǔ)音信號(hào)的基音信息,所以對(duì)于濁音,模型的激勵(lì)信號(hào)源是以基音周期重復(fù)的單位脈沖;對(duì)于清音,激勵(lì)信號(hào)源e(n)是自噪聲。語(yǔ)音信號(hào)的全極點(diǎn)模型是一種很重要的聲道模型,是許多應(yīng)用和研究的基礎(chǔ)。3.3.6 LPCC如果聲道特性H(Z)用式(14)所示的全極點(diǎn)模型表示,有 (16)式中,S(z)和I(z)分別為語(yǔ)音信號(hào)和激勵(lì)源的Z變換。對(duì)人的聽(tīng)覺(jué)來(lái)說(shuō),濁音是最重要的語(yǔ)音信號(hào)。對(duì)于濁音,模型的激勵(lì)信號(hào)源e(n)是以基音周期重復(fù)的單位脈沖,此時(shí)有??傻玫腪變換S(z)為 (17)式中,為P階線(xiàn)性預(yù)測(cè)系數(shù)。根據(jù)倒譜的定義,對(duì)具有最小相位特征的語(yǔ)音信號(hào),有 (18)式中,為語(yǔ)音信號(hào)的倒譜。將式(16)代入式(17),并對(duì)兩邊求導(dǎo),得 (19)根據(jù)上式即可由線(xiàn)性預(yù)測(cè)系數(shù)通過(guò)遞推得到倒譜系數(shù),將這樣得到的倒譜稱(chēng)為線(xiàn)性預(yù)測(cè)倒譜系數(shù)。3.3.7 結(jié)合語(yǔ)音幀能量構(gòu)成LPC組合參數(shù)由于人能從聲音的音色、頻高等各種信息中感知說(shuō)話(huà)人的個(gè)性,因此可以想象,利用特征的有效組合可以得到比較穩(wěn)定的識(shí)別性能。一般來(lái)說(shuō),如果組合的各參量之間相關(guān)性不大,則會(huì)更有效一些,因?yàn)樗鼈兎謩e反映了語(yǔ)音信號(hào)中的不同特征。多年來(lái),人們對(duì)組合參數(shù)在說(shuō)話(huà)人識(shí)別中的應(yīng)用進(jìn)行了大量研究 。實(shí)驗(yàn)證明,組合參數(shù)可以提高系統(tǒng)的識(shí)別性能。組合參數(shù)雖然可以提高系統(tǒng)的性能,但很顯然,無(wú)論是在特征參數(shù)提取環(huán)節(jié),還是在模型訓(xùn)練和模型匹配環(huán)節(jié)都使運(yùn)算量有所增加。在特征參數(shù)提取環(huán)節(jié),要計(jì)算一種以上的特征參數(shù)。在模型訓(xùn)練和模型匹配環(huán)節(jié),由于組合參數(shù)特征矢量的維數(shù)較多,使運(yùn)算復(fù)雜度有所增加。運(yùn)算量的增加會(huì)使系統(tǒng)的識(shí)別速度受到影響。為使運(yùn)算量問(wèn)題得到較好的解決,所以可以由LPC參數(shù)與語(yǔ)音幀能量構(gòu)成組合參數(shù),能夠在運(yùn)算量增加不明顯的情況下改進(jìn)系統(tǒng)的性能。語(yǔ)音幀能量是指一幀語(yǔ)音信號(hào)的能量,它等于該幀語(yǔ)音樣值的平方和。選取與語(yǔ)音幀能量構(gòu)成組合參數(shù)主要有以下考慮:1)語(yǔ)音幀能量是語(yǔ)音信號(hào)最基本的短時(shí)參數(shù)之一,它表征一幀語(yǔ)音信號(hào)能量的大小,是語(yǔ)音信號(hào)一個(gè)重要的時(shí)域特征;2)由一幀語(yǔ)音求出的語(yǔ)音幀能量是一個(gè)標(biāo)量值,與其它參量構(gòu)成組合參數(shù)不會(huì)使原特征矢量的維數(shù)明顯增加,特征矢量的維數(shù)越少,則需要的運(yùn)算復(fù)雜度越小,另外,獲取語(yǔ)音幀能量的運(yùn)算并不復(fù)雜;3)語(yǔ)音幀能量與LPC參數(shù)之間的相關(guān)性不大,它們反映的是語(yǔ)音信號(hào)的不同特征,應(yīng)該有較好的效果。3.3.8 模型增益G模型的激勵(lì)信號(hào)表示為: (20) 預(yù)測(cè)誤差e(n)如式(2),這樣當(dāng)實(shí)際的預(yù)測(cè)系數(shù)與模型系數(shù)相等時(shí),有 (21) 這說(shuō)明激勵(lì)信號(hào)正比于誤差信號(hào),其比例常數(shù)等于模型增益G。通常假設(shè)誤差信號(hào)的能量等于輸入激勵(lì)信號(hào)的能量,因此可以得到: (22) 對(duì)于式中的激勵(lì)信號(hào),主要分為濁音和清音兩種情況。其中為濁音時(shí),考慮到此時(shí)實(shí)際的激勵(lì)信號(hào)為聲門(mén)脈沖,因此可以將激勵(lì)信號(hào)表示為時(shí)的單位抽樣。為了保證這個(gè)假設(shè)成立,要求分析的區(qū)間應(yīng)該大致和語(yǔ)音基因周期的長(zhǎng)度相等。當(dāng)語(yǔ)音為清音時(shí),我們假定激勵(lì)信號(hào)為一個(gè)零均值、單位方差的平穩(wěn)白噪聲過(guò)程。采用自相關(guān)解法時(shí),濁音的模型增益為 (23)清音計(jì)算模型增益的公式和濁音相同。3.3.9 試驗(yàn)結(jié)果分析我們使用的原始語(yǔ)音為“北風(fēng)”,采樣頻率為11000Hz,運(yùn)行程序見(jiàn)附錄。在這里我們?nèi)〉?0幀進(jìn)行觀察,線(xiàn)性預(yù)測(cè)階數(shù)為12,看到圖3.13所示的原始語(yǔ)音幀的波形,預(yù)測(cè)語(yǔ)音幀波形和它們之間預(yù)測(cè)誤差的波形。圖3.14為原始語(yǔ)音幀和預(yù)測(cè)語(yǔ)音幀的短時(shí)譜和LPC譜的波形圖3.13 原始語(yǔ)音幀、預(yù)測(cè)語(yǔ)音幀和預(yù)測(cè)誤差的波形圖3.14 原始語(yǔ)音幀和預(yù)測(cè)語(yǔ)音幀的短時(shí)譜和LPC譜的波形這里我們可以改變線(xiàn)性誤差的階數(shù)來(lái)觀察語(yǔ)音幀的短時(shí)譜和LP譜的變化情況,如圖3.15。圖3.15 預(yù)測(cè)階數(shù)對(duì)語(yǔ)音幀短時(shí)譜和LPC譜的影響從圖中可以看出,P越大,LPC譜越能反映出語(yǔ)音短時(shí)譜的細(xì)節(jié)部分,但LPC譜的光滑度隨之下降。由于我們的目的只是用LPC譜反映聲道綜合效應(yīng)的譜的表示式,而具體的諧波形狀是通過(guò)激勵(lì)譜來(lái)控制的,因此LPC譜只要能夠體現(xiàn)出語(yǔ)音的共振峰的結(jié)構(gòu)和譜包絡(luò)就可以,因此從計(jì)算復(fù)雜性的角度分析,預(yù)測(cè)階數(shù)P應(yīng)該適中。圖3.16是原始語(yǔ)音和預(yù)測(cè)誤差的倒譜波形,我們可以從中計(jì)算出原始語(yǔ)音的基音周期。從圖中看出兩峰值之間的間隔為40點(diǎn)左右,基音周期為40/11000=3.6ms,頻率為278Hz左右。圖3.16 原始語(yǔ)音和預(yù)測(cè)誤差的倒譜波形圖3.17給出了原始語(yǔ)音的語(yǔ)譜圖和預(yù)測(cè)語(yǔ)音的語(yǔ)譜圖,通過(guò)比較發(fā)現(xiàn),預(yù)測(cè)語(yǔ)音的預(yù)測(cè)效果還可以,基音頻率相差無(wú)幾。圖3.17 原始語(yǔ)音的語(yǔ)譜圖和預(yù)測(cè)語(yǔ)音的語(yǔ)譜圖總 結(jié)通過(guò)這次課程設(shè)計(jì),使我對(duì)語(yǔ)音信號(hào)有了全面的認(rèn)識(shí),對(duì)數(shù)字信號(hào)處理的知識(shí)又有了深刻的理解,在之前數(shù)字信號(hào)與處理的學(xué)習(xí)以及完成課后的作業(yè)的過(guò)程中,已經(jīng)使用過(guò)MATLAB,對(duì)其有了一些基礎(chǔ)的了解和認(rèn)識(shí)。通過(guò)這次練習(xí)是我進(jìn)一步了解了信號(hào)的產(chǎn)生、采樣及頻譜分析的方法。 以及其中產(chǎn)生信號(hào)和繪制信號(hào)的基本命令和一些基礎(chǔ)編程語(yǔ)言。讓我感受到只有在了解課本知識(shí)的前提下,才能更好的應(yīng)用這個(gè)工具;并且熟練的應(yīng)用MATLAB也可以很好的加深我對(duì)課程的理解,方便我的思維。這次設(shè)計(jì)使我了解了MATLAB的使用方法,學(xué)會(huì)分析濾波器的優(yōu)劣和性能,提高了分析和動(dòng)手實(shí)踐能力。同時(shí)我相信,進(jìn)一步加強(qiáng)對(duì)MATLAB的學(xué)習(xí)與研究對(duì)我今后的學(xué)習(xí)將會(huì)起到很大的幫助。致 謝非常感謝我的導(dǎo)師詹恩奇老師!在詹老師無(wú)微不至的教導(dǎo)下,我才能夠順順利

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論