




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、生物特征認(rèn)證技術(shù)學(xué)院:計(jì)算機(jī)學(xué)院專(zhuān)業(yè):信號(hào)與信息處理班級(jí):13碩信息所班學(xué)號(hào):13120330姓名:李敏說(shuō)話人識(shí)別研究摘要:說(shuō)話人識(shí)別是語(yǔ)音信號(hào)處理中的重要組成部分,是當(dāng)前的研究熱點(diǎn)之一。本文詳細(xì)介紹了說(shuō)話人識(shí)別的基本原理,從特征提取、模型訓(xùn)練和分類(lèi)等幾個(gè)方面近年來(lái)的主要研究情況及進(jìn)行綜述和評(píng)價(jià),并在此基礎(chǔ)上探討其研究難點(diǎn)和發(fā)展前景。關(guān)鍵詞:說(shuō)話人識(shí)別;特征提?。荒P陀?xùn)練;分類(lèi)1.引言 說(shuō)話人識(shí)別作為生物認(rèn)證技術(shù)的一種,是根據(jù)語(yǔ)音波形中反映說(shuō)話人生理和行為特征的語(yǔ)音參數(shù),自動(dòng)鑒別說(shuō)話人身份的一項(xiàng)技術(shù)。為此,需要從各個(gè)說(shuō)話人的發(fā)音中找出人之間的個(gè)性差異,它涉及到說(shuō)話人發(fā)音器官上的個(gè)性差異、發(fā)音通
2、道之間的個(gè)性差異、發(fā)音習(xí)慣之間的個(gè)性差異等不同級(jí)別上的差異。說(shuō)話人識(shí)別是交叉運(yùn)用心理學(xué)、生理學(xué)、語(yǔ)音信號(hào)處理、模式識(shí)別、統(tǒng)計(jì)學(xué)習(xí)理論和人工智能的綜合性研究課題。 說(shuō)話人識(shí)別根據(jù)實(shí)現(xiàn)的任務(wù)不同, 可分為說(shuō)話人辨認(rèn)(Speaker Identification和說(shuō)人確認(rèn)(Speaker Verification)兩種類(lèi)型。說(shuō)話人識(shí)別根據(jù)系統(tǒng)對(duì)待識(shí)別語(yǔ)音內(nèi)容的不同,又分為與文本有關(guān)(text-dependent)和與文本無(wú)關(guān)(text-independent)兩種方式。2.說(shuō)話人識(shí)別的基本理論與前期處理2.1語(yǔ)音產(chǎn)生模型 語(yǔ)音信號(hào)可以看成是激勵(lì)信號(hào)UGn經(jīng)過(guò)一個(gè)線性系統(tǒng)HZ而產(chǎn)生的輸出。其中,聲道模
3、型HZ為離散時(shí)域的聲道傳輸函數(shù),通??梢杂萌珮O點(diǎn)函數(shù)來(lái)近似。不同的說(shuō)話人其聲道形狀是不同的,因此具有不同的聲道模型。HZ的表達(dá)式為:HZ=1AZ=11-i=1paiZi式中p為全極點(diǎn)濾波器的階數(shù),aii=1,2,p為濾波器的系數(shù)。P值越大,則模型的傳輸函數(shù)和實(shí)際聲道的傳輸函數(shù)的吻合程度就越高。當(dāng)然p也不能取得太大,一般情況下p取8到12。2.2 說(shuō)話人識(shí)別基本原理 圖 1 給出了說(shuō)話人識(shí)別系統(tǒng)框圖,和語(yǔ)音識(shí)別系統(tǒng)一樣,建立和應(yīng)用這一系統(tǒng)可以分為兩個(gè)階段,即訓(xùn)練階段和識(shí)別階段。在訓(xùn)練階段,系統(tǒng)的每個(gè)使用者說(shuō)出若干訓(xùn)練語(yǔ)句,系統(tǒng)據(jù)此建立每個(gè)使用者的模板或模型參量參考集。而在識(shí)別階段,待識(shí)別說(shuō)話人語(yǔ)
4、音中導(dǎo)出的參量要與訓(xùn)練中的參考參量或模板加以比較,并且根據(jù)一定的相似性準(zhǔn)則形成判斷。2.3 預(yù)處理通常,輸入的語(yǔ)音信號(hào)都要進(jìn)行預(yù)處理,其過(guò)程的好壞也在一定程度上對(duì)系統(tǒng)的識(shí)別效果產(chǎn)生影響。一般的預(yù)處理過(guò)程為:(1)采樣量化:語(yǔ)音信號(hào)通常以 8kHz或更高的采樣速率數(shù)字化,每個(gè)采樣至少用8比特表示;(2)預(yù)加重:由于語(yǔ)音信號(hào)的平均功率譜受聲門(mén)激勵(lì)和口鼻輻射的影響,在高頻端大約在800Hz以上按6dB/倍頻程跌落,為此要進(jìn)行預(yù)加重。預(yù)加重的目的是將更為有用的高頻部分頻譜進(jìn)行提升,使信號(hào)的頻譜變得平坦,保持在低頻到高頻的整個(gè)頻帶中,能用同樣的信噪比求取頻譜,以便于進(jìn)行頻譜分析或聲道參數(shù)分析。聲音經(jīng)過(guò)
5、8kHz 或更高的采樣速率的采樣后轉(zhuǎn)成數(shù)字語(yǔ)音信號(hào),接著通過(guò)一個(gè)一階高通濾波器來(lái)做預(yù)加重處理以突顯高頻部分。其傳遞函數(shù)為:HZ=1-aZ-1,一般a的值取0.95左右;(3)端點(diǎn)檢測(cè):端點(diǎn)檢測(cè)就是對(duì)輸入語(yǔ)音信號(hào)進(jìn)行判斷,從背景噪音中準(zhǔn)確找出語(yǔ)音的起始點(diǎn)和終止點(diǎn)。有效的端點(diǎn)檢測(cè)不能消除無(wú)聲段的噪音。但可以使處理語(yǔ)音信號(hào)的時(shí)間減到最小。目前的端點(diǎn)檢測(cè)技術(shù)大都是基于語(yǔ)音信號(hào)的時(shí)域特征來(lái)進(jìn)行的,一般常采用兩種時(shí)域特征:短時(shí)能量和短時(shí)過(guò)零率,通過(guò)設(shè)定它們的門(mén)限值進(jìn)行檢測(cè);(4)分幀:由于語(yǔ)音信號(hào)的準(zhǔn)平穩(wěn)特性,使得其只有在短時(shí)段上才可被視為是一個(gè)平穩(wěn)過(guò)程,所以絕大部分的說(shuō)話人識(shí)別系統(tǒng)都是建立在短時(shí)頻譜分析
6、的基礎(chǔ)之上,把一定長(zhǎng)度的語(yǔ)音分為許多幀來(lái)分析。這樣做之后語(yǔ)音信號(hào)可以被認(rèn)為是平穩(wěn)的。系統(tǒng)也就可以使用對(duì)平穩(wěn)過(guò)程的分析方法對(duì)語(yǔ)音信號(hào)進(jìn)行分析。由此可見(jiàn)語(yǔ)音信號(hào)需要被劃分為一個(gè)一個(gè)的短時(shí)段。每一個(gè)時(shí)段稱(chēng)為一幀,每一幀的長(zhǎng)度大概為10-30ms?,F(xiàn)在所使用的分幀方法為了使幀與幀輪之間平滑過(guò)渡并保持其的連貫性,一般采用交疊分段的方法,即每一幀的幀尾與下一幀的幀頭是重疊的。(5)加窗:針對(duì)每一個(gè)音框乘上漢明窗以消除音框兩端的不連續(xù)性,避免分析時(shí)受到前后音框的影響;(6) 最后,將音框通過(guò)低通濾波器,可去除異常高起的噪聲。3.特征提取 經(jīng)過(guò)預(yù)處理后,幾秒鐘的語(yǔ)音就會(huì)產(chǎn)生很大的數(shù)據(jù)量。提取說(shuō)話人特征的過(guò)程,
7、實(shí)際上就是去除原來(lái)語(yǔ)音中的冗余信息,減小數(shù)據(jù)量的過(guò)程。從語(yǔ)音信號(hào)中提取的說(shuō)話人特征參數(shù)應(yīng)滿足以下準(zhǔn)則:對(duì)局外變量(例如說(shuō)話人的健康狀況和情緒,系統(tǒng)的傳輸特性等)不敏感;能夠長(zhǎng)期地保持穩(wěn)定;可以經(jīng)常表現(xiàn)出來(lái);易于對(duì)之進(jìn)行測(cè)量;與其它特征不相關(guān)。根據(jù)參數(shù)的穩(wěn)定性,可把說(shuō)話人特征參數(shù)大致分為兩類(lèi):一類(lèi)是反映說(shuō)話人生理結(jié)構(gòu)的固有特征(例如聲道結(jié)構(gòu)等),這類(lèi)特征主要表現(xiàn)在語(yǔ)音的頻譜結(jié)構(gòu)上,包含了反映聲道共振的頻譜包絡(luò)特征信息和反映聲帶震動(dòng)等音源特性的頻譜細(xì)節(jié)構(gòu)造特征信息,具有代表性的特征參數(shù)有基音和共振鋒。這類(lèi)特征不易被模仿,但容易受健康狀況的影響。另一類(lèi)是反映聲道運(yùn)動(dòng)的動(dòng)態(tài)特征,即發(fā)音方式、發(fā)音習(xí)慣等
8、。主要表現(xiàn)在語(yǔ)音頻譜結(jié)構(gòu)隨時(shí)間的變化上,包含了特征參數(shù)的動(dòng)態(tài)特性,這類(lèi)特征相對(duì)穩(wěn)定卻比較容易模仿,代表性的特征參數(shù)是倒譜系數(shù)。 說(shuō)話人識(shí)別研究中多采用的特征參數(shù)主要有:基音周期、明亮度、過(guò)零率、線性預(yù)測(cè)系數(shù)(Linear Predictive Coefficients,簡(jiǎn)稱(chēng)LPC)、線性預(yù)測(cè)倒譜系數(shù)(Linear Predictive Cepstral Coefficients,簡(jiǎn)稱(chēng) LPCC)、Mel頻率倒譜系數(shù)(Mel-frequency Cepstrum Coefficients,簡(jiǎn)稱(chēng)MFCC)、倒譜特征,等等。3.1 線性預(yù)測(cè)倒譜系數(shù)(LPCC)線性預(yù)測(cè)倒譜系數(shù)是一種比較重要的特征參數(shù)
9、,它比較徹底地去除了語(yǔ)音產(chǎn)生過(guò)程中的激勵(lì)信息,能較好地描述語(yǔ)音信號(hào)的共振峰特性。在實(shí)際計(jì)算中,LPCC 不是由信號(hào)直接得到的,而是由LPC求得。LPCC 倒譜系數(shù)與線性預(yù)測(cè)系數(shù)的關(guān)系為:3.2 Mel 頻率倒譜系數(shù)(MFCC)Mel頻率倒譜系數(shù)(MFCC)的分析與傳統(tǒng)的線性倒譜系數(shù)(LPCC)不同,它的分析是著眼于人耳的聽(tīng)覺(jué)機(jī)理,因?yàn)槿祟?lèi)在對(duì)1000Hz以下的聲音頻率范圍的感知遵循近似的線性關(guān)系;對(duì)1000Hz以上的聲音頻率范圍的感知不遵循線性關(guān)系,而是遵循在對(duì)數(shù)頻率坐標(biāo)上的近似線性關(guān)系,所以Mel 倒譜系數(shù)獲得了較高的識(shí)別率和較好的魯棒性。在實(shí)現(xiàn)上,Mel倒譜系數(shù)是將語(yǔ)音頻率劃分成一系列三角
10、形的濾波器序列,這組濾波器在頻率的Mel坐標(biāo)上是等待寬的。Mel頻率表達(dá)了一種常用的從語(yǔ)音頻率到“感知頻率”的對(duì)應(yīng)關(guān)系,更符合人耳的聽(tīng)覺(jué)特性。其表達(dá)式如下: 求取MFCC的具體過(guò)程如下:(1) 對(duì)已經(jīng)經(jīng)過(guò)預(yù)處理的語(yǔ)音向量分別進(jìn)行離散傅立葉變換(DFT)。(2) 將得到的離散頻譜用序列三角濾波器進(jìn)行濾波處理,得到一組系數(shù)。(3) 利用離散余弦變換(DCT)將濾波器輸出變換到倒譜域。離散余弦變換的公式如下:3.3 其他一些特征3.3.1 基音周期在人的發(fā)音模型中,產(chǎn)生濁音的周期激勵(lì)脈沖的周期稱(chēng)為基音周期(Pitch)。只有濁音才有基音周期,清音沒(méi)有基音周期。基音周期檢測(cè)方法大體上可以分為三大類(lèi):時(shí)
11、域方法、頻域方法和綜合利用信號(hào)的時(shí)域、頻域特性的方法。時(shí)域方法直接利用語(yǔ)音信號(hào)的采樣點(diǎn),計(jì)算信號(hào)的波峰、波谷和過(guò)零率等。其特點(diǎn)是原理簡(jiǎn)單,計(jì)算量小。典型的方法是Gold 和Rabiner 提出的并行處理(PPROC)方法。頻域的方法主要是計(jì)算信號(hào)的自相關(guān)函數(shù)、功率譜和最大似然函數(shù)等,其精度要高于時(shí)域的方法。典型的方法有中央消波自相關(guān)法(AUTOC)、平均幅度差分函數(shù)(AMDF)法和倒譜法(CEP)等。自相關(guān)法的原理是語(yǔ)音的短時(shí)自相關(guān)函數(shù)在基音周期的整數(shù)倍點(diǎn)上有很大的峰值,只要找到最大峰值點(diǎn)的位置,便能估計(jì)出基音周期。3.3.2 倒譜特征圖2 倒譜的計(jì)算過(guò)程語(yǔ)音信號(hào)是激勵(lì)信號(hào)源與聲道響應(yīng)相卷積的
12、結(jié)果,而“倒譜特征”則是利用了對(duì)語(yǔ)音信號(hào)作適當(dāng)?shù)耐瑧B(tài)濾波可以將激勵(lì)信號(hào)與聲道信號(hào)加以分離的原理。一幀語(yǔ)音信號(hào)的倒譜c(n)的計(jì)算過(guò)程如圖2 所示。倒譜中維數(shù)較低的分量對(duì)應(yīng)于語(yǔ)音信號(hào)的聲道分量,倒譜中維數(shù)較高的分量對(duì)應(yīng)于語(yǔ)音信號(hào)的音源激勵(lì)分量。因此,利用語(yǔ)音信號(hào)倒譜可以將它們分離,彼此基本上互不干擾,并可以避免聲道分量受到有隨機(jī)變化的音源激勵(lì)分量的干擾。3.3.3 短時(shí)能量與短時(shí)平均幅度信號(hào)x(n)的短時(shí)能量定義為:w(n)是窗函數(shù),一般用矩形窗或漢明窗。短時(shí)能量代表的是一個(gè)音框的語(yǔ)音信號(hào)的能量,可以反映語(yǔ)音信號(hào)隨時(shí)間的幅度變化。語(yǔ)音信號(hào)的短時(shí)平均幅度定義為:用信號(hào)絕對(duì)值來(lái)代替平方和。3.3.4
13、 短時(shí)平均過(guò)零率信號(hào)x(n)的短時(shí)平均過(guò)零率定義為:它反映了一個(gè)音框語(yǔ)音信號(hào)中的過(guò)零情況,是信號(hào)頻率量的一個(gè)簡(jiǎn)單量度。4.說(shuō)話人模型對(duì)于說(shuō)話人識(shí)別系統(tǒng),特征被提取出來(lái)以后,需要用識(shí)別模型為說(shuō)話人建模,并對(duì)特征進(jìn)行分類(lèi),以確定屬于哪一個(gè)說(shuō)話人。所謂的識(shí)別模型,是指用什么模型來(lái)描述說(shuō)話人的語(yǔ)音特征在特征空間的分布。目前常用的模型大體上可以分為參數(shù)模型,非參數(shù)模型,人工神經(jīng)網(wǎng)絡(luò)模型(Artificial Neural Network,簡(jiǎn)稱(chēng)ANN)以及支撐向量機(jī)(Support Vector Machine,簡(jiǎn)稱(chēng)SVM)。參數(shù)模型是指采用某種特定的概率密度函數(shù)來(lái)描述說(shuō)話人的語(yǔ)音特征在特征空間的分布情況
14、,并以該概率密度函數(shù)的一組參數(shù)來(lái)作為說(shuō)話人的模型。典型的參數(shù)模型包括高斯混合模型(Gaussian Mixture Model,簡(jiǎn)稱(chēng)GMM)和隱馬爾可夫模型(Hidden Markov Model,簡(jiǎn)稱(chēng)HMM)。而非參數(shù)模型是指說(shuō)話人模型是由語(yǔ)音特征經(jīng)過(guò)某種運(yùn)算直接得來(lái)。典型的非參數(shù)模型是模板匹配方法和矢量量化模型(Vector Quantization Model,簡(jiǎn)稱(chēng)VQ)。下面分別簡(jiǎn)要介紹這幾種分類(lèi)模型。4.1 高斯混合模型(GMM)GMM 是M個(gè)成員的高斯概率密度的加權(quán)和,可以用下式表示:這里是D 維隨機(jī)向量;是每個(gè)成員的高斯概率密度函數(shù);是混合權(quán)值。完整的GMM 可表示為:。每個(gè)成員
15、密度函數(shù)是一個(gè)D維變量的高斯分布函數(shù),形式如下: 對(duì)于一個(gè)長(zhǎng)度為T(mén) 的測(cè)試語(yǔ)音時(shí)間序列,它的GMM 似然概率可以寫(xiě)作:識(shí)別時(shí)運(yùn)用貝葉斯定理,在N 個(gè)未知話者的模型中,得到的似然概率最大的模型對(duì)應(yīng)的話者即為識(shí)別結(jié)果:4.2 隱含馬爾可夫模型(HMM)該類(lèi)方法給定隨機(jī)模型,然后通過(guò)計(jì)算產(chǎn)生一個(gè)觀察 (來(lái)自某說(shuō)話人的矢量集中的一個(gè)矢量)的似然概率。隨機(jī)模型為從說(shuō)話人訓(xùn)練話音得到的特征矢量估計(jì)出的概率密度函數(shù)。每個(gè)說(shuō)話人訓(xùn)練出一個(gè)隨機(jī)模型。給定隨機(jī)模型 后,各說(shuō)話人產(chǎn)生觀察 的概率即被確定。當(dāng)獲得由某測(cè)試人產(chǎn)生的觀察集時(shí),則可計(jì)算出各個(gè)隨機(jī)模型產(chǎn)生的概率值 ,表示該測(cè)試語(yǔ)音屬于各已知說(shuō)話人的概率值,從
16、而做出判決。HMM 應(yīng)用到說(shuō)話人識(shí)別系統(tǒng)時(shí)經(jīng)常會(huì)遇到的三大基本問(wèn)題:(1)若有一個(gè)HMM 系統(tǒng),對(duì)于給定的觀察序列O,如何調(diào)整模型 = (, A, B)中的各要素,使概率取最大值;(2)已知一個(gè)HMM 系統(tǒng)的三項(xiàng)特征參數(shù),給定觀察序列O ,如何計(jì)算概率(3)已知一個(gè)HMM系統(tǒng)的三項(xiàng)特征參數(shù),若得到了該系統(tǒng)產(chǎn)生的觀察序列O,如何確定一個(gè)合理的狀態(tài)序列S ,使之能最佳地產(chǎn)生觀察序列O。上面三個(gè)問(wèn)題的解決方案即為著名的HMM 三大基本算法:前向后向算法、Viterbi 算法和Baum-Welch 算法。4.3 模板匹配法模板匹配方法利用語(yǔ)音信號(hào)某些特征的長(zhǎng)時(shí)間均值來(lái)辨認(rèn)說(shuō)話人,這一均值也稱(chēng)為統(tǒng)計(jì)平均
17、。使用模板匹配方法就是對(duì)待識(shí)別語(yǔ)音計(jì)算平均值,并與已經(jīng)儲(chǔ)存的每一說(shuō)話人的訓(xùn)練平均值進(jìn)行比較。對(duì)文本無(wú)關(guān)的說(shuō)話人辨認(rèn),理想的情況是應(yīng)用數(shù)秒或數(shù)分鐘的訓(xùn)練語(yǔ)音,以保證說(shuō)話人的模型是由各種語(yǔ)音的平均特征產(chǎn)生,而不是由某一特殊語(yǔ)音的平均特征產(chǎn)生,待識(shí)別的語(yǔ)音則與訓(xùn)練模板所使用的平均特征間的距離進(jìn)行比較。在模板匹配方法中可使用多種距離尺度,歐式距離和馬式距離是經(jīng)常使用的兩種。使用特征統(tǒng)計(jì)平均的識(shí)別結(jié)果通常是次優(yōu)的,這種方法對(duì)信號(hào)或背景噪聲的變化特別敏感。上述兩種變化可改變說(shuō)話人的特征,導(dǎo)致均值的漂移。4.4 矢量量化模型(VQ)4.4.1 k-means 分群法k-means 分群法屬于分割式分群法的一
18、種,給定預(yù)分的叢聚數(shù)或稱(chēng)為碼本向量數(shù)后反復(fù)修正,盡量減小每個(gè)叢聚中,每一點(diǎn)與叢聚中心的距離平方差。假設(shè)每位說(shuō)話人的特征參數(shù)向量預(yù)用k 個(gè)碼本向量代表,則k-means 算法可概述如下:(1)初始值:任意產(chǎn)生k 個(gè)值當(dāng)作碼本向量;(2)搜尋最近鄰居:對(duì)每一個(gè)特征向量點(diǎn)x,來(lái)找尋與之最接近的群中心,并將x 加入該叢聚;(3)重新計(jì)算各群的碼本向量,更新碼本向量;(4)繼續(xù)重復(fù)(2)和(3)直到每一資料點(diǎn)和碼本向量的平均距離小于一個(gè)門(mén)限值,則最后所得的一組碼本向量即代表一位說(shuō)話人的參考碼本。4.4.2 學(xué)習(xí)向量量化法(LVQ)學(xué)習(xí)向量量化法的訓(xùn)練目的主要是微調(diào)碼本中的碼本向量,來(lái)減少一些分錯(cuò)的向量。
19、其最簡(jiǎn)單學(xué)習(xí)向量量化方法,稱(chēng)之為L(zhǎng)VQ1 算法,訓(xùn)練步驟如下:(1)先使用分群法來(lái)找出每位語(yǔ)者的碼本向量,當(dāng)作初始值;(2)任意地挑選一個(gè)訓(xùn)練向量x ,并知其為語(yǔ)者p 所屬,則將x標(biāo)為x p;接著找出距離向量x最近的碼本向量c,并知其為語(yǔ)者q所屬,將c標(biāo)為cq;(3)若p 和q屬于同一位語(yǔ)者,則將碼本向量cq向的方向拉近,否則,將碼本向量cq向cq的反方向推遠(yuǎn);(4)若已達(dá)到要求,則LVQ1 訓(xùn)練過(guò)程結(jié)束,否則,回到(2)繼續(xù)進(jìn)行微調(diào)碼本向量。4.5 K-近鄰分類(lèi)法(K-NN)假設(shè),目前有一測(cè)試語(yǔ)句,想要在已知的多個(gè)說(shuō)話人中找出究竟是哪一位說(shuō)話人所發(fā)出的聲音,可以采用最簡(jiǎn)單的k-NN 分類(lèi)法,
20、就是令k 為1 的NN 分類(lèi)法。其主要步驟如下:(1)模型訓(xùn)練:首先收集N 位說(shuō)話人的訓(xùn)練語(yǔ)句,接著經(jīng)過(guò)特征參數(shù)提取后,得到許多維度為D 的特征參數(shù)向量,再為每個(gè)特征向量標(biāo)上所屬的說(shuō)話人的代號(hào)標(biāo)簽,此時(shí)每個(gè)訓(xùn)練特征向量均有D1 維,最后將同樣卷標(biāo)的特征向量視為同一群,此即為一位說(shuō)話人模型的參考數(shù)據(jù);(2)分類(lèi)識(shí)別:將一段測(cè)試語(yǔ)句,同樣經(jīng)由特征參數(shù)提取得到一連串維度為D的測(cè)試特征向量,接著任取一個(gè)測(cè)試的特征向量當(dāng)作輸入向量,來(lái)計(jì)算它和所有說(shuō)話人的訓(xùn)練特征向量之間的距離,然后找出兩者之間最小的距離(即最近的鄰居)是屬于哪一個(gè)說(shuō)話人模型的參考數(shù)據(jù)。4.6 神經(jīng)網(wǎng)絡(luò)模型人工神經(jīng)網(wǎng)絡(luò)可在一定程度上模仿人
21、腦的功能,它為說(shuō)話人識(shí)別提供了一個(gè)新的途徑,說(shuō)話人識(shí)別使用過(guò)的神經(jīng)網(wǎng)絡(luò)類(lèi)型較多,前向神經(jīng)網(wǎng)絡(luò)以其結(jié)構(gòu)簡(jiǎn)單、分類(lèi)性能較好在說(shuō)話人識(shí)別中獲得了廣泛的使用。多層前向神經(jīng)網(wǎng)絡(luò)是映射型神經(jīng)網(wǎng)絡(luò),可完成從說(shuō)話人特征空間向說(shuō)話人集合的映射。說(shuō)話人識(shí)別使用的前向神經(jīng)網(wǎng)絡(luò)多為BP 網(wǎng)絡(luò)和RBF 網(wǎng)絡(luò),而基于逐級(jí)判決思想,將單個(gè)神經(jīng)網(wǎng)絡(luò)進(jìn)行組合而成的級(jí)聯(lián)神經(jīng)網(wǎng)絡(luò)也己應(yīng)用于說(shuō)話人識(shí)別。目前,使用神經(jīng)網(wǎng)絡(luò)進(jìn)行說(shuō)話人識(shí)別所面臨的問(wèn)題是,如果使用一個(gè)網(wǎng)絡(luò)作為分類(lèi)器,當(dāng)待識(shí)別的人群( N )改變時(shí),網(wǎng)絡(luò)的結(jié)構(gòu)(至少輸出神經(jīng)元個(gè)數(shù))將隨之改變,需要重新對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。再者,當(dāng)N 增大時(shí),神經(jīng)網(wǎng)絡(luò)的訓(xùn)練時(shí)間以指數(shù)增大,理論上當(dāng)N 無(wú)限增大時(shí),將無(wú)法完成神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。解決這一問(wèn)題的方法是將單個(gè)大網(wǎng)絡(luò)化成許多完成部分功能的子網(wǎng)絡(luò),再將各個(gè)子網(wǎng)絡(luò)進(jìn)行組合來(lái)完成大網(wǎng)絡(luò)的功能。Rudasi L 等人和Kevin R F等人已用BP 網(wǎng)絡(luò)分別嘗試了說(shuō)話人識(shí)別的兩分網(wǎng)絡(luò)方法和神經(jīng)樹(shù)網(wǎng)絡(luò)方法。4.7 支撐向量機(jī)(SVM)支撐向量機(jī)是一
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 培訓(xùn)師師資課件
- 教育中的社會(huì)心理學(xué)促進(jìn)學(xué)生群體的積極互動(dòng)與成長(zhǎng)
- 兒童成長(zhǎng)記錄與教育心理學(xué)的結(jié)合
- 應(yīng)急安全知識(shí)培訓(xùn)課件
- 企業(yè)品牌形象與智慧零售的發(fā)展策略
- 2025年中國(guó)兩輪流動(dòng)垃圾箱數(shù)據(jù)監(jiān)測(cè)研究報(bào)告
- 從教育技術(shù)到用戶體驗(yàn)俯臥式學(xué)習(xí)的未來(lái)趨勢(shì)
- 教育革新之光區(qū)塊鏈在學(xué)歷認(rèn)證的應(yīng)用案例
- 學(xué)校校園電動(dòng)自行車(chē)管理辦法
- 全球鈾礦資源分布與2025年核能產(chǎn)業(yè)節(jié)能減排報(bào)告
- 10kV試驗(yàn)報(bào)告模板-大全
- 2024年九三學(xué)社學(xué)社章社史做合格社員知識(shí)競(jìng)賽題庫(kù)及答案(共80題)
- 注冊(cè)消防工程師2023年繼續(xù)教育石油化工試題(含答案)
- 《尋找快樂(lè)》教案
- 動(dòng)物疫病預(yù)防與控制中心工作總結(jié)
- 低應(yīng)力PECVD氮化硅薄膜的制備
- 重慶商墅市場(chǎng)研究
- GB/T 33855-2017母嬰保健服務(wù)場(chǎng)所通用要求
- 支架植入知情同意書(shū)模板
- 人教版四年級(jí)上冊(cè)語(yǔ)文生字組詞
- 茶文化講座優(yōu)選ppt資料
評(píng)論
0/150
提交評(píng)論