




已閱讀5頁(yè),還剩67頁(yè)未讀, 繼續(xù)免費(fèi)閱讀
【畢業(yè)學(xué)位論文】語(yǔ)音識(shí)別系統(tǒng)噪聲魯棒性算法研究-計(jì)算機(jī)應(yīng)用技術(shù).pdf 免費(fèi)下載
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
分類號(hào) 密級(jí) 公開(kāi) 重慶郵電大學(xué)碩士學(xué)位論文 論文題目 語(yǔ)音識(shí)別系統(tǒng)噪聲魯棒性算法研究 英文題目 士研究生 蒲 甫 安 指導(dǎo)教師 李銀國(guó) 教授 /鄭方 教授 學(xué)科專業(yè) 計(jì)算機(jī)應(yīng)用技術(shù) 論文提交日期 2012 年 4 月 論文答辯日期 2012 年 5 月 論文評(píng)閱人 答辯委員會(huì)主席 2012 年 5 月 重慶郵電大學(xué)碩士論文 摘 要 I 摘 要 近年來(lái),隨著語(yǔ)音識(shí)別技術(shù)不斷地 發(fā)展,語(yǔ)音識(shí)別系統(tǒng)已開(kāi)始從 逐步走向嵌入式平臺(tái)。然而當(dāng)嵌入式語(yǔ)音識(shí)別系統(tǒng)應(yīng)用到真實(shí) 的操作環(huán)境中時(shí),由于訓(xùn)練環(huán)境和識(shí)別環(huán)境 的 不匹配, 導(dǎo)致其識(shí)別 性能大大的下降。本文 的 重點(diǎn)是針對(duì)這些問(wèn)題,對(duì)語(yǔ)音識(shí)別系統(tǒng)噪聲魯棒性算法展開(kāi)研究 。 論文的 主要工作有如下幾個(gè)方面: 第一, 構(gòu)建了一個(gè) 非特定人語(yǔ)音識(shí)別 的仿真 系統(tǒng), 系統(tǒng)采用 一個(gè) 簡(jiǎn)化的 連續(xù)隱馬爾科夫 模型,即 非線性分段與高斯 混合模型( 。該系統(tǒng) 將用于噪聲魯棒 算法 的 研究與測(cè)試 。 隨后以該系統(tǒng)為基礎(chǔ),進(jìn)行了 譜減法( 維納濾波( 語(yǔ)音增強(qiáng)實(shí)驗(yàn) 。實(shí)驗(yàn) 結(jié)果 表明,在低信噪比情況 下 ,兩種 語(yǔ)音 增強(qiáng) 算法都使 系統(tǒng) 對(duì)噪聲 的 魯棒性得到提升 。 第二,提出了求取 倒譜 均值 方差 歸一( 參數(shù)的遞推算法。 該 遞推算法能在線性時(shí)間復(fù) 雜度內(nèi)計(jì)算出 均值和方差,使得 數(shù)的平均 計(jì)算速度得到顯著提升。 第三 , 在 法基礎(chǔ)上, 提出了基于統(tǒng)計(jì)閾值的 法 不僅能 濾除 特征空間的 高頻 噪聲 ,而且 進(jìn)一步減小訓(xùn)練 環(huán)境 和 識(shí)別 環(huán)境的不匹配 。實(shí)驗(yàn)表明,在信噪比較低情況下 , 要優(yōu)于 比,相對(duì)提升率最高達(dá)到 而 比,相對(duì)提升率最高達(dá)到 第四 ,提出 了語(yǔ)音 增強(qiáng)與特征變換 的兩種 融合 算法。算法一 : 只將增強(qiáng)后的語(yǔ)音應(yīng)用于 特征提取 使用原始帶噪語(yǔ)音;算法二 : 將增強(qiáng)后的語(yǔ)音 既用于 用于特征提取。實(shí)驗(yàn)表明, 兩種融合算法 的識(shí)別結(jié)果 整體上都要好于 文中未融合 噪聲魯棒算法的 識(shí)別結(jié)果 。就這兩種融合算法相比較而言,在較低信噪比( 5況下 ,算法一 的識(shí)別率高于算法二;在較高信噪比( 10,算法二的識(shí)別率高于算法一。 關(guān)鍵詞: 噪聲 魯棒性 , 語(yǔ)音識(shí)別 , 嵌入式 , 語(yǔ)音增強(qiáng) , 特征變換 重慶郵電大學(xué)碩士論文 I n of in in to a a in of In of of as is a be of on of at a is to of to is in a is in in NR a a of is in to of is is or is 慶郵電大學(xué)碩士論文 is is AD in of as is at in is . 重慶郵電大學(xué)碩士論文 目 錄 錄 摘 要 I 1 章 緒論 1 音識(shí)別技術(shù)研究現(xiàn)狀 1 音識(shí)別系統(tǒng)的分類 2 音識(shí)別技術(shù)基本問(wèn)題 2 入式語(yǔ)音識(shí)別技術(shù) 3 究意義與難點(diǎn) 3 究現(xiàn)狀 4 音識(shí)別的噪聲魯棒技術(shù) 4 聲對(duì)語(yǔ)音識(shí)別性能的影響 4 聲魯棒語(yǔ)音識(shí)別技術(shù)綜述 5 文研究思路和結(jié)構(gòu)安排 6 第 2 章 語(yǔ)音識(shí)別技術(shù)與噪聲魯棒性技術(shù) 8 音識(shí)別技術(shù) 8 音識(shí)別基本框架 8 音的收集和預(yù)處理 9 點(diǎn)檢測(cè) 14 學(xué)特征選取 18 學(xué)特征的高斯混合建模 22 于嵌入式平臺(tái)的非線性分段與高斯混合建模 25 聲魯棒語(yǔ)音識(shí)別技術(shù) 27 學(xué)環(huán)境中的噪聲和信噪比 27 音增強(qiáng)技術(shù) 28 征空間噪聲魯棒技術(shù) 34 結(jié) 38 第 3 章 噪聲魯棒語(yǔ)音識(shí)別仿真系統(tǒng)搭建 39 驗(yàn)數(shù)據(jù)準(zhǔn)備 39 音數(shù)據(jù)庫(kù) 39 聲數(shù)據(jù)庫(kù) 39 驗(yàn)仿真系統(tǒng)搭建 39 重慶郵電大學(xué)碩士論文 目 錄 V 統(tǒng)參數(shù)配置模塊 40 據(jù)讀入模塊 41 端處理模塊 42 型訓(xùn)練 43 聲魯棒性測(cè)試模塊 44 音增強(qiáng)的噪聲魯棒性實(shí)驗(yàn) 44 統(tǒng)參數(shù)設(shè)置 44 驗(yàn)結(jié)果與分析 45 結(jié) 46 第 4 章 快速特征變換算法和基于統(tǒng)計(jì)閾值的 47 塊倒譜特征變換遞推算法 47 推算法原理 47 推算法分析和實(shí)驗(yàn)比較 48 于統(tǒng)計(jì)閾值的 49 計(jì)閾值方法的基本原理 49 值的確定 51 征變換實(shí)驗(yàn)結(jié)果和分析 52 結(jié) 53 第 5 章 多種噪聲魯棒性算法的融合 54 音增強(qiáng)與特征變換的兩種融合算法 54 驗(yàn)結(jié)果和分析 55 結(jié) 57 第 6 章 總結(jié)與展望 58 作總結(jié) 58 來(lái)展望 59 致 謝 60 碩士期間從事的科研工作 61 參考文獻(xiàn) 62 重慶郵電大學(xué)碩士論文 第 1 章 緒論 1 第 1章 緒論 從人類史前文明到如今的數(shù)字媒體時(shí)代,語(yǔ)音交流已成為人類社會(huì)形成和信息交流的主導(dǎo)模式。語(yǔ)音不僅 是語(yǔ)言聲音的表現(xiàn)形式,而且還是人類特有的自然屬性之一。在人類眾多的交流溝通方式中,語(yǔ)音毫無(wú)疑問(wèn)是最自然、最有效、最直接的。沒(méi)有語(yǔ)音的溝通,信息交流就受到阻礙;信息不能得到流暢的交流,人類社會(huì)的形成和發(fā)展也就無(wú)從談起。 當(dāng)人類進(jìn)入瞬息萬(wàn)變的信息時(shí)代時(shí),計(jì)算機(jī)已經(jīng)成為我們生活中必不可少的一部分。 隨著計(jì)算機(jī)技術(shù)的發(fā)展,人們不再 滿足于讓計(jì)算機(jī)繼續(xù)做一些簡(jiǎn)單的計(jì)算,而是向它提出了更高的要求 向智能化方向發(fā)展。人們更加期待讓機(jī)器明白自己在說(shuō)什么,更加期待人機(jī)之間能夠進(jìn)行更自然的交流。在這種情況下,如何讓計(jì)算機(jī)聽(tīng)懂人類 的語(yǔ)言,讓人機(jī)之間的交流更加自然,便成為當(dāng)今研究的熱門領(lǐng)域。語(yǔ)音識(shí)別就是這樣一種技術(shù),在任何情況下,機(jī)器通過(guò)識(shí)別和理解過(guò)程,把人類的語(yǔ)音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令,其最終目標(biāo)是實(shí)現(xiàn)人與機(jī)器進(jìn)行自然的語(yǔ)言通信。語(yǔ)音識(shí)別是一門交叉學(xué)科,它所涉及的領(lǐng)域包括信號(hào)處理、模式識(shí)別、概率論和信息論、發(fā)聲機(jī)理和聽(tīng)覺(jué)機(jī)理、人工智能等。 本章首先介紹本文相關(guān)研究的背景和現(xiàn)狀,最后是本文內(nèi)容結(jié)構(gòu)的安排。 音識(shí)別 技術(shù) 研究現(xiàn)狀 語(yǔ)音是語(yǔ)言信息的載體。語(yǔ)音識(shí)別最基本的任務(wù)是將輸入的語(yǔ)音信號(hào)轉(zhuǎn)化為相應(yīng)的語(yǔ)言符號(hào)。這不僅使得存儲(chǔ)或傳輸語(yǔ) 言符號(hào)的數(shù)碼率比存儲(chǔ)或傳輸原始語(yǔ)音信號(hào)的數(shù)碼率大大的降低,而且還將連續(xù)多變的語(yǔ)音數(shù)字信號(hào)轉(zhuǎn)變成一種有限的符號(hào)。這樣得到的有限符號(hào)很容易被計(jì)算機(jī)識(shí)別處理,并理解其含義便于與人進(jìn)行交流,因而語(yǔ)音識(shí)別技術(shù)得到廣泛的研究 1 語(yǔ)音信號(hào)中包含了許多有意義的信息,主要包括以下幾個(gè)方面: 1. 音韻信息,即同一發(fā)音的共性特征; 2. 音律信息,即有關(guān)個(gè)人特征的信息,如音強(qiáng)、節(jié)奏、音高等; 3. 語(yǔ)言信息,即說(shuō)話人使用何種語(yǔ)言,如英語(yǔ)、漢語(yǔ)等; 4. 方言信息,對(duì)于一種語(yǔ)言可能有若干種不同的方 言(也稱口音),如四川話,普通話、粵語(yǔ)等; 5. 情感信息,即語(yǔ)音中帶有說(shuō)話人的情緒。 從廣義上來(lái)說(shuō),語(yǔ)音識(shí)別也包括了說(shuō)話人識(shí)別 67、方言識(shí)別 8、語(yǔ)言識(shí)別、重慶郵電大學(xué)碩士論文 第 1 章 緒論 2 情感識(shí)別等,但在本文中主要研究的是有意義、有內(nèi)容的識(shí)別,即音韻信息的識(shí)別。 音識(shí)別系統(tǒng)的分類 根據(jù)識(shí)別 對(duì)象不同,語(yǔ)音識(shí)別 的基本 任務(wù)大體可分為 3 類 9,即孤立詞識(shí)別( 關(guān)鍵詞檢出( 連續(xù)語(yǔ)音識(shí)別( 其中,孤立詞識(shí)別的識(shí)別單元為字、詞或短語(yǔ),如“開(kāi)機(jī)”、“關(guān)機(jī)”等,由 它們組成識(shí)別的詞匯表 ,對(duì)他們中的每一個(gè)通過(guò)訓(xùn)練建立標(biāo)準(zhǔn)模板或模型;連續(xù)語(yǔ)音識(shí)別的任務(wù)則是識(shí)別任意的連續(xù)語(yǔ)音,如一個(gè)句子或一段話;關(guān)鍵字檢出的輸入也是連續(xù)語(yǔ)音流,但它并不識(shí)別全部文字,而只是檢測(cè)已知的若干關(guān)鍵詞是否在句子中出現(xiàn)以及在何處出現(xiàn),如在一段話中檢測(cè)“計(jì)算機(jī)”、“世界”這兩個(gè)詞。 根據(jù)針對(duì)的發(fā)音人,可以把語(yǔ)音識(shí)別技術(shù)分為特定人語(yǔ)音識(shí)別( 非特定人( 音 識(shí)別。特定人語(yǔ)音識(shí)別的標(biāo)準(zhǔn)模型或模板只是用于某一個(gè)人,實(shí)際上,該模型就是該人通過(guò)詞匯表中的每個(gè)字、詞或短語(yǔ)的語(yǔ)音建立起來(lái)的。當(dāng)其他人也需要使用時(shí),需要建立自己相應(yīng)的標(biāo)準(zhǔn)模型。而對(duì)于非特定人的語(yǔ)音識(shí)別,其模型適用于指定的某一范疇的說(shuō)話人(如說(shuō)標(biāo)準(zhǔn)普通話),其模型是由該范疇的多個(gè)人通過(guò)訓(xùn)練他們的語(yǔ)音而得到的,識(shí)別時(shí)可以供參加訓(xùn)練的發(fā)音人(集內(nèi))使用,也可以是未參加訓(xùn)練的卻在同一范疇的發(fā)音人(集外)使用。顯然,非特定人語(yǔ)音識(shí)別系統(tǒng)更符合實(shí)際需要,但它要比針對(duì)特定人的識(shí)別困難得多。 另外,根據(jù)語(yǔ)音設(shè)備和通道,可以分 為桌面語(yǔ)音識(shí)別、電話語(yǔ)音識(shí)別和嵌入式設(shè)備 (手機(jī)、 )語(yǔ)音識(shí)別。不同的采集通道會(huì)使人的發(fā)音的聲學(xué)特性發(fā)生變形,因此需要構(gòu)造各自的識(shí)別系統(tǒng)。 音識(shí)別 技術(shù) 基本問(wèn)題 盡管語(yǔ)音識(shí)別的研究工作迄今已近 60 年,但仍未有突破性進(jìn)展,主要原因如下 10: 1. 語(yǔ)音識(shí)別系統(tǒng)的適應(yīng)性差。一方面全世界有近百種官方語(yǔ)言,每種語(yǔ)言有多達(dá)幾十種方言,同種語(yǔ)言的不同方言在語(yǔ)音上相差懸殊,這樣,隨著語(yǔ)言環(huán)境的改變,系統(tǒng)性能會(huì)變得很差。另一方面不同的說(shuō)話人或說(shuō)話的方式不同也會(huì)造成影響,如朗讀式發(fā)音、隨意發(fā)音和說(shuō)話語(yǔ)速會(huì)對(duì)識(shí)別模型的結(jié) 果造成影響。 2. 應(yīng)用環(huán)境、采集設(shè)備和傳輸信道的不同。由于語(yǔ)音數(shù)據(jù)大部分都是在接重慶郵電大學(xué)碩士論文 第 1 章 緒論 3 近理想的條件下采集的,語(yǔ)音識(shí)別的編碼方案在研制時(shí)都要在高保真設(shè)備上錄制語(yǔ)音,尤其要在無(wú)噪環(huán)境下錄音。然而,由這些語(yǔ)音經(jīng)訓(xùn)練得到的聲學(xué)模型,在走向?qū)嶋H應(yīng)用環(huán)境時(shí),由于 環(huán)境噪聲的存在所帶來(lái)的問(wèn)題就變得越來(lái)越重要 。該問(wèn)題是本文研究的重點(diǎn)。 3. 語(yǔ)音信號(hào)和自然語(yǔ)言的多變性和復(fù)雜性。聯(lián)系語(yǔ)音詞與詞之間停頓不明顯,使得詞與詞之間的分割比較困難,同時(shí)每一個(gè)基本的聲學(xué)識(shí)別基元(如音素)受前后音素發(fā)音方式的影響(也稱為協(xié)同發(fā)音),使特征變得非 常不穩(wěn)定。對(duì)于不同人、不同生理和心理特征在不同說(shuō)話環(huán)境下說(shuō)同一詞時(shí),聲學(xué)特征也會(huì)發(fā)生變化。自然語(yǔ)言的多變性難以用一些基本語(yǔ)法規(guī)則進(jìn)行描述,因而增加了計(jì)算機(jī)編程的困難。 4. 體態(tài)語(yǔ)言難以識(shí)別。有人在講話時(shí)習(xí)慣用眼神、手勢(shì)、面部表情等動(dòng)作協(xié)助表達(dá)自己的思想。由于這種體態(tài)語(yǔ)言的含義與個(gè)人習(xí)慣、文化背景、宗教信仰及生存地域等因素有關(guān),其信息提取非常困難。 5. 對(duì)于人類由中樞神經(jīng)控制的記憶機(jī)理、聽(tīng)覺(jué)理解機(jī)理、聯(lián)想判斷機(jī)理等,人們目前仍知之甚少。 入式語(yǔ)音識(shí)別技術(shù) 究 意義與難點(diǎn) 語(yǔ)音識(shí)別技術(shù)發(fā)展到現(xiàn)在,主要有兩 個(gè)大的運(yùn)用方向。其中一個(gè)方向是大詞匯量連續(xù)語(yǔ)音識(shí)別系統(tǒng),主要應(yīng)用于計(jì)算機(jī)聽(tīng)寫機(jī)、電話網(wǎng)或者 結(jié)合的語(yǔ)音查詢信息服務(wù)系統(tǒng),這些系統(tǒng)都是在 平臺(tái)上實(shí)現(xiàn)。另外一個(gè)方向是小型化、便攜式、移動(dòng)化 和 終端化 的智能設(shè)備 1112,即嵌入式平臺(tái)上的語(yǔ)音產(chǎn)品,如智能手機(jī)上的語(yǔ)音撥號(hào)、汽車設(shè)備的語(yǔ)音控制、智能玩具、家電聲控設(shè)備等,這些應(yīng)用系統(tǒng)大部分都使用專門的硬件系統(tǒng)實(shí)現(xiàn)。 隨著科學(xué)技術(shù)不斷的發(fā)展,移動(dòng)信息時(shí)代、嵌入式時(shí)代的來(lái)臨,人類越來(lái)越需要和這些智能設(shè)備進(jìn)行交互,盡管交互的方式多種多樣,但毫無(wú)疑問(wèn)的是使 用自然語(yǔ)言顯然最為便捷。在這個(gè)背景下,語(yǔ)音識(shí)別系統(tǒng)開(kāi)始從普通 臺(tái)走向智能設(shè)備、嵌入式平臺(tái)等。 然而由于語(yǔ)音識(shí)別算法的復(fù)雜性、龐大的詞匯庫(kù)、應(yīng)用環(huán)境以及嵌入式平臺(tái)的各種受限資源都制約了嵌入式語(yǔ)音識(shí)別技術(shù)的發(fā)展。因此如何構(gòu)建出體積小,耗電省,價(jià)格低,便攜性好,可支持移動(dòng)作業(yè)并能適應(yīng)各種復(fù)雜環(huán)境的嵌入式語(yǔ)音識(shí)別系統(tǒng)成為當(dāng)前的一大研究熱點(diǎn)。 重慶郵電大學(xué)碩士論文 第 1 章 緒論 4 究現(xiàn)狀 由于資源的限制, 在當(dāng)前的嵌入式語(yǔ)音識(shí)別系統(tǒng)多為中、小詞匯量的語(yǔ)音識(shí)別系統(tǒng),即只能識(shí)別 10 至 100 個(gè)詞條 1314。而且該系統(tǒng)一般僅局限于特定人語(yǔ)音識(shí)別的實(shí)現(xiàn),即 需要讓使用者對(duì)所識(shí)別的詞條先進(jìn)行學(xué)習(xí)和訓(xùn)練,這一類識(shí)別系統(tǒng)對(duì)詞條、語(yǔ)種以及方言沒(méi)有什么限制。 由此芯片組成一個(gè)完整的語(yǔ)音識(shí)別系統(tǒng)。因此,除了語(yǔ)音識(shí)別功能以外,為了有一個(gè)好的人機(jī)界面和識(shí)別正確與否的驗(yàn)證,該系統(tǒng)還必須具備語(yǔ)音提示(語(yǔ)音合成)及語(yǔ)音回放(語(yǔ)音編解碼記錄)功能 。 多為實(shí)時(shí)系統(tǒng),即當(dāng)用戶說(shuō)完待識(shí)別的詞條后,系統(tǒng)立即完成識(shí)別功能并有所回應(yīng),這就對(duì)電路的運(yùn)算速度有較高的要求。除了要求有盡可能好的識(shí)別性能外,還要求體積盡可能小、可靠性高、耗電省、價(jià)錢低等特點(diǎn)。 音識(shí)別 的 噪聲魯棒 技術(shù) 在早期的語(yǔ)音識(shí)別研究中, 大多數(shù)情況下標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)都是在相對(duì)安靜的環(huán)境錄制的,這樣訓(xùn)練得到的系統(tǒng),雖然在相同環(huán)境下可以獲得很高的識(shí)別率,但是如果在實(shí)際帶有噪聲的環(huán)境下測(cè)試,其性能往往會(huì)變得非常差,主要原因就是帶噪語(yǔ)音特征分布和聲學(xué)模型分布之間的差異所導(dǎo)致 15。 語(yǔ)音識(shí)別系統(tǒng)的噪聲魯棒性以噪聲 為研究 對(duì)象, 主要目的是減少 由噪聲造成的 訓(xùn)練環(huán)境和 實(shí)際 應(yīng)用環(huán)境的不匹配 ,這里的噪聲包括背景噪聲和信道噪聲 。由于語(yǔ)音信號(hào)和實(shí)際噪聲這兩者在統(tǒng)計(jì)上都是極其復(fù)雜的,所以噪聲魯棒性至今也沒(méi)有完美的解決方案,但是在某些受限環(huán)境下,我們可以有針對(duì)性的加以解決。 聲對(duì)語(yǔ)音識(shí)別性能的影響 大量實(shí)驗(yàn)表明 16在大多數(shù)現(xiàn)有非特定人的語(yǔ)音識(shí)別系統(tǒng)中,當(dāng)訓(xùn)練使用的麥克風(fēng)與識(shí)別使用的不相同時(shí),識(shí)別性能都會(huì)嚴(yán)重下降。而對(duì)于汽車、街道、餐館、商場(chǎng)、飛機(jī)、人群等環(huán)境中的語(yǔ)音來(lái)說(shuō),現(xiàn)有識(shí)別系統(tǒng)的魯棒性變得更差。 在基于統(tǒng)計(jì)模型的語(yǔ)音識(shí)別系統(tǒng)中,訓(xùn)練數(shù)據(jù)必須要具有充分的代表性。但當(dāng)識(shí)別系統(tǒng)應(yīng)用于噪聲環(huán)境時(shí),純凈的訓(xùn)練數(shù)據(jù)與真實(shí)環(huán)境中被噪聲污染的測(cè)試數(shù)據(jù)存在著不匹配,正是這種不匹配使得識(shí)別系統(tǒng)在噪聲環(huán)境下的性能大大的下降。 由噪聲造成的訓(xùn)練和測(cè)試的不匹配可以從信號(hào) 空間、特征空間和模型空間三個(gè)層次來(lái)分析。 重慶郵電大學(xué)碩士論文 第 1 章 緒論 5 聲魯棒 語(yǔ)音識(shí)別技術(shù)綜述 噪聲環(huán)境下的語(yǔ)音識(shí)別一直是一個(gè)研究熱點(diǎn), 也稱作 噪聲魯棒 語(yǔ)音識(shí)別 技術(shù)。到目前為止,噪聲魯棒 技術(shù) 層出不窮 ,主要圍繞信號(hào)空間、特征空間和模型空間三個(gè)方面。 1. 信號(hào)空間的 噪聲魯棒 技術(shù) 信號(hào)空間的 噪聲魯棒 技術(shù) 主要關(guān)注于對(duì)原始語(yǔ)音信號(hào)的處理,主要包括端點(diǎn)檢測(cè)和語(yǔ)音增強(qiáng)兩方面。 端點(diǎn)檢測(cè) (稱語(yǔ)音激活檢測(cè) (其主要目的是從麥克風(fēng)采集的數(shù)字信號(hào)中區(qū)分出語(yǔ)音 信號(hào)與非語(yǔ)音信號(hào),這有利于減少非語(yǔ)音信號(hào)對(duì)語(yǔ)音識(shí)別系統(tǒng)的干擾,從而減少識(shí)別時(shí)間和 提升 識(shí)別性能。傳統(tǒng)的端點(diǎn)檢測(cè)方法有基于能量的和基于過(guò)零率的 20,但這些方法在較大的噪聲環(huán)境中,其性能開(kāi)始惡化,不能很好的區(qū)分語(yǔ)音和噪聲,特別是有些清音和噪聲的特點(diǎn)相似,根本檢測(cè)不出來(lái)。之后在基于傳統(tǒng)的方法基礎(chǔ)上,根據(jù)不同的應(yīng)用需求又提出了許多新的方法 21, 包括基于基頻 22、對(duì)數(shù)能量等。這些方法將在本文的第二章進(jìn)行簡(jiǎn)單介紹。 語(yǔ)音增強(qiáng)的目的是 盡可能地 從帶噪的語(yǔ)音信號(hào)中提取出原始的純凈語(yǔ)音信號(hào)。由于不同的噪聲具有不同的特性,所 以不存 在一種可以通用于各種背景噪聲環(huán)境的語(yǔ)音增強(qiáng)算法?;诙虝r(shí)譜估計(jì) 方法是語(yǔ)音增強(qiáng)最常用的一種方法,主要包括譜減法 2324、維納濾波等。需要注意的是語(yǔ)音增強(qiáng)算法在去除噪聲的同時(shí),會(huì)殘留下一些非常刺耳的音樂(lè)噪聲,從而造成原始語(yǔ)音信號(hào)失真。為了 抑制 音樂(lè)噪聲 對(duì)語(yǔ)音信號(hào) 的影響,一些文獻(xiàn)提出了時(shí)域和頻域的平滑方法 25 2. 特征參數(shù)空間 的噪聲魯棒 技術(shù) 特征參數(shù)空間 噪聲魯棒 技術(shù)的主要目的是在聲學(xué)特征層減小訓(xùn)練和測(cè)試的不匹配所帶來(lái)的影響,包括魯棒性特征提取,特征歸一化等。 魯棒性特征提取主要是研究人類語(yǔ)音 具有 的 特性,試圖選擇對(duì)噪聲不敏感的特征參數(shù)。這種方法的優(yōu)點(diǎn)是 假設(shè)噪聲的影響很小 ,并且利用了人的生理特性和聽(tīng)覺(jué)特性,所以適用于大部分噪聲環(huán)境;缺點(diǎn)是沒(méi)有充分地利用特定噪聲的性質(zhì)。這種方法包括基于人耳聽(tīng)覺(jué)特性的魯棒性特征選擇方法,如 2829和0;基于人類聲道特性的魯棒性特征選擇方法,如 特征歸一化方法也稱特征規(guī)整、特征后處理等,是指在提取聲學(xué)特征后,通過(guò)對(duì)特征的歸一化 處理或者進(jìn)行某種變換,將特征從一個(gè)空間變換到另一個(gè)空間 , 這個(gè)過(guò)程不需要太多的聲學(xué)知識(shí) 。 特征參數(shù)歸一化的主要 作用有 : 變換后的特征參數(shù)更加符合某種 概率 分布 、 壓縮 了 特征參數(shù) 值域 的動(dòng)態(tài)范圍 、減少了訓(xùn)練重慶郵電大學(xué)碩士論文 第 1 章 緒論 6 和測(cè)試環(huán)境的不匹配 等 。常用的特征歸一化方法 3132有倒譜均值減 ( 倒譜特征均值方差歸一 (。 其中 簡(jiǎn)單有效地降低了卷積噪聲的影響;承了 特點(diǎn),不僅對(duì)卷積噪聲有很好的效果,而且還能提升其對(duì)加性噪聲的魯棒性。特征參數(shù)歸一化方法原理簡(jiǎn)單、計(jì)算量小,非常適用 于計(jì)算資源受限的系統(tǒng)。 3. 模型空間 的噪聲魯棒 技術(shù) 模型空間 的噪聲魯棒 技術(shù) 主要方法是通過(guò)調(diào)整已經(jīng)訓(xùn)練好的 模型參數(shù)來(lái) 減小聲學(xué)環(huán)境的不匹配 ,它包括 模型補(bǔ)償和 模型 自適應(yīng)技術(shù) 。 模型補(bǔ)償是直接在識(shí)別模型中增加對(duì)環(huán)境噪音的處理。最具代表性的方法是平行模型合并 (33。 自適應(yīng)技術(shù)的 任務(wù) 是讓純凈 語(yǔ)音 的 模型參 數(shù)在不同的環(huán)境下具有一定的自適應(yīng)能力,即能 根據(jù)當(dāng)前 環(huán)境中 的噪聲情況自動(dòng)更新模型參數(shù),以提高系統(tǒng)在該噪聲環(huán)境下的識(shí)別性能 。主要方法有雅克比自適應(yīng)技術(shù) (34和最大似然線性回歸技術(shù) (35等。 盡管這三種方法都各具有各自的優(yōu)點(diǎn),但它們也有各自的不足。 信號(hào)空間級(jí)噪聲魯棒技術(shù) 的主要缺點(diǎn)有: (1). 清輔音和寬帶噪聲 很難區(qū)分 且清輔音的相對(duì)失真比濁輔音和元音要大 ,一方面是因?yàn)榍遢o音的能量較??;另一方面是因?yàn)榍遢o音和寬帶噪聲在頻譜上具有非常大的相似性,使得兩者不容易區(qū)分。 (2). 信號(hào)級(jí)方法在去噪后會(huì)殘留下一些音樂(lè)噪音,當(dāng)信噪比越大時(shí)該現(xiàn)象就越明顯 ,從而造成語(yǔ)音再度的失真 ,因此許多系統(tǒng)僅采用增強(qiáng)后的語(yǔ)音作端點(diǎn)檢測(cè),特征提取選擇原始帶噪語(yǔ)音 或未經(jīng)處理的語(yǔ)音 ( 。 特征參數(shù)級(jí) 噪聲魯棒技術(shù) 的缺點(diǎn) 主要有 : (1). 對(duì)于魯棒性特征參數(shù)提取而言,目前的方法都是從現(xiàn)象入手,語(yǔ)音的本質(zhì)特征并沒(méi)有完全體現(xiàn)出來(lái) ,如 (2). 絕大部分噪聲都是非平穩(wěn)噪聲,因此其 時(shí)變性很強(qiáng) ,使得噪聲的特性很難得到運(yùn)用。 (3). 對(duì)特征參數(shù)變換法而言,由于目前常用的特征參數(shù)與人的聽(tīng)覺(jué)機(jī)理沒(méi)有密切關(guān)系,聽(tīng)覺(jué)上失真小并不能保證識(shí)別效果 好。 模型級(jí)噪聲魯棒技術(shù) 的缺點(diǎn) 主要是所使用的自適應(yīng)處理僅針對(duì)噪聲 模型的自適應(yīng),而不應(yīng)該對(duì)其它非噪音的語(yǔ)音基元模型使用 。 而且這種方法計(jì)算量較大,對(duì)計(jì)算機(jī)的處理性能有所要求 ,不適用于快速改變的環(huán)境 。 文研究思路和結(jié)構(gòu)安排 本文研究的 對(duì)象是 噪聲魯棒 語(yǔ)音識(shí)別技術(shù), 主要目的是減少 噪聲 或噪聲處理對(duì)語(yǔ)音識(shí)別系統(tǒng) 的性能影響, 最終目標(biāo)是 能 將這些技術(shù)運(yùn)用 到 嵌入式語(yǔ)音識(shí) 別系重慶郵電大學(xué)碩士論文 第 1 章 緒論 7 統(tǒng)中 。 首先 , 研究 了目前常用的噪聲魯棒性算法,并通過(guò)對(duì)比各種算法 在不同噪聲環(huán)境下的準(zhǔn)確率 和識(shí)別效率。綜合各種算法的優(yōu)缺點(diǎn),選擇出既能適用于資源受到限制的 嵌入 式平臺(tái) ,又能滿足在噪聲環(huán)境下具有較好 魯棒性的 算法 。 其次, 在提升識(shí)別效率方面,主要的考慮是對(duì)算法進(jìn)行 優(yōu)化,利用算法自身具有的特性,并根據(jù)嵌入式系統(tǒng)的具體運(yùn)用對(duì)某些需要運(yùn)算得到的參數(shù)采用查表法代替;采用參數(shù)較少的連續(xù)統(tǒng)計(jì)模型替代離散的模型;利用算法中已經(jīng)計(jì)算的結(jié)果來(lái)遞推新的計(jì)算,從而優(yōu)化算法結(jié)構(gòu);采用靜態(tài)內(nèi)存分配,盡管這種方法降低了內(nèi)存利用率,但卻減少了動(dòng)態(tài)內(nèi)存分配時(shí)所帶來(lái)的時(shí)間開(kāi)銷 以及內(nèi)存碎片等問(wèn)題 。 本論文主要內(nèi)容安排如下: 第 1 章為緒論,首先對(duì)語(yǔ)音識(shí)別 技術(shù)、噪聲環(huán)境下的語(yǔ)音識(shí)別技術(shù)和嵌入式語(yǔ)音識(shí)別 的研 究 背景、相關(guān)概念以及研究 現(xiàn)狀 進(jìn)行 綜述。明確了 語(yǔ)音識(shí)別 系統(tǒng)噪聲魯棒性 研究 的背景 和 意義 ,并指出了它們?cè)?嵌入式 平臺(tái)上的運(yùn)用前景 ,簡(jiǎn)要描述了 現(xiàn)有的 工作和存在的 挑戰(zhàn),最后介紹了論文的主要工作。 第 2 章 介紹了 語(yǔ)音識(shí)別 技術(shù)和 噪聲魯棒 技術(shù)的一些常用基本 技術(shù) ,語(yǔ)音識(shí)別技術(shù) 包括語(yǔ)音識(shí)別的基本框架、語(yǔ)音信號(hào)的特點(diǎn)、端點(diǎn)檢測(cè)技術(shù)、特征選擇技術(shù)、聲學(xué)特征建模 等 。其中著重介紹了高斯混合模型和非線性分段技術(shù), 因?yàn)樗鼈冎饕槍?duì)嵌入式語(yǔ)音識(shí)別 。 噪聲魯棒性技術(shù)包括語(yǔ)音增強(qiáng)和特征變換。 第 3 章 構(gòu)建了一個(gè)基于 語(yǔ)音識(shí)別系統(tǒng), 該系統(tǒng)具有系 統(tǒng)參數(shù)配置、數(shù)據(jù)讀入、前端處理、模型訓(xùn)練以及 噪聲魯棒 算法 測(cè)試等功能。 該系統(tǒng)有助于指導(dǎo) 嵌入式語(yǔ)音識(shí)別系統(tǒng)的實(shí)現(xiàn),并方便 計(jì)算量 較大的噪聲魯棒性算法測(cè)試。在 本章中還包括前期的 語(yǔ)音數(shù)據(jù)和噪聲數(shù)據(jù)的準(zhǔn)備 。最后,給出了 語(yǔ)音增強(qiáng)算法的實(shí)驗(yàn) 結(jié)果與分析 。 第 4 章中首先 提出了快速 遞推算法 ,并對(duì)遞推算法進(jìn)行分析和實(shí)驗(yàn);其次提出了 基于統(tǒng)計(jì)閾值的倒譜均值歸一 ,并在理論和實(shí)踐上對(duì)該算法進(jìn)行檢驗(yàn) 。最后是 特征參數(shù) 各種 變換算法的 實(shí)驗(yàn)結(jié)果和分 析。 第 5 章 主要是語(yǔ)音增強(qiáng)技術(shù)和特征變換 技術(shù) 兩者的融合,本章中主要介紹了它 們的兩種融合算法 , 并 對(duì) 這 兩種融合算法 進(jìn)行 實(shí)驗(yàn) 和 分析。 第 6 章是總結(jié)與展望,總結(jié)論文的主要研究工作,指出其中的不足,并展望之后的研究工作。 重慶郵電大學(xué)碩士論文 第 2 章 語(yǔ)音識(shí)別技術(shù)與噪聲魯棒性技術(shù) 8 第 2章 語(yǔ)音識(shí)別技術(shù)與噪聲魯棒性技術(shù) 語(yǔ)音識(shí)別是 一門新興 邊緣學(xué)科 ,它主要 研究如何 從 語(yǔ)音 數(shù)字信號(hào) 中 提取最基本、最有意義的信息, 它是語(yǔ)音 數(shù)字 信號(hào)處理學(xué)科的一個(gè)分支。語(yǔ)音識(shí)別所涉及的學(xué)科領(lǐng)域 包括數(shù)字信號(hào)處理、物理學(xué)( 聲學(xué) )、模式識(shí)別、通信及信息理論、語(yǔ)言語(yǔ)音學(xué)、生理學(xué) (人類發(fā)音機(jī)理) 、計(jì)算機(jī)科學(xué)(研究軟硬件算法以便更有效地實(shí)現(xiàn)用于識(shí)別系統(tǒng)中的各種方法) 、心理學(xué)等。 在本章中將系統(tǒng)介紹 語(yǔ)音識(shí)別 技術(shù)和噪 聲魯棒性技術(shù)的 基本概念、原理、方法和應(yīng)用 。 音識(shí)別 技術(shù) 音識(shí)別基本框架 不同的語(yǔ)音識(shí)別系統(tǒng),雖然具體實(shí)現(xiàn)細(xì)節(jié)有所 不同,但所采用的基本技術(shù)相似,一個(gè)典型語(yǔ)音識(shí)別系統(tǒng)的實(shí)現(xiàn)過(guò)程如 圖 示。 預(yù) 處 理聲 學(xué) 特 征參 數(shù) 提 取模 式 匹 配模 型 訓(xùn) 練特 征 后處 理判 決采 樣 和 A / 語(yǔ) 音 模型 庫(kù) 反 混 疊 失 真 濾 波 器 預(yù) 加 重 分 幀 、 加 窗 端 點(diǎn) 檢 測(cè) 語(yǔ) 音 增 強(qiáng) 噪 聲 濾 波 器 專 家 知識(shí) 庫(kù) M F C C L P C C P L P 特 征 補(bǔ) 償 特 征 歸 一 動(dòng) 態(tài) 特 征 歐 氏 距 離 似 然 比 準(zhǔn) 則 語(yǔ) 音 信 號(hào)輸 入識(shí) 別 結(jié) 果輸 出 構(gòu) 詞 規(guī) 則 語(yǔ) 言 模 型 同 音 詞 判 決 領(lǐng) 域 知 識(shí) 語(yǔ) 法 語(yǔ) 義 V Q D T W H M M D N N 增 益 控 制 編 碼 預(yù) 濾 波 圖 音識(shí)別基本框架 首先 , 麥克風(fēng)將接收到的待識(shí)別語(yǔ)音 轉(zhuǎn)換成電信號(hào) ,并經(jīng)過(guò)預(yù)增益控制、濾波采樣、模數(shù)轉(zhuǎn)換以及編碼 等 過(guò)程 得到語(yǔ)音的數(shù)字信號(hào)。 這時(shí) 該數(shù)字信號(hào) 需要進(jìn)行 預(yù)處理,預(yù)處理包括反混疊失真濾波、預(yù)加重 ,分幀,加窗, 端點(diǎn)檢測(cè) 等,必要時(shí),還 可以在此環(huán)節(jié)中增加語(yǔ)音增強(qiáng)和噪聲濾波器 等 信號(hào)空間的抗噪技術(shù) 。 經(jīng)過(guò)預(yù)處理后,按照一定的特征提取方法 獲得 語(yǔ)音 的聲學(xué)特征參數(shù),這些特重慶郵電大學(xué)碩士論文 第 2 章 語(yǔ)音識(shí)別技術(shù)與噪聲魯棒性技術(shù) 9 征參數(shù)的時(shí)間序列便構(gòu)成了輸入語(yǔ)音的特征序列。在之后的特征后處理過(guò)程中可以對(duì)聲學(xué)特征 提取 其動(dòng)態(tài)特征,也可以進(jìn)行特征補(bǔ)償和特征參數(shù)歸一化等處理。 當(dāng)特征參數(shù)序列進(jìn)入模型訓(xùn)練模塊中通過(guò)不同的訓(xùn)練模型可以得到相應(yīng)的聲學(xué)模型,并存入語(yǔ)音模型庫(kù)(也稱參考模型庫(kù))中。當(dāng)特征 參數(shù)序列進(jìn)入模式匹配模塊時(shí)應(yīng)根據(jù)不同的聲學(xué)模型選擇不同的度量準(zhǔn)則,當(dāng)聲學(xué)模型為 時(shí),應(yīng)使用歐氏距離度量準(zhǔn)則;當(dāng)聲學(xué)模型為統(tǒng)計(jì)模型時(shí),應(yīng)選擇似然比為度量準(zhǔn)則。經(jīng)過(guò)模式匹配后得到 待識(shí)別特征和 模型間的距離或似然分。 最后根據(jù)模式匹配得到的距離值和似然分,并結(jié)合專家知識(shí)庫(kù)中的語(yǔ)言模型、構(gòu)詞規(guī)則、領(lǐng)域知識(shí)、同音詞判別、語(yǔ)法語(yǔ)義等進(jìn)行判別,得到最終的識(shí)別結(jié)果。 音的收集和預(yù)處理 濾波、采樣和量化 為了將物理波形態(tài)的語(yǔ)音轉(zhuǎn)換成數(shù)字信號(hào),必須經(jīng)過(guò)預(yù)濾波( 采樣( 量化( 從而得到時(shí)間和幅度 均 離散的語(yǔ)音數(shù)字信號(hào)。 預(yù)濾波的 主要 目的有兩個(gè)方面,一方面抑制輸入信號(hào) 中 頻率超過(guò) 2分量,以防止混疊干擾,其中 采樣率;另一方面是減少 50交流電頻率干擾。這樣預(yù)濾波器便是一個(gè)帶通濾波器。 采樣是 在采樣脈沖的作用 下,將時(shí)間上、幅值上都連續(xù)的模擬信號(hào) 轉(zhuǎn)換成時(shí)間上離散(時(shí)間上有固定間隔)、但幅值上仍連續(xù)的離散模擬信號(hào)。所以采樣又稱為波形的離散化過(guò)程 。每秒鐘 的采樣樣本數(shù)稱為采樣頻率。采樣頻率越高, 數(shù)值化后的聲波就越接近原始的聲音波形,即聲音的保真度也就越高,但由于采樣樣本的增多 ,便 會(huì) 對(duì)傳輸速率和存儲(chǔ) 造成 壓力。根據(jù)采樣定理,只有當(dāng)采樣頻率高于聲音最高頻率的兩倍時(shí),才能把離散數(shù)字 信號(hào)表示的聲音信號(hào)唯一地還原成原來(lái)的聲音 36。 因此 ,采樣頻率決定了聲音頻率的范圍。一般而言, 語(yǔ)音識(shí)別 系統(tǒng) 采樣率為 16入式平的 為 8 預(yù)濾波和采樣之后要對(duì)信號(hào)進(jìn)行量化,即 A/D 轉(zhuǎn)換。量化是將采樣得到的離散點(diǎn)的值用二進(jìn)制表示以方便計(jì)算機(jī)傳輸、運(yùn)行和存儲(chǔ)。常用的量化方法是 將整個(gè)幅度值區(qū)間等間隔的劃分,并用一個(gè)固定的離散點(diǎn)表示,稱為量化電平。每一個(gè)語(yǔ)音采樣之后的數(shù)據(jù)點(diǎn)用其所在區(qū)間對(duì)應(yīng)的離散點(diǎn)或量化電平替代。存儲(chǔ)時(shí)可以采用簡(jiǎn)單的二進(jìn)制編碼方案,即如果量化電平的個(gè)數(shù)為 256,則可以使用 8 位( 進(jìn)制來(lái)進(jìn)行編碼。這種方法被稱為均勻量化,編碼方法稱為脈沖編碼重慶郵電大學(xué)碩士論文 第 2 章 語(yǔ)音識(shí)別技術(shù)與噪聲魯棒性技術(shù) 10 調(diào)制( 在當(dāng)前的語(yǔ)音處理系統(tǒng)中,常用的編碼位數(shù)為 16,即經(jīng)常所說(shuō)的“ 16 比特量化”。 實(shí)際上,預(yù)濾波、采樣、量化等功能都可以用同一塊芯片來(lái)完成。 音信號(hào)的短時(shí)分析技術(shù) 語(yǔ)音數(shù)字信號(hào)處理處理的 前提和基礎(chǔ)是語(yǔ)音信號(hào)分析,只有通過(guò)分析才能找出語(yǔ)音信號(hào)的本質(zhì)特性 ,才有可能利用這些
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- CJ/T 102-1999城市生活垃圾砷的測(cè)定二乙基二硫代氨基甲酸銀分光光度法
- 動(dòng)態(tài)與靜態(tài)設(shè)計(jì)的結(jié)合應(yīng)用試題及答案
- 2025年網(wǎng)絡(luò)規(guī)劃設(shè)計(jì)師考試職業(yè)生涯探討試題及答案
- 2025年計(jì)算機(jī)二級(jí)課程變化試題及答案
- 中高考軟件評(píng)測(cè)師考題解析試題及答案
- 社會(huì)工作者的培訓(xùn)評(píng)估與優(yōu)化試題及答案
- 2025年軟件評(píng)測(cè)師的備考策略試題及答案
- 機(jī)械車輛日常管理制度
- 建設(shè)安全施工管理制度
- 恒大公司合同管理制度
- solidworks考試試題及答案
- 高空作業(yè)搬運(yùn)無(wú)人機(jī)行業(yè)深度調(diào)研及發(fā)展項(xiàng)目商業(yè)計(jì)劃書
- 中國(guó)廣電山東網(wǎng)絡(luò)有限公司市縣公司招聘筆試題庫(kù)2025
- 2024年浙江省遂昌縣事業(yè)單位公開(kāi)招聘教師崗考試題帶答案分析
- 2025年吉林省時(shí)事政治考試試卷帶解析及答案(必背)
- 2024年江蘇省武進(jìn)市事業(yè)單位公開(kāi)招聘醫(yī)療衛(wèi)生崗考前沖刺模擬帶答案
- 2025屆陜西省高三新高考全真模擬政治試題(原卷版+解析版)
- 2025年初中語(yǔ)文名著閱讀《林海雪原》知識(shí)點(diǎn)總結(jié)及練習(xí)
- 特種設(shè)備鍋爐日管控、周排查、月調(diào)度主要項(xiàng)目及內(nèi)容表
- 超星學(xué)習(xí)通線上考試操作指南(教師篇)
- 招聘求職簡(jiǎn)歷制作表格模板可編輯下載 精品簡(jiǎn)歷模板 標(biāo)準(zhǔn)表格單頁(yè)04
評(píng)論
0/150
提交評(píng)論