




已閱讀5頁,還剩43頁未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第13章 語音的壓縮編碼,內(nèi)容,一、引言 二、數(shù)字語音的波形編碼 三、數(shù)字語音的參數(shù)編碼 四、數(shù)字語音的混合編碼,一、引 言,數(shù)字語音壓縮編碼的可能性,聲音信號(hào)中包含有大量的冗余信息 鄰近樣本之間有很大的相關(guān)性 周期之間的相關(guān)性 基音之間的相關(guān)性 長(zhǎng)時(shí)(幾十秒)自相關(guān)性 話音間歇(靜音) 可以利用人的聽覺感知特性進(jìn)行壓縮, 可以利用語音信號(hào)的生成機(jī)理進(jìn)行數(shù)據(jù)壓縮。,語音壓縮編碼方法分類,波形編碼 (Perception model-based compression) 優(yōu)點(diǎn) : 通用、音頻質(zhì)量較高 缺點(diǎn) : 很難獲得較大的壓縮比 示例 : PCM, ADPCM, SBC 參數(shù)編碼,源編碼 (Production model-based compression) 優(yōu)點(diǎn): 壓縮比較大 缺點(diǎn): 信號(hào)源必須已知 示例: LPC 混合編碼(Hybrid compression) 示例 : CELP,三類語音編碼器性能比較,數(shù)字語音編碼標(biāo)準(zhǔn),標(biāo)準(zhǔn) 方法 比特率 質(zhì)量 時(shí)間 應(yīng)用 G.711 PCM 64 4.4 1972 PSTN ANSI 1015 LPC-10 2.4 2.7 1976 保密通信 G.721 ADPCM 32 4.1 1984 PSTN GSM(歐洲蜂窩通信) RPE-CELP 13 3.6 1991 ANSI 1016 CELP 4.8 3.2 1991 G.728 低延時(shí)CD-CELP 16 4.0 1992 IS 54(北美TDMA) VSELP 8 3.5 1992 IS 96(北美CDMA) QCELP 1-8 3.4 1993 日本蜂窩通信 VSELP 6.8 3.3 1993 G.729A CS-ACELP 8 4.2 1995 IP電話 G.723.1(H.323, H.324) ACELP 6.3 3.98 1995 IP電話 半速率GSM(歐洲蜂窩通信) AMR 5-6 3.4 1995 新的低速率ANSI標(biāo)準(zhǔn) MELP 2.4 3.3 1996,二、數(shù)字語音的波形編碼,波形編譯碼器,算法比較簡(jiǎn)單,容易實(shí)現(xiàn),低延遲, 壓縮效率不高,數(shù)據(jù)速率在16 kbps以上, 聲音質(zhì)量相當(dāng)好, 通用性好,適用于任意類型的數(shù)字聲音, 很成熟,有一系列國際標(biāo)準(zhǔn): CCITT G.711 PCM 64kb/s CCITT G.721 ADPCM 32Kb/s CCITT G.726 ADPCM 48, 32, 24, 16 Kb/s 已廣泛應(yīng)用于電話語音的中繼線傳輸,CCITT G.711 (脈沖編碼調(diào)制) Pulse Code Modulation (PCM) of Voice Frequency,編碼過程:,分析: 方法簡(jiǎn)單,易實(shí)時(shí)處理, 語音質(zhì)量好, 壓縮效率不高,碼率為64kbps。,碼率104 kbps,碼率 8位 x 8k64 kbps,對(duì)數(shù)變換 F=ln(x),目的 : 適應(yīng)聽覺的非線性特性;壓縮數(shù)據(jù)。,北美和日本等地區(qū) ( 律壓擴(kuò)算法),壓擴(kuò)算法的實(shí)現(xiàn),x(n): 線性碼(1+12位) F(n): PCM碼(1+7位) 0 0 0 0 0 0 0 W X Y Z a 0 0 0 W X Y Z 0 0 0 0 0 0 1 W X Y Z a 0 0 1 W X Y Z 0 0 0 0 0 1 W X Y Z a b 0 1 0 W X Y Z 0 0 0 0 1 W X Y Z a b c 0 1 1 W X Y Z 0 0 0 1 W X Y Z a b c d 1 0 0 W X Y Z 0 0 1 W X Y Z a b c d e 1 0 1 W X Y Z 0 1 W X Y Z a b c d e f 1 1 0 W X Y Z 1 W X Y Z a b c d e f g 1 1 1 W X Y Z,PCM 的應(yīng)用,應(yīng)用于數(shù)字聲音的編輯處理(多媒體計(jì)算機(jī)) 應(yīng)用于聲音的傳輸(通信): 長(zhǎng)途電話 (8 KHz x 8 bit x 1), 時(shí)分多路復(fù)用TDM (time-division multiplexing) 應(yīng)用于全頻帶數(shù)字聲音的表示/存儲(chǔ): CD-DA(CD唱片),DAT (44.1 KHz x 16 bit x 2),ADPCM自適應(yīng)差分脈沖編碼調(diào)制 (Adaptive Differential PCM),原理: 聲音信號(hào)具有很強(qiáng)的相關(guān)性,可從已知信號(hào)來預(yù)測(cè)未知信號(hào), 即使用前面的樣本預(yù)測(cè)當(dāng)前的樣本,實(shí)際樣本值與預(yù)測(cè)值之間的誤差往往很小。 利用自適應(yīng)的思想改變量化階的大小,即使用小的量化階(step-size)去編碼小的差值,使用大的量化階去編碼大的差值, 效果:量化位數(shù)可以顯著減少,從而降低了總的碼率。,增量調(diào)制(DM),量化器 Q,( m階線性預(yù)測(cè),A1, A2, . , Am可自動(dòng)修正。),實(shí)際樣本值,線性預(yù)測(cè)公式: Xn = A1*Xn-1 + A2*Xn-2 + . + Am*Xn-m,利用樣本與樣本之間存在的相關(guān)性進(jìn)行編碼,即根據(jù)前面的樣本估算當(dāng)前樣本的大小,然后對(duì)預(yù)測(cè)誤差進(jìn)行量化編碼。,差分脈沖編碼調(diào)制 DPCM,130,150,140,200,230 f 130, 130, 142, 144, 167 e 0, 20, -2, 56, 63 e 0, 24, -8, 56, 56 f 130, 154, 134, 200, 223,舉例,自適應(yīng)脈沖編碼調(diào)制(APCM),根據(jù)輸入樣本幅度的大小來改變量化階大小。 可以是瞬時(shí)自適應(yīng),即量化階的大小每隔幾個(gè)樣本就改變,也可以是音節(jié)自適應(yīng),即量化階的大小在較長(zhǎng)時(shí)間周期里發(fā)生變化。,量化器 Q,樣本值,量化器 Q,13位自然碼的數(shù)字語音樣本,CCITT G.721 ADPCM編碼器,6階自適應(yīng)線性預(yù)測(cè), 4位的自適應(yīng)量化器, 輸出碼率: 8k x 4 = 32 kbps,ADPCM 小結(jié),PCM話音質(zhì)量 4.5級(jí) ADPCM話音質(zhì)量 4.34級(jí),碼率降低一倍(32 kbps)。 ADPCM應(yīng)用: 數(shù)字語音通信 多媒體應(yīng)用中的語音(解說詞),Sub-band coding (子帶編碼),基本原理: 利用帶通濾波器(BPF)把聲音信號(hào)按頻率范圍劃分成幾個(gè)組成部分(子頻帶,子帶) 低頻部分能量較集中,量化精度要高,取樣頻率可稍低。 高頻部分是摩擦音、噪音,量化精度可低些,但取樣頻率要稍高。 不同子頻帶作不同的ADPCM編碼處理,然后再復(fù)合在一起。,模式1:聲音64kbps;輔助數(shù)據(jù) 0 模式2:聲音56kbps;輔助數(shù)據(jù) 8 kbps 模式3:聲音48kbps;輔助數(shù)據(jù) 16kbps,G.722: 64 kbps的聲音子帶編碼,二、數(shù)字語音的參數(shù)編碼,參數(shù)編碼(源編碼)的設(shè)計(jì)思想,分析人的發(fā)聲器官的結(jié)構(gòu)及語音生成的原理, 建立語音生成的物理(數(shù)學(xué))模型, 編碼時(shí):從話音波形信號(hào)中提取生成該話音的參數(shù); 解碼時(shí):根據(jù)語音生成模型,使用這些參數(shù)合成原始話音。,語音生成過程(1),空氣由肺部呼出,經(jīng)過聲帶,送入聲道,最后從嘴唇呼出,產(chǎn)生聲音。 聲音信號(hào)具有短期相關(guān)性(持續(xù)時(shí)間1 ms左右) 聲道是一個(gè)諧振腔,說話時(shí),聲道形狀不斷變化,引起諧振頻率改變,大約10 100 ms改變一次; 聲道可以看作為具有共振特性的一個(gè)濾波器,由于聲道形狀變化比較慢,因此該濾波器的轉(zhuǎn)移函數(shù)(transfer function)只需要每20ms左右時(shí)間修改一次。,語音生成過程(2),聲道濾波器由肺部空氣經(jīng)過聲帶而激勵(lì),根據(jù)激勵(lì)的模式,語音可分成2類:,濁音(時(shí)間域),濁音Voiced sounds (聲帶震動(dòng),產(chǎn)生準(zhǔn)周期的空氣脈沖激勵(lì)信號(hào),送入聲道),清音(時(shí)間域),清音Unvoiced sounds(聲帶不振動(dòng),聲門始終處于“開”狀態(tài),送入聲道的空氣激勵(lì)信號(hào)是一種無周期性的噪音信號(hào)),語音生成的聲道濾波器模型(1),語音生成的聲道濾波器模型(2),LPC模型= (a1, a2, a3, a4, a5, a6, a7, a8, a9, a10, G, V/UV, T),語音是一個(gè)近似的短時(shí)(1030ms)平穩(wěn)隨機(jī)過程,LPC模型的參數(shù)A = (a1, a2, a3, a4, a5, a6, a7, a8, a9, a10, G, V/UV, T)變化比較慢, 大約每20ms變化一次; 假設(shè)語音信號(hào)的取樣頻率為8kHz,將每秒鐘分成50幀,每幀 20ms(其中有20x8=160個(gè)樣本) ,每一幀的所有信號(hào)近似地滿足同一模型,即每一幀語音可以使用同一組參數(shù)來表示: 濁音還是清音(1位) 濁音的基頻T(6位) 音源的幅度G(5位) 線性濾波器的參數(shù)(10個(gè)參數(shù),每個(gè)參數(shù)6位,共60位),語音的參數(shù)編碼(LPC分析) 從已知的數(shù)字語音信號(hào)中提取參數(shù),所以,每秒總碼率為:50 x 72 bits = 3600 bps = 3.6kbps,如何確定LPC的系數(shù)(1),對(duì)聲音波形的編碼實(shí)際就轉(zhuǎn)化為如何提取語音生成模型的參數(shù),經(jīng)典的方法是線性預(yù)測(cè)編碼LPC。 每一個(gè)樣本都用過去10個(gè)樣本的線性組合來預(yù)測(cè): spre(n) = - a1s(n-1)+a2s(n-2)+a10s(n-10) 樣本s(n)的預(yù)測(cè)誤差為: e(n) = s(n) - spre(n) = s(n) + a1s(n-1)+a2s(n-2) +a10s(n-10),問題:對(duì)給定的一幀信號(hào)s(n) ,n=0159,怎樣選擇系數(shù)ai 使得預(yù)測(cè)誤差e(n)的平方和為最??? 即 E=s(n)+a1s(n-1)+a2s(n-2) +a10s(n-10)2 最小 為此,上式對(duì)a1, a2, , a10 分別求偏導(dǎo)數(shù)得到一組差分方程 dE/da1 =0, s(n)+a1s(n-1)+a2s(n-2) +a10s(n-10)s(n-1)=0 dE/da2 0, s(n)+a1s(n-1)+a2s(n-2) +a10s(n-10)s(n-2)=0 , dE/da10 0, s(n)+a1s(n-1)+a2s(n-2) +a10s(n-10)s(n-10)=0,如何確定LPC的系數(shù)(2),求解系數(shù) ai的線性方程組,R(1,1) R(1,2) R(1, 3) R(1,10) a1 -R(0,1) R(2,1) R(2,2) R(2, 3) R(2,10) a2 -R(0,2) R(3,1) R(3,2) R(3, 3) R(3,10) a3 -R(0,3) . . . . . . . . . R(10,1)R(10,2) R(10, 3) R(10,10) a10 -R(0,10),如何確定LPC的系數(shù)(3) 如何確定其他3個(gè)參數(shù)(V/UV,G,T),濁音/清音的判定 比較困難,不正確的分類會(huì)大大降低語音質(zhì)量 使用語音信號(hào)過零點(diǎn)的數(shù)目來判定; i12,140 基音周期T的估計(jì) 是生成高品質(zhì)、高清晰語音的關(guān)鍵 常用方法:SIFT基音檢測(cè)法,AMDF基音檢測(cè)法 激勵(lì)信號(hào)的增益G,例1 2.4kb/s LPC語音編碼器,20ms作為1幀,按幀進(jìn)行編碼 LPC系數(shù)的比特分配為:34 bit 增益G :7 bit 濁音/清音及濁音的基音周期T:7 bit 碼率: 48x502.4kb/s,例 LPC-10編碼器(ANSI 1015 , 2.4kb/s),22.5ms作為1幀,以幀為單位進(jìn)行編碼, LPC系數(shù)共10位,采用協(xié)方差方法計(jì)算, 濁音的基音周期T采用平均幅值差分函數(shù)(AMDF)計(jì)算,共60個(gè)值,范圍51.3-400Hz,半對(duì)數(shù)表示, 激勵(lì)信號(hào):濁音采用標(biāo)準(zhǔn)化的存儲(chǔ)波形 碼率:54 x 1000/22.5 = 2.4 kb/s,波形編碼與參數(shù)編碼的比較,波形編碼 參數(shù)編碼 1 碼率高 碼率低 2 音質(zhì)好 音質(zhì)差 3 算法簡(jiǎn)單 算法復(fù)雜 4 可處理任何聲音信號(hào) 僅處理語音信號(hào) 參數(shù)編碼的數(shù)據(jù)率在2-4 kbps左右,產(chǎn)生的語音雖然可以聽懂,但其質(zhì)量遠(yuǎn)遠(yuǎn)低于波形編碼。盡管它的音質(zhì)比較低,但它的保密性能好,因此這種編譯碼器一直用在軍事上.,三、數(shù)字語音的混合編碼,參數(shù)編碼的不足,參數(shù)編碼在降低碼率方面有很大突破,但語音質(zhì)量尚不理想;原因是語音生成模型中的激勵(lì)信號(hào)的處理過于簡(jiǎn)單: 不是清音就是濁音;實(shí)際上有些是濁音、清音的混合; 濁音的激勵(lì)信號(hào)是周期性的,實(shí)際上是準(zhǔn)周期性的;,脈沖序列發(fā)生器,隨機(jī)噪聲發(fā)生器,基音周期,(聲帶振動(dòng)),(聲帶不振動(dòng)),音源幅度,音源幅度,濁音,清音,改進(jìn)思路:設(shè)計(jì)更好的激勵(lì)信號(hào)。,混合編碼的原理,思路: 使用合成-分析法AbS(Analysis-by-Synthesis)來改進(jìn)參數(shù)編碼, 其中聲道濾波器模型仍與LPC編碼器中的相同,但不使用兩個(gè)狀態(tài)(有聲/無聲)的模型作為濾波器的輸入激勵(lì)信號(hào),而是增加反饋,調(diào)節(jié)激勵(lì)信號(hào)u(n), 使語音輸入信號(hào)s(n)與重建的語音信號(hào)誤差e(n)為最小。,編碼器通過“合成”許多不同的近似值來“分析”輸入話音信號(hào),所以稱為“合成-分析編碼器”。),激勵(lì)信號(hào)生成的方法: 多脈沖線性預(yù)測(cè)編碼MPLPC(multiple pulse LPC) 等間隔脈沖激勵(lì)RPE (regular-pulse excited) 碼激勵(lì)線性預(yù)測(cè)CELP (code excited linear predictive),最佳激勵(lì)信號(hào)u(n)的生成方法,多脈沖線性預(yù)測(cè)編碼 MPLPC,將原始語音分為20ms長(zhǎng)度的幀, 對(duì)每一幀計(jì)算出LPC的系數(shù); 假設(shè)激勵(lì)信號(hào)由k個(gè)脈沖組成,每個(gè)脈沖的幅度和位置待定; 從第1個(gè)脈沖開始,確定其幅度和位置; 若1,i-1個(gè)脈沖的幅度和位置已經(jīng)確定,則確定第i個(gè)脈沖的幅度與位置; 上述過程重復(fù)k次,結(jié)束。,等間隔脈沖激勵(lì)LPC編碼器 Regular-Pulse Excited LPC,每一幀使用4組激勵(lì)信號(hào)(即每5 ms有1組激勵(lì)信號(hào)), 每一組激勵(lì)信號(hào)使用13個(gè)脈沖,間隔時(shí)間相同, 編碼器每5ms計(jì)算一次激勵(lì)信號(hào)的參數(shù)(第1個(gè)激勵(lì)脈沖的位置和所有其他脈沖的幅度),目標(biāo)是使40-120個(gè)樣本范圍的預(yù)測(cè)誤差序列的自相關(guān)達(dá)到最大:,每20ms進(jìn)行一次短時(shí)預(yù)測(cè),確定LPC的系數(shù)(共36比特),每20ms需4x56+36=260bit, 碼率0.26x50=13kb/s,例 GSM (13kbps)語音編碼器 (Global System for Mobile communications),每5ms產(chǎn)生一組由13個(gè)脈沖組成的激勵(lì)信號(hào)序列(56bit),每5ms計(jì)算一次,使40-120個(gè)樣本范圍的短時(shí)預(yù)測(cè)誤差序列的自相關(guān)達(dá)到最大,LPC濾波器有8個(gè)系數(shù),共36bit,每20 ms 計(jì)算一次,每20ms生成4x56+36=260bit, 碼率0.26x50=13kb/s,碼激勵(lì)線性預(yù)測(cè)編碼器 ( CELP,Code Excited LPC ),CELP算法, 1985提出。使用有限數(shù)量的激勵(lì)信號(hào)存儲(chǔ)在存儲(chǔ)器中(稱為碼本),以替代多脈沖激勵(lì)。選用哪一個(gè)激勵(lì)信號(hào)由碼本的索引項(xiàng)指出,其增益項(xiàng)用來擴(kuò)展它的功率。 在CELP基礎(chǔ)上制定的話音編碼標(biāo)準(zhǔn): 美國的 ANSI的 4.8 kbps codec ITU的“l(fā)ow-delay 16 kbps codec,演 示(1),“A lathe is a big tool. Grab every dish of sugar.“ 原始聲音(PCM) ADPCM CELP LD-CELP CS-ACELP LPC-10,演 示(2),格式 碼率 1 min = Sample 11,025Hz 16bit PCM 176.4kbs 1292k 11k16bitpcm.wav 8000Hz 16bit PCM 128kbs 937.5k 8k16bitpcm.wav 11,025Hz 8bit PCM 88.2kbs 646k 11k8bitpcm.
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年中國4-哌啶基哌啶數(shù)據(jù)監(jiān)測(cè)報(bào)告
- 2025年中國1,4-環(huán)己二酮數(shù)據(jù)監(jiān)測(cè)報(bào)告
- 2025至2030年中國高光模壓板市場(chǎng)分析及競(jìng)爭(zhēng)策略研究報(bào)告
- 2025至2030年中國酒店桌裙市場(chǎng)分析及競(jìng)爭(zhēng)策略研究報(bào)告
- 2025至2030年中國螺旋重質(zhì)除渣器市場(chǎng)分析及競(jìng)爭(zhēng)策略研究報(bào)告
- 2025至2030年中國空氣健康劑市場(chǎng)分析及競(jìng)爭(zhēng)策略研究報(bào)告
- 2025至2030年中國電氣測(cè)試設(shè)備市場(chǎng)分析及競(jìng)爭(zhēng)策略研究報(bào)告
- 2025至2030年中國熱熔反光型標(biāo)線涂料市場(chǎng)分析及競(jìng)爭(zhēng)策略研究報(bào)告
- 2025至2030年中國波形護(hù)欄市場(chǎng)分析及競(jìng)爭(zhēng)策略研究報(bào)告
- 2025至2030年中國循環(huán)水真空抽氣泵市場(chǎng)分析及競(jìng)爭(zhēng)策略研究報(bào)告
- 2024年全民(人口和計(jì)劃生育)知識(shí)試題與答案
- 《鍵盤指法練習(xí)》課件
- 丙肝防治培訓(xùn)課件
- 大學(xué)生創(chuàng)新創(chuàng)業(yè)劉建華課后參考答案
- 用工情況說明格式及范文
- JCT587-2012 玻璃纖維纏繞增強(qiáng)熱固性樹脂耐腐蝕立式貯罐
- 網(wǎng)絡(luò)安全策略優(yōu)化
- 國開大學(xué)2023年01月11282《社會(huì)學(xué)概論(本)》期末考試答案
- 中特第五講社會(huì)建設(shè)天津大學(xué)
- 密封條范文模板(A4打印版)
- 施工現(xiàn)場(chǎng)安全交底15篇
評(píng)論
0/150
提交評(píng)論