語音數(shù)據(jù)與語音合成.ppt

上傳人：r*** IP屬地：四川上傳時間：2019-06-28 格式：PPT 頁數(shù)：44 大?。?.86MB 積分：15 舉報 版權申訴

已閱讀5頁，還剩39頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

,語音音庫與合成江源 2009-6-11,語音合成技術,什么叫語音合成 Text To Speech過程,簡稱TTS 作用：將文本狀態(tài)的文字信息轉化為可聽的聲音信息 “電腦會說話”,發(fā)聲機理,語音產生的生理過程,總綱,1 . 數(shù)字語音信號 2 . 語音合成技術 3 . 數(shù)據(jù)制作與合成 4 . 合成效果測聽,數(shù)字語音信號,什么是數(shù)字語音信號語音：說話，聲波傳遞的語言語音信號：記錄下來的聲波振動模擬語音信號：（磁帶，唱片）數(shù)字語音信號：模擬信號數(shù)字化（wav mp3 CD） - 計算機應用的需要如何數(shù)字化取樣：采樣率（時間尺子，8K，16K，44K，每秒樣點數(shù)量）量化：量化精度（幅度尺子，16bit，-3276732768范圍）,數(shù)字語音信號,取樣和量化,數(shù)字語音信號,波形不能說明內容,數(shù)字語音信號,頻域介紹一段任意波形可以由一系列正弦波形組合而成離散傅里葉變換數(shù)學表示：最高值，采樣率的一半（16K wav；max freq = 8K Hz）人可聽辨的頻率范圍：（20Hz 20kHz）電話語音信道的頻率范圍（60Hz 3400Hz）,數(shù)字語音信號,語譜圖,數(shù)字語音信號,清音和濁音濁音：聲帶的快速振動，聲帶能夠將穩(wěn)定氣流轉換成振動振動頻率稱為基頻，準周期性清音：紊亂氣流，肺部氣流通過聲道中的狹窄處產生爆破音：突然爆破,數(shù)字語音信號,聲學特征如此雜亂多變的信號，如何描述，如何恢復？語音信號產生的數(shù)字模型（源-濾波器模型）,數(shù)字語音信號,聲學特征基頻：發(fā)濁音時聲帶振動引起的周期變化，我們聽感音調高低主要由基頻決定，中文聲調還用于區(qū)分語義譜參數(shù)：描述聲道和口唇輻射共振峰，LPC，倒譜參數(shù),總綱,1 . 數(shù)字語音信號 2 . 語音合成技術 3 . 數(shù)據(jù)標注與合成 4 . 合成效果測聽,語音合成技術,主流技術路線基于統(tǒng)計規(guī)則的大語料庫拼接語音合成系統(tǒng) 基于HMM的參數(shù)語音合成系統(tǒng) 基于HMM的語料庫拼接語音合成系統(tǒng) 兩條道路：要么是波形切分再拼合起來，要么是聲學參數(shù)轉化出來,語音合成技術,基于統(tǒng)計規(guī)則的大語料庫拼接語音合成系統(tǒng) 傳統(tǒng)大語料庫合成， InterPhonic 5.0之前單元挑選波形拼接超大規(guī)模音庫制作語料設計，音庫錄制，精細切分，韻律標注規(guī)則統(tǒng)計，針對不同發(fā)音人的細致調整優(yōu)點：音質最佳，正常句子的自然度也很好缺點：非常依賴音庫的規(guī)模大小和制作質量，存在一定穩(wěn)定性問題，不能應用在小型設備中樣例：,輸入文本,拼音信息和韻律結構信息,每個單元將取多個候選 s1 s2 s3 s4,目標代價挑選候選單元,詞典等文本分析知識,大規(guī)模語音庫,再考慮連接代價決定最后選定單元 s1 s2 s3 s4 s5 s6,輸出語音,語音合成技術,InterPhonic系統(tǒng)處理流程,語音合成技術,基于HMM的參數(shù)語音合成系統(tǒng) 首先進行語音特征參數(shù)的提取以音素為單位（中文為聲韻母），使用HMM （Hidden Markov Model）對自然語流的頻譜特征參數(shù)進行建模采用基于決策樹的聚類方法對上下文相關模型進行聚類，以提高模型的魯棒性，得到預測參數(shù) 最后生成參數(shù)輸入合成器，得到合成語音優(yōu)點：所需音庫規(guī)模小，標注精度要求相對降低，自然度高，系統(tǒng)小，靈活度高，ViviVoice，AiSound 缺點：音質相對較差，帶有合成器風格樣例：,參數(shù)語音合成系統(tǒng)框架,語音合成技術,HMM參數(shù)建模用聲學參數(shù)針對音素建模為什么要建模？描述的音素特征變化隱馬爾科夫模型（ Hidden Markov Model - HMM ）,語音合成技術,決策樹模型聚類有了模型怎么使用？來一句話怎么預知用哪個模型？基于上下文的信息的決策樹聚類,語音合成技術,基于HMM的語料庫拼接語音合成系統(tǒng) 利用HMM目標模型和連接模型來指導單元挑選結合參數(shù)訓練模型的數(shù)學統(tǒng)計模型優(yōu)勢和波形拼接的高音質，相對以前的大語料庫技術在自然度上有較大提升自主原發(fā)，意義重大優(yōu)點：擁有明確目標和度量準則，音質好，自然度高，系統(tǒng)搭建自動化程度高，InterPhonic 5.5以上版本缺點：仍然需要很大規(guī)模的語料庫，計算量較大樣例：,語音合成技術,基于HMM的單元挑選系統(tǒng)結構圖,總綱,1 . 數(shù)字語音信號 2 . 語音合成技術 3 . 數(shù)據(jù)制作與合成 4 . 合成效果測聽,數(shù)據(jù)制作與合成,數(shù)據(jù)與合成的關系音庫數(shù)據(jù)是合成系統(tǒng)的基石，離開了音庫談合成就是 “無源之水無本之木” 一份音庫的制作質量，直接決定了該發(fā)音人合成系統(tǒng)的能達到什么效果,數(shù)據(jù)制作與合成,數(shù)據(jù)制作過程音庫設計音庫錄制音素切分韻律標注音素檢錯基頻修正索引制作,數(shù)據(jù)制作與合成,音庫設計與合成一個設計良好的音庫要有較好的音素，韻律覆蓋率廣泛的語料來源，保證超大規(guī)模庫的穩(wěn)定某方向定制語料，提升某特應用場合的效果，對語料庫拼接技術很重要 “還煩請大家收集更多更好的語料文本”,數(shù)據(jù)制作與合成,音庫錄制與合成錄音控制很重要錄音室環(huán)境，隔除噪音話筒的擺放，能量幅度范圍如何保持發(fā)音人的發(fā)音狀態(tài) 輕松心態(tài)，自然流程，不要帶情緒，除非這是情感庫適度原則，不要疲勞錄音，寧缺勿濫批次比對，及時與之前數(shù)據(jù)做比對，可加入重復句 “還請大家多關注錄音質量”,數(shù)據(jù)制作與合成,音素切分與合成切分精度精切：大語料庫拼接標準，周期下降沿粗切：參數(shù)合成與HMM拼接，模型具有一定內部切分調整能力粗切不代表切分不重要，好的初始位置能幫助模型自切。電腦未必比人聰明，清濁好定，濁濁也難定，還需修正停頓位置什么地方有Sp，silv，pau？標準L3層以上邊界，30ms以上計算機才能使用如果本來有停頓卻沒有加silv，停頓段會影響前后音素單元質量一些錄音缺陷也可塞給停頓位置，鼻息，口水音合成樣例： The*psychotropic*airplanes#underwrote*the*dispassionate*song。,數(shù)據(jù)制作與合成,音素切分與合成音變處理連續(xù)語流總存在一些規(guī)則音變或者不規(guī)則音變，導致所讀不是原來詞典音素音素是身份牌，這個錯了后果很嚴重！修改標準：尊重錄音中文：聲調變化，兒化，輕讀。沒被改過的音變就是地雷英文：連讀，吞音，弱化，縮寫詞吞音標準：有無音位，或者我去掉這個讀有無差別英文音素短，不是母語，更需小心 “還請大家切音時多細心”,數(shù)據(jù)制作與合成,韻律標注與合成韻律標注是音素的檔案，據(jù)此來分門別類，聽候取用良好的韻律標注幫助我們構建正確有效的統(tǒng)計預測結構，上下文韻律決策樹如果韻律標注是錯誤的，連鎖毀滅性破壞韻律標錯 - 聚類分錯 - 模型建錯 - 預測走錯 - 參數(shù)找錯 - 挑選看錯 - 合成出錯 -客戶很生氣- game over,數(shù)據(jù)制作與合成,韻律標注與合成中文韻律：調型，停頓層次（L0 L1 L2 L3 L4 L5）英文韻律：ToBI ( Tone and Break Index) 停頓層次： Tone Break 邊界調： Phrase Tone 重讀： Pitch Accent,數(shù)據(jù)制作與合成,韻律標注與合成標注不同對合成的影響實例重讀 But*I*did*not(H*)*enjoy*it*long。邊界調 Now*run*along(L-H%)，and*tell*them*to*hurry。,數(shù)據(jù)制作與合成,韻律標注與合成一致性！一致性非常重要，統(tǒng)一標準面對模棱兩可的地方，如何取舍？個人尊重大家意見新人咨詢資深意見多討論，多比對對新錄庫可以按批次做一致性檢查 “還請大家細致統(tǒng)一的標注韻律”,數(shù)據(jù)制作與合成,音素檢錯與基頻修正評測會給數(shù)據(jù)打分糾錯，合成也需要挑出音庫中可能存在的地雷檢錯種類：濁濁修正調型修正音素修正基頻修正特點：直接鎖定位置判斷，規(guī)律性強 “還請大家多反饋檢錯時的規(guī)律總結”,數(shù)據(jù)制作與合成,索引制作與合成音庫索引將音庫韻律和參數(shù)信息整理保存合成需要從索引中提取數(shù)據(jù)，拼接合成在系統(tǒng)挑選時還需要直接使用索引較為固定，但一旦出錯不易更改某個詞性錯位問題遺留很久才被發(fā)現(xiàn)（技術人員的錯誤） “制庫工作很繁瑣，煩勞大家了”,總綱,1 . 數(shù)字語音信號 2 . 語音合成技術 3 . 數(shù)據(jù)制作與合成 4 . 合成效果測聽,合成效果測聽,測聽與合成效果測聽是評判合成系統(tǒng)好壞的硬性指標常用測聽項目音質自然度相似度主觀打分標準，（mean opinion score， MOS）,合成效果測聽,測聽與合成音質測聽注意事項對音質由技術路線主導，但敏感度因人而異，主觀好惡 16K原始錄音音質可打5分 16k原始分析合成可到4分波形拼接合成音質可超4分參數(shù)合成系統(tǒng)音質在3分附近盡量減少自然度上的錯誤對音質打分的影響一般測聽要求黑盒：防止慣性打分 0.5分間隔：提高一致性測聽數(shù)量不能少，要有覆蓋率和代表性一只好耳機，包住耳朵，提高音量其實，5分很高，2分很低,合成效果測聽,測聽與合成自然度測聽注意事項同樣是主觀打分，個人標準看待說話人原始錄音也只能接近5分參數(shù)合成較為流暢，相對平淡拼接合成存在不穩(wěn)定性，波動較大自然度測聽強調對不自然處的扣分同樣盡量減少不同音質對自然度打分的影響一般測聽要求黑盒：防止慣性打分 0.5分間隔：提高一致性保證一定數(shù)據(jù)量，如果數(shù)量很多，可以分批測聽 5分太高，2分很丟人,合成效果測聽,測聽與合成相似度測聽注意事項一般會提供目標人的錄音作參照重點考察音色，兼顧基頻，時長，口音一般測聽要求黑盒不重要 0.5分間隔：提高一致性,合成效果測聽,測聽與合成偏向性測聽注意事項在兩個較為接近的效果中取舍測聽要求一定要黑盒！可以用黑盒工具，固定0， 1打分偏向性選擇只能選一個

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 人人文庫網僅提供信息存儲空間，僅對用戶上傳內容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

語音數(shù)據(jù)與語音合成.ppt

文檔簡介

溫馨提示

最新文檔

評論

語音數(shù)據(jù)與語音合成.ppt

文檔簡介

溫馨提示

最新文檔

評論

相關文檔