語音數(shù)據(jù)與語音合成.ppt_第1頁
語音數(shù)據(jù)與語音合成.ppt_第2頁
語音數(shù)據(jù)與語音合成.ppt_第3頁
語音數(shù)據(jù)與語音合成.ppt_第4頁
語音數(shù)據(jù)與語音合成.ppt_第5頁
已閱讀5頁,還剩39頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

,語音音庫與合成 江源 2009-6-11,語音合成技術,什么叫語音合成 Text To Speech過程,簡稱TTS 作用:將文本狀態(tài)的文字信息轉化為可聽的聲音信息 “電腦會說話”,發(fā)聲機理,語音產生的生理過程,總綱,1 . 數(shù)字語音信號 2 . 語音合成技術 3 . 數(shù)據(jù)制作與合成 4 . 合成效果測聽,數(shù)字語音信號,什么是數(shù)字語音信號 語音:說話,聲波傳遞的語言 語音信號:記錄下來的聲波振動 模擬語音信號: (磁帶,唱片) 數(shù)字語音信號:模擬信號數(shù)字化 (wav mp3 CD) - 計算機應用的需要 如何數(shù)字化 取樣:采樣率(時間尺子,8K,16K,44K,每秒樣點數(shù)量) 量化:量化精度(幅度尺子,16bit,-3276732768范圍),數(shù)字語音信號,取樣和量化,數(shù)字語音信號,波形不能說明內容,數(shù)字語音信號,頻域介紹 一段任意波形可以由一系列正弦波形組合而成 離散傅里葉變換數(shù)學表示: 最高值,采樣率的一半(16K wav;max freq = 8K Hz) 人可聽辨的頻率范圍: (20Hz 20kHz) 電話語音信道的頻率范圍(60Hz 3400Hz),數(shù)字語音信號,語譜圖,數(shù)字語音信號,清音和濁音 濁音:聲帶的快速振動,聲帶能夠將穩(wěn)定氣流轉換成振動 振動頻率稱為基頻,準周期性 清音:紊亂氣流,肺部氣流通過聲道中的狹窄處產生 爆破音:突然爆破,數(shù)字語音信號,聲學特征 如此雜亂多變的信號,如何描述,如何恢復? 語音信號產生的數(shù)字模型(源-濾波器模型),數(shù)字語音信號,聲學特征 基頻:發(fā)濁音時聲帶振動引起的周期變化,我們聽感音調高低主要由基頻決定,中文聲調還用于區(qū)分語義 譜參數(shù):描述聲道和口唇輻射 共振峰,LPC,倒譜參數(shù),總綱,1 . 數(shù)字語音信號 2 . 語音合成技術 3 . 數(shù)據(jù)標注與合成 4 . 合成效果測聽,語音合成技術,主流技術路線 基于統(tǒng)計規(guī)則的大語料庫拼接語音合成系統(tǒng) 基于HMM的參數(shù)語音合成系統(tǒng) 基于HMM的語料庫拼接語音合成系統(tǒng) 兩條道路: 要么是波形切分再拼合起來,要么是聲學參數(shù)轉化出來,語音合成技術,基于統(tǒng)計規(guī)則的大語料庫拼接語音合成系統(tǒng) 傳統(tǒng)大語料庫合成, InterPhonic 5.0之前 單元挑選波形拼接 超大規(guī)模音庫制作 語料設計,音庫錄制,精細切分,韻律標注 規(guī)則統(tǒng)計,針對不同發(fā)音人的細致調整 優(yōu)點:音質最佳,正常句子的自然度也很好 缺點:非常依賴音庫的規(guī)模大小和制作質量,存在一定穩(wěn)定性問題,不能應用在小型設備中 樣例:,輸入文本,拼音信息和韻律結構信息,每個單元將取 多個候選 s1 s2 s3 s4,目標代價挑選候選單元,詞典等文本分析知識,大規(guī)模語音庫,再考慮連接代價決定最后選定單元 s1 s2 s3 s4 s5 s6,輸出語音,語音合成技術,InterPhonic系統(tǒng)處理流程,語音合成技術,基于HMM的參數(shù)語音合成系統(tǒng) 首先進行語音特征參數(shù)的提取 以音素為單位(中文為聲韻母),使用HMM (Hidden Markov Model)對自然語流的頻譜特征參數(shù)進行建模 采用基于決策樹的聚類方法對上下文相關模型進行聚類,以提高模型的魯棒性,得到預測參數(shù) 最后生成參數(shù)輸入合成器,得到合成語音 優(yōu)點:所需音庫規(guī)模小,標注精度要求相對降低,自然度高,系統(tǒng)小,靈活度高,ViviVoice,AiSound 缺點:音質相對較差,帶有合成器風格 樣例:,參數(shù)語音合成系統(tǒng)框架,語音合成技術,HMM參數(shù)建模 用聲學參數(shù)針對音素建模 為什么要建模?描述的音素特征變化 隱馬爾科夫模型( Hidden Markov Model - HMM ),語音合成技術,決策樹模型聚類 有了模型怎么使用?來一句話怎么預知用哪個模型? 基于上下文的信息的決策樹聚類,語音合成技術,基于HMM的語料庫拼接語音合成系統(tǒng) 利用HMM目標模型和連接模型來指導單元挑選 結合參數(shù)訓練模型的數(shù)學統(tǒng)計模型優(yōu)勢和波形拼接的高音質,相對以前的大語料庫技術在自然度上有較大提升 自主原發(fā),意義重大 優(yōu)點:擁有明確目標和度量準則,音質好,自然度高,系統(tǒng)搭建自動化程度高,InterPhonic 5.5以上版本 缺點:仍然需要很大規(guī)模的語料庫,計算量較大 樣例:,語音合成技術,基于HMM的單元挑選系統(tǒng)結構圖,總綱,1 . 數(shù)字語音信號 2 . 語音合成技術 3 . 數(shù)據(jù)制作與合成 4 . 合成效果測聽,數(shù)據(jù)制作與合成,數(shù)據(jù)與合成的關系 音庫數(shù)據(jù)是合成系統(tǒng)的基石,離開了音庫談合成就是 “無源之水 無本之木” 一份音庫的制作質量,直接決定了該發(fā)音人合成系統(tǒng)的能達到什么效果,數(shù)據(jù)制作與合成,數(shù)據(jù)制作過程 音庫設計 音庫錄制 音素切分 韻律標注 音素檢錯 基頻修正 索引制作,數(shù)據(jù)制作與合成,音庫設計與合成 一個設計良好的音庫要有較好的音素,韻律覆蓋率 廣泛的語料來源,保證超大規(guī)模庫的穩(wěn)定 某方向定制語料,提升某特應用場合的效果,對語料庫拼接技術很重要 “還煩請大家收集更多更好的語料文本”,數(shù)據(jù)制作與合成,音庫錄制與合成 錄音控制很重要 錄音室環(huán)境,隔除噪音 話筒的擺放,能量幅度范圍 如何保持發(fā)音人的發(fā)音狀態(tài) 輕松心態(tài),自然流程,不要帶情緒,除非這是情感庫 適度原則,不要疲勞錄音,寧缺勿濫 批次比對,及時與之前數(shù)據(jù)做比對,可加入重復句 “還請大家多關注錄音質量”,數(shù)據(jù)制作與合成,音素切分與合成 切分精度 精切:大語料庫拼接標準,周期下降沿 粗切:參數(shù)合成與HMM拼接,模型具有一定內部切分調整能力 粗切不代表切分不重要,好的初始位置能幫助模型自切。 電腦未必比人聰明,清濁好定,濁濁也難定,還需修正 停頓位置 什么地方有Sp,silv,pau? 標準L3層以上邊界,30ms以上計算機才能使用 如果本來有停頓卻沒有加silv,停頓段會影響前后音素單元質量 一些錄音缺陷也可塞給停頓位置,鼻息,口水音 合成樣例: The*psychotropic*airplanes#underwrote*the*dispassionate*song。,數(shù)據(jù)制作與合成,音素切分與合成 音變處理 連續(xù)語流總存在一些規(guī)則音變或者不規(guī)則音變,導致所讀不是原來詞典音素 音素是身份牌,這個錯了后果很嚴重! 修改標準:尊重錄音 中文:聲調變化,兒化,輕讀。沒被改過的音變就是地雷 英文:連讀,吞音,弱化,縮寫詞 吞音標準:有無音位,或者我去掉這個讀有無差別 英文音素短,不是母語,更需小心 “還請大家切音時多細心”,數(shù)據(jù)制作與合成,韻律標注與合成 韻律標注是音素的檔案,據(jù)此來分門別類,聽候取用 良好的韻律標注幫助我們構建正確有效的統(tǒng)計預測結構,上下文韻律決策樹 如果韻律標注是錯誤的,連鎖毀滅性破壞 韻律標錯 - 聚類分錯 - 模型建錯 - 預測走錯 - 參數(shù)找錯 - 挑選看錯 - 合成出錯 -客戶很生氣- game over,數(shù)據(jù)制作與合成,韻律標注與合成 中文韻律:調型,停頓層次(L0 L1 L2 L3 L4 L5) 英文韻律:ToBI ( Tone and Break Index) 停頓層次: Tone Break 邊界調: Phrase Tone 重讀: Pitch Accent,數(shù)據(jù)制作與合成,韻律標注與合成 標注不同對合成的影響實例 重讀 But*I*did*not(H*)*enjoy*it*long。 邊界調 Now*run*along(L-H%),and*tell*them*to*hurry。,數(shù)據(jù)制作與合成,韻律標注與合成 一致性! 一致性非常重要,統(tǒng)一標準 面對模棱兩可的地方,如何取舍? 個人尊重大家意見 新人咨詢資深意見 多討論,多比對 對新錄庫可以按批次做一致性檢查 “還請大家細致統(tǒng)一的標注韻律”,數(shù)據(jù)制作與合成,音素檢錯與基頻修正 評測會給數(shù)據(jù)打分糾錯,合成也需要 挑出音庫中可能存在的地雷 檢錯種類: 濁濁修正 調型修正 音素修正 基頻修正 特點:直接鎖定位置判斷,規(guī)律性強 “還請大家多反饋檢錯時的規(guī)律總結”,數(shù)據(jù)制作與合成,索引制作與合成 音庫索引將音庫韻律和參數(shù)信息整理保存 合成需要從索引中提取數(shù)據(jù),拼接合成在系統(tǒng)挑選時還需要直接使用索引 較為固定,但一旦出錯不易更改 某個詞性錯位問題遺留很久才被發(fā)現(xiàn)(技術人員的錯誤) “制庫工作很繁瑣,煩勞大家了”,總綱,1 . 數(shù)字語音信號 2 . 語音合成技術 3 . 數(shù)據(jù)制作與合成 4 . 合成效果測聽,合成效果測聽,測聽與合成 效果測聽是評判合成系統(tǒng)好壞的硬性指標 常用測聽項目 音質 自然度 相似度 主觀打分標準,(mean opinion score, MOS),合成效果測聽,測聽與合成 音質測聽注意事項 對音質由技術路線主導,但敏感度因人而異,主觀好惡 16K原始錄音音質可打5分 16k原始分析合成可到4分 波形拼接合成音質可超4分 參數(shù)合成系統(tǒng)音質在3分附近 盡量減少自然度上的錯誤對音質打分的影響 一般測聽要求 黑盒:防止慣性打分 0.5分間隔:提高一致性 測聽數(shù)量不能少,要有覆蓋率和代表性 一只好耳機,包住耳朵,提高音量 其實,5分很高,2分很低,合成效果測聽,測聽與合成 自然度測聽注意事項 同樣是主觀打分,個人標準看待 說話人原始錄音也只能接近5分 參數(shù)合成較為流暢,相對平淡 拼接合成存在不穩(wěn)定性,波動較大 自然度測聽強調對不自然處的扣分 同樣盡量減少不同音質對自然度打分的影響 一般測聽要求 黑盒:防止慣性打分 0.5分間隔:提高一致性 保證一定數(shù)據(jù)量,如果數(shù)量很多,可以分批測聽 5分太高,2分很丟人,合成效果測聽,測聽與合成 相似度測聽注意事項 一般會提供目標人的錄音作參照 重點考察音色,兼顧基頻,時長,口音 一般測聽要求 黑盒不重要 0.5分間隔:提高一致性,合成效果測聽,測聽與合成 偏向性測聽注意事項 在兩個較為接近的效果中取舍 測聽要求 一定要黑盒! 可以用黑盒工具,固定0, 1打分 偏向性選擇只能選一個

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論