




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
任務(wù)7.1文生音PowerpointdesignPowerpoint目錄任務(wù)描述01預(yù)備知識(shí)02實(shí)施過程03CONTENTS01任務(wù)描述Powerpoint01在線工具是文本轉(zhuǎn)語(yǔ)音的一種便捷方式。用戶只需將文本粘貼到工具中,選擇合適的語(yǔ)言和音色,即可生成語(yǔ)音文件。常見的在線工具有記靈在線工具、TTSReader、Google文本轉(zhuǎn)語(yǔ)音等。在線工具手機(jī)應(yīng)用程序提供文本轉(zhuǎn)語(yǔ)音的功能,同時(shí)支持錄音轉(zhuǎn)換、語(yǔ)音識(shí)別等。常見的應(yīng)用有錄音轉(zhuǎn)換寶、冬冬錄音轉(zhuǎn)文字、語(yǔ)音轉(zhuǎn)文字專業(yè)版等。手機(jī)應(yīng)用程序桌面軟件允許用戶在電腦上進(jìn)行文本到語(yǔ)音的轉(zhuǎn)換,并提供更多自定義選項(xiàng)。例如全能文字轉(zhuǎn)語(yǔ)音等。桌面軟件專業(yè)平臺(tái)如華為云平臺(tái)、阿里云平臺(tái)等,提供更高級(jí)的語(yǔ)音合成服務(wù),適用于各種場(chǎng)景和需求。01專業(yè)平臺(tái)微信小程序如“馬力文案提取器”等,可以直接將文字轉(zhuǎn)換為語(yǔ)音,方便快捷。微信小程序02預(yù)備知識(shí)Powerpoint前臺(tái):語(yǔ)言分析
文本結(jié)構(gòu)與語(yǔ)種判斷:
當(dāng)需要合成的文本輸入后,先要判斷是什么語(yǔ)種,例如中文,英文,藏語(yǔ),維語(yǔ)等,再根據(jù)對(duì)應(yīng)語(yǔ)種的語(yǔ)法規(guī)則,把整段文字切分為單個(gè)的句子,并將切分好的句子傳到后面的處理模塊。
文本標(biāo)準(zhǔn)化:
在輸入需要合成的文本中,有阿拉伯?dāng)?shù)字或字母,需要轉(zhuǎn)化為文字。根據(jù)設(shè)置好的規(guī)則,使合成文本標(biāo)準(zhǔn)化。例如,“請(qǐng)問您是尾號(hào)為8967的機(jī)主嗎?“8967”為阿拉伯?dāng)?shù)字,需要轉(zhuǎn)化為漢字“八九六七”,這樣便于進(jìn)行文字標(biāo)音等后續(xù)的工作;再如,對(duì)于數(shù)字的讀法,剛才的“8967“為什么沒有轉(zhuǎn)化為”八千九百六十七“呢?因?yàn)樵谖谋緲?biāo)準(zhǔn)化的規(guī)則中,設(shè)定了”尾號(hào)為+數(shù)字“的格式規(guī)則,這種情況下數(shù)字按照這種方式播報(bào)。這就是文本標(biāo)準(zhǔn)化中設(shè)置的規(guī)則。
文本轉(zhuǎn)音素:
在漢語(yǔ)的語(yǔ)音合成中,基本上是以拼音對(duì)文字標(biāo)注的,所以我們需要把文字轉(zhuǎn)化為相對(duì)應(yīng)的拼音,但是有些字是多音字,怎么區(qū)分當(dāng)前是哪個(gè)讀音,就需要通過分詞,詞性句法分析,判斷當(dāng)前是哪個(gè)讀音,并且是幾聲的音調(diào)。
句讀韻律預(yù)測(cè):
人類在語(yǔ)言表達(dá)的時(shí)候總是附帶著語(yǔ)氣與感情,TTS合成的音頻是為了模仿真實(shí)的人聲,所以需要對(duì)文本進(jìn)行韻律預(yù)測(cè),什么地方需要停頓,停頓多久,哪個(gè)字或者詞語(yǔ)需要重讀,哪個(gè)詞需要輕讀等,實(shí)現(xiàn)聲音的高低曲折,抑揚(yáng)頓挫。后臺(tái):聲學(xué)系統(tǒng)
①波形拼接語(yǔ)音合成
通過前期錄制大量的音頻,盡可能全的覆蓋所有的音節(jié)音素,基于統(tǒng)計(jì)規(guī)則的大語(yǔ)料庫(kù)拼接成對(duì)應(yīng)的文本音頻,所以波形拼接技術(shù)通過已有庫(kù)中的音節(jié)進(jìn)行拼接,實(shí)現(xiàn)語(yǔ)音合成的功能。一般此技術(shù)需要大量的錄音,錄音量越大,效果越好,一般做的好的音庫(kù),錄音量在50小時(shí)以上。②參數(shù)語(yǔ)音合成技術(shù)
參數(shù)合成技術(shù)主要是通過數(shù)學(xué)方法對(duì)已有錄音進(jìn)行頻譜特性參數(shù)建模,構(gòu)建文本序列映射到語(yǔ)音特征的映射關(guān)系,生成參數(shù)合成器。所以當(dāng)輸入一個(gè)文本時(shí),先將文本序列映射出對(duì)應(yīng)的音頻特征,再通過聲學(xué)模型(聲碼器)將音頻特征轉(zhuǎn)化為我們聽得懂的聲音。③端到端語(yǔ)音合成技術(shù)
端到端語(yǔ)音合成技術(shù)是目前比較火的技術(shù),通過神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的方法,實(shí)現(xiàn)直接輸入文本或者注音字符,中間為黑盒部分,然后輸出合成音頻,對(duì)復(fù)雜的語(yǔ)言分析部分得到了極大的簡(jiǎn)化。所以端到端的語(yǔ)音合成技術(shù),大大降低了對(duì)語(yǔ)言學(xué)知識(shí)的要求,且可以實(shí)現(xiàn)多種語(yǔ)言的語(yǔ)音合成,不再受語(yǔ)言學(xué)知識(shí)的限制。通過端到端合成的音頻,效果得到的進(jìn)一步的優(yōu)化,聲音更加貼近真人。技術(shù)邊界1)擬人化
其實(shí)當(dāng)前的TTS擬人化程度已經(jīng)很高了,但是行業(yè)內(nèi)的人一般都能聽出來是否是合成的音頻,因?yàn)楹铣梢舻恼w韻律還是比真人要差很多,真人的聲音是帶有氣息感和情感的,TTS合成的音頻聲音很逼近真人,但是在整體的韻律方面會(huì)顯得很平穩(wěn),不會(huì)隨著文本內(nèi)容有大的起伏變化,單個(gè)字詞可能還會(huì)有機(jī)械感。2)情緒化
真人在說話的時(shí)候,可以察覺到當(dāng)前情緒狀態(tài),在語(yǔ)言表達(dá)時(shí),通過聲音就可以知道這個(gè)人是否開心,或者沮喪,也會(huì)結(jié)合表達(dá)的內(nèi)容傳達(dá)具體的情緒狀態(tài)。單個(gè)TTS音庫(kù)是做不到,例如在讀小說的時(shí)候,小說中會(huì)有很多的場(chǎng)景,不同的情緒,但是用TTS合成的音頻,整體感情和情緒是比較平穩(wěn)的,沒有很大的起伏。目前優(yōu)化的方式有兩種,一是加上背景音樂,不同的場(chǎng)景用不同的背景音樂,淡化合成音的感情情緒,讓背景音烘托氛圍。二是制作多種情緒下的合成音庫(kù),可以在不同的場(chǎng)景調(diào)用不同的音庫(kù)來合成音頻。3)定制化
當(dāng)前我們聽到語(yǔ)音合成廠商合成的音頻時(shí),整體效果還是不錯(cuò)的,很多客戶會(huì)有定制化的需求,例如用自己企業(yè)職員的聲音制作一個(gè)音庫(kù),想要達(dá)到和語(yǔ)音合成廠商一樣的效果,這個(gè)是比較難的,目前語(yǔ)音合成廠商的錄音員基本上都是專業(yè)的播音員,不是任何一個(gè)人就可以滿足制作音庫(kù)的標(biāo)準(zhǔn),如果技術(shù)可以達(dá)到每一個(gè)人的聲音都可以到達(dá)85%以上的還原,這將應(yīng)用于更多的場(chǎng)景中。目前,許多廠商都擁有先進(jìn)的語(yǔ)音合成技術(shù),例如科大訊飛、阿里巴巴、百度、靈伴科技、標(biāo)貝科技、捷通華聲等。它們?cè)谡Z(yǔ)音合成領(lǐng)域各具特色,為用戶提供豐富的語(yǔ)音合成方案和發(fā)音人選擇。語(yǔ)音合成廠商語(yǔ)言模型是TTS技術(shù)的重要組成部分,主要分為規(guī)則模型和統(tǒng)計(jì)模型。統(tǒng)計(jì)模型中,N-Gram模型簡(jiǎn)單有效,被廣泛使用。N-Gram模型基于概率統(tǒng)計(jì)的方法,揭示語(yǔ)言單位內(nèi)在的統(tǒng)計(jì)規(guī)律。常用的有Bi-gram(N=2)和Tri-gram(N=3)。語(yǔ)言模型03實(shí)施過程Powerpoint選擇合適的微信小程序,如“馬力文案提取器”。輸入需要轉(zhuǎn)換的文案,最多可輸入10000個(gè)字。選擇適合的配音音色和語(yǔ)速。點(diǎn)擊“生成合成音”,試聽并導(dǎo)出音頻。PART01PART02PART03PART04使用微信小程序直接轉(zhuǎn)換打開訊飛智作官網(wǎng),進(jìn)入語(yǔ)音合成頁(yè)面。輸入需要轉(zhuǎn)換的文字內(nèi)容。0102選擇合適的語(yǔ)速和音調(diào)。點(diǎn)擊“合成語(yǔ)音”,等待合成完成,試聽并調(diào)整。0405選擇喜歡的發(fā)音人和性別。03使用訊飛智作下載語(yǔ)音文件,用于播放或集成在應(yīng)用程序中。創(chuàng)建新應(yīng)用程序并設(shè)置參數(shù)。調(diào)用API接口,發(fā)送
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 夫妻家庭責(zé)任分配協(xié)議書
- 人身?yè)p害債權(quán)轉(zhuǎn)讓協(xié)議書
- 婚嫁行業(yè)戰(zhàn)略合作協(xié)議書
- 馬術(shù)俱樂部轉(zhuǎn)讓協(xié)議書
- 員工授權(quán)離職代簽協(xié)議書
- 東莞房屋買賣合同范本
- 2025年計(jì)生協(xié)議書
- 格力空調(diào)安裝合同范本
- 女主找情敵寫離婚協(xié)議書
- 小吃買賣加盟合同范本
- 頸椎間盤突出護(hù)理查房
- 抖音短視頻帳號(hào)策劃運(yùn)營(yíng)表
- 南昌大學(xué)理工科類實(shí)驗(yàn)(尖子班)選拔考試
- 醫(yī)療質(zhì)量與安全培訓(xùn)課件
- 山西省靈丘縣恒鑫源礦業(yè)有限公司東岐鐵礦資源開發(fā)利用和礦山環(huán)境保護(hù)與土地 復(fù)墾方案
- 國(guó)家電網(wǎng)招聘之管理類通關(guān)題庫(kù)帶答案
- 2023年政府部門財(cái)務(wù)管理情況報(bào)告范本
- 等效跌落高度
- 圍擋彩鋼板施工方案
- 赤峰旅游景點(diǎn)介紹
- (醫(yī)療質(zhì)量及標(biāo)準(zhǔn))JCI美國(guó)醫(yī)療機(jī)構(gòu)評(píng)審國(guó)際聯(lián)合委員會(huì)醫(yī)院評(píng)審標(biāo)準(zhǔn)第三版
評(píng)論
0/150
提交評(píng)論