


下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、利用AEC(回聲消除算法)實(shí)現(xiàn)TTS Barge-In(提示音打斷)和Music Barge-In(音樂打斷)功能1. Music Barge-in 功能概述1.1 什么是 Barge-in 通常,大部分語音識(shí)別的應(yīng)用有個(gè)比較大的缺陷,就是如果當(dāng)時(shí)設(shè)備在播放 的時(shí)候,由于此時(shí)設(shè)備 Speaker 同時(shí)在發(fā)出聲音,聲音會(huì)不可避免的傳入到 麥克風(fēng)里面,此時(shí)麥克風(fēng)拾取的 audio 數(shù)據(jù)混雜了用戶說出的命令和Speaker 的回聲,識(shí)別引擎已經(jīng)不能很好的從中分辨需要識(shí)別的命令,導(dǎo)致 此時(shí)識(shí)別的效果大打折扣,用戶的體驗(yàn)下降厲害。從而很多的語音識(shí)別場景 很不完整,比如新聞/郵件的朗讀,音樂的播放,當(dāng)用戶
2、通過語音指令要求 系統(tǒng)去朗讀郵件/新聞或者是播放音樂的時(shí)候,卻不能通過語音去停止,必 須通過手工去停止。云知聲的語音打斷技術(shù),也稱為 barge-in,能有效的解決這個(gè)問題,在播放 的同時(shí)能夠用語音進(jìn)行打斷,從而獲得更好的用戶體驗(yàn)。1.2 Barge-in 關(guān)鍵技術(shù)描述 在 Barge-in 里使用的關(guān)鍵技術(shù) AEC(Acoustic Echo canceling)叫回聲消除技術(shù), 這項(xiàng)技術(shù)最早起源于電話通話和 VOIP 的發(fā)展,基本原理和步驟是1. 原始聲音被采樣,做為回聲消除參考2. 麥克風(fēng)拾取語音輸入.3. 針對直接路徑和反射路徑建模4. 語音輸入和原始聲音,相關(guān)分析(起始的延時(shí)和比對窗
3、口 )5. 自適應(yīng)濾波器降噪處理.云知聲的 AEC 算法, 在能迅速的進(jìn)行回聲 消除處理的同時(shí)盡量保證原始信號(hào)不失真能被識(shí)別引擎有效的處理。1.3 TTS Bargein 和 Music Barge-in 的區(qū)別 根據(jù)播放場景的不同, 云知聲的 Barge-in 有兩種方式,一種是 TTS Barge-in, 另一種是 Music Barge-in。TTS Barge-in 是指應(yīng)用在播放語音合成內(nèi)容的時(shí)候能夠打斷,這個(gè)時(shí)候因?yàn)?應(yīng)用自身在播放 TTS,應(yīng)用完全知道 Speaker 正在播放 Audio 的數(shù)據(jù),根據(jù)TTS 播放的 Audio 做為回聲消除的參考,做相關(guān)性算法計(jì)算將麥克風(fēng)數(shù)據(jù)和
4、 參考數(shù)據(jù)進(jìn)行對齊,如果能夠?qū)R成功后面就可以使用 AEC 模塊去進(jìn)行回聲 消除處理。所有的算法處理可以由應(yīng)用層全部完成。Music Barge-in 則困難得多,因?yàn)?app 不知道原始的 audio 數(shù)據(jù),沒有參考 數(shù)據(jù),也就無法進(jìn)行回聲消除。1.4 Music Barge-in 實(shí)現(xiàn)的機(jī)會(huì)與挑戰(zhàn) 如果上層應(yīng)用能有可能獲取 Speaker 播放的內(nèi)容,問題就可以迎刃而解了。 事實(shí)上因?yàn)?Speaker 和麥克風(fēng)都在同一個(gè)設(shè)備上, 上層應(yīng)用還是有機(jī)會(huì)能獲得送 給 Speaker 的 audio 數(shù)據(jù)的, 為了達(dá)到良好的效果,我們還需要 audio 能夠 保證 2 點(diǎn)。1. App 在接收到麥
5、克風(fēng) audio 數(shù)據(jù)的同時(shí)能連續(xù)不斷的獲取 Speaker 的 數(shù)據(jù)。2. 麥克風(fēng)采樣的數(shù)據(jù)和從底層獲取的 Speaker 的 audio 數(shù)據(jù)要保證同步, 兩者的時(shí)延必須嚴(yán)格的控制在 2ms 以內(nèi)。 要達(dá)到上面的 2 個(gè)目標(biāo), 云知聲需要和客戶緊密的配合進(jìn)行的深度合作。2. 云知聲軟件Music barge-in 的實(shí)現(xiàn)概述 前面說過,對 Music BargeIn 功能來說,我們主要原理是 AEC模塊提供了回 聲消除算法去消除麥克風(fēng)里面的回聲以達(dá)到比較好的識(shí)別效果。 我們具體的實(shí)現(xiàn)過程是這樣的。1. 應(yīng)用程序打開錄音設(shè)備進(jìn)行錄音的同時(shí)應(yīng)該有能力同步獲取 Speaker 的音頻數(shù)據(jù),這是做
6、為回聲消除算法工作的基礎(chǔ)。2. 為了算法的有效工作, Speaker 的數(shù)據(jù)和 Microphone 的數(shù)據(jù)應(yīng)該對齊, 組織在一起做為一路數(shù)據(jù)的多個(gè) channel 交給AEC3. 算法本身對 Speak 和 microphone 數(shù)據(jù)要求,兩路音頻數(shù)據(jù)的時(shí)差要 控制在 2 毫秒以內(nèi)。 為了保證以上的要求,我們可以臨時(shí)借用 Android 現(xiàn)成的立體聲錄音的功能, 通常情況下,因?yàn)橄到y(tǒng)只有一個(gè)麥克風(fēng),所以當(dāng)我們調(diào)用立體聲錄音的時(shí)候, 左右聲道的數(shù)據(jù)是完全一致沒有任何差別的,在 Music Barge-in 的時(shí)候我們 會(huì)啟動(dòng)雙聲道的 Microphone 錄音,錄音開始的同時(shí),采集一個(gè)聲道 a
7、udio 包 給 Microphone 的時(shí)候同時(shí)從把給 Speaker 的包放入 Microphone 的另外一個(gè) 聲道。然后依次一直進(jìn)行下去,一直到錄音的停止。 由于立體聲錄音的特性, 可以保證應(yīng)用在錄音的同時(shí)有能力同步的獲取 Speaker 的數(shù)據(jù)。3. Music barge-in 技術(shù)實(shí)現(xiàn)的說明 我們推薦采用修改 Linux driver 層或者通過修改IIS引線去獲取 Speaker 的 audio。 因?yàn)橹挥性?Linux Driver 層或者IIS最接近 Codec 硬件,而且通常情況下,錄音和播 放是同樣的 Codec 芯片所以會(huì)采用相同的采樣率 (例如 48K,根據(jù)不同的C
8、odec 方案而定), 所以我們期望在同一個(gè)采樣周期里面,送給 Speaker 的audio 包和從 Microphone 取得的 Audio 包應(yīng)該是對齊的,不會(huì)有時(shí)差。 這 是取得良好性能的關(guān)鍵,之前純上層的 TTS Barge In 方案有延時(shí)的原因就是 要通過軟件算法去嘗試對齊,這是一個(gè)很耗時(shí)的運(yùn)算。 整個(gè) barge-in 的流程如下1. 上層應(yīng)用打開錄音設(shè)備,要求系統(tǒng)進(jìn)行雙聲道立體聲錄音。2. Linux driver或者IIS芯片 在收到上層的調(diào)用之后,進(jìn)行錄音。3. Linux driver 或者IIS芯片每次在收到麥克風(fēng)來的 Audio 數(shù)據(jù),放入左聲道。4. 同時(shí)把將要送給
9、 Speaker 的數(shù)據(jù),填入到右聲道。5. 上層應(yīng)用收到雙聲道的數(shù)據(jù),分離成兩路數(shù)據(jù)。6. 兩路數(shù)據(jù)分別進(jìn)行重新采樣轉(zhuǎn)換成 16K 的數(shù)據(jù)流。7. 兩路轉(zhuǎn)換之后的音頻數(shù)據(jù)流交給 AEC 做回聲消除。8. 回聲消除之后的音頻流送給引擎去進(jìn)行識(shí)別。4. 雙方配合開發(fā)建議 我們客戶功能開發(fā)過程有如下的建議。1. 云知聲介紹 Music Barge-in 實(shí)現(xiàn)原理2. 客戶內(nèi)部評估能否從 Linux driver 層錄音的同時(shí)獲取 Speaker 數(shù)據(jù)?;蛘咝薷腎IS取得speaker數(shù)據(jù)3. 確定可行之后,可以完成一個(gè) Linux 的小程序,在錄音的同時(shí)將錄音和Speaker 的數(shù)據(jù)同時(shí)分開保存成不同的 pcm 格式的文件給云知聲評估4. 云知聲內(nèi)部對兩個(gè)文件進(jìn)行評估,確定時(shí)延是否符合 2ms 的要求。5. 云知聲確認(rèn)滿足時(shí)延要求之后,客戶開展 driver 層的修改實(shí)施工作。6. 云知聲同步進(jìn)行測試程序的開發(fā)。7. 實(shí)施完成,雙方進(jìn)行聯(lián)調(diào)測試,看看打斷效果。8. 功能的進(jìn)一步修改和完善。5. 其他補(bǔ)充建議· 客戶必須確保自動(dòng)的切換,也就是音樂播放結(jié)束之后,確保右聲道立刻 填充空數(shù)據(jù)。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 特色美食街餐飲店長期租賃合同
- 智能制造企業(yè)代理記賬與成本控制協(xié)議模板
- 低鉀血癥護(hù)理常規(guī)
- 不同皮膚類型科學(xué)護(hù)理指南
- 急性分娩護(hù)理常規(guī)
- 各種句式-2023年中考英語高頻易錯(cuò)點(diǎn)解題技巧
- 高中物理專項(xiàng)復(fù)習(xí):電場力的性質(zhì)
- 《建筑工程深厚軟土地層基坑施工監(jiān)測技術(shù)規(guī)范》征求意見稿
- 海倫凱勒人物介紹模板1
- 2025屆高三英語基礎(chǔ)寫作之建議信:如何對他人的求助說不課件共18張
- 超市供貨合同補(bǔ)充協(xié)議書
- 2025屆貴州省畢節(jié)市高三第四次適應(yīng)性考試地理試題(原卷版+解析版)
- 自愿倒班協(xié)議書
- 湖北省新華書店(集團(tuán))有限公司市(縣)分公司招聘筆試題庫2025
- 高考日語培訓(xùn)協(xié)議書
- 浙江省強(qiáng)基聯(lián)盟2024-2025學(xué)年高一下學(xué)期5月月考數(shù)學(xué)試題(含答案)
- 2024淮安市專業(yè)技術(shù)人員繼續(xù)教育試題參考答案
- 2025年安徽省合肥市(合肥一中)三模(五月)生物試卷及答案
- 新能源汽車行業(yè)的商業(yè)趨勢研究試題及答案
- 貸款居間協(xié)議書范本
- 佛山事業(yè)考試試題及答案
評論
0/150
提交評論