(計(jì)算機(jī)軟件與理論專業(yè)論文)音樂(lè)哼唱檢索關(guān)鍵技術(shù)研究.pdf_第1頁(yè)
(計(jì)算機(jī)軟件與理論專業(yè)論文)音樂(lè)哼唱檢索關(guān)鍵技術(shù)研究.pdf_第2頁(yè)
(計(jì)算機(jī)軟件與理論專業(yè)論文)音樂(lè)哼唱檢索關(guān)鍵技術(shù)研究.pdf_第3頁(yè)
(計(jì)算機(jī)軟件與理論專業(yè)論文)音樂(lè)哼唱檢索關(guān)鍵技術(shù)研究.pdf_第4頁(yè)
(計(jì)算機(jī)軟件與理論專業(yè)論文)音樂(lè)哼唱檢索關(guān)鍵技術(shù)研究.pdf_第5頁(yè)
已閱讀5頁(yè),還剩79頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

(計(jì)算機(jī)軟件與理論專業(yè)論文)音樂(lè)哼唱檢索關(guān)鍵技術(shù)研究.pdf.pdf 免費(fèi)下載

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

音樂(lè)哼唱檢索關(guān)鍵技術(shù)研究 摘要 音頻檢索與圖像檢索 視頻檢索并列為當(dāng)今基于內(nèi)容檢索研究的熱點(diǎn) 而 目前基于內(nèi)容的多媒體信息檢索技術(shù)研究成果主要集中在圖像和視頻方面 在音 樂(lè)檢索上的成果還不多見(jiàn) 隨著數(shù)字音樂(lè)作品的劇增 音樂(lè)檢索可以用于搜索引 擎 卡拉o k k t v 廳的點(diǎn)歌系統(tǒng) 還可以用于數(shù)字音樂(lè)圖書館的檢索等領(lǐng)域 哼唱檢索給音樂(lè)檢索提供了易于操作的接1 3 其中哼唱聲音的特征提取 選擇 音樂(lè)旋律匹配以及對(duì)環(huán)境噪聲的處理是音樂(lè)檢索中的難點(diǎn) 本文緊緊圍繞音樂(lè)哼唱檢索關(guān)鍵技術(shù) 開展了以下研究工作 1 給出了基于內(nèi)容音樂(lè)檢索的系統(tǒng)框架 通過(guò)分析基于內(nèi)容方式檢索音樂(lè) 的可行性與難點(diǎn) 給出了哼唱檢索的研究方案和處理框架 2 提出了一種基于音樂(lè)旋律輪廓的特征提取算法 該算法從哼唱片斷中提 取出歌曲基音序列 經(jīng)規(guī)整 合并 分段后轉(zhuǎn)化為旋律輪廓序列 然后使用標(biāo)準(zhǔn) 音調(diào)生成的標(biāo)準(zhǔn)音調(diào)差值表將此序列轉(zhuǎn)化為旋律輪廓特征 3 提出了一個(gè)音樂(lè)檢索匹配算法 該算法根據(jù)歌曲字符串對(duì)相似度進(jìn)行了 重新定義 它將從歌譜輪廓特征序列轉(zhuǎn)化而來(lái)的字符串序列與音樂(lè)數(shù)據(jù)庫(kù)中的歌 曲特征序列進(jìn)行相似度計(jì)算 返回相似度最高的歌曲 4 音樂(lè)數(shù)據(jù)庫(kù)研究 首先介紹了音樂(lè)數(shù)據(jù)庫(kù)的建立方法 然后將時(shí)間序列 方法引入音樂(lè)數(shù)據(jù)庫(kù) 使用其中的p a a 算法對(duì)音樂(lè)數(shù)據(jù)庫(kù)進(jìn)行優(yōu)化處理 5 設(shè)計(jì)實(shí)現(xiàn)了一個(gè)基于內(nèi)容的音樂(lè)哼唱檢索系統(tǒng) 經(jīng)過(guò)實(shí)驗(yàn)驗(yàn)證該系統(tǒng)對(duì) 于單一器樂(lè)音樂(lè)片段和哼唱的檢索具有較高的準(zhǔn)確性 成功率達(dá)到9 0 以上 同 時(shí)也表明 該系統(tǒng)無(wú)需事先訓(xùn)練 對(duì)環(huán)境噪聲有較好的魯棒性 具有較高的檢索 精度 本研究工作得到國(guó)家自然科學(xué)基金 基于w e b 的音頻識(shí)別與檢索關(guān)鍵技術(shù) 研究 基金編號(hào) 6 0 6 7 3 1 0 0 的資助 關(guān)鍵訶哼唱檢索音調(diào)差值表歌譜輪廓相似度時(shí)間序列 音樂(lè)哼唱檢索關(guān)鍵技術(shù)研究 a b s t r a c t a u d i or e t r i e v a l i m a g er e t r i e v a la n dv i d e or e t r i e v a la l et h eh o tt o p i c si nt h e c o n t e n t b a s e dr e t r i e v a lf i e l d s b u tt h er e s e a r c hr e s u l t so ft h em u l t i m e d i ai n f o r m a t i o n r e t r i e v a lf i e l d si sm a i n l yf e e u s i n go ni m a g ea n dv i d e oa s p e c t s t h e r ea r el i t t l ef r u i t si n t h em u s i cr e t r i e v a lf i e l d s n o wt h e r ea r em o r ea n dm o r en u m e r i cm u s i c s ot h es t u d y o nt h em u s i cr e t r i e v a ls y s t e mi su r g e n ta n di tc a l lb eu s e di nm a n yf i e l d s s u c ha st h e s e a r c he n g i n e p i c k i n gs o n gs y s t e mo fk t vr o o m m u s i cl i b r a r yr e t r i e v a ls y s t e ma n d e ta 1 t h et e c h n o l o g yo f q u e r yb yh u m m i n g c a l lm a k er e t r i e v a le a s yt ou b u tt h e r e a r es o m ed i f f i c u l t i e si nt h eq u e r yb yh u m m i n gf i e l d s s u c ha sf e a t u r ee x t r a c t i o n s o l e c f i o n m u s i cm e l o d ym a t c h i n g e n v k o n m e n tn o i s ea n de ta 1 s u r r o u n d i n gt h ek e yt e c h n o l o g yo ft h eq u e r yb yh u m m i n g t h em a i nw o r k si n t h i sp a p e ra l ea sf e l l o w s 1 t h es y s t e mf l a m eo ft h ec o n t e n t b a s e dm t m i cr e t r i e v a li sg i v e n a f t e r d i s c u s s i n gt h ef e a s i b i l i t ya n dt h ed i f f i c u l t yo ft h em u s i cr e t r i e v a lb a s e do nc o n t e n t s s o l u t i o na n dp r o c e s s i n gf l a m ea r eo b t a i n e d 2 1af e a t u r ee x t r a c t i o na l g o r i t h mb a s e do nt h em u s i cm e l o d yo u t l i n ei sp r o p o s e d t h ea l g o r i t h mp i c k sl l pt h em u s i cp i t c hs e q u 鋤 t h e nc o n v e r t e di tt om e l o d yo u t l i n e s e q u e n c e f i n a l l yt h es e q u e n c ei sc o n v e r t e dt om e l o d yo u t l i n ec h a r a c t e r i s t i c sb a s e do n t h et a b l eo f s t a n d a r dt o n ed i f f e r e n c e sv a l u e 3 a m a c c ha l g o r i t h mo f m u s i cr e t r i e v a li sp r o p o s e d t h ea l g o r i t h mr e d e f i n e st h e s t r i n g ss i m i l a r i t ya c c o r d i n gt ot h es o n gc h a r a c t e r i s t i c a n dc o m p a r e st h es t r i n g s e q u e n c et om u s i cc h a r a c t e rs e q u e n c e si nt h ed a t a b a s et og e tt h eo b j e c tw h i c hh a s h i 班s i m i l a r i t y 舢s t u d y i n go f t h em u s i cd a t a b a s e n 地m u s i cd a t a b a s ee s t a b l i s h m e n tm e t h o dh a s b e e ni n t r o d u c e df i r s t l y s e c o n d l yt h et i m es e r i e sm e t h o dh a sb e e nu s e di nt h em u s i c d a t a b a s e a n dt h ep a aa l g o r i t h mw h i c hi sat i m es e r i e st e c h n o l o g yi su s e dt oo p t i m i z e t h em u s i cd a m b a s e 一 童墨 曼壘耋莖壁墊查翌壅 5 ac o n t e n t b a s e dq u e r yb yh u m m i n gs y s t e mi sd e s i g n e da n dc o m p l e t e d t h e e x p e r i m e n t a lr e s u l t ss h o wt h a tt h es y s t e mi sm o r ee x a c t l yi nt h eq u e r yb ym u s i c s e g m e n ta n dt h eq u e r yb yh u m m i n g t h es u c c e s s f u lr a t ei so v e r9 0 s i m u l t a n e o u s l y i th a sb e e no b t a i n e dt h a tt h i ss y s t e md o e sn o tn e e dt r a i n i n gp r o c e s sa n dh a sg o o d r o b u s t n e s st oe n v i r o n m e n t sn o i s e a n dh a sh i d e rr e t r i e v a lp r e c i s i o n t h i sr e s e a r c hw o r ki sap a r to ft h e r e s e a r c ho nt h ek e yt e c h n o l o g yo fa u d i o r e c o g n i t i o na n dr e t r i e v a lb a s e do nt h ew e b n o 6 0 6 7 31 0 0 s u p p o r t e db yt h e n a t i o n a ln a t u r a ls c i e n c ef o u n d a t i o no f c h i n a k e yw o r d s q u e r yb yh u m m i n g p i t c hd i f f e r e n c et a b l e 湖r ec o n t o u r s i m i l a r i t y t i m es e r i e s 西北大學(xué)學(xué)位論文知識(shí)產(chǎn)權(quán)聲明書 本入完全了解學(xué)校有關(guān)保護(hù)知識(shí)產(chǎn)權(quán)的規(guī)定 即 研究生在校攻 讀學(xué)位期間論文工作的知識(shí)產(chǎn)權(quán)單位屬于西北大學(xué) 學(xué)校有權(quán)保留并 向國(guó)家有關(guān)部門或機(jī)構(gòu)送交論文的復(fù)印件和電子版 本人允許論文被 查閱和借閱 學(xué)校可以將本學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù) 庫(kù)進(jìn)行檢索 可以采用影印 縮印或掃描等復(fù)制手段保存和匯編本學(xué) 位論文 同時(shí) 本人保證 畢業(yè)后結(jié)合學(xué)位論文研究課題再撰寫的文 章一律注明作者單位為西北大學(xué) 保密論文待解密后適用本聲明 學(xué)位論文作者簽名 聾紅遮指導(dǎo)教師簽名 雌 渺7 年 月協(xié)日 期年 月f 汨 西北大學(xué)學(xué)位論文獨(dú)創(chuàng)性聲明 本人聲明 所呈交的學(xué)位論文是本人在導(dǎo)師指導(dǎo)下進(jìn)行的研 究工作及取得的研究成果 據(jù)我所知 除了文中特別加以標(biāo)注和 致謝的地方外 本論文不包含其他人已經(jīng)發(fā)表或撰寫過(guò)的研究成 果 也不包含為獲得西北大學(xué)或其它教育機(jī)構(gòu)的學(xué)位或證書而使 用過(guò)的材料 與我一同工作的同志對(duì)本研究所做的任何貢獻(xiàn)均已 在論文中作了明確的說(shuō)明并表示謝意 學(xué)位論文作者簽名 荔幺l 波 二零零七年四月 音樂(lè)哼唱檢索關(guān)鍵技術(shù)研究 第一章緒論 哼唱檢索是從音樂(lè)本身進(jìn)行的一種檢索方式 它不關(guān)注歌曲或音樂(lè)的外在 信息 比如歌曲名稱 演唱者 作者等 而是對(duì)音樂(lè)的節(jié)奏 旋律等內(nèi)在信息 進(jìn)行分析挖掘 從而得到檢索結(jié)果 滿足了人們通過(guò)旋律 節(jié)奏等方式檢索音樂(lè) 的能力 本章主要介紹哼唱檢索有關(guān)的基本概念 基于內(nèi)容的音樂(lè)檢索的基本方法 及其國(guó)內(nèi)外研究現(xiàn)狀 同時(shí)包含研究背景 主要研究?jī)?nèi)容及全文組織結(jié)構(gòu)等內(nèi)容 1 1 引言 二十一世紀(jì)是一個(gè)信息時(shí)代 它的顯著標(biāo)志就是個(gè)人計(jì)算機(jī)的高度普及和 互聯(lián)網(wǎng)的迅猛發(fā)展 信息 知識(shí)和資訊等以前所未有的速度和方式涌向我們 這 促生了檢索技術(shù)及應(yīng)用的蓬勃發(fā)展 從g o o g l e 到百度 無(wú)一不是互聯(lián)網(wǎng)上的明 星 可以說(shuō) 通過(guò)他們 人們對(duì)檢索的重要性有了新的認(rèn)識(shí) 基于內(nèi)容的檢索技術(shù)也正是在這種背景下蓬勃發(fā)展起來(lái)的 與傳統(tǒng)的基于 文本的檢索方式或搜索引擎相比 基于內(nèi)容的檢索技術(shù)強(qiáng)調(diào)從對(duì)象本質(zhì)著手 挖 掘相關(guān)屬性 并進(jìn)行搜索 當(dāng)然 對(duì)現(xiàn)有搜索引擎而言 基于內(nèi)容的搜索方式只 是對(duì)現(xiàn)有搜索技術(shù)的一個(gè)良好補(bǔ)充和加強(qiáng) 它并不能完全代替?zhèn)鹘y(tǒng)的文本檢索方 式 它增強(qiáng)了人們?cè)谒阉黝I(lǐng)域的能力 能給用戶以更好的搜索體驗(yàn) 基于內(nèi)容的音樂(lè)檢索 是對(duì)音樂(lè)進(jìn)行內(nèi)容檢索的一種方式 它強(qiáng)調(diào)從音樂(lè) 本身所擁有的音樂(lè)旋律等信息進(jìn)行歌曲檢索 伴隨著數(shù)字音樂(lè)的爆炸性增長(zhǎng) 使 用內(nèi)容檢索方式的哼唱檢索己越來(lái)越多地受到關(guān)注 從大學(xué) 研究機(jī)構(gòu)到企業(yè) 公司 對(duì)它已有不少研究 并期待這一技術(shù)在不遠(yuǎn)將來(lái)能夠商業(yè)化 音樂(lè)與人的聽覺(jué)感知緊密相關(guān) 它更多的傳達(dá)了一種感情 一種很難量化 的情緒 音樂(lè)的這種特性決定了在音頻的分類檢索技術(shù)中所用到的歌名 演唱者 等外在信息對(duì)音樂(lè)分析并不適用 當(dāng)前絕大多數(shù)的音樂(lè)搜索引擎例如 y a h o o c o i n g o o g l e c 伽等 都是使用歌曲的歌名 演唱者 作者或者歌詞等來(lái) 建立索引架構(gòu) 然后供用戶使用 但用戶經(jīng)常會(huì)遇到這種情況 他能記得歌曲的 某些片斷 卻無(wú)法想起歌名或演唱者等信息 從而利用上面搜索引擎無(wú)法找到目 音樂(lè)哼唱檢索關(guān)鍵技術(shù)研究 標(biāo)歌曲 使用哼唱檢索技術(shù) q u e r yb yh u m m i n g q b h 將有效的解決上述問(wèn)題 哼唱檢索是一種基于內(nèi)容的音樂(lè)檢索 c o n t e n t b a s e dm u s i cr e t r i e v a l c b m r 方式 它通過(guò)用戶哼唱來(lái)進(jìn)行檢索 相對(duì)于傳統(tǒng)的使用歌名 演唱者等外在信息 的檢索方式 它是根據(jù)音樂(lè)的旋律 節(jié)奏等內(nèi)在特征來(lái)進(jìn)行檢索 因此相對(duì)于傳 統(tǒng)的關(guān)鍵字形式的用戶接口 哼唱檢索使用戶能得到更佳的搜索體驗(yàn) 從本質(zhì)上說(shuō) 哼唱檢索是基于內(nèi)容音樂(lè)檢索的一種直接應(yīng)用 即基于內(nèi)容 的音樂(lè)檢索是其研究核心 哼唱檢索是在輸入手段上的一種創(chuàng)新 從人機(jī)交互角 度來(lái)看具有廣泛的應(yīng)用前景 例如 使用哼唱檢索方式的音樂(lè)搜索引擎 使用手 機(jī)等便攜設(shè)備進(jìn)行點(diǎn)歌 哼唱式的作曲系統(tǒng)等等 1 1 1 課題研究意義 對(duì)于基于內(nèi)容的音樂(lè)檢索研究 有著更嚴(yán)廣泛的價(jià)值和意義 1 目前的搜索引擎還大致停留在文字輸入方式的數(shù)據(jù)獲取 不能滿足通過(guò) 旋律進(jìn)行檢索的需求 因此如果將哼唱檢索應(yīng)用進(jìn)來(lái) 我們將可以直接使用歌聲 哼唱的方式來(lái)搜尋所有在網(wǎng)絡(luò)世界中的數(shù)字音樂(lè)數(shù)據(jù) 例如m p 3 m i d i 等 并立刻可以進(jìn)行下載及播放 2 可以用于卡拉o k 或k t v 的點(diǎn)歌系統(tǒng) 這是哼唱檢索技術(shù)最直接的一 個(gè)應(yīng)用領(lǐng)域 3 可以應(yīng)用于數(shù)字典藏系統(tǒng) 如數(shù)字音樂(lè)圖書館m d l m u s i cd i g i t a l l i b r a r y 1 2 i 可以使檢索操作過(guò)程更為簡(jiǎn)便且人性化 讓使用者能自行選擇最 方便 最容易的方式來(lái)檢索數(shù)字典藏系統(tǒng) 4 可以應(yīng)用于作曲分析上 不僅使作曲家可檢測(cè)歌曲是否被仿冒 也方便 作曲家對(duì)創(chuàng)作作品與已有作品進(jìn)行交叉比對(duì)和參考 5 可以用于歌曲學(xué)習(xí)及演唱評(píng)分 除了提供點(diǎn)歌搜尋以及伴唱的娛樂(lè)功能 外 還可以準(zhǔn)確的辨識(shí)節(jié)拍與音準(zhǔn)的掌握度 達(dá)到較為專業(yè)的評(píng)分功能進(jìn)而產(chǎn)生 歌曲學(xué)習(xí)的教學(xué)功能 6 對(duì)于音樂(lè)創(chuàng)作者來(lái)說(shuō) 哼唱檢索具有很大的吸引力 因?yàn)樗鼘⒖梢宰寴I(yè) 2 音樂(lè)哼唱檢索關(guān)鍵技術(shù)研究 余作曲家將哼唱聲音轉(zhuǎn)為m i d i 當(dāng)作曲家靈感一來(lái) 只要就著麥克風(fēng)哼唱一段 系統(tǒng)就可以將接收到的旋律 直接翻轉(zhuǎn)成相應(yīng)的樂(lè)譜 7 哼唱檢索進(jìn)一步研究進(jìn)行以旋律 及聲紋v o i c ep r i n t 進(jìn)行身份辨識(shí) 即透過(guò)系統(tǒng)來(lái)辨識(shí)演唱者的身份 綜上所述 哼口昌檢索是一項(xiàng)有意義的研究工作 在研究過(guò)程中應(yīng)該充分利 用音樂(lè)知識(shí) 將音樂(lè)的樂(lè)理和語(yǔ)音信號(hào)處理進(jìn)行有機(jī)結(jié)合 善于利用新技術(shù)和新 方法 不斷提高系統(tǒng)性能 同時(shí) 不斷挖掘新的交互應(yīng)用途徑和應(yīng)用點(diǎn) 從而使 哼唱檢索走向?qū)嵱?1 1 2 課題背景 現(xiàn)在每年只是在中國(guó)就會(huì)有上千張的新音樂(lè)專輯出現(xiàn) 面對(duì)大量涌現(xiàn)的新 音樂(lè)和海量的經(jīng)典音樂(lè) 對(duì)于喜愛(ài)音樂(lè)的人們來(lái)說(shuō) 通過(guò)他們所熟悉的音樂(lè)旋律 特征來(lái)查找音樂(lè)是一種更受歡迎的方法 隨著計(jì)算機(jī)越來(lái)越多地用于多媒體領(lǐng) 域 對(duì)多媒體數(shù)據(jù)進(jìn)行內(nèi)容檢索已越來(lái)越為人們所重視 近年來(lái) 圍繞基于內(nèi)容檢索的多媒體檢索技術(shù) 國(guó)際上如美國(guó) 日本 英 國(guó) 新西蘭等都已開展研究 并取得了一定的進(jìn)展 為了使眾多的音頻 視頻數(shù) 據(jù)在網(wǎng)絡(luò)上能夠被使用者以最自然的語(yǔ)法來(lái)獲取他們想要的多媒體資料 m p e g 7 國(guó)際標(biāo)準(zhǔn)被制定出來(lái) 它簡(jiǎn)稱多媒體內(nèi)容描述接口 它定義了用于描述 多媒體內(nèi)容的多媒體描述定義語(yǔ)言 2 0 0 6 年 c 0 1 心棚n i c a n o n so ft h ea c m 雜志在第8 期對(duì)音樂(lè)檢索 m u s i cr e t r i e v a l 等進(jìn)行了專題探討 3 一潿 足見(jiàn)對(duì)此課題的重視程度 1 1 3 國(guó)內(nèi)外研究現(xiàn)狀 哼唱檢索以其獨(dú)特的以用戶體驗(yàn)為核心的檢索方式 及自身所擁有的商業(yè) 發(fā)展?jié)摿?已經(jīng)被越來(lái)越多的人所關(guān)注 1 9 9 5 年 g l l i 越 6 等展示了首個(gè)q b h 系 統(tǒng) 此系統(tǒng)將歌曲轉(zhuǎn)換為音調(diào)輪廓信息進(jìn)行匹配 利用三個(gè)字符s s a m e u u p d d o w n 來(lái)表示音樂(lè)的旋律輪廓 一段旋律中的字符表示當(dāng)前音符與其前面的音 符的比較 s 表示音調(diào)的重復(fù) u 表示比其前面音符的音調(diào)高 d 表示比其前面 音樂(lè)哼唱檢索關(guān)鍵技術(shù)研究 音符的音調(diào)低 m c n a b l 7 8 等增加了對(duì)音樂(lè)節(jié)奏信息的提取提高檢索成功率 上 述兩人的檢索系統(tǒng)都使用了字符串匹配的相似度方法進(jìn)行結(jié)果排序 b l a c k b u r n l 9 1 等 r o l a n d 刪等和s h i h t 1 發(fā)展了m c n a b 的方法 使用基于樹的數(shù)據(jù)庫(kù)搜索技術(shù) 以提高搜索精度和速度 c h e r t 1 2 等使用半音 s e m i t o n e 作為距離測(cè)量方法 并 且去處掉旋律輪廓中重復(fù)的音符 k o s u g in 五 等在其系統(tǒng)中使用歐氏距離進(jìn)行 搜索 并且該系統(tǒng)中用戶輸入及數(shù)據(jù)庫(kù)內(nèi)容都被分割為固定窗長(zhǎng) h u t l 5 1 等在旋 律提取中也使用了固定窗長(zhǎng)技術(shù) s h i h 1 6 1 等在其q b h 系統(tǒng)中使用了隱馬爾科夫 模型 m m 這項(xiàng)技術(shù)已經(jīng)被成功應(yīng)用到語(yǔ)音識(shí)別等領(lǐng)域 c l a r i s s e l l r j 等為哼 唱檢索系統(tǒng)創(chuàng)建了一個(gè)聽覺(jué)模型 p a r d o 1 8 培嘗試了兩種不同的相似度計(jì)算方法 用于哼唱搜索 一是使用距離估計(jì)目標(biāo)和數(shù)據(jù)庫(kù)中數(shù)據(jù)的差異 二則將數(shù)據(jù)庫(kù)中 的旋律序列看成h m m 形式 而輸入數(shù)據(jù)看作觀察序列 只有當(dāng)某個(gè)h m m 結(jié)構(gòu) 看起來(lái)能夠產(chǎn)生查詢序列而這才相匹配 l u 1 9 嚕提出一種新的旋律字符串 使用音調(diào)輪廓 音調(diào)間隔和音調(diào)長(zhǎng)度的組合 其系統(tǒng)使用了字符串匹配和動(dòng)態(tài)規(guī) 劃相結(jié)合的方法 及使用層次化的搜索方法來(lái)提高檢索結(jié)果 x h u 2 0 l 等動(dòng)態(tài)時(shí)間 規(guī)整 d 呵w 索引技術(shù)將演唱歌曲直接與數(shù)據(jù)庫(kù)中的歌曲進(jìn)行比較 國(guó)內(nèi)如浙江大學(xué)印 上海交通大學(xué) 2 2 1 西北大學(xué) 2 3 1 等也在基于內(nèi)容音樂(lè)檢 索方面開展了研究工作 各系統(tǒng)的解決方案如表1 i 所示 表1 1 哼唱檢索技術(shù)發(fā)展總結(jié) 作者特征提取技術(shù)搜索技術(shù)時(shí)問(wèn) g h i a s 基音輪廓 u d s 字符串匹配 1 9 9 5 m c n a b 基音輪廓 u d s 音長(zhǎng) 字符串匹配1 9 9 6 2 0 0 0 b l a c k b u r n 基音輪廓 u d s 基于樹的搜索 1 9 9 8 1 9 9 9 r o l a n d c h e n 半音 音長(zhǎng)動(dòng)態(tài)規(guī)劃 1 9 9 8 k o s u g i 固定窗口長(zhǎng)度基音信息動(dòng)態(tài)規(guī)劃 1 9 9 9 h u a n d z h u2 0 0 3 c l a r i s s e 基音 音長(zhǎng) d t w2 0 0 2 s h i l i 基于基音特征的隱馬爾基于樹的搜索 2 0 0 2 科夫模型 音長(zhǎng) p a u w sm i d id t w2 0 0 2 p a r d o m i d i h m m相似度 2 0 0 4 傳統(tǒng)的哼唱檢索系統(tǒng)使用哼 鼻子 或者唱 口 固定的符號(hào)如 b a l a 4 音樂(lè)哼唱撿索關(guān)鍵技術(shù)研究 d a 等 更早的檢索系統(tǒng)還需要在用戶哼唱過(guò)程中加入輔助手段如節(jié)拍器以便分 割音符 1 1 4 選題來(lái)源 本課題得到國(guó)家自然科學(xué)基金資助課題 基于w e b 的音頻識(shí)別與檢索關(guān)鍵 技術(shù)研究 基金編號(hào) 6 0 6 7 3 l o o 的資助 西北大學(xué)可視化研究所近年來(lái)圍繞內(nèi)容檢索領(lǐng)域開展了大量的研究工作 承擔(dān)并完成了 基于內(nèi)容檢索技術(shù)研究 數(shù)據(jù)挖掘技術(shù)的研究與實(shí)現(xiàn) 計(jì)算 機(jī)輔助文物復(fù)原技術(shù)研究 等多項(xiàng)國(guó)家級(jí) 省部級(jí)項(xiàng)目 在內(nèi)容檢索技術(shù)方面積 累了重要研究數(shù)據(jù)與經(jīng)驗(yàn) 為基于內(nèi)容的音樂(lè)哼口昌檢索提供良好的技術(shù)支撐 本項(xiàng)目的研究將樂(lè)理 信號(hào)處理和搜索技術(shù)與多媒體數(shù)據(jù)處理方法有機(jī)結(jié) 合 研究音樂(lè)及哼唱聲音的特征提取方法 構(gòu)造基音到歌譜的轉(zhuǎn)換表 實(shí)現(xiàn)從聲 音到歌譜輪廓的轉(zhuǎn)換 從而使音樂(lè)的內(nèi)容檢索成為可能 然后定義字符串相似度 函數(shù) 實(shí)現(xiàn)音樂(lè)相似度比較 并完成搜索 該課題的研究具有重要的理論意義與 廣闊的應(yīng)用前景 1 2 研究?jī)?nèi)容 哼唱檢索給音樂(lè)檢索提供了易于操作的接口 其中哼唱聲音的特征提取 選擇 音樂(lè)旋律匹配以及對(duì)環(huán)境噪聲的處理是音樂(lè)檢索中的難點(diǎn) 本文針對(duì)這些 問(wèn)題提出了特征提取及匹配算法 設(shè)計(jì)并開發(fā)了 m u s i ca n g e l 音樂(lè)哼唱檢索 系統(tǒng) 主要從事了以下方面的研究工作 1 音樂(lè)哼唱檢索技術(shù)原理研究 哼唱檢索是一種新穎的搜索技術(shù) 具有良好的使用前景 但如何從哼唱 者聲音中尋找合適特征 然后從音樂(lè)數(shù)據(jù)庫(kù)中搜索到最為匹配的歌曲 是 一個(gè)富有挑戰(zhàn)性的研究工作 本文從分析音樂(lè)樂(lè)理 音樂(lè)的信號(hào)特征入手 研究了哼唱檢索的原理 并給出了用于系統(tǒng)實(shí)現(xiàn)的技術(shù)路線 2 哼唱檢索特征提取算法研究 哼唱本質(zhì)上也是聲音的一種表現(xiàn)形式 而語(yǔ)音技術(shù)多年的研究經(jīng)驗(yàn)可以 音樂(lè)哼唱檢索關(guān)鍵技術(shù)研究 有效地幫助哼唱檢索的研究 同時(shí) 音樂(lè)又與正常的發(fā)音不同 在它背后 包含了富有藝術(shù)性的音樂(lè)旋律內(nèi)涵 哼唱檢索系統(tǒng)不可能從演唱者哼唱數(shù) 據(jù)本身直接進(jìn)行比較 必須把隱藏在這些原始哼唱數(shù)據(jù)中的語(yǔ)音特征 音 樂(lè)特征提取出來(lái) 才能夠抓住問(wèn)題的本質(zhì) 獲得成功 本文將從多角度研究哼唱片段的特征提取技術(shù) 并給出相應(yīng)算法 3 音樂(lè)匹配及相似度算法研究 哼唱檢索的最后一個(gè)重要步驟就是音樂(lè)匹配 在特征提取完成之后 大 數(shù)據(jù)量的二進(jìn)制數(shù)據(jù)將被轉(zhuǎn)化為長(zhǎng)度很短的字符串序列 將這些序列與音 樂(lè)數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行相似度計(jì)算 再返回若干相似度最高的音樂(lè) 即完 成了搜索過(guò)程 4 環(huán)境噪聲魯棒性實(shí)驗(yàn) 哼唱檢索的最終目的是要走向?qū)嵱?所以對(duì)環(huán)境噪聲的影響要尤為注 意 本文研究測(cè)試了在正態(tài)隨機(jī)噪聲 環(huán)境沖激噪聲和呼吸噪聲的影響下 上述哼唱檢索算法的穩(wěn)定性和適應(yīng)性 1 3 內(nèi)容組織 2 0 0 0 年以后 哼唱檢索理論及其應(yīng)用在國(guó)際上得到了較快的發(fā)展 許多新 技術(shù)和方法得到應(yīng)用 涌現(xiàn)出一批新的系統(tǒng)原型 但從整體看 由于人們對(duì)語(yǔ)音 技術(shù)自身研究仍舊處于一個(gè)較低的水平 對(duì)音樂(lè)內(nèi)容的存儲(chǔ)和表示 音樂(lè)特征的 選取和提取 音樂(lè)相似度比較和系統(tǒng)的環(huán)境魯棒性等等一系列問(wèn)題沒(méi)有好的解決 方案 因而一直無(wú)法推出商業(yè)應(yīng)用 本課題將充分學(xué)習(xí)和研究國(guó)內(nèi)外哼唱檢索技術(shù)的最新進(jìn)展 吸取前人經(jīng)驗(yàn) 研究開發(fā)出一套魯棒性較好 時(shí)間復(fù)雜度低 檢索精度較高的音樂(lè)檢索系統(tǒng) 并 對(duì)系統(tǒng)關(guān)鍵算法進(jìn)行改進(jìn) 綜上所述 結(jié)合國(guó)內(nèi)外音樂(lè)哼唱檢索理論的研究動(dòng)態(tài) 我們確定了以下幾 個(gè)研究方向 音樂(lè)的信號(hào)處理 歌譜輪廓特征提取 音樂(lè)檢索匹配算法 系統(tǒng)設(shè) 計(jì)和實(shí)現(xiàn) 圍繞以上主題 本文主要分為七個(gè)章節(jié) 6 音樂(lè)哼喝檢索關(guān)鍵技術(shù)研究 第一章 緒論 簡(jiǎn)要介紹哼唱檢索和基于內(nèi)容檢索的一些基本概念 研究意 義 研究背景及其國(guó)內(nèi)外研究現(xiàn)狀和選題來(lái)源 同時(shí)簡(jiǎn)介本課題的研究?jī)?nèi)容和組 織方式 第二章 基于內(nèi)容音樂(lè)檢索基礎(chǔ)原理研究 首先通過(guò)對(duì)音樂(lè)樂(lè)理 音樂(lè)的數(shù) 字化表示及音樂(lè)信號(hào)處理理論的研究學(xué)習(xí) 討論了音樂(lè)通過(guò)基于內(nèi)容方式進(jìn)行檢 索的可行性 然后分析了基于內(nèi)容音樂(lè)家檢索中的難點(diǎn) 最后給出了基于內(nèi)容音 樂(lè)檢索的研究方案和處理框架 第三章 音樂(lè)旋律輪廓提取算法 針對(duì)基于內(nèi)容音樂(lè)檢索原理分析 提出了 音樂(lè)旋律輪廓特征的提取算法 m c e a 該算法首先從哼唱片斷中提取歌曲基 音序列 經(jīng)規(guī)整 合并 分段后轉(zhuǎn)化為歌譜輪廓序列 最后 根據(jù)使用標(biāo)準(zhǔn)音調(diào) 生成的標(biāo)準(zhǔn)音調(diào)差值圖 將歌譜輪廓序列映射為可供搜索的特征字符串 第四章 音樂(lè)檢索匹配算法 首先研究字符串匹配檢索算法和音樂(lè)旋律匹配 算法 分析了基于內(nèi)容音樂(lè)檢索中音樂(lè)匹配的難點(diǎn) 提出用于基于內(nèi)容音樂(lè)檢索 的字符串相似度計(jì)算方法 該算法將由歌譜輪廓特征序列轉(zhuǎn)化而來(lái)的字符串序 列 與音樂(lè)數(shù)據(jù)庫(kù)中的歌曲特征序列進(jìn)行相似度計(jì)算 返回相似度最高的歌曲 第五章 音樂(lè)數(shù)據(jù)庫(kù)技術(shù)研究 首先介紹了用于音樂(lè)哼唱檢索的音樂(lè)數(shù)據(jù)庫(kù) 的建立方法 并給出了數(shù)據(jù)庫(kù)優(yōu)化的一些方法和思路 接著嘗試將時(shí)問(wèn)序列技術(shù) 中的p a a 算法用于音樂(lè)數(shù)據(jù)庫(kù)的數(shù)據(jù)處理工作 第六章 音樂(lè)哼唱檢索系統(tǒng)及實(shí)現(xiàn) 結(jié)合上述研究?jī)?nèi)容 實(shí)現(xiàn)了一個(gè)基于內(nèi) 容的哼唱檢索系統(tǒng)一 m u s i c a n g e l 并進(jìn)行哼唱檢索試驗(yàn) 試驗(yàn)效果表明 該系統(tǒng)無(wú)需事先訓(xùn)練 對(duì)環(huán)境噪聲有較好的魯棒性 具有較高的檢索精度 第七章 結(jié)論及展望 對(duì)本文做出總結(jié)分析 并對(duì)今后的基于內(nèi)容音樂(lè)檢索 研究進(jìn)行了展望 剛 4 本章小結(jié) 本章是全文的綱領(lǐng)性部分 闡述了論文的研究意義 課題背景 國(guó)內(nèi)外研究 現(xiàn)狀及選題來(lái)源 并重點(diǎn)介紹了本課題的主要研究?jī)?nèi)容 最后包括全文組織結(jié)構(gòu) 及各章概要 7 音樂(lè)哼唱檢索關(guān)鍵技術(shù)研究 第二章基于內(nèi)容音樂(lè)檢索基礎(chǔ) 互聯(lián)網(wǎng)正以前所未有的速度改變著人們的生活 快速豐富的信息 包羅萬(wàn)象 的資源 更重要的是這些資源可以為任何人所擁有 搜索引擎正是打開這些資源 的一把鑰匙 傳統(tǒng)音樂(lè)檢索方式是通過(guò)對(duì)音樂(lè)的元數(shù)據(jù) m e t a d a t a 例如歌曲名稱 歌詞 演唱者 歌曲作者等外在信息進(jìn)行文本方式的檢索 基于內(nèi)容的音樂(lè)檢索則是利 用音符和旋律等音樂(lè)特征來(lái)進(jìn)行檢索 本章通過(guò)對(duì)音樂(lè)樂(lè)理的介紹 音樂(lè)數(shù)字化的分析以及對(duì)音樂(lè)從信號(hào)處理角度 研究 討論了音樂(lè)通過(guò)基于內(nèi)容方式進(jìn)行檢索的可行性 然后分析了基于內(nèi)容音 樂(lè)家檢索中的難點(diǎn) 最后給出了基于內(nèi)容音樂(lè)檢索的研究方案和處理框架 2 1 預(yù)備知識(shí) 2 1 1 音樂(lè)樂(lè)理基礎(chǔ) 樂(lè)理 就是關(guān)于音樂(lè)的理論 不同的國(guó)家和民族有不同的社會(huì)環(huán)境和不同的 文化背景 因而也就應(yīng)該有不同的音樂(lè)實(shí)踐和不同的音樂(lè)理論 中國(guó)音樂(lè)理論遵循的是 音無(wú)定高 拍無(wú)定值 譜無(wú)定法 演奏 或演唱 者應(yīng)根據(jù)自己對(duì)音樂(lè)的理解去塑造音樂(lè)形象 簡(jiǎn)而言之 是一個(gè)開放的音樂(lè)體系 而西方的音樂(lè)理論 尤其是樂(lè)理 則講究的是 音高和音值是構(gòu)成旋律的基 本要素 必須按譜演奏 任何改變音高或音值的做法必將改變音樂(lè)形象 是一 個(gè)封閉的音樂(lè)體系 我們目前所使用的樂(lè)理體系源于歐i f f 是歐洲文藝復(fù)興時(shí)期音樂(lè)基礎(chǔ)理論的 結(jié)晶 下面 我們對(duì)基于內(nèi)容音樂(lè)檢索中所涉及到的一些基本音樂(lè)樂(lè)理概念做簡(jiǎn) 要介紹 1 音 由聽覺(jué)器官感覺(jué)到的信息就叫做音 在物理學(xué)中 物體振動(dòng)在彈性 體里的傳播 叫做波動(dòng) 簡(jiǎn)稱為波 在空氣中傳播的波叫聲波 能為人的聽覺(jué)器 官所感覺(jué)到的聲波叫聲音 而包含信息的聲音就是音 音的性質(zhì)有四種 即音高 音值 音量和音色 音樂(lè)哼唱撿索關(guān)鍵技術(shù)研究 音高 就是音的高低 是由振動(dòng)頻率的多少來(lái)決定的 音值 就是音的長(zhǎng)短 是由振動(dòng)延續(xù)的時(shí)間長(zhǎng)短來(lái)決定的 音量 就是音的強(qiáng)弱 是由振動(dòng)幅度的大小來(lái)決定的 音色 就是音的色彩 是由泛音的多少和各個(gè)泛音的強(qiáng)弱來(lái)決定的 在以上四種性質(zhì)中 前三種性質(zhì)里的 振動(dòng) 主要指的是基音的振動(dòng) 音的這四種性質(zhì)對(duì)于塑造各種不同的音樂(lè)形象均起著相當(dāng)重要的作用 但是 音高和音值對(duì)于音的組織起著決定的作用 2 樂(lè)音 在音樂(lè)中使用的 有固定音高的音叫做樂(lè)音 而把音高不明顯 或者音高不固定的音叫做噪音 樂(lè)音具有上述全部四種性質(zhì) 而噪音則由于其音高不明顯或音高不固定而主 要只考慮其中的后三種 3 基音和泛音 絕大多數(shù)物體在振動(dòng)時(shí) 振動(dòng)的不僅是整個(gè)物體 它的各 個(gè)部分也分別在同時(shí)振動(dòng) 這種振動(dòng)叫復(fù)合振動(dòng) 復(fù)合振動(dòng)所產(chǎn)生的音叫復(fù)合音 其中整體振動(dòng)所產(chǎn)生的音叫基音 各個(gè)部分振動(dòng)所產(chǎn)生的音叫泛音 4 樂(lè)音體系 基本樂(lè)音的總和 叫做樂(lè)音體系 樂(lè)音體系中的音按照音高關(guān)系排列起來(lái) 叫做音歹l j 其中從低到高的排列叫 做上行音列 由高到低的排列叫做下行音列 5 音級(jí) 樂(lè)音體系中的各音叫音級(jí) 具有獨(dú)立名稱的音級(jí)叫做基本音級(jí) 6 唱名和音名 所有的音級(jí)都有兩種名稱 在唱樂(lè)譜時(shí)所使用的名稱叫做 唱名 在書面或口頭語(yǔ)言中所使用的名稱叫做音名 基本音級(jí)的音名使用英語(yǔ)字母表中的前七個(gè)字母 只不過(guò)不是從a 而是從c 開始 唱名是意大利體系 音名和唱名如下示例圖所示 9 音樂(lè)哼唱檢索關(guān)鍵技術(shù)研究 音名 唱名d o聆 n u f as o ll as i 拼音d o u m a im if a s u ol a x i 圖2 1 音名和唱名 7 八度 在音列中兩個(gè)相鄰的具有同樣名稱的音級(jí)叫做八度 2 1 2 音樂(lè)記譜表示 用書面形式將音樂(lè)記錄下來(lái)的方法叫做記譜法 用記譜法記錄下來(lái)的內(nèi)容口q 做樂(lè)譜 記譜方法自古就有 現(xiàn)在普遍使用的是簡(jiǎn)譜和五線譜 五線譜用五條平行橫線和一些符號(hào)來(lái)記譜 能準(zhǔn)確的表達(dá)音高 有利于記載 多聲音樂(lè) 是專業(yè)音樂(lè)工作者必須掌握的一種記譜方法 例如 中華人民共和國(guó) 國(guó)歌的前奏樂(lè)譜用五線譜記錄為 圖2 2 國(guó)歌 的五線譖表示 簡(jiǎn)譜則用阿拉伯?dāng)?shù)字和一些附加成分來(lái)記錄樂(lè)曲的音高和音值 流行音樂(lè)多 采用此方法 同上 國(guó)歌的前奏樂(lè)譜用簡(jiǎn)譜記錄為 j aa 墜一堇 互 65 塾三皿31避逝1 一 一 圖2 3 國(guó)歌 的簡(jiǎn)譜表示 2 1 3 聽覺(jué)特性 人類的聽覺(jué)活動(dòng)是一個(gè)復(fù)雜的生理和心理過(guò)程 人類的耳朵所能聽覺(jué)到的聲 l o 音樂(lè)哼唱檢索關(guān)鍵技術(shù)研究 音頻率范圍大概介于2 0 赫茲到2 0 千赫茲 而人類一般由聲帶所發(fā)出的聲音則是 成年男性介于5 0 到2 5 0 赫茲 成年女性介于1 2 0 到4 0 0 赫茲 小孩介于1 5 0 到 4 5 0 赫茲 我們平時(shí)在唱歌時(shí)候頻率則大概會(huì)落在3 0 0 到3 4 0 0 赫茲左右 因此 每個(gè)人的所能發(fā)出的音也大致介于l 到4 個(gè)八度音之間 因此取樣頻率就可以因 此設(shè)定范圍在5 0 到3 5 0 0 赫茲之間 使得音高偵測(cè)的準(zhǔn)確度得到提高 2 2 音樂(lè)的數(shù)字化表示 能夠聽見(jiàn)的聲音都是連續(xù)的模擬信號(hào) 為了能夠保存在計(jì)算機(jī)中 要對(duì)連續(xù) 的模擬信號(hào)進(jìn)行采樣 然后再保存為以二進(jìn)制形式存儲(chǔ)的數(shù)字化音樂(lè)文件 對(duì)于 不同平臺(tái) 目前常用的計(jì)算機(jī)音樂(lè)文件格式也不盡相同 每種格式能支持的音頻 參數(shù)和使用環(huán)境各不相同 以下對(duì)目前常見(jiàn)的音樂(lè)格式進(jìn)行簡(jiǎn)要介紹 2 2 1 聲音文件 聲音文件指的是對(duì)真實(shí)聲音的模擬波形進(jìn)行二進(jìn)制采樣后得到的數(shù)據(jù) 是對(duì) 聲音的真實(shí)反映 這樣存儲(chǔ)聲音信息所產(chǎn)生的聲音文件是相當(dāng)龐大的 因此絕大 多數(shù)聲音文件采用了不同的音頻壓縮算法 在基本保持聲音質(zhì)量不變的情況下盡 可能獲得更小的文件 w m d o w s 平臺(tái)上常見(jiàn)的聲音文件格式有 w a v e 格式 w a y 由m i c r o s o f t 公司開發(fā)的聲音文件格式 也叫波形聲音 文件 它支持m s a d p c m c c i t t a l a w 等多種壓縮算法 支持多種采樣頻率 和聲道 它的音質(zhì)較好 是w i n d o w s 平臺(tái)上最重要的聲音文件格式 文件大小 只和采樣精度及時(shí)問(wèn)長(zhǎng)度相關(guān) 即在一定的采樣精度下 所有時(shí)閶一樣的聲音文 件不管其內(nèi)容如何 文件大小相同 m p e g 格式 m p l m p 2 m p 3 m p 3 是指的是m p e g m o v i n g p i c t u r e e x p e r t s g r o u p 標(biāo)準(zhǔn)中的音頻部分 也就是m p e g 音頻層 它誕生于八十年代的德國(guó) 根據(jù)壓縮質(zhì)量和編碼處理的不同分為3 層 m p 3 分別對(duì)應(yīng)m p l m p 2 r a p 3 這3 種聲音文件 m p e g 音頻文件的壓縮是一種有損壓縮 m p e g 3 音頻編碼具有 1 0 1 1 2 1 的高壓縮率 它利用人耳的掩蔽效應(yīng) 犧牲聲音文件中1 2 k h z 到1 6 k h z 高音頻這部分的質(zhì)量來(lái)?yè)Q取文件的尺寸 同時(shí)基本保持低音頻部分不失真 相同 音樂(lè)哼唱檢索關(guān)鍵技術(shù)研究 長(zhǎng)度的音樂(lè)文件 用r a p 3 格式來(lái)儲(chǔ)存 一般只有w a v 文件的i 1 0 而音質(zhì)要低 于c d 格式或w a v 格式的聲音文件 r e a l a u d i o 格式 r m r a r a m r e a l a u d i o 是r e a l n e t w o r k s 公司推出的一 種音頻文件格式 它主要用來(lái)在低速率網(wǎng)絡(luò)上進(jìn)行在線音樂(lè)欣賞 因而通常它的 回放效果較差 它可以根據(jù)網(wǎng)絡(luò)數(shù)據(jù)傳輸速率的不同而采用不同的壓縮比率 在 數(shù)據(jù)傳輸過(guò)程中邊下載邊播放音樂(lè) 從而實(shí)現(xiàn)聲音數(shù)據(jù)的實(shí)時(shí)傳送和播放 w m a 格式 w m a t 即w i n d o w sm e d i a a u d i o 是m i c r o s o r 公司推出的又 一種壓縮音頻文件格式 它比r a p 3 的壓縮率更高 可達(dá)l 1 8 w m a 的另一個(gè) 優(yōu)點(diǎn)是內(nèi)容提供商可以通過(guò)d r m d i g i t a lp d g h t sm a n a g e m e n t 方案如w i n d o w s m e d i ae i g h t sm a n a g e r7 加入防拷貝保護(hù) 這種版權(quán)保護(hù)技術(shù)可以限制播放時(shí)間 和播放次數(shù)甚至于播放的機(jī)器等等 2 2 2 m i d i 文件 為解決電子樂(lè)器之間的通信問(wèn)題 1 9 8 2 年 國(guó)際樂(lè)器制造者協(xié)會(huì)會(huì)議通過(guò) 了 通用合成器接口 方案 并命名為 音樂(lè)設(shè)備數(shù)字接口m i d i m u s i c a l i n s t r u m e n td i g i t a li n t e r f a c e m d i 文件記錄的是音樂(lè)演奏指令序列 說(shuō)明了在什么時(shí)間 用什么樂(lè)器演 奏什么音符及如何演奏 實(shí)際上m i d i 文件是利用聲音輸出設(shè)備或與計(jì)算機(jī)相連 的電子樂(lè)器進(jìn)行演奏 其中并不包含真實(shí)聲音的數(shù)據(jù) 所以文件尺寸要比聲音文 件小的多 m i d i 的主要特性包括 1 m i d i 文件是一種數(shù)據(jù)文件 包含音樂(lè)數(shù)據(jù)和命令 2 m i d i 文件是一種二進(jìn)制文件 3 m i d i 文件并不能跨越所有平臺(tái)或軟硬件 2 2 3 模塊文件 模塊m o d u l e 格式是一種已經(jīng)存在了很長(zhǎng)時(shí)間的聲音記錄方式 它同時(shí)具有 m i d i 與數(shù)字音頻的共同特性 也就是說(shuō)模塊文件中既包括如何演奏樂(lè)器的指 令 又保存了聲音信號(hào)的采樣數(shù)據(jù) 因此其聲音回放質(zhì)量對(duì)音頻硬件的依賴性較 1 2 音樂(lè)哼唱檢索關(guān)鍵技術(shù)研究 小 在不同的機(jī)器上可以獲得基本相似的聲音回放質(zhì)量 它的后綴名常 為 m o d s 3 m x m m t m f a r k a r i t 等 2 3 音樂(lè)信號(hào)特征及處理 語(yǔ)音是人類相互之間進(jìn)行交流時(shí)使用最多 最自然也是最基本的信息載體 語(yǔ)音信號(hào)的研究有著較長(zhǎng)的歷史 從2 0 世紀(jì)4 0 年代初美國(guó)人h d u d l e y 展出了 一個(gè)簡(jiǎn)單的發(fā)聲過(guò)程模擬系統(tǒng)到現(xiàn)在 已經(jīng)走過(guò)了快7 0 年的歷史 在這7 0 年的 時(shí)間里 語(yǔ)音信號(hào)處理取得了許多矚目的成就 哼唱也是一種發(fā)聲活動(dòng) 因而 我們可借助語(yǔ)音技術(shù)的成功經(jīng)驗(yàn)和成熟技術(shù) 為哼唱檢索的研究提供便利 2 3 1 音樂(lè)信號(hào)特征 音樂(lè)數(shù)據(jù)的特征提取和特征向量的構(gòu)建 對(duì)于索引算法的設(shè)計(jì) 音頻檢索的 效率 精度起著至關(guān)重要的作用 哼唱雖不同于說(shuō)話 但從發(fā)聲角度看二者并無(wú)本質(zhì)差異 所以 在語(yǔ)音識(shí)別 中所使用的那些語(yǔ)音特征可以作為我們進(jìn)行音樂(lè)檢索研究的 候選 特征 根據(jù) 信號(hào)的物理特性 音頻特征包括時(shí)域特征 頻域特征和基于濾波器的倒譜特征 這些特征包括 以下若參數(shù)不作特別說(shuō)明 其含義分別為 礎(chǔ) 表示語(yǔ)音信號(hào) 膽 表示加窗 1 短時(shí)能量 s h o r t t i m ee n e r g y 和短時(shí)平均幅度 s h o r t t i m ea v e r a g e m a g e n i t u d e e 砌 w n m 2 2 1 e j 砌 w n m 2 1 式是短時(shí)能量函數(shù) 2 2 式是短時(shí)平均幅度函數(shù) 短時(shí)能量和短時(shí)平均幅度函數(shù)的主要作用有 音樂(lè)哼唱檢索關(guān)鍵技術(shù)研究 b 可用來(lái)區(qū)分聲母 韻母的分界 連字的分界 信噪比較高的情況下可區(qū) 短時(shí)平均過(guò)零率 s h o r t t i m e a v e r a g e z e r o c r o s s i n g r a t e 當(dāng)離散時(shí)間信號(hào)相鄰兩個(gè)采樣點(diǎn)的正負(fù)號(hào)異號(hào)時(shí) 稱之為 過(guò)零 即此時(shí) 信號(hào)的時(shí)間波形穿過(guò)了零點(diǎn)平的橫軸 統(tǒng)計(jì)單位時(shí)間內(nèi)樣點(diǎn)值改變符號(hào)的次數(shù)就 乙 ls 口 m 卜s 鯛 工 卅一1 i 以行一喲 2 3 鼽s 鯽為符號(hào)濺眺臥 l 蕊孫州為窗濺常 采用矩形窗 窗長(zhǎng)為 即 b s n n 1 l 這樣 在采用矩形窗的 釉翮氤漲舢朋m 叫磊j 邀橇積脆脯的 乙2 素 至撕鯛h 伽 一s 朗 坍 1 l 2 4 i 短時(shí)平均過(guò)零率可以用來(lái)粗略估計(jì)語(yǔ)音的頻譜特性 它的主要用途有 b 配合其他參數(shù)進(jìn)行清濁音的區(qū)分 3 熵特征 e n t r o p y e r r y 即 l g p 2 5 跗 眇 叫儋阻 f h 2 2 6 其中m a 是指將音樂(lè)幀的頻率帶劃分為 個(gè)頻率子帶后 第f 個(gè)頻率子帶 上的能量 1 4 音樂(lè)哼唱檢索關(guān)鍵技術(shù)研究 4 線性預(yù)測(cè)系數(shù) l i n e a r p r e d i c t i o nc o d i n gc o e f f i c i e n t 1 9 4 7 年維納首次提出了 l i n e a r p r e d i c t i o n 這 概念 而板倉(cāng)等人在1 9 6 7 年首先將線形預(yù)測(cè)技術(shù)應(yīng)用到語(yǔ)音分析和合成中 它的基本思想是 由于語(yǔ)音樣點(diǎn)之間存在相關(guān)性 所以可以用過(guò)去的樣點(diǎn)值 來(lái)預(yù)測(cè)現(xiàn)在或未來(lái)的樣點(diǎn)值 即一個(gè)語(yǔ)音的抽樣能夠用過(guò)去若干個(gè)語(yǔ)音抽樣或它 們的線性組合來(lái)逼近 通過(guò)實(shí)際語(yǔ)音抽樣和線性預(yù)測(cè)抽樣之間的誤差在某個(gè)準(zhǔn)則下達(dá)到最小值來(lái) 決定唯一的一組預(yù)測(cè)系數(shù) 這就是線性預(yù)測(cè)系數(shù) 即已知過(guò)去p 個(gè)信號(hào)值 下一 個(gè)樣點(diǎn)值工0 可表示為 刀 蘭口 石 胛一f 2 7 f l 預(yù)測(cè)誤差為占 廳 工 1 一 竹 一妻a i x o 一0 這樣 通過(guò)在某個(gè)準(zhǔn)則 i 1 下使預(yù)測(cè)誤差s n 達(dá)到最小值的方法來(lái)唯一的確定一組預(yù)測(cè)系數(shù) 噸o 1 2 p p 稱為預(yù)測(cè)階數(shù) 5 m e l 倒譜系數(shù) m e lf r e q u e n c yc e p s t r a lc o e f f i c i e n t 一個(gè)信號(hào)的倒譜定義為信號(hào)頻譜模的自然對(duì)數(shù)的逆傅里葉變換 即 工 i d f t 扯i 刪叮 工 m 2 8 式中d 刀為離散傅里葉變換 i d f t 為逆離散傅里葉變換 而m e l 倒譜系數(shù)m f c c m e lf r e q u e n c yc e p s t r a lc o e f f i c i e n t 的分析著眼于 人耳的聽覺(jué)特性 因?yàn)槿硕犚?jiàn)的聲音的高低與聲音的頻率并不成線性正比關(guān) 系 使用m e l 頻率尺度更符合入耳的聽覺(jué)特性 m e l 頻率與實(shí)際頻率之間的關(guān)系 為 m e t f 2 9 5 9 i g 1 f 7 0 0 2 9 這里 的單位是舷 撇開人的因素 音樂(lè)在本質(zhì)上表現(xiàn)為音符的序列 而人在演唱過(guò)程中 也總 是向這些音符靠近 以求演唱準(zhǔn)確 這就提示我們 可以從音樂(lè)本身所具有的特 1 5 音樂(lè)哼唱檢索關(guān)鍵技術(shù)研究 質(zhì)這個(gè)角度去研究音樂(lè)檢索 上面所述的這5 種音樂(lè)特征是從信號(hào)處理的角度去尋找的 從音樂(lè)角度來(lái) 看 它還有音高 音調(diào) 音值 節(jié)奏 節(jié)拍 速度和旋律等眾多音樂(lè)特征 如何從眾多的特征中選擇合適的特征去描述音樂(lè) 提供檢索依據(jù)是問(wèn)題解決 關(guān)鍵 現(xiàn)有系統(tǒng)基本上都選用某一種或幾種特征 無(wú)論是哪種特征都具有片面性 因而特征的選取也是非常關(guān)鍵的 2 3 2 音樂(lè)信號(hào)預(yù)處理 2 3 2 1 預(yù)濾波 預(yù)濾波的目的主要有兩個(gè) 1 抑制輸入信號(hào)各頻域分量中頻率超出 2 的所有分量 z 為采樣頻率 以防止混疊干擾 2 抑制5 0 h z 的電源工頻干擾 預(yù)濾波器必須是一個(gè)帶通濾波器 設(shè)其上 下截止頻率分別是厶和兀 對(duì) 于大多數(shù)語(yǔ)音解碼器 厶 3 4 0 0 h z 兀 6 0 一l o o h z 2 3 2 2 預(yù)加重 由于語(yǔ)音信號(hào)的平均功率譜受聲門激勵(lì)和口鼻輻射影響 高頻端大約在 8 0 0 h z 以上按6 d b 倍頻程跌落 所以求語(yǔ)音信號(hào)頻譜時(shí) 頻率越高相應(yīng)的成分 就越小 高頻部分的頻譜比低頻部分難的難求 因此要對(duì)語(yǔ)音信號(hào)先進(jìn)行預(yù)加重 p r e e m p h a s i s 處理 其目的是提升高頻部分 使信號(hào)的頻譜交得平坦 保持 在低頻到高頻的整個(gè)頻帶中 能用同樣的信噪比求頻譜 通常使用一階的數(shù)字濾波器來(lái)進(jìn)行處理 即 日 z 1 一 z 2 1 0 a 值接近于l 典型值為o 9 4 1 6 音樂(lè)哼唱檢索關(guān)鍵技術(shù)研究 2 3 2 3 加窗分幀 語(yǔ)音信號(hào)從整體來(lái)看其特征及表征其本質(zhì)特性的參數(shù)均是隨時(shí)間變化的 所以它是一個(gè) 非平穩(wěn)態(tài)過(guò)程 雖然語(yǔ)音信號(hào)具有時(shí)變特性 但是在一個(gè)短時(shí) 間范圍內(nèi) 1 0 3 0 m s 其特性基本保持不變 因而可將其看作是一個(gè)準(zhǔn)穩(wěn)態(tài)過(guò) 程 即語(yǔ)音信號(hào)具有短時(shí)平穩(wěn)性 所以任何涉及語(yǔ)音信號(hào)的分析都必須建立在 短 時(shí) 的基礎(chǔ)上

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論