數(shù)字音頻基礎知識_第1頁
數(shù)字音頻基礎知識_第2頁
數(shù)字音頻基礎知識_第3頁
數(shù)字音頻基礎知識_第4頁
全文預覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、第一章 數(shù)字音頻基礎知識主要內(nèi)容聲音基礎知識認識數(shù)字音頻數(shù)字音頻專業(yè)知識 第 1 節(jié) 聲音基礎知識1.1 聲音的產(chǎn)生聲音是由振動產(chǎn)生的。物體振動停止,發(fā)聲也停止。當振動波傳到人耳時,人便聽到了聲音。人能聽到的聲音,包括語音、音樂和其它聲音(環(huán)境聲、音效聲、自然聲等) ,可以分為樂音和噪音。樂音是由規(guī)則的振動產(chǎn)生的,只包含有限的某些特定頻率,具有確定的波形。噪音是由不規(guī)則的振動產(chǎn)生的,它包含有一定范圍內(nèi)的各種音頻的聲振動,沒有確定的波形。1.2 聲音的傳播聲音靠介質(zhì)傳播,真空不能傳聲。介質(zhì):能夠傳播聲音的物質(zhì)。聲音在所有介質(zhì)中都以聲波形式傳播。音速聲音在每秒內(nèi)傳播的距離叫音速。聲音在固體、液體中

2、比在氣體中傳播得快。15oC 時空氣中的聲速為 340m/s 。1.3 聲音的感知外界傳來的聲音引起鼓膜振動經(jīng)聽小骨及其他組織傳給聽覺神經(jīng),聽覺神經(jīng)再把信號傳給大腦,這樣人就聽到了聲音。雙耳效應的應用:立體聲人耳能感受到(聽覺)的頻率范圍約為 20Hz20kHz,稱此頻率范圍內(nèi)的聲音為可聽聲(audible sound)或音頻(audio),頻率20Hz聲音為次聲,頻率20kHz聲音為超聲。人的發(fā)音器官發(fā)出的聲音(人聲)的頻率大約是80Hz3400Hz。人說話的聲音(話音 voice /語音speech)的頻率通常為 300Hz 3000 Hz (帶寬約 3kHz)。傳統(tǒng)樂器的發(fā)聲范圍為16H

3、z (C2)7kHz(a5),如鋼琴的為 27.5Hz (A2)4186Hz(c5)。1.4 聲音的三要素聲音具有三個要素:音調(diào)、響度(音量/音強)和音色人們就是根據(jù)聲音的三要素來區(qū)分聲音。音調(diào)( pitch )音調(diào):聲音的高低(高音、低音) , 由 “頻率 ” ( frequency )決定,頻率越高音調(diào)越高。聲音的頻率是指每秒中聲音信號變化的次數(shù), 用 Hz 表示。 例如, 20Hz 表示聲音信號在 1 秒鐘內(nèi)周期性地變化 20 次。高音:音色強勁有力,富于英雄氣概。擅于表現(xiàn)強烈的感情。低音:音色深沉渾厚,擅于表現(xiàn)莊嚴雄偉和蒼勁沉著的感情。響度( loudness )響度:又稱音量、音強,

4、指人主觀上感覺聲音的大小,由 “振幅 ” ( amplitude )和人離聲源的距離決定,振幅越大響度越大,人和聲源的距離越小,響度越大。 (單位:分貝 dB ) 音色( music quality )音色:又稱音品,由發(fā)聲物體本身材料、結(jié)構(gòu)決定。每個人講話的聲音以及鋼琴、提琴、笛子等各種樂器所發(fā)出的不同聲音,都是由音色不同造成的。1.5 聲道聲道(sound channel /track)是分開錄音然后結(jié)合起來以便同時聽到的一段聲音。早期的聲音重放( playback/ reproduction )技術(shù)落后,只有單一聲道( mono / monophony ) ,只能簡單地發(fā)出聲音(如 留聲

5、機、調(diào)幅AM 廣播) ;后來有了雙聲道的立體聲 ( stereo ) 技術(shù) (如立體聲唱機、 調(diào)頻 FM 立體聲廣播、 立體聲盒式錄音帶、 激光唱盤 CD-DA ) , 利用人耳的雙耳效應,感受到聲音的縱深和寬度,具有立體感?,F(xiàn)在又有了各種多聲道的環(huán)繞聲( surround sound)重放方式(如4.1、5.1、6.1、7.1聲道),將多只喇叭(揚聲器speaker)分布在聽者的四周,建立起環(huán)繞聆聽者周圍的聲學空間,使聽者感受到自己被聲音包圍起來,具有強烈的現(xiàn)場感(如電影院、家庭影院、 DVD-Audio 、 SACD 、 DTS-CD 、 HDTV ) 。第 2 節(jié) 認識數(shù)字音頻2.1 模

6、擬信號音頻信號是典型的連續(xù)信號,不僅在時間上是連續(xù)的,而且在幅度上也是連續(xù)的。在時間上 “連續(xù) ”是指在任何一個指定的時間范圍里聲音信號都有無窮多個幅值;在幅度上 “連續(xù) ”是指幅度的數(shù)值為實數(shù)。我們把在時間(或空間)和幅度上都是連續(xù)的信號稱為模擬信號(analog signal) 。2.2 數(shù)字信號在某些特定的時刻對這種模擬信號進行測量叫做采樣(sampling) ,在有限個特定時刻采樣得到的信號稱為離散時間信號。采樣得到的幅值是無窮多個實數(shù)值中的一個,因此幅度還是連續(xù)的。把幅度取值的數(shù)目限定為有限個的信號就稱為離散幅度信號。我們把時間和幅度都用離散的數(shù)字表示的信號就稱為數(shù)字信號(digit

7、al signal) 。從模擬信號到數(shù)字信號的轉(zhuǎn)換為模數(shù)轉(zhuǎn)換,記為A/D(Analog-to-Digital);從數(shù)字信號到模擬信號的轉(zhuǎn)換為數(shù)模轉(zhuǎn)換,記為D/A(Digital-to-Analog)。第3節(jié)數(shù)字音頻專業(yè)知識人們?nèi)粘I盥牭降母鞣N聲音信息是典型的連續(xù)信號,它不僅在時間上連續(xù),而且在幅度上也連續(xù),我們稱之為模擬音頻。在數(shù)字音頻技術(shù)產(chǎn)生之前,我們只能用磁帶或膠木唱片來存儲模擬音頻,隨著技術(shù)的發(fā)展,聲音信號逐漸過渡到了數(shù)字化存儲階段,可以用計算機等設備將它們存儲起來。3.1 模擬音頻的數(shù)字化對于計算機來說,處理和存儲的只可以是二進制數(shù),所以在使用計算機處理和存儲聲音信號之前,我們必須使

8、用模數(shù)轉(zhuǎn)換( A/D )技術(shù)將模擬音頻轉(zhuǎn)化為二進制數(shù),這樣模擬音頻就轉(zhuǎn)化為數(shù)字音頻了。所謂模數(shù)轉(zhuǎn)換就是將模擬信號轉(zhuǎn)化為數(shù)字信號,模數(shù)轉(zhuǎn)換的過程包括采樣、量化和編碼三個步驟。模擬音頻向數(shù)字音頻的轉(zhuǎn)換是在計算機的聲卡中完成的。3.2 采 樣采樣是指將時間軸上連續(xù)的信號每隔一定的時間間隔抽取出一個信號的幅度樣本,把連續(xù)的模擬量用一個個離散的點表示出來,使其成為時間上離散的脈沖序列。每秒鐘采樣的次數(shù)稱為采樣頻率,用 f 表示;樣本之間的時間間隔稱為取樣周期,用 T 表示, T=1/f 。例如: CD 的采樣頻率為 44.1kHz ,表示每秒鐘采樣44100 次。常用的采樣頻率有8kHz、 11.025

9、Hz、 22.05kHz 、 15kHz、 44.1kHz 、 48kHz 等。在對模擬音頻進行采樣時,取樣頻率越高,音質(zhì)越有保證;若取樣頻率不夠高,聲音就會產(chǎn)生低頻失真。那么怎樣才能避免低頻失真呢?著名的采樣定理( Nyquist 定理)中給出有明確的答案:要想不產(chǎn)生低頻失真,采樣頻率至少應為所要錄制的音頻的最高頻率的2倍。例如,電話話音的信號頻率約為3.4 kHz ,采樣頻率就應該R 6.8 kHz ,考慮到信號的衰減等因素,一般取為 8kHz 。3.3 量 化量化是將采樣后離散信號的幅度用二進制數(shù)表示出來的過程。每個采樣點所能表示的二進制位數(shù)稱為量化精度,或量化位數(shù)。量化精度反映了度量聲

10、音波形幅度的精度。例如,每個聲音樣本用16位(2字節(jié))表示,測得的聲音樣本值是在065536的范圍里,它的精度就是輸入信號的 1/65536 。常用的采樣精度為 8bit/s、 12 bit/s、 16bit/s、 20bit/s、 24bit/s 等。采樣頻率、采樣精度和聲道數(shù)對聲音的音質(zhì)和占用的存儲空間起著決定性作用。我們希望音質(zhì)越高越好,磁盤存儲空間越少越好,這本身就是一個矛盾。必須在音質(zhì)和磁盤存儲空間之間取得平衡。數(shù)據(jù)量與上述三要素之間的關系可用下述公式表示:3.4 編 碼采樣和量化后的信號還不是數(shù)字信號,需要把它轉(zhuǎn)換成數(shù)字編碼脈沖,這一過程稱為編碼。最簡單的編碼方式是二進制編碼,即將

11、已經(jīng)量化的信號幅值用二進制數(shù)表示,計算機內(nèi)采用的就是這種編碼方式。模擬音頻經(jīng)過采樣、量化和編碼后所形成的二進制序列就是數(shù)字音頻信號,我們可以將其以文件的形式保存在計算機的存儲設備中,這樣的文件通常稱之為數(shù)字音頻文件。PCM 編碼PCM ( Pulse Code Modulation ) , 即脈沖編碼調(diào)制,指模擬音頻信號只經(jīng)過采樣、模數(shù)轉(zhuǎn)換直接形成的二進制序列,未經(jīng)過任何編碼和壓縮處理。 PCM 編碼的最大的優(yōu)點就是音質(zhì)好,最大的缺點就是體積大。在計算機應用中, 能夠達到最高保真水平的就是PCM 編碼,常見的 WAV 文件中就有應用。3.5 音頻壓縮音頻壓縮屬于數(shù)據(jù)壓縮的一種,是減小數(shù)字音頻信

12、號文件大小(數(shù)據(jù)比率)的過程。一般數(shù)據(jù)的壓縮方法對于音頻數(shù)據(jù)不利,很少能將源文件壓縮到87%以下。音頻壓縮算法:無損壓縮算法和有損壓縮算法無損壓縮是對未壓縮音頻進行沒有任何信息 / 質(zhì)量損失的壓縮機制。有損壓縮是盡可能多得從原文件刪除沒有多大影響的數(shù)據(jù),有目的地制成比原文件小多的但音質(zhì)卻基本一樣。一般來說,無損壓縮比率在源文件的50 -60%左右,而有損壓縮可以達到原文件的5N0%。3.6 常見的數(shù)字音頻文件格式常見的數(shù)字音頻文件格式有很多,每種格式都有自己的優(yōu)點、缺點及適用范圍。CD 格式 天籟之音CD 音軌文件的后綴名為: cda標準CD格式是44.1K的采樣頻率,速率 88K/秒,16位

13、量化位數(shù),近似無損的。CD光盤可以在CD唱機中播放,也能用電腦里的各種播放軟件來重放。一個 CD音頻文件是一個* .cda文件,這只是一 個索引信息,并不是真正的包含聲音信息,所以不論 CD音樂的長短,在電腦上看到的伙.cda文件”都是44字節(jié)長。WAV 格式 無損的音樂WAV 為微軟公司開發(fā)的一種聲音文件格式。標準格式化的 WAV 文件和 CD 格式一樣,也是44.1K 的取樣頻率, 16 位量化位數(shù),聲音文件質(zhì)量和 CD 相差無幾!特點:音質(zhì)非常好,被大量軟件所支持。適用于:多媒體開發(fā)、保存音樂和原始音效素材。MP3 格式 流行的風尚全稱 Moving Picture Experts Gr

14、oup Audio Layer III ) ,是當今較流行的一種數(shù)字音頻編碼和有損壓縮格式。是 ISO 標準 MPEG1 和 MPEG2 第三層 (Layer 3) ,采樣率16-48kHz ,編碼速率8K-1.5Mbps 。特點:音質(zhì)好,壓縮比比較高,被大量軟件和硬件支持,應用廣泛。適用于:適合用于一般的以及比較高要求的音樂欣賞。MIDI 作曲家的最愛MIDI ( Musical Instrument Digital Interface )樂器數(shù)字接口 。MIDI 數(shù)據(jù)不是數(shù)字的音頻波形,而是音樂代碼或稱電子樂譜。MIDI文件每存1分鐘的音樂只用大約510KB。.mid 文件重放的效果完全依

15、賴聲MID 文件主要用于原始樂器作品,流行歌曲的業(yè)余表演,游戲音軌以及電子賀卡等??ǖ臋n次。普通的聲音文件, 如 wav 文件, 是計算機直接把聲音信號的模擬信號經(jīng)過取樣 量化處理, 不經(jīng)壓縮處理,變成與聲音波形對應的數(shù)字信號。而 MIDI 文件則不是直接記錄樂器的發(fā)音,而是記錄了演奏樂器的各種信息或指令,如用哪一種樂器,什么時候按某個鍵,力度怎么樣等等,至于播放時發(fā)出的聲音,那是通過播放軟件或者音源的轉(zhuǎn)換而成的。因此 MIDI 文件通常比聲音文件小得多,一首樂曲,只有十幾 K 或幾十 K ,只有聲音文件的千分之一左右,便于儲存和攜帶。WMA 格式 最具實力的敵人WMA (Windows Me

16、dia Audio) 由微軟開發(fā)。音質(zhì)要強于MP3 格式, 更遠勝于 RA 格式, 它以減少數(shù)據(jù)流量但保持音質(zhì)的方法來達到比 MP3 壓縮率更高的目的, WMA的壓縮率一般都可以達到 1 : 18 左右。內(nèi)置了版權(quán)保護技術(shù),可以限制播放時間和播放次數(shù)甚至于播放的機器等等。WMA 格式在錄制時可以對音質(zhì)進行調(diào)節(jié)。同一格式,音質(zhì)好的可與CD 媲美,壓縮率較高的可用于網(wǎng)絡廣播。Ra 格式 流動的旋律RealAudio 主要適用于在網(wǎng)絡上的在線音樂欣賞, 現(xiàn)在大多數(shù)的用戶仍然在使用 56Kbps 或更低速率的 Modem , 所以典型的回放并非最好的音質(zhì)。有的下載站點會提示你根據(jù)你的 Modem 速率選擇最佳的 Real 文件。APE 格式一種新興的無損音頻編碼,可以提供50-70% 的壓縮比, APE 的文件大小大

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論