數(shù)字音視頻處理課件全套第1-9章緒論 -數(shù)字音視頻技術的交叉應用

上傳人：y*** IP屬地：山東上傳時間：2025-05-15 格式：PPTX 頁數(shù)：1041 大?。?2.90MB 積分：80 舉報 版權申訴

數(shù)字音視頻處理課件全套第1-9章緒論 -數(shù)字音視頻技術的交叉應用_第2頁

數(shù)字音視頻處理課件全套第1-9章緒論 -數(shù)字音視頻技術的交叉應用_第3頁

數(shù)字音視頻處理課件全套第1-9章緒論 -數(shù)字音視頻技術的交叉應用_第4頁

數(shù)字音視頻處理課件全套第1-9章緒論 -數(shù)字音視頻技術的交叉應用_第5頁

已閱讀5頁，還剩1036頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權，請進行舉報或認領

文檔簡介

第1章

緒論1.1數(shù)字音視頻基礎1.2數(shù)字音視頻系統(tǒng)的組成1.3數(shù)字音視頻技術的發(fā)展趨勢1.4本章小結(jié)

1.1數(shù)字音視頻基礎

數(shù)字音視頻技術是音視頻信息(如文本、圖形、圖像、聲音、動畫和視頻等)采集、獲取、壓縮、解壓縮、編輯、存儲、傳輸及再現(xiàn)等環(huán)節(jié)全部數(shù)字化的技術。數(shù)字音視頻技術的進步推動了音視頻產(chǎn)品的發(fā)展，音視頻產(chǎn)品的數(shù)字化進一步提高了產(chǎn)品的技術含量。

與傳統(tǒng)模擬技術相比，數(shù)字音視頻技術有以下特點：

(1)傳輸效率較高。

(2)信息傳輸、存儲靈活方便。

(3)信息傳輸、存儲的可靠性高。

(4)抗干擾能力強。

(5)有效保護信息和進行版權管理。

(6)具有可擴展性、可分級性和可操作性。

(7)便于與其他數(shù)字設備融合。

(8)易于集成化和大規(guī)模生產(chǎn)，其性能一致性好且成本低。

1.2數(shù)字音視頻系統(tǒng)的組成

數(shù)字音視頻信息系統(tǒng)模型如圖1-1所示。信源編碼和信源解碼統(tǒng)稱為信源編碼，主要解決有效性問題，只有通過對信源的壓縮、擾亂和加密等一系列處理，才能用最少的碼數(shù)去傳遞最大的信息量，使信號更適宜傳輸和存儲。信道編碼和信道解碼統(tǒng)稱為信道編碼，主要解決可靠性問題，旨在盡可能使處理的信號在傳輸/存儲過程中不出錯或少出錯，即使出錯了也要能自動檢錯和自動糾錯。

圖1-1數(shù)字音視頻信息系統(tǒng)模型

1.數(shù)字音視頻信息處理

1)信息處理

信息處理包括信息的獲取、交換、存儲，信息特征的提取與選擇，信息的分類與識別、傳遞、處理分析以及信息安全標準化技術等方面的內(nèi)容。

信息獲取是信息處理的基礎，主要包括界面接口技術和提取技術兩個主要方面。提取技術是指從已經(jīng)獲取的信號中提取感興趣的信息，它是信號處理技術的一種應用。信息獲取的一般過程如圖1-2所示。其主要流程是：首先分析信息需求，即對所需信息進行精確定位;其次對信息來源進行選擇;隨后確定獲取信息所用的方法;最后對獲取的信息進行評價。

圖1-2信息獲取的一般過程

音視頻信息的主要特征包括數(shù)字化特征、結(jié)構(gòu)特征、幾何特征和空時特性等。特征提取與選擇的主要任務是根據(jù)既定的識別任務，按照預先給定的判別準則，選擇合適的特征，以便更好地完成分類與識別任務，因而特征的提取與選擇主要是一個統(tǒng)計優(yōu)化問題。

對于視覺和聽覺信息的識別，即語音識別、圖像識別或者文字識別等是音視頻信息處理中的重要部分，也是模式識別的主要內(nèi)容。

信息交換也稱為存儲和轉(zhuǎn)發(fā)交換，包括通過網(wǎng)絡從節(jié)點到節(jié)點的信息傳送。信息存儲是指將獲得的或加工后的信息保存起來，以備未來應用。信息存儲不是一個孤立的環(huán)節(jié)，它始終貫穿于信息處理的全過程。信息安全也是信息處理的重要內(nèi)容。信息安全主要是指信息系統(tǒng)的信息不被泄露給非授權用戶、實體或供其使用。

2)信息的數(shù)字化處理

計算機系統(tǒng)能夠處理通過鍵盤接收到的字符信息，也能夠處理通過掃描儀、視頻接收器等接收到的圖像信息以及通過話筒或其他語音設備接收到的音頻信息等。但計算機并不能直接處理這些不同形態(tài)的信息，而必須先將這些信息數(shù)字化。信息的數(shù)字化是指通過計算機中的編碼轉(zhuǎn)換器把各種不同形態(tài)的信息轉(zhuǎn)換成機器能識別與運算的二進制數(shù)字形式。數(shù)字化是計算機處理信息的基礎，數(shù)字化的重要手段就是利用數(shù)字信號處理技術對各種信號進行數(shù)字化處理。

2.數(shù)字音頻信息處理系統(tǒng)

數(shù)字音頻信息處理系統(tǒng)是對音頻信號進行采集、獲取、編碼、解碼、存儲、變換、合成、識別、理解、傳輸和編輯等處理的系統(tǒng)。數(shù)字音頻是一個關鍵且重要的概念，它可以用來表示聲音強弱的數(shù)據(jù)序列，并由模擬聲音經(jīng)抽樣(即每隔一個時間間隔在模擬聲音波形上取一個幅度值)、量化、編碼(即把聲音數(shù)據(jù)寫成計算機的數(shù)據(jù)格式)后而得到。模擬—數(shù)字轉(zhuǎn)換器可以把模擬聲音變成數(shù)字聲音;數(shù)字—模擬轉(zhuǎn)換器可以恢復出模擬聲音。

3.數(shù)字圖像/視頻處理系統(tǒng)

一般數(shù)字圖像/視頻處理系統(tǒng)包括圖像/視頻輸入設備、存儲設備、控制設備，用戶存/取通信設備，圖像/視頻輸出設備以及專用圖像/視頻處理設備等。不同的應用環(huán)境，所需要的硬件設備、軟件環(huán)境也不同。

(1)圖像/視頻輸入設備：主要用于將待處理的圖像/視頻信號輸入系統(tǒng)裝置或者計算機等，如攝像頭、數(shù)字照相機、掃描儀、數(shù)字攝像機、磁盤和視頻采集卡等多種靜態(tài)或動態(tài)圖像生成、存儲設備或裝置。

(2)圖像/視頻存儲設備：主要用于在處理視頻/圖像過程中對視頻/圖像信息本身和其他相關信息進行暫時或永久保存，如U盤、RAM、ROM、硬盤和磁帶等。

(3)圖像/視頻控制設備：處理圖像/視頻過程中用到的相關控制設備，如鼠標、鍵盤、操縱桿和開關等。

(4)用戶存/取通信設備：主要用于將圖像/視頻信號提取或存入視頻處理模塊。

(5)圖像/視頻輸出設備：主要用于將經(jīng)過系統(tǒng)或計算機處理后的圖像/視頻信號以用戶能感知的形式顯示出來，常見的有顯示器、打印機、繪圖儀和影像輸出系統(tǒng)等。

(6)專用圖像/視頻處理設備：主要用于對待處理的圖像/視頻信號進行給定任務的處理。視頻處理設備一般可分為兩類：一類是軟件型視頻處理系統(tǒng)，即將視頻處理卡插入計算機，視頻處理卡中有專用硬件，而相應的處理工作則由計算機軟件來完成;另一類是專用型計算機圖像/視頻處理系統(tǒng)，由專用硬件對圖像/視頻進行處理。

4.數(shù)字音視頻系統(tǒng)的應用

數(shù)字音視頻技術在娛樂與媒體行業(yè)中扮演著核心角色。在影視制作中，數(shù)字攝像和編輯軟件使得制作過程更加高效和創(chuàng)新。流媒體服務，例如網(wǎng)易云音樂、YouTube和QQ音樂，利用數(shù)字音視頻技術提供高質(zhì)量的視聽內(nèi)容，而實時流媒體技術則讓全球觀眾能夠觀看體育賽事和音樂會等直播活動。

數(shù)字音視頻系統(tǒng)在教育和培訓領域同樣發(fā)揮著重要作用。在線教育平臺，如Coursera和edX，通過視頻講座和互動教學視頻為全球?qū)W員提供學習資源，使人們足不出戶就能獲取到新的知識。企業(yè)培訓中，數(shù)字音視頻技術用于制作和分發(fā)培訓材料，互動式視頻培訓課程增強了員工的學習效果。

在醫(yī)療領域，遠程醫(yī)療通過視頻通話實現(xiàn)醫(yī)生和患者之間的遠程診療，高質(zhì)量的視頻流使得醫(yī)生能夠清晰地觀察患者的癥狀。手術過程的實時直播不僅可用于醫(yī)學教育和專業(yè)培訓，其生成的數(shù)字音視頻記錄還可幫助醫(yī)生分析和回顧手術過程，從而提高醫(yī)療水平。

在安全與監(jiān)控領域，視頻監(jiān)控系統(tǒng)廣泛應用于公共安全和財產(chǎn)保護。數(shù)字攝像頭和監(jiān)控系統(tǒng)的高分辨率視頻記錄為犯罪預防和偵查提供了重要依據(jù)。此外，交通管理中數(shù)字視頻技術可用于監(jiān)控交通流量和管理交通信號，交通事故的錄像記錄則可幫助調(diào)查和分析事故原因。

數(shù)字廣告對于廣告與市場營銷有著重要作用，其在互聯(lián)網(wǎng)上的廣泛使用提升了品牌曝光率和消費者參與度，互動式廣告視頻吸引用戶參與，提高了廣告效果。虛擬現(xiàn)實(VR)和增強現(xiàn)實(AR)技術依賴高質(zhì)量的數(shù)字音視頻系統(tǒng)提供沉浸式體驗，這些技術在廣告和產(chǎn)品展示中具有創(chuàng)新性應用，帶來了全新的市場營銷方式。

公共服務領域也廣泛應用數(shù)字音視頻系統(tǒng)。在數(shù)字博物館和展覽中，博物館和畫廊利用這些技術創(chuàng)建虛擬展覽，導覽視頻和互動展示則提高了參觀者的體驗。智能城市管理中，數(shù)字音視頻系統(tǒng)用于城市管理和公共服務，如智能交通、環(huán)境監(jiān)控和公共安全，提升了城市管理的效率和服務質(zhì)量。

數(shù)字音視頻技術作為電子信息領域數(shù)字化的關鍵組成部分，其應用已經(jīng)滲透到廣播電視、計算機、通信、網(wǎng)絡等多個行業(yè)，對推動經(jīng)濟發(fā)展和社會進步發(fā)揮著至關重要的作用。

1.3數(shù)字音視頻技術的發(fā)展趨勢

數(shù)字音視頻技術的主要關鍵技術為音頻和視頻的獲取、信源編碼技術和信道編碼技術、音頻處理、視頻處理。信源編碼技術包括視頻編碼技術和音頻編碼技術。視頻編碼技術的主要目的是在保證一定重構(gòu)質(zhì)量的前提下，以盡可能少的比特數(shù)來表征視頻信息。

音頻處理技術涵蓋了音頻合成、檢測、分類等關鍵技術，這些技術在提高音頻質(zhì)量和智能化處理方面發(fā)揮著重要作用。視頻處理技術的研究則集中在提高視頻質(zhì)量、增強視頻分析能力等方面，以支持更復雜的視頻應用。

1.我國研究現(xiàn)狀

我國的音視頻技術通過引進、消化、吸收、創(chuàng)新、國產(chǎn)化，走出了一條發(fā)展快、技術新的成功道路，不僅縮小了與國外先進國家的差距，提高了廣大人民群眾的生活質(zhì)量，滿足了人們?nèi)找嬖鲩L的物質(zhì)文明和精神文明的需要，而且?guī)恿藝窠?jīng)濟持續(xù)、穩(wěn)定和健康發(fā)展。

我國的音視頻行業(yè)基本掌握了產(chǎn)品的設計技術和生產(chǎn)制造技術，能自行設計、制造出價廉物美、具有先進水平的音視頻產(chǎn)品，我國也成為名副其實的生產(chǎn)、制造和出口大國，但與先進國家相比，我國的音視頻技術仍有一定的距離。

我國建立了多個音視頻研究中心和實驗室，為音視頻技術的發(fā)展提供有力的技術

保

障

和

支

持。依托武漢大學建設的國家多媒體軟件工程技術研究中心(National

EngineeringResearchCenterforMultimediaSoftware，NERCMS)是多媒體軟件技術領域第一個國家級研究機構(gòu)。

2.國外研究現(xiàn)狀

在國外，視頻編碼技術的研究和發(fā)展正由一系列活躍的國際標準組織和企業(yè)推動。MPEG和VCEG作為歷史悠久的組織，通過聯(lián)合推出MPEG-2和H.264/AVC等標準，對行業(yè)產(chǎn)生了深遠的影響。

AV1標準的技術創(chuàng)新包括混合編碼框架、塊劃分技術、幀內(nèi)預測和幀間預測等，這些技術顯著提高

了

視

頻

壓

縮

效

率。

整體來看，國外在視頻編碼技術領域的發(fā)展呈現(xiàn)出多元化、活躍的創(chuàng)新態(tài)勢，國際合作在推動技術進步和應用擴展方面發(fā)揮了關鍵作用。

3.國內(nèi)外研究發(fā)展趨勢

目前，國內(nèi)外音視頻技術領域的關鍵技術和研發(fā)趨勢如下：

(1)先進的數(shù)字信號壓縮編解碼技術：開發(fā)具有更高壓縮效率和更先進算法的音視頻編解碼技術，以實現(xiàn)數(shù)據(jù)傳輸?shù)膬?yōu)化和存儲成本的降低。

(2)高效的數(shù)字信號調(diào)制解調(diào)技術：致力于提升數(shù)字信號的傳輸效率和質(zhì)量，通過改進調(diào)制解調(diào)方法來減少傳輸過程中的信號損失和干擾。

(3)數(shù)字音視頻技術的市場化和高清電視的普及：加速將成熟的數(shù)字音視頻技術產(chǎn)品推向市場，并通過多種途徑，如衛(wèi)星電視直播接收、電纜電視傳輸系統(tǒng)、地面廣播以及互聯(lián)網(wǎng)流媒體服務，促進高清電視技術的廣泛應用，實現(xiàn)從模擬電視到數(shù)字電視的轉(zhuǎn)型。

(4)大容量存儲媒體的發(fā)展：推動存儲技術的創(chuàng)新，開發(fā)具有更大存儲容量的新型存儲媒體，包括高集成度的CMOS半導體存儲器、固態(tài)存儲器(SSD)以及采用藍光技術的高密度光盤等，以滿足日益增長的數(shù)據(jù)存儲需求。

(5)新型顯示器件的發(fā)展：正在積極研發(fā)具有更高清晰度、對比度和亮度的顯示器件，同時致力于降低成本并擴大色彩再現(xiàn)范圍。除了已經(jīng)成熟的平面型陰極射線管(CRT)顯示器，當前市場上還有液晶顯示屏(LCD)、等離子顯示屏(PDP)、有機發(fā)光二極管(OLED)等。此外，新型顯示技術，如量子點(QLED)、微型LED(Micro-LED)和柔性顯示屏也在探索中，以尋求更優(yōu)的顯示效果和應用場景。

(6)電聲顯示屏和數(shù)字音頻技術的創(chuàng)新：正在發(fā)展新型電聲顯示屏和先進的數(shù)字音頻技術，包括高靈敏度微傳聲器、基于傳聲器陣列的語言增強技術、說話定位技術以及多聲道回聲抵消技術等，以提升音頻捕捉和再現(xiàn)的質(zhì)量。

(7)數(shù)字音視頻技術在科研和生活中的應用：數(shù)字音視頻技術正不斷拓展其在科研和日常生活中的應用。這包括新技術和新算法的開發(fā)，以及它們在教育、醫(yī)療、娛樂和安防等領域的實際應用研究，可以提高信息的獲取、處理和共享效率，同時也為用戶帶來更加豐富的互動體驗。

1.4本

章

小

結(jié)

本章介紹了數(shù)字音視頻系統(tǒng)的組成和應用、數(shù)字音視頻領域的主要技術以及國內(nèi)外的研究發(fā)展趨勢，為后續(xù)分析數(shù)字音視頻技術奠定了基礎。第2章

聽視覺處理的腦機制2.1聽覺的生理基礎2.2視覺的生理基礎2.3本章小結(jié)

2.1聽覺的生理基礎

隨著信息化社會的發(fā)展，生命科學正逐漸成為信息科學領域最值得期待的學科。腦和神經(jīng)系統(tǒng)的信息加工和信息處理方式已成為信息科學家們著力研究的對象。而信息科學的一個重要組成部分就是語音信息處理，研究人員的主要目標是使計算機語音識別能夠逼近聽覺感知過程，而對聽覺感知模型的研究正是實現(xiàn)這一目標的途徑。

聽覺是一個接收、理解聲音信息的過程，是聽者對說話人所傳來的聲音信息進行編碼的過程。感知是指作用于我們的聽覺感受器官的聲音的各種屬性在我們大腦中的反應。聽覺感知模型研究是指用數(shù)學表達式對聽覺系統(tǒng)的特征和信息處理方式作出抽象和描述，從而構(gòu)成具有人類聽覺系統(tǒng)特性的語音信號處理系統(tǒng)。聽覺感知模型研究是一項跨學科的研究，它涉及生理聲學(研究聽覺器官和生理特征的科學)、心理聲學(研究聲音的主觀感知與客觀參數(shù)間關系的科學)、數(shù)理科學和信息科學等。

醫(yī)用人工耳蝸的研制與聽覺感知模型有關，但聽覺感知模型研究的最重要的意義在于它將為信息科學和計算機科學提供新的線索和新的思路。

能否有效地將人的聽覺處理機制融合到語音信號處理系統(tǒng)中，取得人們所期望的效果，取決于很多條件。首先，需要對聽覺系統(tǒng)的處理機制有足夠的理解；其次，對于聽覺系統(tǒng)的處理機制要能夠進行有效的建模，并與相應的語音處理系統(tǒng)有機地結(jié)合。

聽覺心理學實驗從宏觀角度研究聽覺行為與現(xiàn)象，研究人對聲信號和語言的主觀感受能力，包括頻率選擇性、聲音響度、基音、聲信號在時間和空間域的處理、聽覺模式的感知與語音處理。其主要研究方法是將人看成黑箱系統(tǒng)，由輸入(聲音刺激)和輸出(人的反應)考察聽覺系統(tǒng)的感知特性。

2.1.1聽覺感知模型的國內(nèi)外研究現(xiàn)狀

計算機語音識別系統(tǒng)需要聽覺感知模型研究解決的問題有：

①

如何提高語音識別系統(tǒng)在嘈雜環(huán)境中的魯棒性和準確性?(人類聽覺系統(tǒng)可以在復雜的背景噪聲中有效地分辨出目標語音，而計算機語音識別系統(tǒng)則往往受到噪聲的干擾而降低性能。)

②

如何提高語音識別系統(tǒng)對不同說話人、不同口音、不同情感和不同語言的適應性?(人類聽覺系統(tǒng)可以根據(jù)不同的語音特征和語境進行靈活的調(diào)整和學習，而計算機語音識別系統(tǒng)則往往需要大量的標注數(shù)據(jù)和訓練時間來適應新的場景。)

③

如何提高語音識別系統(tǒng)對語義和語用信息的理解和利用?(人類聽覺系統(tǒng)可以根據(jù)語義和語用信息來推斷和糾正語音識別的錯誤，而計算機語音識別系統(tǒng)則往往只關注字面上的匹配程度。)

自從1961年貝克西(Bekesy)揭示了內(nèi)耳基底膜機制以來，隨著聽覺心理和聽覺生理科學的發(fā)展，對于聽覺模型的研究出現(xiàn)了幾個高潮：

①20世紀60年代的物理模型，即對外耳、中耳和內(nèi)耳基底膜的物理特性的模型化，如對耳蝸管這種一端封閉短管的聲學特性進行模塊化；

②20世紀70年代的神經(jīng)生理模型，即對內(nèi)毛細胞將聲波振動轉(zhuǎn)化為電脈沖發(fā)放的機理和特性的模型化及對聽覺神經(jīng)纖維電脈沖發(fā)放模式的模型化；

③20世紀80年代的表征模型，即對于聲信號在聽覺系統(tǒng)中表征(Representation)模式的研究和模型化；

④20世紀90年代著名的聽覺模型，即美國麻省理工學院的Seneff模型；

⑤

近年來主要以注意選擇為主的聽覺模型。

1.注意的選擇理論

注意的選擇理論有以下四個。

1)過濾器理論

1958年，英國心理學家布羅德本特(Broadbent)根據(jù)雙耳分聽的一系列實驗結(jié)果，提出了一種解釋注意選擇作用的理論，即過濾器理論(FilterTheory)。

2)衰減理論

過濾器理論得到了某些實驗結(jié)果的支持，但進一步研究發(fā)現(xiàn)，這種理論并不完善。

特瑞斯曼的理論與布羅德本特的理論對過濾裝置的具體作用有不同的看法，但兩種理論又有共同的地方：①

兩種理論有相同的出發(fā)點，即主張人的信息加工系統(tǒng)的容量有限，所以，對外來的信息需要經(jīng)過過濾或衰減裝置加以篩選；②

兩種理論都假定信息的選擇過程發(fā)生在對信息的充分加工之前，只有經(jīng)過選擇以后的信息，才能進一步加工和處理。

3)后期選擇理論

1963年，多伊奇(Deutsch)等人提出了選擇性注意的一種觀點——后期選擇理論，后由諾爾曼(Norman)加以完善。后期選擇理論認為，所有進入過濾或衰減裝置的信息是經(jīng)過充分分析的，因此對信息的選擇發(fā)生在加工后期的反應階段。后期選擇理論也稱為完善加工理論、反應選擇理論或記憶選擇理論。

4)多階段選擇理論

過濾器理論、衰減理論及后期選擇理論都假設注意的選擇過程發(fā)生在信息加工的某個特定階段。1978年，約翰斯頓(Johnston)等人提出了一個較靈活的模型，認為選擇過程在不同的加工階段都有可能發(fā)生，這就是多階段選擇理論。這一理論的兩個主要假設是：①

進行選擇之前的加工階段越多，所需要的認知加工資源就越多；②

選擇發(fā)生的階段依賴于當前的任務要求。多階段選擇理論看起來更有彈性，由于強調(diào)任務要求對選擇階段的影響，因而避免了過于絕對化的假設所帶來的問題。

2.注意的認知資源理論

上述理論試圖解釋注意對信息進行選擇的機制，而認知資源理論是關于注意分配的，它從另一個角度來解釋注意，即注意是如何協(xié)調(diào)不同的認知任務或認知活動的。

不同的認知活動對注意提出的要求是不相同的。注意的認知資源理論有以下兩個。

1)認知資源分配理論

認知資源分配理論是由心理學家卡里曼(Kahneman)提出的，他認為注意資源和容量是有限的。

2)認知資源雙加工理論

在注意的認知資源分配理論的基礎上，謝夫林等人在1977年進一步提出了雙加工理論。雙加工理論認為，人類的認知加工有兩種：自動化加工和受意識控制的加工。

從研究范圍來看，目前對于聽覺模型的研究在發(fā)達國家都在進行，如美國、日本、俄羅斯、英國、加拿大、德國和法國等，印度也開展了這方面的研究。我國起步較晚，但在國內(nèi)學者的努力下也取得了不錯的成果，如趙鶴鳴教授和周旭東教授于1994年9月提出了聽覺感知模型。目前國內(nèi)重點高校的研究小組對聽覺模型也開展了研究工作，如北京大學視覺與聽覺信息處理國家重點實驗室等。表2-1給出了國內(nèi)外知名聽覺模型研究機構(gòu)及其研究方向。

2.1.2-人類聽覺系統(tǒng)簡介

1.人耳的結(jié)構(gòu)

耳朵是人類的聽覺器官，其作用就是接收聲音并將聲音轉(zhuǎn)換成神經(jīng)刺激。聲音感知是指將所聽到的聲音經(jīng)過大腦的處理后變成確定的含義。

人耳由外耳、中耳和內(nèi)耳三部分組成。圖2-1為人耳的結(jié)構(gòu)示意圖。其中，外耳、中耳和內(nèi)耳的耳蝸是聽覺器官。內(nèi)耳的前庭窗和半規(guī)管分別是判定位置和進行平衡的器官。

圖2-1人耳的結(jié)構(gòu)示意圖

2.聽覺的形成

聲波經(jīng)外耳道傳到鼓膜，引起鼓膜振動，再經(jīng)過聽小骨的傳遞作用于前庭窗，引起前庭階外淋巴的振動，繼而振動耳蝸管中的內(nèi)淋巴，進一步引起基底膜和螺旋器的振動?；啄さ恼駝右孕胁ǚ绞綇幕啄さ撞垦仄漤敳總鞑?，使該處螺旋器的毛細胞與蓋膜之間的相對位置發(fā)生改變，從而使毛細胞由于受刺激而產(chǎn)生微音器電位。后者激發(fā)耳蝸神經(jīng)產(chǎn)生動作電位，并經(jīng)過聽神經(jīng)傳入大腦皮層顳葉聽覺中樞，從而產(chǎn)生聽覺。圖2-2為聽覺產(chǎn)生模型。

圖2-2聽覺產(chǎn)生模型

2.1.3聽覺特性

人耳對不同強

度、不同頻率聲音的聽覺范圍稱為聲域。人耳能聽到的聲音頻率在20~20000Hz范圍內(nèi)。外耳具有一定長度的耳道，會對某段頻率產(chǎn)生共鳴，致使靈敏度提高，這個頻率段大約在3~5kHz。在人耳的聲域范圍內(nèi)，聲音聽覺心理的主觀感受主要有響度、音高、音色以及掩蔽效應、高頻定位等特性。其中，響度、音高、音色可以在主觀上用來描述具有振幅、頻率和相位三個物理量的任何復雜的聲音，故又稱為聲音“三要素”。下面簡要介紹一下響度、音高、音色對聽覺的影響。

1.響度

響度又稱為聲強、音量或者聲壓級，它主要反映聲音能量的強弱程度，是由聲波振幅的大小決定的。聲音的響度一般用聲壓(單位為Dyn/cm2)或聲強(單位為W/cm2)來計量。

聲音呈現(xiàn)持續(xù)的時間也是影響響度的一個重要因素。恒定刺激法既可以用于測量絕對閾值又可以用來測量差別閾限。通常一個恒定的聲音刺激持續(xù)200ms或300ms時聽覺器官感覺強度會增強，也就是說，在很短的時間內(nèi)聽一個聲音的強度與在相對持續(xù)較長時間內(nèi)聽一個聲音的閾值是有區(qū)別的。聲音持續(xù)時間越短，閾值越高；持續(xù)時間越長，閾值越低。

2.音高

音高也稱為音調(diào)，是人耳對音調(diào)高低的主觀感受。音高主要取決于聲波基頻的高低，頻率高則音調(diào)高，頻率低則音調(diào)低。人耳對音高和頻率的感覺同樣有一個最低到最高的范圍，音高與頻率之間是非線性關系。此外，音高還與聲音的響度及其波形振幅變化有關。

3.音色

美國國家標準協(xié)會將音色定義為一種感官屬性，聽者可以根據(jù)它判斷出兩個具有相同的響度和音高的音是不相似的。它是由聲音波形的諧波頻率決定的。聲音波形包含的諧波的比例以及聲音頻率隨時間的衰減決定了聲源的音色。

2.1.4聽覺掩蔽

聽覺掩蔽效應是指對較弱聲音的聽覺感受受到另一個較強聲音(掩蔽音)影響的現(xiàn)象。聽不到的聲音稱為被掩蔽音，而起掩蔽作用的聲音稱為掩蔽音。掩蔽音的實質(zhì)是掩蔽音的出現(xiàn)使人耳聽覺的等響度曲線最小可聞閾值被提高了。

下面詳細介紹不同聽覺刺激條件下的聽覺掩蔽效應。

1.純音的掩蔽效應

對于純音的聽覺刺激，產(chǎn)生的聽覺掩蔽效應有如下規(guī)律：

①

對處于中等強度的純音來說，最有效的掩蔽音是出現(xiàn)在該頻率附近的純音；

②

低頻的純音可以有效地掩蔽高頻的純音，而高頻的純音對低頻的純音的掩蔽效應則要弱一些。

2.復合音對純音的掩蔽效應

如果掩蔽音為多頻率純音合成的寬帶復合音，被隱蔽音為純音，則產(chǎn)生的掩蔽音在低頻段一般高于高頻段的復合音，當隱蔽音超過500Hz時，頻率每增加10倍，隱蔽音的輕度就增加10dB。如果掩蔽音為窄帶復合音，被掩蔽音為純音，則位于被掩蔽音附近的由純音組成的窄帶復合音的臨界頻帶產(chǎn)生的隱蔽作用最明顯。

3.實時與異步的聽覺掩蔽效應

1)頻域掩蔽效應

一個強純音會隱蔽在其附近同時發(fā)生的弱純音，這種特性稱為頻域掩蔽，也稱為同時掩蔽。在現(xiàn)實生活中，可以發(fā)現(xiàn)人耳在安靜的環(huán)境中能夠分辨出輕弱的聲音，但在嘈雜的

環(huán)境中，即使人耳感覺靈敏的聲音也會被淹沒。這種當聆聽一個聲音的同時，由于被另一個聲壓級較強的聲音所掩蓋致使聽不到原始聲音的現(xiàn)象稱為聲掩蔽。由于頻率低的聲音在內(nèi)耳耳蝸基底膜上行波傳遞的距離大于頻率較高的聲音，故而低頻聲音容易掩蔽高頻率的聲音。

2)時域掩蔽效應

除了同時發(fā)出的聲音之間有掩蔽現(xiàn)象之外，在時間上相鄰的聲音之間也有掩蔽現(xiàn)象，稱為時域掩蔽，也稱非同時掩蔽。時域掩蔽又分為前向掩蔽和后向掩蔽，前向掩蔽指掩蔽音作用在被掩蔽音之前，后向掩蔽指掩蔽音作用在被掩蔽音之后。非同時掩蔽的特點是：掩蔽音在時間上越接近于被掩蔽音，掩蔽量就越大，也就是說掩蔽效應就越強。

當掩蔽音與被掩蔽音在時間上比較靠近時，后掩蔽作用就要大于前掩蔽作用。當掩蔽音的聲壓級提高時，所引起的掩蔽量并不是成比例增加的。例如掩蔽音的聲壓增大10dB，而掩蔽量僅增加3dB。至于同時掩蔽情況，其比例將大大超過此值。表2-2給出了同時與非同時掩蔽效應的分類及其效果。

3)其他聽覺掩蔽效應

其他一些聽覺或者時間因素也可能引起聽覺掩蔽效應。例如，當兩個不同頻率的聲音分別作用于兩耳時，就會產(chǎn)生中樞掩蔽效應。

聲音的掩蔽效應是聽覺實驗中必須要注意和加以控制的重要因素。如果有同時或先后呈現(xiàn)的聽覺刺激導致聽覺掩蔽效應，那么實驗結(jié)果的正確率、可靠性以及反應速度都會受到影響。

2.1.5聽覺加工理論

人耳對語音的感知主要是通過語音信號頻譜分量幅度獲取的，因此對各分量相位并不敏感，對頻率高低的感受近似與該頻率的對數(shù)值成正比。人耳除了能夠感受聲音的強度、音調(diào)、音色和空間方位外，還能夠在兩人或兩人以上的環(huán)境中分辨出自己所需的聲音，這種分辨能力是人體內(nèi)部語音理解機制具有的一種感知能力。人類的這種分離語音的能力與雙耳輸入效應有關，稱為“雞尾酒會效應”。

聽覺加工理論有以下幾種。

1.聲音的頻率理論

最早解釋聽覺現(xiàn)象的理論是1886年物理學家盧瑟福提出的聲音頻率理論。頻率理論認為，內(nèi)耳的基底膜是和鐙骨按相同頻率振動的，振動的數(shù)量與聲音的原有頻率是相適應和一致的。

2.共鳴理論

共鳴理論(ResonanceTheory)是由郝爾姆霍茨(H.L.F.vonHelmholtz)提出來的。郝爾姆霍茨認為，基底膜的橫纖維長短不同，靠近蝸頂較寬，因而就像一部琴的琴弦一樣，能夠?qū)Σ煌l率的聲音產(chǎn)生共鳴。

3.行波理論

行波理論是20世紀40年代生理學家馮·貝凱西(G.VonBekesy)在郝爾姆霍茨的共鳴理論的基礎上提出的新的理論，用來解釋人類的聽覺現(xiàn)象。行波理論認為，聲波傳到人耳后引起基底膜的振動，基底膜振動從耳蝸底部的某一部位開始，當振幅達到最大值時，振動就會停止并消失。

4.神經(jīng)齊射理論

神經(jīng)齊射理論(NeuralVolleyingTheory)是20世紀40年代由韋弗爾(E.G.Wever)提出的。該理論認為，當聲音頻率低于400Hz時，個別聽覺神經(jīng)纖維產(chǎn)生的神經(jīng)電頻率與聲音頻率一致；當聲音頻率提高時，聽覺神經(jīng)纖維無法單獨對聲音作出反應，此時，聽覺神經(jīng)纖維則按照神經(jīng)齊射理論發(fā)生作用。個別聽覺神經(jīng)纖維產(chǎn)生較低的頻率，它們聯(lián)合“齊射”，就可以對頻率較高的聲音作出反應。

2.2視覺的生理基礎

2.2.1研究現(xiàn)狀人類通過人類視覺系統(tǒng)(HumanVisualSystem，HVS)來獲取外界圖像信息，當光輻射刺激人眼時，將會引起復雜的生理和心理變化，這種感覺就是視覺(Vision)。視覺是人類認識自然、了解客觀世界的重要手段，同時也是理解人類認知功能的突破口。HVS是由大量神經(jīng)細胞通過一定的連接組成的一個復雜的信息處理系統(tǒng)，研究它的目的是感知視覺世界的空間存在，了解視覺世界的空間結(jié)構(gòu)、特點、組成以及它們的空間運動變化規(guī)律。

HVS的研究包括色度學、光學、視覺生理學、視覺心理學、神經(jīng)科學、解剖學和認知科學等許多科學領域。人眼類似于一個光學信息處理系統(tǒng)，但它不僅僅是一個簡單的光學信息處理系統(tǒng)。從物理結(jié)構(gòu)看，HVS由光學系統(tǒng)、視網(wǎng)膜和視覺通路組成，其視覺信息處理模型如圖2-3所示。

圖2-3HVS視覺信息處理模型

人類視覺系統(tǒng)的許多獨特機制，給我們研究數(shù)字圖像處理等方面提供了一個很好的啟迪，可以利用這些特殊的性質(zhì)設計更好的圖像處理算法。這些特性大致可歸納為以下幾點：

(1)視網(wǎng)膜上神經(jīng)節(jié)細胞輸出的是目標的特征信息，但由于神經(jīng)節(jié)細胞所占比例很小，因此視網(wǎng)膜在提取特征時的效率很高。這為特征提取、目標識別等提供了一個很好的參考。

(2)人眼可以接受1010數(shù)量級的光強變化范圍，人眼的這種強適應能力可利用圖像處理學的直方圖適應性調(diào)整。

(3)人眼處于高頻率無意識的振動之中。實驗顯示，如果這種振動停止，人眼成像就會變得模糊，可見人眼的振動可確保獲取的圖像質(zhì)量，因此如何模擬眼球振動對圖像質(zhì)量的影響是改善圖像清晰度的一條比較有效的途徑。

(4)人眼可分辨比視網(wǎng)膜傳感器單元小得多的信息差別，因此可以利用人眼的這種超分辨特性來設計出較高精度的信息獲取系統(tǒng)。

(5)人眼具有廣闊視野的同時又具有局部分辨能力，可以使人們在對感興趣的目標保持高分辨的同時，又對視野的其他部分保持警戒。這就為多目標跟蹤提供了一個重要的參考。

(6)人類視覺系統(tǒng)是一個并行的多通道系統(tǒng)，視網(wǎng)膜中的神經(jīng)節(jié)細胞構(gòu)成了視覺系統(tǒng)進行前端處理的若干個并行通道，分別承擔著不同的信息傳輸和處理功能。人類視覺系統(tǒng)的這種復雜并行結(jié)構(gòu)，在并行計算方面為我們提供了一個新的思路。

人類視覺的研究可分為基于視覺生理學(VisualPhysiology)和基于視覺心理學(VisualPsychophysics)方面的研究。其中，視覺生理學剖析了生物系統(tǒng)是如何實現(xiàn)視覺感知的，視覺心理學研究視覺感知和人類心理的相互關系。我們希望通過一系列深入研究設計出相應的計算模型來還原視覺系統(tǒng)，進而為計算機視覺及現(xiàn)代圖像處理技術提供理論基礎。

2.2.2-視覺感知

視覺研究是一個很大的研究領域。

1.視覺感知的生理學基礎

人類主要是通過視覺、觸覺、聽覺和嗅覺等來感知外部世界的，其中最主要的是視覺。人類感知的外界信息中80%以上來自視覺，讓計算機或機器人具有視覺是人類多年以來的夢想，也是人類科學研究中所面臨的最大挑戰(zhàn)之一。雖然，目前還不能讓計算機像生物那樣也具有高效靈活的視覺，但這種希望正在逐步被實現(xiàn)。

視覺皮層包括很多區(qū)域并按照一定的層次結(jié)構(gòu)進行組織，圖2-4為視覺通路的層次結(jié)構(gòu)。圖2-4視覺通路的層次結(jié)構(gòu)

視覺系統(tǒng)是神經(jīng)系統(tǒng)的一個組成部分，它使物體具有了視知覺能力。人類視覺系統(tǒng)示意圖如圖2-5所示，主要包括以下幾個部分。

圖2-5人類視覺系統(tǒng)示意圖

1)眼睛

圖2-6所示是人眼球剖面圖。眼的前方被一層稱為角膜(Cornea)的透明表面所覆蓋，表面的其余部分稱為鞏膜(Sclera)，它由包圍著脈絡膜(Choroid)的纖維外殼組成。脈絡膜的內(nèi)側(cè)是視網(wǎng)膜(Retina)，它由桿狀和錐狀細胞兩種接收器組成，連到視網(wǎng)膜的神經(jīng)通過光神經(jīng)束而離開眼球。進入角膜的光線通過水晶體(相當于透鏡)十字聚焦到視網(wǎng)膜上。水晶體在肌肉控制下改變其形狀，以執(zhí)行聚焦功能。虹膜(Iris)的作用就如同照相機的光圈一樣，控制進入眼睛的光通量，虹膜又稱為瞳孔。

視網(wǎng)膜中的桿狀細胞是長而薄的接收器，而錐狀細胞一般短而厚。桿狀細胞比錐狀細胞更具有光靈敏度。在低照度下，桿狀細胞提供被稱為“微光視覺”的視覺響應，但它沒有色覺；錐狀細胞則提供被稱為“亮視覺”的視覺響應，它有色覺。視網(wǎng)膜上分布著約650萬個錐狀細腦和1億個桿狀細胞。在靠近光神經(jīng)束的被稱為“黃斑區(qū)”的中心凹(Fovea)處錐狀細胞的密度最大，這是最尖銳的亮視覺區(qū)，色覺很強。在緊靠光神經(jīng)束的地方，有一個既無桿狀細胞也無錐狀細胞的區(qū)域，稱為“盲點”。

錐狀細胞和桿狀細胞的光覺和色覺不同，說明了在觀看明亮的物體時，依靠錐狀細胞工作，色覺很強；而在觀看夜晚微光情況下的物體時，依靠桿狀細胞工作，沒有色覺，只有灰度不同的感覺。

圖2-6人眼球剖面圖

2)視網(wǎng)膜

人眼中最重要的視網(wǎng)膜實際上是由許多種神經(jīng)細胞組成的復雜的神經(jīng)系統(tǒng)。在厚約250pm的無色透明的薄膜內(nèi)，無間隙地排列著視細胞層、雙極(Bipolar)細胞層、神經(jīng)節(jié)(Ganglion)細胞層(即下、中、上三層)以及水平(Horizontal)細胞層和無長突細胞層。前述視細胞即錐狀細胞和桿狀細胞作為光電變換器件，從光的入射方向看是處在最遠的一層，它的輸出經(jīng)雙極細胞傳送到作為視網(wǎng)膜輸出細胞的神經(jīng)節(jié)細胞。水平細胞和無長突細胞則是在其間對信號進行某種處理。

這些神經(jīng)細胞之間并不足以一對一相

耦合，而是在“突

觸(Synapse)”處的特定領域與特定的神經(jīng)細胞相耦合。神經(jīng)節(jié)細胞收到的是處理過的模擬信號；但是由神經(jīng)行細胞經(jīng)過神經(jīng)纖維(OpticNerveFibers)輸出到神經(jīng)中樞(腦)的則是脈沖密度調(diào)制的脈沖信號。在接收信號的中樞細胞上，由于積分作用，將脈沖密度調(diào)制信號解調(diào)成模擬信號。

人們早已清楚視網(wǎng)膜的基本結(jié)構(gòu)，但對它的各類神經(jīng)細胞的機能研究，只是利用微小電極的探針、放大器及示波器等電子設備，進行動物實驗，進一步外推到人的視覺機制上而得到相關結(jié)論的。視網(wǎng)膜結(jié)構(gòu)圖如圖2-7所示。

圖2-7視網(wǎng)膜結(jié)構(gòu)圖

它主要由以下幾個方面構(gòu)成：

(1)視細胞。人們發(fā)現(xiàn)，把微小電極插入鯉魚的錐狀細胞中，可成功地記錄視細胞對光的反應，其內(nèi)部電位因光的作用而有負方向的變化。

(2)雙極細胞。與視細胞不同，雙極細胞的反應有兩種形式：一種與視細胞的反應一樣，是負極性的，稱為“OFF型”雙極細胞；另一種的反應則相反，隨著光強度增大電位呈正方向變化，稱為“ON型”雙極細胞。

(3)神經(jīng)節(jié)細胞。作為視網(wǎng)膜輸出細胞的神經(jīng)節(jié)，從上述接收區(qū)域收到雙極細胞傳來的信號。

3)外膝體

視網(wǎng)膜神經(jīng)節(jié)細胞軸突形成視神經(jīng)，經(jīng)視交叉和視束到達外膝體(LateralGeniculateNucleus，LGN)。外膝體屬丘腦，是眼睛到視皮層視通路的中繼站。

外膝體是丘腦的一個感覺中繼核團，人類的LGN有六層，規(guī)則地排列為彎曲的結(jié)構(gòu)，外膝體結(jié)構(gòu)圖如圖2-8所示。其3、4、5、6層內(nèi)細胞較小，稱為小細胞層(ParvocellularLayers，P層)；1、2層內(nèi)細胞較大，稱為大細胞層(MagnocellularLayers，M層)。

圖2-8外膝體結(jié)構(gòu)圖

(1)對單側(cè)外膝體核來說，其1、4、6層只接受對側(cè)眼(鼻側(cè))的視網(wǎng)膜來的投射輸入，而2、3、5層僅接受同側(cè)眼(顳側(cè))的視網(wǎng)膜來的投射輸入，單側(cè)外膝體只能得到雙眼輸入的對側(cè)視野內(nèi)的視覺信息。

(2)來自視網(wǎng)膜相應點的神經(jīng)節(jié)細胞軸突，投射到外膝體核各層時是有規(guī)律的，如將外膝體各層接收投射的響應細胞部位連接起來，就會得到大體上與各層邊界垂直的線，稱為投射線。

(3)視網(wǎng)膜中央?yún)^(qū)細胞在外膝體所占的投射區(qū)面積要比視網(wǎng)膜邊緣區(qū)細胞在外膝體所占的投射區(qū)大得多，因為在視網(wǎng)膜中央?yún)^(qū)，各類視網(wǎng)膜細胞密度最高。

4)視皮層

視皮層結(jié)構(gòu)圖如圖2-9所示?，F(xiàn)在已知與視覺有關的大腦皮層多達35個，自皮層表圖2-9視皮層結(jié)構(gòu)圖面到白質(zhì)分為6層，外膝體核處理后的視覺信息首先傳到皮層17區(qū)(第Ⅰ視區(qū)或紋狀皮層)。外膝體細胞軸突末梢終止于第4層內(nèi)，然后再與第2、第3層細胞，第5、第6層細胞建立突觸聯(lián)系。V1為紋狀皮層(17區(qū))，V為第2視區(qū)，MST為內(nèi)側(cè)上顳區(qū)，MT為中央顳區(qū)。細胞類型有星形細胞(StellateCell)和錐體細胞(PyramidalCell)。

圖2-9視皮層結(jié)構(gòu)圖

具體地說，視皮層17區(qū)和18區(qū)的細胞可分為簡單細胞(SimpleCells)和復雜細胞(ComplexCells)兩大類。簡單細胞主要分布在視皮層17區(qū)的第4層內(nèi)，感受野較小，呈狹長形，用小光點可以測定，對大面積的彌散光不作反應，而對處于拮抗區(qū)邊緣一定方位一定寬度的條形刺激有較強的反應，因此比較適合于檢測具有明暗對比的直邊，對邊緣的位置和方位有嚴格的選擇性，對每一個簡單細胞，都有一個最優(yōu)方位，在此方位上細胞的反應最強烈。簡單細胞的方位選擇性如圖2-10所示。

圖2-10簡單細胞的方位選擇性

2.視覺感知的心理物理學基礎

實際上，在計算機圖像生成和處理的過程中，都需要人去觀看，處理的中間過程需進行交互，即使是中間過程不需要顯示。例如，紅外熱圖像處理，最終也要轉(zhuǎn)化成可見光圖像給用戶觀看。因此，除了需要了解人眼構(gòu)造外，還需要掌握人眼視覺特征，這樣才能為計算機圖像生成提供更加可靠的科學依據(jù)。

1)視覺敏銳度

視覺敏銳度(VisualAcuity)也稱為視敏度、視力，它表示視覺中用來分辨細小物體或是物體某個細小部分的能力。它表明我們能夠觀察或是感覺到的刺激有多么細微或是不同刺激之間的差別有多大。在一定條件下，人的眼睛能觀察到的物體越小，表示視覺敏銳度越大。

人眼的視敏度還與所處環(huán)境的亮度有關。一般在昏暗的環(huán)境中，人眼會變得特別敏感，所以能檢測到細微的亮度變化。但對物體的細節(jié)特征和顏色的識別就變?nèi)趿恕６斕幱诹凉獬渥愕沫h(huán)境中時，人就擁有比較敏銳的色覺和很強的視敏度。但此時對于亮度的敏感度就會變低，需要較大的變化量才能被人所感覺到。這個現(xiàn)象首先是由沙勒(Shlaer)在1937年做實驗后提出的，根據(jù)他的實驗可以得到背景亮度同視敏度的關系。

2)對比度

對比度表示相鄰物體間亮度的差異，一般用兩者之間的亮度比來表示對比度，也可用最大亮度和最小亮度之間的比例關系表示，定義如下

其中，Lmax和Lmin分別代表最大亮度和最小亮度。當Lmax大于Lmin時，C的值將總是小于1.0。

在相同亮度的情況下，對比度越高，給人的感覺就越強烈。也就是說，人對亮度的感覺還跟背景的亮度有關系。同樣絕對亮度的物體，放置在不同背景亮度的環(huán)境中，也會給人完全不同的感覺。目標與背景不同對比度示意圖如圖2-11所示。盡管中間矩形框的亮度值實際上都是一樣的，但是由于它們所在的背景亮度不同，所以看起來這些矩形框的亮度是不同的，其中最左邊圖中的矩形框看起來要比最右邊圖中的矩形框亮度值低些。

圖2-11目標與背景不同對比度示意圖

3)色彩學基礎

顏色是人的視覺系統(tǒng)因接收到不同波長的光信號而產(chǎn)生的感覺反應。這里需要注意的是，顏色不屬于物理量而是屬于感知的范疇。在現(xiàn)實世界中，光在空間中的傳輸可以被看

成粒子或波在空間傳輸，可以用不同的頻率來表示。人的視覺能夠接受400~700nm之間的光譜。

通過實驗數(shù)據(jù)，可以在RGB顏色空間和CIEXYZ顏色空間之間通過矩陣變換而相互轉(zhuǎn)化，用公式表示為

2.2.3人類視覺系統(tǒng)概述

俗話說：“眼睛是心靈的窗戶，是人與外界溝通的橋梁”。人類視覺系統(tǒng)具有高度并行的特點，且擁有非常特殊精密的結(jié)構(gòu)。它對信息的處理非?？?，外界的感官刺激到達人眼后，轉(zhuǎn)化為神經(jīng)信號傳輸?shù)酱竽X中進行實時處理。在這個處理過程中，各種信息如位置、深度、顏色、紋理、運動和外觀都能被提取出來。

人類視覺系統(tǒng)主要由視覺器官、視覺通路和多級視覺中樞組成，實現(xiàn)視覺信息的產(chǎn)生、傳遞和處理。但由于視覺信息傳遞過程比較復雜，科學家們又將其劃分為視感覺處理和視知覺處理兩個階段。人眼視覺信息的傳遞過程如圖2-12所示。

圖2-12人眼視覺信息的傳遞過程

目前人類的視覺信息處理過程已經(jīng)發(fā)展到較完善的階段。神經(jīng)解剖學和神經(jīng)生理學的研究表明，視覺信息在大腦中按照一定的通路進行傳遞。

圖2-13為視覺信息從視網(wǎng)膜到視皮層的處理過程。

圖2-13視覺信息從視網(wǎng)膜到視皮層的處理過程

對人類視覺系統(tǒng)的描述如下：

(1)人類視覺系統(tǒng)是分層的光學系統(tǒng)。

(2)人類視覺系統(tǒng)是能抓主要矛盾的光學系統(tǒng)。

(3)人類視知覺是能夠自我完善的知覺，是對事物的各種屬性、各個部分及其相互關系的綜合的、整體的反映。

2.2.4視覺注意機制

1.早期的理論模型

1)基于位置的理論

基于位置的理論認為，視覺系統(tǒng)不能同時對視野范圍內(nèi)的所有的刺激都進行有效的加工，因為注意在任何時刻都只能聚焦于視覺空間中的某一個區(qū)域，只有該區(qū)域內(nèi)的刺激才能被加工，其他區(qū)域的刺激則被忽視。注意的作用被形象地比喻為“聚光燈(SpotLight)”“透視(ZoomLen)”。

注意在視野范圍內(nèi)的分布具有連續(xù)變化的特點：一方面，注意資源被分布到整個視野中；另一方面，注意資源又被分布到一個較小的范圍內(nèi)，如透鏡一般有一個聚焦過程，也就是注意的透鏡模型。拉伯格等人對注意的這種透鏡式分布特點進行了詳細的描述。

2)基于物體的理論

克萊默(Kramer)等人分別控制了“空間”或“物體”的因素，而操作另外的因素，深入探討了視覺注意的加工機制。實驗結(jié)果表明，“物體”和“空間”在注意加工過程中都會有影響，由此發(fā)展出基于物體的注意理論?；谖矬w的注意理論以早期的格式塔知覺心理學理論為基礎，認為注意是在前注意計算已組織好的知覺單元或物體的基礎上發(fā)揮作用的。因此，當注意集中于某一物體時，隸屬于該物體的各個構(gòu)成成分均可獲得時間上的平行加工，而對其他物體只能進行時間上的系統(tǒng)加工。因此，視覺注意是分布到呈現(xiàn)在視野中的某個特定的物體上的。

2.新近的理論模型：基于特征的注意理論及各理論之間的融合趨勢

人類對視覺信息的注意加工是基于空間還是基于物體，與加工對象的特征有密切的關系。對視覺對象的注意并非絕對是基于空間或基于物體的加工。特瑞斯曼對特征整合理論(FeatureIntegrationTheory)進行了修正，提出了一種特征控制抑制模型(FeatureControlledInhibitionModel)，該模型認為注意的作用是通過三種方式在位置導向圖中選擇位置信息的表征。

這三種方式分別是：

①

某種非特異性的內(nèi)部的力量使注意指向某個特定的位置；

②

特征范圍內(nèi)的橫向聯(lián)系抑制了無關的非空間特征的位置；

③

物體的表征可以在位置地圖中選擇一個區(qū)域。

這些選擇是以位置導向圖中不同節(jié)點的不同的激活方式為中介。高激活水平位置上的特征被結(jié)合起來形成整合的物體表征，即物體檔案；低激活水平位置上的特征是不能被結(jié)合的，這些物體就不會被注意。

3.多目標注意追蹤與FINST模型

視覺注意系統(tǒng)在特定時間段內(nèi)加工信息的容量是有限的，面對大量的視覺信息，注意系統(tǒng)只能對其中少部分進行選擇性地加工。那么，視覺信息的選擇性注意加工過程是如何進行的?這個過程受到哪些因素的影響?研究者圍繞著這兩個問題開展了大量的研究工作。在視覺選擇性注意加工的研究中，視覺信息可以分為兩類：一類是空間信息，如物體的位置、大小、形狀、角度和距離等；另一類是非空間信息，如顏色、亮度、對比度及飽和度等。根據(jù)以往的經(jīng)驗，視覺對空間信息和非空間信息的加工可能存在一定的差異。

2.3本

章

小

結(jié)

本章主要介紹了人類視覺感知系統(tǒng)的相關概念和理論，首先簡要介紹了人眼的結(jié)構(gòu)及其各組成部分在人感光作用中所起的作用，然后介紹了心理物理學及色彩學的基本概念和屬性，最后描述了人眼在高動態(tài)亮度變化情況下的適應過程及其內(nèi)在的生理學機制。第3章

音視頻信號獲取軟件

及應用3.1音視頻信號采集軟件及應用3.2圖像/視頻信號采集及應用3.3音頻/視頻格式的轉(zhuǎn)換3.4本章小結(jié)

3.1音視頻信號采集軟件及應用

3.1.1常見的音頻信號采集設備的特點常見的音頻信號采集設備是麥克風，它可以搭載在不同的設備上以滿足人們?nèi)粘５男枨?。方便易用的手持設備如錄音筆、手機等，能夠達到即時錄音的目的。大型錄音設備和場所，如配有麥克風的計算機、錄音棚等，則具有相對更好的錄音效果及強大的后期處理功能。有了這些音頻信號采集設備的支持，再配備一定的計算機軟件，就可以完成音頻信號的采集工作。

3.1.2音頻信號采集軟件——Windows11錄音機

1.Windows11系統(tǒng)中錄音機(版本號11.2103)介紹

用鼠標單擊任務欄中的“開始”按鈕，然后選擇菜單中的“所有應用”，在最上方搜索欄中輸入“錄音機”，單擊“錄音機”圖標，即可打開錄音機的主界面，如圖3-1所示。

圖3-1“錄音機”的主界面

下面介紹錄音機中的各個操作部分。

(1)“導入文件”按鈕：將現(xiàn)有的音頻文件導入錄音機應用中，以便進一步編輯或管理。

(2)文件目錄：用戶可以瀏覽和選擇他們想要播放、編輯或刪除的音頻文件。

(3)錄音設備選擇按鈕：用戶可以用于瀏覽并選擇可用的麥克風設備，一般包括內(nèi)置麥克風、外接麥克風或藍牙麥克風等。

(4)“開始錄制”按鈕：錄音應用中的主要功能按鈕之一，通常以一個圓形的紅色按鈕表示，中間有一個白色的圓點。用戶點擊此按鈕開始錄制音頻，錄制界面如圖3-2所示，其功能同主界面。

(5)“開始/暫停”播放按鈕：錄音機應用中的核心，用于開始新錄音或暫停當前錄音開始按鈕通常是一個三角形，暫停按鈕則由兩個垂直的條形組成。

(6)倍速選擇：用于調(diào)整錄音的播放速度。用戶可以選擇正常速度、慢速或快速播放，這在需要仔細聽錄音細節(jié)時非常有用。

圖3-2錄音機錄制界面

(7)標記及標記選擇按鈕：用戶可以對錄音文件中的特定點進行標記，這有助于用戶查找特定內(nèi)容，點擊該按鈕旁的下箭頭，可以選取與快速定位或刪除標記點。

(8)共享錄音：用戶可以通過這個功能將錄音分享給其他人，無論是通過電子郵件、社交媒體還是其他共享服務。

(9)“更多錄制”：通常是一個菜單或按鈕，點擊后會展開更多的高級選項。重命名：允許用戶更改錄音文件的名稱。

(10)進度尺：顯示了錄音的時長與進度，是一個水平條，隨著錄音的進行而逐漸增大。它允許用戶直觀地看到錄音已經(jīng)進行了多長時間。

(11)進度標識：進度尺上的一條豎線，顯示當前播放或錄制的位置。用戶可以通過點擊進度尺上的不同位置來跳轉(zhuǎn)到錄音的特定部分。

2.音頻制作

以下是使用錄音機錄制音頻的詳細步驟，包括用戶界面上按鈕的操作。

(1)打開錄音機應用：用鼠標單擊任務欄中的“開始”按鈕，然后選擇菜單中的“所有應用”，在最上方搜索欄中輸入“錄音機”，單擊“錄音機”圖標，打開錄音機。

(2)選擇麥克風：如果有多個麥克風選項，點擊錄音設備選擇按鈕，然后在彈出的選項中選擇擬使用的麥克風。

(3)開始錄制：點擊“開始錄制”按鈕之后，進入錄制界面，如圖3-2所示。

(4)監(jiān)控錄音：在錄音過程中，觀察界面上的波形圖或其他指示器，以監(jiān)控錄音的音量和質(zhì)量。并且可以在特定位置點擊“標記”按鈕進行標記。

(5)暫停與恢復錄制：如果需要暫停錄音，點擊“暫?！卑粹o，點擊“繼續(xù)”或再次點擊“開始錄制”按鈕，可以從暫停的地方繼續(xù)錄音。

(6)完成錄制：完成錄音之后，點擊“停止錄制”按鈕，即可停止錄音。

(7)命名和保存錄音：錄音完成后，點擊“更多錄制”按鈕即可對錄音文件進行重命名，可以在文件夾中進行查看和刪除等操作。

(8)播放音頻：可以點擊左上角的“導入文件”按鈕從電腦中導入音頻，或者從左側(cè)的文件目錄中選擇想要播放的錄音，單擊播放按鈕，即可播放音頻。

(9)退出錄音機：完成所有操作后，點擊界面右上角的“關閉”按鈕，退出錄音機應用。

3.1.3音頻處理工具——SonySoundForge

SonySoundForge是SonicFoundry公司(該公司被Sony公司收購)開發(fā)的一款功能強大的專業(yè)化數(shù)字音頻處理軟件，主要針對Flash用戶編寫，因為其可以滿足從最普通用戶到專業(yè)錄音師的所有用戶的各種要求，所以一直是多媒體開發(fā)人員的首選軟件之一。該軟件能夠非常方便、直觀地對音頻文件(如WAV文件)以及視頻文件(如AVI文件)中的聲音部分進行各種處理，具有強大的音頻處理和特效制作功能，是一套符合工業(yè)標準的音頻編輯、錄制、效果處理和編碼的程序。

1.SonySoundForge15.0界面介紹

單擊“開始”按鈕，選擇“所有程序”→“SonySoundForge15.0”→“SoundForge15.0”

命令，運行SoundForge15.0軟件，進入SonySoundForge15.0的工作界面，如圖3-3所示。

圖3-3SonySoundForge15.0工作界面

峰值表位于SoundForge窗口的右側(cè)，左右兩個聲道各有兩個彩條，較細的外條表示聲音文件播放過程中的節(jié)目峰值表，較粗的內(nèi)條表示節(jié)目音量表。兩種儀表顯示均基于具有精確定義的顯示特性的標準化峰值儀表，在播放聲音文件的時候，節(jié)目峰值表顯示音頻信號的峰值，而節(jié)目音量表顯示特定計量時間段內(nèi)的計量值。峰值表會顯示聲音的音量變化，彩條頂端的四個數(shù)值表示的是導入音頻文件進行播放過程中節(jié)目峰值表和節(jié)目音量表的最大值，如圖3-4所示。如果這個數(shù)值標記為空，則表示靜音;如果變成了紅色，則表示音量太大了，已經(jīng)超出了計算機所能識別的范圍。

圖3-4左右聲道音量變化條

VU表的指示動作特性(時間特性)是：當以穩(wěn)態(tài)時達0VU(100%)的1kHz簡諧信號突然加入VU表時，指針達到刻度上99%處所需的時間應為300±30ms，指針的過沖不得超過穩(wěn)態(tài)值的1.5%，過沖的擺動不應超過一次;當信號突然消失后，指針從100%降到1%所需的時間也應是300±30ms。VU表對聲音信號的指示值讀作“音量單位值”，又叫“VU值”。雖然VU表也是用對數(shù)表示信號準平均值(電平)，但是由于有300ms這樣一個不短的積分時間，表的指示值(VU值)有時還是跟不上信號的實際準平均值電平(dB值)的變化，因此不能將VU值與dB值相混淆。

同時VU值也不能完全反映出聲音信號的聽感響度(因為后者需要更短的積分時間)，更不能反映聲音信號的幅擺峰尖情況(因為聲音信號峰平比隨其波形的不同而異)，這是VU表的缺點。

針對VU表的缺點，另一種音量表——“峰值節(jié)目表”逐漸得到推廣，又叫PPM(PeakProgrammeMeter)。PPM實際上是準峰值電平表，因為它是采用峰值檢波器按簡諧信號的有效值確定刻度的(也用電平值標示)。PPM的最大特點是指針上升快、恢復慢，能比較真實地反映出聲音信號的準峰值變化，從而可避免設備過載，便于有效地控制和利用好傳輸入系統(tǒng)的最大動態(tài)。

工作窗口是聲音文件的處理窗口。SoundForge允許同時打開多個聲音文件，也可以同時對多個聲音文件進行處理。在工作窗口中有以下幾個重要的部分：

(1)聲音波形顯示區(qū)：用于顯示當前聲音文件的波形。在對聲音文件進行操作時，窗口中有一條閃動的豎線，表示當前播放點的時間位置，聲音波形相當于CD唱機的激光頭或錄音機的磁頭讀取的音頻信息。具體數(shù)值可以從窗口下方的狀態(tài)欄中讀出?？梢酝ㄟ^滑動鼠標選定某一段波形區(qū)域，選定的波形范圍也可以從窗口下方的狀態(tài)欄中讀出。窗口中間的橫線表示波形的中心，也就是音量的最小位置，上方和下方的兩條線(標有“Inf.”)表示計算機最大允許音量的一半。

(2)音量標尺：用于顯示聲音波形振幅的大小。聲音波形的振幅大小決定了聲音音量的大小。在音量標尺中，中間點的音量最小，而聲音的波形偏離中心越遠，表明音量越大。在SoundForge軟件中，音量的度量可以分別用百分比和分貝值表示。在音量標尺中單擊鼠標右鍵，在彈出的菜單中有兩個選項：“LabelinPercent”(用百分比表示)和“LabelindB”(用分貝值表示)，在操作時可以根據(jù)需要選擇切換，如圖3-5所示。

圖3-5音量標尺菜單

2.SoundForge15.0的簡單音頻處理

1)聲音的剪輯

(1)刪除：選擇相應的波形區(qū)域，然后直接按“Delete”鍵進行刪除，刪除后，刪除點以后的波形會自動填補。

(2)靜音：選擇相應的波形區(qū)域，執(zhí)行“Process”→“Mute”(靜音)命令，波形會被刪除，刪除點以后的波形保持不動。

(3)復制：選擇相應的波形區(qū)域，使用快捷鍵“Ctrl+C”，或執(zhí)行“Edit”→“Copy”命令進行復制(也可使用鼠標右鍵菜單中的“Copy”命令)。然后把指針移到需要粘貼的地方，按下快捷鍵“Ctrl+V”，或執(zhí)行“Edit”→“Paste”命令進行粘貼(也可單擊鼠標右鍵，選擇菜單中的“Paste”命令)。

(4)插入空白聲音：定位指針到相應的波形點，執(zhí)行“Process”→“InsertSilence”(插入靜音)命令，在彈出的對話框中設置好插入的時間，單擊“OK”按鈕確認。

2)調(diào)節(jié)音量

(1)音量調(diào)節(jié)：執(zhí)行“Process”→“Volume”(音量調(diào)節(jié))命令。

(2)淡入淡出：執(zhí)行“Process”→“Fade”命令對一段聲音的音量進行漸進式改變，其下有三個子項，分別是Graphic、In和Out。簡單的淡入和淡出分別使用In和Out，可實現(xiàn)聲音的漸強和漸弱。復雜的淡入和淡出可以執(zhí)行Graphic命令，在彈出的“FadeCurve”對話框中對聲音波形的包絡線進行調(diào)整，以實現(xiàn)聲音強弱的改變，如圖3-6所示。

圖3-6淡入淡出設置窗口

(3)音量規(guī)則化：按照某種規(guī)格總體提高或降低音量。例如，在實現(xiàn)峰值最大化處理時，可以執(zhí)行“Process”→“Normalize”(規(guī)格化)命令，在彈出的“Normalize”對話框中選中“Normalizeusing：Peaklevel”選項，并將“ScanLevels”調(diào)到零分貝即可。

(4)混音：將兩段聲音混合成一段聲音。首先執(zhí)行“File”→“Open”命令打開兩段聲音文件，然后對兩段聲音進行混音，操作如下：

①

在聲音文件1的波形窗口中選擇某一段進行復制。

②

轉(zhuǎn)到聲音文件2的窗口中，定位指針到混音的位置，執(zhí)行“Edit”→“PasteSpecial”→“Mix”命令，彈出“Mix/Replace”對話框。

③在“Mix/Replace”對話框中通過調(diào)節(jié)兩部分的音量達到聲音混合的目的。左側(cè)的滑塊表示混音過程中剪貼板上的聲音音量程度，右側(cè)的滑塊表示混音過程中目標文件聲音音量程度。

④

在混音過程中，可以單擊“Preview”按鈕對混合效果進行監(jiān)聽，邊監(jiān)聽邊調(diào)整。調(diào)整好兩側(cè)音量滑塊后，單擊“OK”按鈕確定完成混音，如圖3-7所示。

圖3-7混音設置窗口

3.SoundForge15.0的典例剖析

下面利用SoundForge15.0進行立體聲音效的制作，以說明SoundForge15.0的具體使用過程。制作方法如下：

(1)打開一段音頻文件，其窗口如圖3-8所示。

圖3-8打開文件窗口

(2)右鍵單擊狀態(tài)欄中的“Memo”框，然后從快捷菜單中選擇”Stereo”，如圖3-9所示。

圖3-9聲道轉(zhuǎn)化快捷菜單

(3)在彈出的“MonoToStereo”對話框中，單擊“LeftChannel”按鈕將單聲道數(shù)據(jù)放置在左聲道中并將右聲道設置為靜音;單擊“RightChannel”按鈕將單聲道數(shù)據(jù)放入右聲道并將左聲道設置為靜音;單擊“BothChannels”按鈕將單聲道數(shù)據(jù)放置在左右通道中。聲道設置窗口如圖3-10所示。

圖3-10聲道設置窗口

(4)這樣就將一個單聲道文件轉(zhuǎn)換成了立體聲文件，轉(zhuǎn)換后的效果圖如圖3-11所示。圖3-11轉(zhuǎn)換后的效果圖

(5)接下來對得到的立體聲進行處理，這里我們選擇“Process”→“Pan”→“Graphic”命令，如圖3-12所示。圖3-12立體聲處理菜單

(6)在波形窗口中可以看到一條水平線，水平線左側(cè)的“Left”和“Right”標識分別代表左右聲道。例如，當“向上彎曲水平線”時，表示增強左聲道同時減弱右聲道，如圖3-13所示。

圖3-13立體聲處理窗口

(7)在“Pan/Expand”對話框的“Preset”選項中，選擇“[Sys]Lefttoright(exponential)”選項，如圖3-14所示。圖3-14左右聲道處理窗口

(8)單擊“OK”按鈕，最終得到處理后左右聲道的波形，如圖3-15所示。圖3-15左右聲道的波形處理效果圖

3.1.4視頻處理工具

1.剪映專業(yè)版介紹

剪映專業(yè)版是一款全能易用的桌面端剪輯軟件，由深圳市臉萌科技有限公司推出，常用的版本有MacOS版本和Windows版本。剪映專業(yè)版擁有強大的素材庫，支持多視頻軌/音頻軌編輯，用AI為創(chuàng)作賦能，適合多種專業(yè)剪輯場景。

1)軟件模塊介紹

圖3-16所示為剪映專業(yè)版的主界面，其各部分功能如下：

(1)時間線面板：拖曳該面板即可在時間線上添加或調(diào)整片段，支持多視頻軌/無限音頻軌和素材片段編輯。

(2)高頻功能欄：用于高頻操作，如撤銷、恢復、分割、刪除、倒放、鏡像、旋轉(zhuǎn)等。

(3)素材面板：具有豐富的素材庫，包括視頻/音頻/文本/貼紙/特效/轉(zhuǎn)場/濾鏡/調(diào)節(jié)等。

(4)播放器：支持剪輯預覽、比例調(diào)整等。

(5)功能面板：選中時間線上的片段可以喚起對應功能面板，支持變速、智能踩點等操作。

圖3-16剪映專業(yè)版的主界面

(4)點擊視頻素材右下角的“+”，此時會根據(jù)時間軸的位置將選中素材插入到時間線面板的默認軌道中，也可以直接將素材拖入到時間線面板中的任意一個軌道，實現(xiàn)多條軌道的素材導入，如圖3-17所示。

圖3-17素材采集界面

3)素材編輯

對素材進行編輯的常用操作包括分割、定格、倒放、旋轉(zhuǎn)、鏡像、自動吸附、調(diào)整時間線面板大小、添加轉(zhuǎn)場效果、編輯文本素材等。

(1)分割。如圖3-18所示，在時間線面板中選中相應素材，將時間軸移動到需要分割的位置，點擊“分割”或者按“Ctrl+B”鍵，即可完成分割。

圖3-18素材的分割

(2)定格。如圖3-19所示，只有當選中的素材為視頻素材時，定格功能才會啟動。將時間軸移動到需要定格的位置，點擊“定格”按鈕，此時在素材上會出現(xiàn)一段3s的定格畫面。定格時間的長短可以通過拉動標記點進行調(diào)整。

(3)倒放。只有當選中的素材為視頻素材時，倒放功能才會啟動。選中視頻素材后，點擊“倒放”按鈕，等待加載一段時間后，視頻素材的播放順序?qū)罐D(zhuǎn)過來。

圖3-19素材的定格

(4)旋轉(zhuǎn)。如圖3-20所示，選中視頻或圖片素材后，點擊“旋轉(zhuǎn)”按鈕，當播放到此素材時，播放器面板中顯示的是旋轉(zhuǎn)后的素材，可自定義旋轉(zhuǎn)角度。

(5)鏡像。鏡像與旋轉(zhuǎn)的使用方法相同，當播放鏡像后的素材時，播放器面板中顯示的是鏡像后的素材。

圖3-20素材的旋轉(zhuǎn)

(6)自動吸附。如圖3-21所示，建議打開自動吸附，因為將兩個素材拼接在一起保證能連續(xù)播放時，手動拼接可能會造成兩個素材之間留有縫隙，當自動吸附功能打開時，兩個素材靠近的時候會自動吸附到一起，保證中間不會留有縫隙。

圖3-21自動吸附

(7)調(diào)整時間線面板大小。如圖3-22所示，通過拉動時間線控制按鈕，可以根據(jù)自身需要調(diào)整時間線的長短?？刂茣r間線縮放還可以通過Ctrl和“+”或者“-

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

數(shù)字音視頻處理課件全套第1-9章緒論 -數(shù)字音視頻技術的交叉應用

文檔簡介

溫馨提示

最新文檔

評論

數(shù)字音視頻處理 課件全套 第1-9章 緒論 -數(shù)字音視頻技術的交叉應用

文檔簡介

溫馨提示

最新文檔

評論

相關文檔

數(shù)字音視頻處理課件全套第1-9章緒論 -數(shù)字音視頻技術的交叉應用