




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
第2章
聽視覺處理的腦機制2.1聽覺的生理基礎2.2視覺的生理基礎2.3本章小結(jié)
2.1聽覺的生理基礎
隨著信息化社會的發(fā)展,生命科學正逐漸成為信息科學領域最值得期待的學科。腦和神經(jīng)系統(tǒng)的信息加工和信息處理方式已成為信息科學家們著力研究的對象。而信息科學的一個重要組成部分就是語音信息處理,研究人員的主要目標是使計算機語音識別能夠逼近聽覺感知過程,而對聽覺感知模型的研究正是實現(xiàn)這一目標的途徑。
聽覺是一個接收、理解聲音信息的過程,是聽者對說話人所傳來的聲音信息進行編碼的過程。感知是指作用于我們的聽覺感受器官的聲音的各種屬性在我們大腦中的反應。聽覺感知模型研究是指用數(shù)學表達式對聽覺系統(tǒng)的特征和信息處理方式作出抽象和描述,從而構(gòu)成具有人類聽覺系統(tǒng)特性的語音信號處理系統(tǒng)。聽覺感知模型研究是一項跨學科的研究,它涉及生理聲學(研究聽覺器官和生理特征的科學)、心理聲學(研究聲音的主觀感知與客觀參數(shù)間關(guān)系的科學)、數(shù)理科學和信息科學等。
醫(yī)用人工耳蝸的研制與聽覺感知模型有關(guān),但聽覺感知模型研究的最重要的意義在于它將為信息科學和計算機科學提供新的線索和新的思路。
能否有效地將人的聽覺處理機制融合到語音信號處理系統(tǒng)中,取得人們所期望的效果,取決于很多條件。首先,需要對聽覺系統(tǒng)的處理機制有足夠的理解;其次,對于聽覺系統(tǒng)的處理機制要能夠進行有效的建模,并與相應的語音處理系統(tǒng)有機地結(jié)合。
聽覺心理學實驗從宏觀角度研究聽覺行為與現(xiàn)象,研究人對聲信號和語言的主觀感受能力,包括頻率選擇性、聲音響度、基音、聲信號在時間和空間域的處理、聽覺模式的感知與語音處理。其主要研究方法是將人看成黑箱系統(tǒng),由輸入(聲音刺激)和輸出(人的反應)考察聽覺系統(tǒng)的感知特性。
2.1.1聽覺感知模型的國內(nèi)外研究現(xiàn)狀
計算機語音識別系統(tǒng)需要聽覺感知模型研究解決的問題有:
①
如何提高語音識別系統(tǒng)在嘈雜環(huán)境中的魯棒性和準確性?(人類聽覺系統(tǒng)可以在復雜的背景噪聲中有效地分辨出目標語音,而計算機語音識別系統(tǒng)則往往受到噪聲的干擾而降低性能。)
②
如何提高語音識別系統(tǒng)對不同說話人、不同口音、不同情感和不同語言的適應性?(人類聽覺系統(tǒng)可以根據(jù)不同的語音特征和語境進行靈活的調(diào)整和學習,而計算機語音識別系統(tǒng)則往往需要大量的標注數(shù)據(jù)和訓練時間來適應新的場景。)
③
如何提高語音識別系統(tǒng)對語義和語用信息的理解和利用?(人類聽覺系統(tǒng)可以根據(jù)語義和語用信息來推斷和糾正語音識別的錯誤,而計算機語音識別系統(tǒng)則往往只關(guān)注字面上的匹配程度。)
自從1961年貝克西(Bekesy)揭示了內(nèi)耳基底膜機制以來,隨著聽覺心理和聽覺生理科學的發(fā)展,對于聽覺模型的研究出現(xiàn)了幾個高潮:
①20世紀60年代的物理模型,即對外耳、中耳和內(nèi)耳基底膜的物理特性的模型化,如對耳蝸管這種一端封閉短管的聲學特性進行模塊化;
②20世紀70年代的神經(jīng)生理模型,即對內(nèi)毛細胞將聲波振動轉(zhuǎn)化為電脈沖發(fā)放的機理和特性的模型化及對聽覺神經(jīng)纖維電脈沖發(fā)放模式的模型化;
③20世紀80年代的表征模型,即對于聲信號在聽覺系統(tǒng)中表征(Representation)模式的研究和模型化;
④20世紀90年代著名的聽覺模型,即美國麻省理工學院的Seneff模型;
⑤
近年來主要以注意選擇為主的聽覺模型。
1.注意的選擇理論
注意的選擇理論有以下四個。
1)過濾器理論
1958年,英國心理學家布羅德本特(Broadbent)根據(jù)雙耳分聽的一系列實驗結(jié)果,提出了一種解釋注意選擇作用的理論,即過濾器理論(FilterTheory)。
2)衰減理論
過濾器理論得到了某些實驗結(jié)果的支持,但進一步研究發(fā)現(xiàn),這種理論并不完善。
特瑞斯曼的理論與布羅德本特的理論對過濾裝置的具體作用有不同的看法,但兩種理論又有共同的地方:①
兩種理論有相同的出發(fā)點,即主張人的信息加工系統(tǒng)的容量有限,所以,對外來的信息需要經(jīng)過過濾或衰減裝置加以篩選;②
兩種理論都假定信息的選擇過程發(fā)生在對信息的充分加工之前,只有經(jīng)過選擇以后的信息,才能進一步加工和處理。
3)后期選擇理論
1963年,多伊奇(Deutsch)等人提出了選擇性注意的一種觀點——后期選擇理論,后由諾爾曼(Norman)加以完善。后期選擇理論認為,所有進入過濾或衰減裝置的信息是經(jīng)過充分分析的,因此對信息的選擇發(fā)生在加工后期的反應階段。后期選擇理論也稱為完善加工理論、反應選擇理論或記憶選擇理論。
4)多階段選擇理論
過濾器理論、衰減理論及后期選擇理論都假設注意的選擇過程發(fā)生在信息加工的某個特定階段。1978年,約翰斯頓(Johnston)等人提出了一個較靈活的模型,認為選擇過程在不同的加工階段都有可能發(fā)生,這就是多階段選擇理論。這一理論的兩個主要假設是:①
進行選擇之前的加工階段越多,所需要的認知加工資源就越多;②
選擇發(fā)生的階段依賴于當前的任務要求。多階段選擇理論看起來更有彈性,由于強調(diào)任務要求對選擇階段的影響,因而避免了過于絕對化的假設所帶來的問題。
2.注意的認知資源理論
上述理論試圖解釋注意對信息進行選擇的機制,而認知資源理論是關(guān)于注意分配的,它從另一個角度來解釋注意,即注意是如何協(xié)調(diào)不同的認知任務或認知活動的。
不同的認知活動對注意提出的要求是不相同的。注意的認知資源理論有以下兩個。
1)認知資源分配理論
認知資源分配理論是由心理學家卡里曼(Kahneman)提出的,他認為注意資源和容量是有限的。
2)認知資源雙加工理論
在注意的認知資源分配理論的基礎上,謝夫林等人在1977年進一步提出了雙加工理論。雙加工理論認為,人類的認知加工有兩種:自動化加工和受意識控制的加工。
從研究范圍來看,目前對于聽覺模型的研究在發(fā)達國家都在進行,如美國、日本、俄羅斯、英國、加拿大、德國和法國等,印度也開展了這方面的研究。我國起步較晚,但在國內(nèi)學者的努力下也取得了不錯的成果,如趙鶴鳴教授和周旭東教授于1994年9月提出了聽覺感知模型。目前國內(nèi)重點高校的研究小組對聽覺模型也開展了研究工作,如北京大學視覺與聽覺信息處理國家重點實驗室等。表2-1給出了國內(nèi)外知名聽覺模型研究機構(gòu)及其研究方向。
2.1.2-人類聽覺系統(tǒng)簡介
1.人耳的結(jié)構(gòu)
耳朵是人類的聽覺器官,其作用就是接收聲音并將聲音轉(zhuǎn)換成神經(jīng)刺激。聲音感知是指將所聽到的聲音經(jīng)過大腦的處理后變成確定的含義。
人耳由外耳、中耳和內(nèi)耳三部分組成。圖2-1為人耳的結(jié)構(gòu)示意圖。其中,外耳、中耳和內(nèi)耳的耳蝸是聽覺器官。內(nèi)耳的前庭窗和半規(guī)管分別是判定位置和進行平衡的器官。
圖2-1人耳的結(jié)構(gòu)示意圖
2.聽覺的形成
聲波經(jīng)外耳道傳到鼓膜,引起鼓膜振動,再經(jīng)過聽小骨的傳遞作用于前庭窗,引起前庭階外淋巴的振動,繼而振動耳蝸管中的內(nèi)淋巴,進一步引起基底膜和螺旋器的振動?;啄さ恼駝右孕胁ǚ绞綇幕啄さ撞垦仄漤敳總鞑ィ乖撎幝菪鞯拿毎c蓋膜之間的相對位置發(fā)生改變,從而使毛細胞由于受刺激而產(chǎn)生微音器電位。后者激發(fā)耳蝸神經(jīng)產(chǎn)生動作電位,并經(jīng)過聽神經(jīng)傳入大腦皮層顳葉聽覺中樞,從而產(chǎn)生聽覺。圖2-2為聽覺產(chǎn)生模型。
圖2-2聽覺產(chǎn)生模型
2.1.3聽覺特性
人耳對不同強
度、不同頻率聲音的聽覺范圍稱為聲域。人耳能聽到的聲音頻率在20~20000Hz范圍內(nèi)。外耳具有一定長度的耳道,會對某段頻率產(chǎn)生共鳴,致使靈敏度提高,這個頻率段大約在3~5kHz。在人耳的聲域范圍內(nèi),聲音聽覺心理的主觀感受主要有響度、音高、音色以及掩蔽效應、高頻定位等特性。其中,響度、音高、音色可以在主觀上用來描述具有振幅、頻率和相位三個物理量的任何復雜的聲音,故又稱為聲音“三要素”。下面簡要介紹一下響度、音高、音色對聽覺的影響。
1.響度
響度又稱為聲強、音量或者聲壓級,它主要反映聲音能量的強弱程度,是由聲波振幅的大小決定的。聲音的響度一般用聲壓(單位為Dyn/cm2)或聲強(單位為W/cm2)來計量。
聲音呈現(xiàn)持續(xù)的時間也是影響響度的一個重要因素。恒定刺激法既可以用于測量絕對閾值又可以用來測量差別閾限。通常一個恒定的聲音刺激持續(xù)200ms或300ms時聽覺器官感覺強度會增強,也就是說,在很短的時間內(nèi)聽一個聲音的強度與在相對持續(xù)較長時間內(nèi)聽一個聲音的閾值是有區(qū)別的。聲音持續(xù)時間越短,閾值越高;持續(xù)時間越長,閾值越低。
2.音高
音高也稱為音調(diào),是人耳對音調(diào)高低的主觀感受。音高主要取決于聲波基頻的高低,頻率高則音調(diào)高,頻率低則音調(diào)低。人耳對音高和頻率的感覺同樣有一個最低到最高的范圍,音高與頻率之間是非線性關(guān)系。此外,音高還與聲音的響度及其波形振幅變化有關(guān)。
3.音色
美國國家標準協(xié)會將音色定義為一種感官屬性,聽者可以根據(jù)它判斷出兩個具有相同的響度和音高的音是不相似的。它是由聲音波形的諧波頻率決定的。聲音波形包含的諧波的比例以及聲音頻率隨時間的衰減決定了聲源的音色。
2.1.4聽覺掩蔽
聽覺掩蔽效應是指對較弱聲音的聽覺感受受到另一個較強聲音(掩蔽音)影響的現(xiàn)象。聽不到的聲音稱為被掩蔽音,而起掩蔽作用的聲音稱為掩蔽音。掩蔽音的實質(zhì)是掩蔽音的出現(xiàn)使人耳聽覺的等響度曲線最小可聞閾值被提高了。
下面詳細介紹不同聽覺刺激條件下的聽覺掩蔽效應。
1.純音的掩蔽效應
對于純音的聽覺刺激,產(chǎn)生的聽覺掩蔽效應有如下規(guī)律:
①
對處于中等強度的純音來說,最有效的掩蔽音是出現(xiàn)在該頻率附近的純音;
②
低頻的純音可以有效地掩蔽高頻的純音,而高頻的純音對低頻的純音的掩蔽效應則要弱一些。
2.復合音對純音的掩蔽效應
如果掩蔽音為多頻率純音合成的寬帶復合音,被隱蔽音為純音,則產(chǎn)生的掩蔽音在低頻段一般高于高頻段的復合音,當隱蔽音超過500Hz時,頻率每增加10倍,隱蔽音的輕度就增加10dB。如果掩蔽音為窄帶復合音,被掩蔽音為純音,則位于被掩蔽音附近的由純音組成的窄帶復合音的臨界頻帶產(chǎn)生的隱蔽作用最明顯。
3.實時與異步的聽覺掩蔽效應
1)頻域掩蔽效應
一個強純音會隱蔽在其附近同時發(fā)生的弱純音,這種特性稱為頻域掩蔽,也稱為同時掩蔽。在現(xiàn)實生活中,可以發(fā)現(xiàn)人耳在安靜的環(huán)境中能夠分辨出輕弱的聲音,但在嘈雜的
環(huán)境中,即使人耳感覺靈敏的聲音也會被淹沒。這種當聆聽一個聲音的同時,由于被另一個聲壓級較強的聲音所掩蓋致使聽不到原始聲音的現(xiàn)象稱為聲掩蔽。由于頻率低的聲音在內(nèi)耳耳蝸基底膜上行波傳遞的距離大于頻率較高的聲音,故而低頻聲音容易掩蔽高頻率的聲音。
2)時域掩蔽效應
除了同時發(fā)出的聲音之間有掩蔽現(xiàn)象之外,在時間上相鄰的聲音之間也有掩蔽現(xiàn)象,稱為時域掩蔽,也稱非同時掩蔽。時域掩蔽又分為前向掩蔽和后向掩蔽,前向掩蔽指掩蔽音作用在被掩蔽音之前,后向掩蔽指掩蔽音作用在被掩蔽音之后。非同時掩蔽的特點是:掩蔽音在時間上越接近于被掩蔽音,掩蔽量就越大,也就是說掩蔽效應就越強。
當掩蔽音與被掩蔽音在時間上比較靠近時,后掩蔽作用就要大于前掩蔽作用。當掩蔽音的聲壓級提高時,所引起的掩蔽量并不是成比例增加的。例如掩蔽音的聲壓增大10dB,而掩蔽量僅增加3dB。至于同時掩蔽情況,其比例將大大超過此值。表2-2給出了同時與非同時掩蔽效應的分類及其效果。
3)其他聽覺掩蔽效應
其他一些聽覺或者時間因素也可能引起聽覺掩蔽效應。例如,當兩個不同頻率的聲音分別作用于兩耳時,就會產(chǎn)生中樞掩蔽效應。
聲音的掩蔽效應是聽覺實驗中必須要注意和加以控制的重要因素。如果有同時或先后呈現(xiàn)的聽覺刺激導致聽覺掩蔽效應,那么實驗結(jié)果的正確率、可靠性以及反應速度都會受到影響。
2.1.5聽覺加工理論
人耳對語音的感知主要是通過語音信號頻譜分量幅度獲取的,因此對各分量相位并不敏感,對頻率高低的感受近似與該頻率的對數(shù)值成正比。人耳除了能夠感受聲音的強度、音調(diào)、音色和空間方位外,還能夠在兩人或兩人以上的環(huán)境中分辨出自己所需的聲音,這種分辨能力是人體內(nèi)部語音理解機制具有的一種感知能力。人類的這種分離語音的能力與雙耳輸入效應有關(guān),稱為“雞尾酒會效應”。
聽覺加工理論有以下幾種。
1.聲音的頻率理論
最早解釋聽覺現(xiàn)象的理論是1886年物理學家盧瑟福提出的聲音頻率理論。頻率理論認為,內(nèi)耳的基底膜是和鐙骨按相同頻率振動的,振動的數(shù)量與聲音的原有頻率是相適應和一致的。
2.共鳴理論
共鳴理論(ResonanceTheory)是由郝爾姆霍茨(H.L.F.vonHelmholtz)提出來的。郝爾姆霍茨認為,基底膜的橫纖維長短不同,靠近蝸頂較寬,因而就像一部琴的琴弦一樣,能夠?qū)Σ煌l率的聲音產(chǎn)生共鳴。
3.行波理論
行波理論是20世紀40年代生理學家馮·貝凱西(G.VonBekesy)在郝爾姆霍茨的共鳴理論的基礎上提出的新的理論,用來解釋人類的聽覺現(xiàn)象。行波理論認為,聲波傳到人耳后引起基底膜的振動,基底膜振動從耳蝸底部的某一部位開始,當振幅達到最大值時,振動就會停止并消失。
4.神經(jīng)齊射理論
神經(jīng)齊射理論(NeuralVolleyingTheory)是20世紀40年代由韋弗爾(E.G.Wever)提出的。該理論認為,當聲音頻率低于400Hz時,個別聽覺神經(jīng)纖維產(chǎn)生的神經(jīng)電頻率與聲音頻率一致;當聲音頻率提高時,聽覺神經(jīng)纖維無法單獨對聲音作出反應,此時,聽覺神經(jīng)纖維則按照神經(jīng)齊射理論發(fā)生作用。個別聽覺神經(jīng)纖維產(chǎn)生較低的頻率,它們聯(lián)合“齊射”,就可以對頻率較高的聲音作出反應。
2.2視覺的生理基礎
2.2.1研究現(xiàn)狀人類通過人類視覺系統(tǒng)(HumanVisualSystem,HVS)來獲取外界圖像信息,當光輻射刺激人眼時,將會引起復雜的生理和心理變化,這種感覺就是視覺(Vision)。視覺是人類認識自然、了解客觀世界的重要手段,同時也是理解人類認知功能的突破口。HVS是由大量神經(jīng)細胞通過一定的連接組成的一個復雜的信息處理系統(tǒng),研究它的目的是感知視覺世界的空間存在,了解視覺世界的空間結(jié)構(gòu)、特點、組成以及它們的空間運動變化規(guī)律。
HVS的研究包括色度學、光學、視覺生理學、視覺心理學、神經(jīng)科學、解剖學和認知科學等許多科學領域。人眼類似于一個光學信息處理系統(tǒng),但它不僅僅是一個簡單的光學信息處理系統(tǒng)。從物理結(jié)構(gòu)看,HVS由光學系統(tǒng)、視網(wǎng)膜和視覺通路組成,其視覺信息處理模型如圖2-3所示。
圖2-3HVS視覺信息處理模型
人類視覺系統(tǒng)的許多獨特機制,給我們研究數(shù)字圖像處理等方面提供了一個很好的啟迪,可以利用這些特殊的性質(zhì)設計更好的圖像處理算法。這些特性大致可歸納為以下幾點:
(1)視網(wǎng)膜上神經(jīng)節(jié)細胞輸出的是目標的特征信息,但由于神經(jīng)節(jié)細胞所占比例很小,因此視網(wǎng)膜在提取特征時的效率很高。這為特征提取、目標識別等提供了一個很好的參考。
(2)人眼可以接受1010數(shù)量級的光強變化范圍,人眼的這種強適應能力可利用圖像處理學的直方圖適應性調(diào)整。
(3)人眼處于高頻率無意識的振動之中。實驗顯示,如果這種振動停止,人眼成像就會變得模糊,可見人眼的振動可確保獲取的圖像質(zhì)量,因此如何模擬眼球振動對圖像質(zhì)量的影響是改善圖像清晰度的一條比較有效的途徑。
(4)人眼可分辨比視網(wǎng)膜傳感器單元小得多的信息差別,因此可以利用人眼的這種超分辨特性來設計出較高精度的信息獲取系統(tǒng)。
(5)人眼具有廣闊視野的同時又具有局部分辨能力,可以使人們在對感興趣的目標保持高分辨的同時,又對視野的其他部分保持警戒。這就為多目標跟蹤提供了一個重要的參考。
(6)人類視覺系統(tǒng)是一個并行的多通道系統(tǒng),視網(wǎng)膜中的神經(jīng)節(jié)細胞構(gòu)成了視覺系統(tǒng)進行前端處理的若干個并行通道,分別承擔著不同的信息傳輸和處理功能。人類視覺系統(tǒng)的這種復雜并行結(jié)構(gòu),在并行計算方面為我們提供了一個新的思路。
人類視覺的研究可分為基于視覺生理學(VisualPhysiology)和基于視覺心理學(VisualPsychophysics)方面的研究。其中,視覺生理學剖析了生物系統(tǒng)是如何實現(xiàn)視覺感知的,視覺心理學研究視覺感知和人類心理的相互關(guān)系。我們希望通過一系列深入研究設計出相應的計算模型來還原視覺系統(tǒng),進而為計算機視覺及現(xiàn)代圖像處理技術(shù)提供理論基礎。
2.2.2-視覺感知
視覺研究是一個很大的研究領域。
1.視覺感知的生理學基礎
人類主要是通過視覺、觸覺、聽覺和嗅覺等來感知外部世界的,其中最主要的是視覺。人類感知的外界信息中80%以上來自視覺,讓計算機或機器人具有視覺是人類多年以來的夢想,也是人類科學研究中所面臨的最大挑戰(zhàn)之一。雖然,目前還不能讓計算機像生物那樣也具有高效靈活的視覺,但這種希望正在逐步被實現(xiàn)。
視覺皮層包括很多區(qū)域并按照一定的層次結(jié)構(gòu)進行組織,圖2-4為視覺通路的層次結(jié)構(gòu)。圖2-4視覺通路的層次結(jié)構(gòu)
視覺系統(tǒng)是神經(jīng)系統(tǒng)的一個組成部分,它使物體具有了視知覺能力。人類視覺系統(tǒng)示意圖如圖2-5所示,主要包括以下幾個部分。
圖2-5人類視覺系統(tǒng)示意圖
1)眼睛
圖2-6所示是人眼球剖面圖。眼的前方被一層稱為角膜(Cornea)的透明表面所覆蓋,表面的其余部分稱為鞏膜(Sclera),它由包圍著脈絡膜(Choroid)的纖維外殼組成。脈絡膜的內(nèi)側(cè)是視網(wǎng)膜(Retina),它由桿狀和錐狀細胞兩種接收器組成,連到視網(wǎng)膜的神經(jīng)通過光神經(jīng)束而離開眼球。進入角膜的光線通過水晶體(相當于透鏡)十字聚焦到視網(wǎng)膜上。水晶體在肌肉控制下改變其形狀,以執(zhí)行聚焦功能。虹膜(Iris)的作用就如同照相機的光圈一樣,控制進入眼睛的光通量,虹膜又稱為瞳孔。
視網(wǎng)膜中的桿狀細胞是長而薄的接收器,而錐狀細胞一般短而厚。桿狀細胞比錐狀細胞更具有光靈敏度。在低照度下,桿狀細胞提供被稱為“微光視覺”的視覺響應,但它沒有色覺;錐狀細胞則提供被稱為“亮視覺”的視覺響應,它有色覺。視網(wǎng)膜上分布著約650萬個錐狀細腦和1億個桿狀細胞。在靠近光神經(jīng)束的被稱為“黃斑區(qū)”的中心凹(Fovea)處錐狀細胞的密度最大,這是最尖銳的亮視覺區(qū),色覺很強。在緊靠光神經(jīng)束的地方,有一個既無桿狀細胞也無錐狀細胞的區(qū)域,稱為“盲點”。
錐狀細胞和桿狀細胞的光覺和色覺不同,說明了在觀看明亮的物體時,依靠錐狀細胞工作,色覺很強;而在觀看夜晚微光情況下的物體時,依靠桿狀細胞工作,沒有色覺,只有灰度不同的感覺。
圖2-6人眼球剖面圖
2)視網(wǎng)膜
人眼中最重要的視網(wǎng)膜實際上是由許多種神經(jīng)細胞組成的復雜的神經(jīng)系統(tǒng)。在厚約250pm的無色透明的薄膜內(nèi),無間隙地排列著視細胞層、雙極(Bipolar)細胞層、神經(jīng)節(jié)(Ganglion)細胞層(即下、中、上三層)以及水平(Horizontal)細胞層和無長突細胞層。前述視細胞即錐狀細胞和桿狀細胞作為光電變換器件,從光的入射方向看是處在最遠的一層,它的輸出經(jīng)雙極細胞傳送到作為視網(wǎng)膜輸出細胞的神經(jīng)節(jié)細胞。水平細胞和無長突細胞則是在其間對信號進行某種處理。
這些神經(jīng)細胞之間并不足以一對一相
耦合,而是在“突
觸(Synapse)”處的特定領域與特定的神經(jīng)細胞相耦合。神經(jīng)節(jié)細胞收到的是處理過的模擬信號;但是由神經(jīng)行細胞經(jīng)過神經(jīng)纖維(OpticNerveFibers)輸出到神經(jīng)中樞(腦)的則是脈沖密度調(diào)制的脈沖信號。在接收信號的中樞細胞上,由于積分作用,將脈沖密度調(diào)制信號解調(diào)成模擬信號。
人們早已清楚視網(wǎng)膜的基本結(jié)構(gòu),但對它的各類神經(jīng)細胞的機能研究,只是利用微小電極的探針、放大器及示波器等電子設備,進行動物實驗,進一步外推到人的視覺機制上而得到相關(guān)結(jié)論的。視網(wǎng)膜結(jié)構(gòu)圖如圖2-7所示。
圖2-7視網(wǎng)膜結(jié)構(gòu)圖
它主要由以下幾個方面構(gòu)成:
(1)視細胞。人們發(fā)現(xiàn),把微小電極插入鯉魚的錐狀細胞中,可成功地記錄視細胞對光的反應,其內(nèi)部電位因光的作用而有負方向的變化。
(2)雙極細胞。與視細胞不同,雙極細胞的反應有兩種形式:一種與視細胞的反應一樣,是負極性的,稱為“OFF型”雙極細胞;另一種的反應則相反,隨著光強度增大電位呈正方向變化,稱為“ON型”雙極細胞。
(3)神經(jīng)節(jié)細胞。作為視網(wǎng)膜輸出細胞的神經(jīng)節(jié),從上述接收區(qū)域收到雙極細胞傳來的信號。
3)外膝體
視網(wǎng)膜神經(jīng)節(jié)細胞軸突形成視神經(jīng),經(jīng)視交叉和視束到達外膝體(LateralGeniculateNucleus,LGN)。外膝體屬丘腦,是眼睛到視皮層視通路的中繼站。
外膝體是丘腦的一個感覺中繼核團,人類的LGN有六層,規(guī)則地排列為彎曲的結(jié)構(gòu),外膝體結(jié)構(gòu)圖如圖2-8所示。其3、4、5、6層內(nèi)細胞較小,稱為小細胞層(ParvocellularLayers,P層);1、2層內(nèi)細胞較大,稱為大細胞層(MagnocellularLayers,M層)。
圖2-8外膝體結(jié)構(gòu)圖
(1)對單側(cè)外膝體核來說,其1、4、6層只接受對側(cè)眼(鼻側(cè))的視網(wǎng)膜來的投射輸入,而2、3、5層僅接受同側(cè)眼(顳側(cè))的視網(wǎng)膜來的投射輸入,單側(cè)外膝體只能得到雙眼輸入的對側(cè)視野內(nèi)的視覺信息。
(2)來自視網(wǎng)膜相應點的神經(jīng)節(jié)細胞軸突,投射到外膝體核各層時是有規(guī)律的,如將外膝體各層接收投射的響應細胞部位連接起來,就會得到大體上與各層邊界垂直的線,稱為投射線。
(3)視網(wǎng)膜中央?yún)^(qū)細胞在外膝體所占的投射區(qū)面積要比視網(wǎng)膜邊緣區(qū)細胞在外膝體所占的投射區(qū)大得多,因為在視網(wǎng)膜中央?yún)^(qū),各類視網(wǎng)膜細胞密度最高。
4)視皮層
視皮層結(jié)構(gòu)圖如圖2-9所示。現(xiàn)在已知與視覺有關(guān)的大腦皮層多達35個,自皮層表圖2-9視皮層結(jié)構(gòu)圖面到白質(zhì)分為6層,外膝體核處理后的視覺信息首先傳到皮層17區(qū)(第Ⅰ視區(qū)或紋狀皮層)。外膝體細胞軸突末梢終止于第4層內(nèi),然后再與第2、第3層細胞,第5、第6層細胞建立突觸聯(lián)系。V1為紋狀皮層(17區(qū)),V為第2視區(qū),MST為內(nèi)側(cè)上顳區(qū),MT為中央顳區(qū)。細胞類型有星形細胞(StellateCell)和錐體細胞(PyramidalCell)。
圖2-9視皮層結(jié)構(gòu)圖
具體地說,視皮層17區(qū)和18區(qū)的細胞可分為簡單細胞(SimpleCells)和復雜細胞(ComplexCells)兩大類。簡單細胞主要分布在視皮層17區(qū)的第4層內(nèi),感受野較小,呈狹長形,用小光點可以測定,對大面積的彌散光不作反應,而對處于拮抗區(qū)邊緣一定方位一定寬度的條形刺激有較強的反應,因此比較適合于檢測具有明暗對比的直邊,對邊緣的位置和方位有嚴格的選擇性,對每一個簡單細胞,都有一個最優(yōu)方位,在此方位上細胞的反應最強烈。簡單細胞的方位選擇性如圖2-10所示。
圖2-10簡單細胞的方位選擇性
2.視覺感知的心理物理學基礎
實際上,在計算機圖像生成和處理的過程中,都需要人去觀看,處理的中間過程需進行交互,即使是中間過程不需要顯示。例如,紅外熱圖像處理,最終也要轉(zhuǎn)化成可見光圖像給用戶觀看。因此,除了需要了解人眼構(gòu)造外,還需要掌握人眼視覺特征,這樣才能為計算機圖像生成提供更加可靠的科學依據(jù)。
1)視覺敏銳度
視覺敏銳度(VisualAcuity)也稱為視敏度、視力,它表示視覺中用來分辨細小物體或是物體某個細小部分的能力。它表明我們能夠觀察或是感覺到的刺激有多么細微或是不同刺激之間的差別有多大。在一定條件下,人的眼睛能觀察到的物體越小,表示視覺敏銳度越大。
人眼的視敏度還與所處環(huán)境的亮度有關(guān)。一般在昏暗的環(huán)境中,人眼會變得特別敏感,所以能檢測到細微的亮度變化。但對物體的細節(jié)特征和顏色的識別就變?nèi)趿?。而當處于亮光充足的環(huán)境中時,人就擁有比較敏銳的色覺和很強的視敏度。但此時對于亮度的敏感度就會變低,需要較大的變化量才能被人所感覺到。這個現(xiàn)象首先是由沙勒(Shlaer)在1937年做實驗后提出的,根據(jù)他的實驗可以得到背景亮度同視敏度的關(guān)系。
2)對比度
對比度表示相鄰物體間亮度的差異,一般用兩者之間的亮度比來表示對比度,也可用最大亮度和最小亮度之間的比例關(guān)系表示,定義如下
其中,Lmax和Lmin分別代表最大亮度和最小亮度。當Lmax大于Lmin時,C的值將總是小于1.0。
在相同亮度的情況下,對比度越高,給人的感覺就越強烈。也就是說,人對亮度的感覺還跟背景的亮度有關(guān)系。同樣絕對亮度的物體,放置在不同背景亮度的環(huán)境中,也會給人完全不同的感覺。目標與背景不同對比度示意圖如圖2-11所示。盡管中間矩形框的亮度值實際上都是一樣的,但是由于它們所在的背景亮度不同,所以看起來這些矩形框的亮度是不同的,其中最左邊圖中的矩形框看起來要比最右邊圖中的矩形框亮度值低些。
圖2-11目標與背景不同對比度示意圖
3)色彩學基礎
顏色是人的視覺系統(tǒng)因接收到不同波長的光信號而產(chǎn)生的感覺反應。這里需要注意的是,顏色不屬于物理量而是屬于感知的范疇。在現(xiàn)實世界中,光在空間中的傳輸可以被看
成粒子或波在空間傳輸,可以用不同的頻率來表示。人的視覺能夠接受400~700nm之間的光譜。
通過實驗數(shù)據(jù),可以在RGB顏色空間和CIEXYZ顏色空間之間通過矩陣變換而相互轉(zhuǎn)化,用公式表示為
2.2.3人類視覺系統(tǒng)概述
俗話說:“眼睛是心靈的窗戶,是人與外界溝通的橋梁”。人類視覺系統(tǒng)具有高度并行的特點,且擁有非常特殊精密的結(jié)構(gòu)。它對信息的處理非常快,外界的感官刺激到達人眼后,轉(zhuǎn)化為神經(jīng)信號傳輸?shù)酱竽X中進行實時處理。在這個處理過程中,各種信息如位置、深度、顏色、紋理、運動和外觀都能被提取出來。
人類視覺系統(tǒng)主要由視覺器官、視覺通路和多級視覺中樞組成,實現(xiàn)視覺信息的產(chǎn)生、傳遞和處理。但由于視覺信息傳遞過程比較復雜,科學家們又將其劃分為視感覺處理和視知覺處理兩個階段。人眼視覺信息的傳遞過程如圖2-12所示。
圖2-12人眼視覺信息的傳遞過程
目前人類的視覺信息處理過程已經(jīng)發(fā)展到較完善的階段。神經(jīng)解剖學和神經(jīng)生理學的研究表明,視覺信息在大腦中按照一定的通路進行傳遞。
圖2-13為視覺信息從視網(wǎng)膜到視皮層的處理過程。
圖2-13視覺信息從視網(wǎng)膜到視皮層的處理過程
對人類視覺系統(tǒng)的描述如下:
(1)人類視覺系統(tǒng)是分層的光學系統(tǒng)。
(2)人類視覺系統(tǒng)是能抓主要矛盾的光學系統(tǒng)。
(3)人類視知覺是能夠自我完善的知覺,是對事物的各種屬性、各個部分及其相互關(guān)系的綜合的、整體的反映。
2.2.4視覺注意機制
1.早期的理論模型
1)基于位置的理論
基于位置的理論認為,視覺系統(tǒng)不能同時對視野范圍內(nèi)的所有的刺激都進行有效的加工,因為注意在任何時刻都只能聚焦于視覺空間中的某一個區(qū)域,只有該區(qū)域內(nèi)的刺激才能被加工
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年中級會計考場有效應對試題及答案
- 無人機駕駛員執(zhí)照考試飛行表演技巧試題及答案
- 初級護師考試呼吸系統(tǒng)疾病護理與試題及答案
- 反假貨幣專項培訓體系構(gòu)建
- 審計學基礎理論及其試題解析試題及答案
- 超市聯(lián)營采購合同協(xié)議
- 學習計劃樣本 2024年高級審計師考試試題及答案
- 2019-2025年質(zhì)量員之土建質(zhì)量基礎知識強化訓練試卷B卷附答案
- 消防安全管理信息系統(tǒng)的功能試題及答案
- 建筑行業(yè)供需關(guān)系與市場預測試題及答案
- 2023年二級造價工程師之土建建設工程計量與計價實務真題附答案
- 信息安全網(wǎng)絡隔離裝置-SGI-NDS200用戶操作手冊
- 青少年特發(fā)性脊柱側(cè)彎-健康知識科普課件
- 深邃的世界:西方繪畫中的科學學習通超星期末考試答案章節(jié)答案2024年
- 新能源汽車產(chǎn)業(yè)鏈分析
- 《十萬個為什么》整本書閱讀-課件-四年級下冊語文(統(tǒng)編版)
- DB46T 650-2024鐵皮石斛林下栽培技術(shù)規(guī)程
- 寧波市施工圖設計常見問題及質(zhì)量通病
- JGT 486-2015 混凝土用復合摻合料
- 校服授權(quán)生產(chǎn)協(xié)議合同范本
- 碼頭維修保養(yǎng)投標方案(技術(shù)方案)
評論
0/150
提交評論