




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、第一章 引論 人類在征服自然、改造自然和推動社會進步的過程中,面臨著自身能力、能量的局限性,因而發(fā)明和創(chuàng)造了許多機器來輔助或代替人類完成任務智能機器,包括智能機器人,是這種機器最理想的形式,也是人類科學研究中所面臨的最大挑戰(zhàn)之一智能機器是指這樣一種系統(tǒng),它能模擬人類的功能,能感知外部世界并有效地解決人所能解決問題人類感知外部世界主要是通過視覺、觸覺、聽覺和嗅覺等感覺器官,其中約80%的信息是由視覺獲取的因此,對于智能機器來說,賦予機器以人類視覺功能對發(fā)展智能機器是及其重要的,也由此形成了一門新的學科機器視覺(也稱計算機視覺或圖像分析與理解等)機器視覺的發(fā)展不僅將大大推動智能系統(tǒng)的發(fā)展,也將拓寬
2、計算機與各種智能機器的研究范圍和應用領域 機器視覺是研究用計算機來模擬生物外顯或宏觀視覺功能的科學和技術機器視覺系統(tǒng)的首要目標是用圖像創(chuàng)建或恢復現(xiàn)實世界模型,然后認知現(xiàn)實世界機器視覺系統(tǒng)獲取的場景圖像一般是灰度圖像,即三維場景在二維平面上的投影因此,場景三維信息只能通過灰度圖像或灰度圖像序列來恢復處理,這種恢復需要進行多點對一點的映射逆變換在信息恢復過程中,還需要有關場景知識和投影幾何知識機器視覺是一個相當新且發(fā)展十分迅速的研究領域,并成為計算機科學的重要研究領域之一機器視覺是在20世紀50年代從統(tǒng)計模式識別開始的1,當時的工作主要集中在二維圖像分析和識別上,如光學字符識別,工件表面、顯微圖片
3、和航空圖片的分析和解釋等60年代,Roberts(1965)通過計算機程序從數(shù)字圖像中提取出諸如立方體、楔形體、棱柱體等多面體的三維結構,并對物體形狀及物體的空間關系進行描述Roberts 1965Roberts 的研究工作開創(chuàng)了以理解三維場景為目的的三維機器視覺的研究Roberts對積木世界的創(chuàng)造性研究給人們以極大的啟發(fā),許多人相信,一旦由白色積木玩具組成的三維世界可以被理解,則可以推廣到理解更復雜的三維場景于是,人們對積木世界進行了深入的研究,研究的范圍從邊緣、角點等特征提取,到線條、平面、曲面等幾何要素分析,一直到圖像明暗、紋理、運動以及成像幾何等,并建立了各種數(shù)據(jù)結構和推理規(guī)則到了70
4、年代,已經(jīng)出現(xiàn)了一些視覺應用系統(tǒng)Guzman 1969, Mackworth 1973,70年代中期,麻省理工學院(MIT)人工智能(AI)實驗室正式開設“機器視覺”( Machine Vision)課程,由國際著名學者BKPHorn教授講授同時,MIT AI 實驗室吸引了國際上許多知名學者參與機器視覺的理論、算法、系統(tǒng)設計的研究,David Marr教授就是其中的一位他于1973年應邀在MIT AI 實驗室領導一個以博士生為主體的研究小組,1977年提出了不同于積木世界分析方法的計算視覺理論(computational vision),該理論在80年代成為機器視覺研究領域中的一個十
5、分重要的理論框架可以說,對機器視覺的全球性研究熱潮是從 20世紀80年代開始的,到了80年代中期,機器視覺獲得了蓬勃發(fā)展,新概念、新方法、新理論不斷涌現(xiàn),比如,基于感知特征群的物體識別理論框架,主動視覺理論框架,視覺集成理論框架等到目前為止,機器視覺仍然是一個非?;钴S的研究領域許多會議論文集都反應了該領域的最新進展,比如,International Conference on Computer Vision and Pattern Recognition(CVPR); International Conference on Computer Vision(ICCV); Internationa
6、l Conference on Pattern Recognition(ICPR); International Conference on Robotics and Automation(ICRA); Workshop on Computer Vision, and numerous conferences of SPIE還有許多學術期刊也包含了這一領域的最新研究成果, 如,IEEE Transaction on Pattern Analysis and Machine Intelligence(PAMI); Computer Vision, Graphics, and Image Proc
7、essing(CVGIP); IEEE Transaction on Image Processing; IEEE Transaction on Systems, Man, and Cybernetics(SMC); Machine Vision and Applications; International Journal on Computer Vision(IJCV); Image and Vision Computing; and Pattern Recognition每年還出版許多研究專集、學術著作、技術報告,舉行專題討論會等所有這些都是研究機器視覺及其應用的很好信息來源12 Mar
8、r的視覺計算理論Marr的視覺計算理論Marr1982立足于計算機科學,系統(tǒng)地概括了心理生理學、神經(jīng)生理學等方面業(yè)已取得的所有重要成果,是視覺研究中迄今為止最為完善的視覺理論Marr建立的視覺計算理論,使計算機視覺研究有了一個比較明確的體系,并大大推動了計算機視覺研究的發(fā)展人們普遍認為,計算機視覺這門學科的形成與Marr的視覺理論有著密切的關系事實上,盡管20世紀70年代初期就有人使用計算機視覺這個名詞Binford,1971,但正是Marr 70年代末建立的視覺理論促使計算機視覺這一名詞的流行下面簡要地介紹Marr的視覺理論的基本思想及其理論框架 121 三個層次Marr認為, 視覺是一個信
9、息處理系統(tǒng),對此系統(tǒng)研究應分為三個層次:計算理論層次,表示(representation)與算法層次,硬件實現(xiàn)層次,如表1-1所示 表1-1 計算理論 表示和算法 硬件實現(xiàn)計算的目的是什么? 如何實現(xiàn)這個計算理論? 在物理上如何實現(xiàn)為什么這一計算是合適的? 輸入、輸出的表示是什么? 這些表示和算法?執(zhí)行計算的策略是什么? 表示與表示之間的變換是什么?按照Marr的理論,計算視覺理論要回答視覺系統(tǒng)的計算目的和策略是什么,或視覺系統(tǒng)的輸入和輸出是什么,如何由系統(tǒng)的輸入求出系統(tǒng)的輸出在這個層次上,信息系統(tǒng)的特征是將一種信息(輸入)映射為另一種信息(輸出)比如,系統(tǒng)輸入是二維灰度圖像,輸出則是三維物體
10、的形狀、位置和姿態(tài),視覺系統(tǒng)的任務就是如何建立輸入輸出之間的關系和約束,如何由二維灰度圖像恢復物體的三維信息表示與算法層次是要進一步回答如何表示輸入和輸出信息,如何實現(xiàn)計算理論所對應的功能的算法,以及如何由一種表示變換成另一種表示,比如創(chuàng)建數(shù)據(jù)結構和符號一般來說,不同的輸入、輸出和計算理論,對應不同的表示,而同一種輸入、輸出或計算理論可能對應若干種表示在解決了理論問題和表示問題后,最后一個層次是解決用硬件實現(xiàn)上述表示和算法的問題,比如計算機體系結構及具體的計算裝置及其細節(jié)從信息處理的觀點來看,至關重要的乃是最高層次,即計算理論層次這是因為構成知覺的計算本質,取決于解決計算問題本身,而不取決于用
11、來解決計算問題的特殊硬件換句話說,通過正確理解待解決問題的本質,將有助于理解并創(chuàng)造算法 如果考慮解決問題的機制和物理實現(xiàn),則對理解算法往往無濟于事上述三個層次之間存在著邏輯的因果關系,但它們之間的聯(lián)系不是十分緊密,因此,某些現(xiàn)象只能在其中一個或兩個層次上進行解釋比如神經(jīng)解剖學原則上與第三層次即物理實現(xiàn)聯(lián)系在一起突觸機制、動作電位、抑制性相互作用都在第三個層次上心理物理學與第二層次(即表示與算法)有著更直接的聯(lián)系更一般地說,不同的現(xiàn)象必須在不同的層次上進行解釋,這會有助于人們把握正確的研究方向例如,人們常說,人腦完全不同于計算機,因為前者是并行加工的,后者是串行的對于這個問題,應該這樣回答:并行
12、加工和串行加工是在算法這個層次上的區(qū)別,而不是根本性的區(qū)別, 因為任何一個并行的計算程序都可以寫成串行的程序因此,這種并行與串行的區(qū)別并不支持這種觀點,即人腦的運行與計算機的運算是不同的,因而人腦所完成的任務是不可能通過編制程序用計算機來完成122 視覺表示框架視覺過程劃分為三個階段, 如表1-2所示第一階段(也稱為早期階段)是將輸入的原始圖像進行處理,抽取圖像中諸如角點、邊緣、紋理、線條、邊界等基本特征,這些特征的集合稱為基元圖(primitive sketch);第二階段(中期階段)是指在以觀測者為中心的坐標系中,由輸入圖像和基元圖恢復場景可見部分的深度、法線方向、輪廓等,這些信息的包含了
13、深度信息,但不是真正的物體三維表示,因此,稱為二維半圖(25 dimensional sketch);在以物體為中心的坐標系中,由輸入圖像、基元圖、二維半圖來恢復、表示和識別三維物體的過程稱為視覺的第三階段(后期階段)表1-2 由圖像恢復形狀信息的表示框架名 稱目 的基 元圖像光強表示圖像中每一點的強度值基元圖表示二維圖像中的重要信息,主要是圖像中的強度變化位置及其幾何分布和組織結構零交叉,斑點,端點和不連續(xù)點,邊緣片斷,有效線段,組合群,曲線組織,邊界 25維圖在以觀測者為中心的坐標系中,表示可見表面的方向、深度值和不連續(xù)的輪廓局部表面朝向(“針”基元)離觀測者的距離深度上的不連續(xù)點表面朝向
14、的不連續(xù)點3維模型表示在以物體為中心的坐標系中,用由體積基元和面積基元構成的模塊化多層次表示,描述形狀及其空間組織形式分層次組成若干三維模型,每個三維模型都是在幾個軸線空間的基礎上構成的,所有體積基元或面積形狀基元都附著在軸線上 Marr理論是計算機視覺研究領域的劃時代成就,但該理論不是十分完善的,許多方面還有爭議比如, 該理論所建立的視覺處理框架基本上是自下而上,沒有反饋 還有,該理論沒有足夠地重視知識的應用盡管如此,Marr理論給了我們研究計算機視覺許多珍貴的哲學思想和研究方法,同時也給計算機視覺研究領域創(chuàng)造了許多研究起點13 機器視覺的應用機器視覺技術正廣泛地應用于各個方面,從醫(yī)學圖象到
15、遙感圖像,從工業(yè)檢測到文件處理,從毫微米技術到多媒體數(shù)據(jù)庫,不一而足可以說,需要人類視覺的場合幾乎都需要機器視覺應該指出的是,許多人類視覺無法感知的場合,如精確定量感知、危險場景感知、不可見物體感知等,機器視覺更突顯其優(yōu)越性下面是一些機器視覺的典型應用 (1)零件識別與定位由于工業(yè)環(huán)境的結構、照明等因素可以得到嚴格的控制,因此,機器視覺在工業(yè)生產(chǎn)和裝配中得到了成功的應用圖11 是一個具有簡單視覺的工業(yè)機器人系統(tǒng)示意圖,其視覺系統(tǒng)由一個攝象機和相關的視覺信息處理系統(tǒng)組成攝象機位于零件傳輸帶上方,對于不同的零件,可以選擇不同顏色的傳輸帶,比如,明亮的物體,選擇黑色傳輸帶,暗色的零件,選擇白色的背景
16、,這樣有利于視覺系統(tǒng)將零件從傳輸帶上分離出來,并進行識別和定位,識別的目的是為機器人提供是否操作或進行何種操作的信息,定位的目的是導引機器人手爪實時準確地夾取零件圖11 用于生產(chǎn)線上具有簡單視覺系統(tǒng)的工業(yè)機器人系統(tǒng)示意圖(2)產(chǎn)品檢驗機器視覺在工業(yè)領域中另一個成功的應用是產(chǎn)品檢驗目前已經(jīng)用于產(chǎn)品外形檢驗、表面缺陷檢驗,比如, 滑塊及滑槽的外形檢驗以及裝配后的位置檢驗,以決定它們能否裝配在一起,并且準確無誤地完成裝配任務;發(fā)動機內壁麻點、刻痕等缺陷檢查,以決定產(chǎn)品的質量通過X射線照相或超聲探測獲取物體內部的圖像,可以實現(xiàn)內部缺陷檢驗,如鋼梁內部裂紋和氣孔等缺陷檢驗(3) 移動機器人導航我們來看一
17、下圖12所示的兩組圖像,每一組圖像稱為一個立體對(stereo pair),是由移動機器人上的兩個攝象機同步獲取的,表示某一時刻關于場景的不同視點的兩幅圖像機器人利用立體對可以恢復周圍環(huán)境的三維信息移動機器人可以利用場景的三維信息識別目標、識別道路、判斷障礙物等,實現(xiàn)道路規(guī)劃、自主導航,與周圍環(huán)境自主交互作用等將立體圖像對和運動信息組合起來,可以構成滿足特定任務分辨率要求的場景深度圖這種技術對無人汽車、無人飛機、無人戰(zhàn)車等自主系統(tǒng)的自動導航十分有用比如,著名的美國Sojourner和Rocky7等系列火星探測移動機器人都使用了立體視覺導航系統(tǒng) 圖12 由移動機器人立體視覺系統(tǒng)獲取的立體圖像對,
18、可用來重建場景三維信息(4)遙感圖像分析目前的遙感圖像包括三種:航空攝影圖像、氣象衛(wèi)星圖像、資源衛(wèi)星圖像這些圖像的共同特點是在高空對地表或地層進行遠距離成像,但三種圖像的成像機理完全不同航空圖像可以用普通的視頻攝象機來獲取,分析方法也同普通的圖像分析一樣衛(wèi)星圖像的獲取和應用隨著成像機理不同而變化很大,氣象衛(wèi)星使用紅外成像傳感系統(tǒng)可以獲取不同云層的圖像,即云圖,由此分析某一地區(qū)的氣象狀況;海洋衛(wèi)星使用合成孔徑雷達獲取海洋、淺灘圖像,由此重構海洋波浪三維表面圖;資源衛(wèi)星裝備有多光譜探測器(multiple spectral sensor, MSS),可以獲取地表相應點的多個光譜段的反射特性,如紅外
19、、可見光、紫外等,多光譜圖像被廣泛地用于找礦、森林、農(nóng)作物調查、自然災害測報、資源和生態(tài)環(huán)境檢測等(5)醫(yī)學圖像分析 目前醫(yī)學圖像已經(jīng)廣泛用于醫(yī)學診斷,成像方法包括傳統(tǒng)的X射線成像、計算機層析(computed tomography, CT)成像、核磁共振成像(magnetic resonance imaging, MRI)、超聲成像等機器視覺在醫(yī)學圖像診斷方面有兩方面的應用,一是對圖像進行增強、標記、染色等處理來幫助醫(yī)生診斷疾病,并協(xié)助醫(yī)生對感興趣的區(qū)域進行定量測量和比較;二是利用專家知識系統(tǒng)對圖像(或是一段時期內的一系列圖像)進行自動分析和解釋,給出診斷結果 (6)安全鑒別、監(jiān)視與跟蹤用機
20、器視覺系統(tǒng)可以實現(xiàn)停車場監(jiān)視、車輛識別、車牌號識別、探測并跟蹤“可疑”目標;根據(jù)面孔、眼底、指紋等特征識別特定人。目前人們正在研究一種面部運動參數(shù)的提取和描述,以分析人的表情及內心活動(7)國防系統(tǒng)機器視覺在國防系統(tǒng)中的作用越來越重要,一個理由是滿足自主操作的需要,另一個理由是分析大量先進成像傳感器的輸出顯而易見,在國防系統(tǒng)中迅速作出反應是極其重要的,這就需要在人工盡可能少的干預下作出各種決策,尤其是與圖像和視覺方法有關的各種技術,比如,圖像制導與目標識別等 (8)其它機器視覺已經(jīng)用于各種球類運動分析、人體測量,食品,農(nóng)業(yè)、心理學、電視電影制作、美術模型、遠程教育,多媒體教學等場合14 機器視
21、覺研究內容與面臨的困難 機器視覺研究可以分為如下五大研究內容:i 輸入設備i 低層視覺i 中層視覺i 高層視覺i 體系結構輸入設備(input device)包括成像設備和數(shù)字化設備成象設備是指通過光學攝像機或紅外、激光、超聲、X射線對周圍場景或物體進行探測成象,得到關于場景或物體的二維或三維數(shù)字化圖像獲取數(shù)字化圖像是機器視覺系統(tǒng)的最基本的功能目前用于視覺研究的大多數(shù)輸入設備是商品化的產(chǎn)品,如,CCD黑白或彩色攝像機,數(shù)字掃描儀,超聲成象探測儀,CT成象設備等但這些商品化的輸入設備遠遠不能滿足實際的需要,因此,仍有許多研究人員在研究各種性能先進的成象系統(tǒng),如,紅外成象系統(tǒng),激光成象系統(tǒng),還有所
22、謂的計算成象系統(tǒng)(computational imaging),即每一個像素元(或若干像素元)對應一個簡單的處理器,這樣可以適應復雜場景動態(tài)變化的場合Brajovic 1996低層視覺(low level)主要是對輸入的原始圖像進行處理這一過程借用了大量的圖像處理技術和算法,如圖像濾波、圖像增強、邊緣檢測等,以便從圖像中抽取諸如角點、邊緣、線條、邊界以及色彩等關于場景的基本特征;這一過程還包含了各種圖像變換(如校正)、圖像紋理檢測、圖像運動檢測等中層視覺(middle level)的主要任務是恢復場景的深度、表面法線方向、輪廓等有關場景的25維信息,實現(xiàn)的途徑有立體視覺(stereo visi
23、on)、測距成像(rangefinder)運動估計(motion estimation)、明暗特征、紋理特征等所謂的從X恢復形狀的估計方法系統(tǒng)標定、系統(tǒng)成像模型等研究內容一般也是在這個層次上進行的高層視覺(high level)的任務是在以物體為中心的坐標系中,在原始輸入圖像、圖像基本特征、25維圖的基礎上,恢復物體的完整三維圖,建立物體三維描述,識別三維物體并確定物體的位置和方向另外,主動視覺(active vision)涵蓋了上述各個層次的研究內容值得指出,低層、中層和高層機器視覺基本上與Marr視覺的三個階段相對應體系結構(system architecture)這一術語最通常的含義系指
24、在高度抽象的層次上,根據(jù)系統(tǒng)模型而不是根據(jù)實現(xiàn)設計的具體例子來研究系統(tǒng)的結構為了說明這一點,可以考慮建筑設計中某一時期的建筑風格(如清朝時期)和根據(jù)這一風格設計出來的具體建筑之間的區(qū)別體系結構研究涉及一系列相關的課題:并行結構、分層結構、信息流結構、拓撲結構以及從設計到實現(xiàn)的途徑人們對上述幾個研究內容進行了卓有成效的研究,研究出大量的技術和算法,并且在各個領域中得到廣泛的應用不過,機器視覺技術仍處于十分不成熟的的階段,其發(fā)展遠遠落后于人們所寄予的發(fā)展水平 對于人類視覺來說,識別和理解周圍場景是一件非常容易的事,但對于機器來說,卻是一件很困難的事主要困難體現(xiàn)在如下幾方面:(1) 圖像多義性: 三
25、維場景被投影為二維圖像,深度和不可見部分的信息被丟失,因而會出現(xiàn)不同形狀的三維物體投影在圖像平面上產(chǎn)生相同圖像的問題,如圖3所示另外,在不同角度獲取同一物體的圖像會有很大的差異(2) 環(huán)境因素影響:場景中的諸多因素,包括照明、物體形狀、表面顏色、攝像機以及空間關系變化都會對投影的圖像有影響,因此,當任何一個因素發(fā)生變化時,都會對圖像產(chǎn)生影響(3) 知識導引: 同樣的圖像在不同的知識導引下,將會產(chǎn)生不同的識別結果圖45所示的圖像,在不同的約束或知識導引下,具有不同的識別結果圖4(b)可能表示一個少女前視遠方的側面圖像,也可能表示一個老婦人凝視下前方的正側面圖像圖5包含有幾個的立方體,不同的知識導
26、引可能產(chǎn)生不同的空間關系,也就具有不同意義(4) 大量數(shù)據(jù): 灰度圖像,彩色圖像,深度圖像的信息量十分巨大,比如分辨率為的灰度圖像的數(shù)據(jù)量為256K,同樣分辨率的彩色圖像的數(shù)據(jù)量是768K如果處理的是圖像序列,則數(shù)據(jù)量更大巨大的數(shù)據(jù)量需要很大的存貯空間,同時不易實現(xiàn)快速處理為了解決視覺所面臨的問題,研究人員不斷尋求新的途徑和手段,比如,主動視覺(active vision),面向任務的視覺(task-oriented vision),基于知識、基于模型的視覺,以及多傳感融合和集成視覺等方法,其中人們越來越重視對知識的應用我們會看到,機器視覺系統(tǒng)的最大特征是,在視覺的各個階段,系統(tǒng)盡可能地進行自
27、動運算為此,系統(tǒng)需要使用各種知識,包括特征模型、成像過程、物體模型和物體間的關系如果機器視覺系統(tǒng)不用這些知識,則其應用的范圍及其功能將十分有限因此,視覺系統(tǒng)應該使用那些可以被明確表示的知識,以使系統(tǒng)具有更高的適應性和魯棒性合理地使用知識不僅可以有效地提高系統(tǒng)的適應性和魯棒性,而且可以求解機器視覺中較難的問題圖3不同形狀的三維物體投影在圖像平面上產(chǎn)生相同圖像圖4一組人臉側面圖像注意,中間圖像既與左邊圖像相似,又與右邊圖像相似Hochberg1964圖5幾個立方體構成的多義性圖像選自Combs的作品15 機器視覺與其它學科領域的關系 與機器視覺有關的學科有許多本節(jié)主要討論一些與機器視覺密切相關的領
28、域關于機器視覺與其它學科的關系,我們不作詳盡的討論 圖像處理是一個發(fā)展比較成熟的領域圖像處理技術通常是把一幅圖像變換成另外一幅圖像,也就是說,圖像處理系統(tǒng)的輸入是圖像,輸出仍然是圖像,信息恢復任務則留給人來完成圖像處理包括圖像增強、圖像壓縮和模糊校正與非聚焦圖像等課題機器視覺系統(tǒng)把圖像作為輸入,產(chǎn)生的輸出為另一種形式,比如圖像中物體輪廓的表示因此,機器視覺的重點是在人的最小干預下,由計算機自動恢復場景信息圖像處理算法在機器視覺系統(tǒng)的早期階段起著很大的作用,它們通常被用來增強特定信息并抑制噪聲 計算機圖形學是通過幾何基元,如線、圓和自由曲面,來生成圖像,它在可視化(Visualization)和
29、虛擬現(xiàn)實(Virtual Reality)中起著很重要的作用機器視覺正好是解決相反的問題,即從圖像中估計幾何基元和其它特征因此,計算機圖形學屬于圖像綜合,機器視覺屬于圖像分析這兩個領域在其發(fā)展的早期階段是沒有什么聯(lián)系的,但是近十幾年來發(fā)展的越來越相近了機器視覺使用了計算機圖形學中的曲線和曲面表示方法以及其它的一些技術,而計算機圖形學也使用機器視覺技術,以便在計算機中建立逼真的圖像模型可視化和虛擬現(xiàn)實把這兩個領域緊密地聯(lián)系在一起 模式識別主要用于識別各種符號、圖畫等平面圖形模式一般指一類事物區(qū)別于其它事物所具有的共同特征。模式識別方法主要有統(tǒng)計方法和句法方法兩種,統(tǒng)計方法是指從模式抽取一組特征值
30、,并以劃分特征空間的方法來識別每一個模式。句法方法是指利用一組簡單的子模式(模式基元)通過文法規(guī)則來描述復雜的模式。模式識別方法是機器視覺識別物體的重要基礎之一機器視覺識別物體還經(jīng)常需要其它的技術我們將在物體識別部分簡要地討論統(tǒng)計模式識別的主要內容 人工智能(artificial intelligent, AI)涉及到智能系統(tǒng)的設計和智能計算的研究在經(jīng)過圖像處理和圖像特征提取過程后,接下來要用人工智能方法對場景特征進行表示,并分析和理解場景人工智能有三個過程:感知、認知和行動感知把反應現(xiàn)實世界的信息轉換成信號,并表示成符號,認知是對符號進行各種操作,行動則把符號轉換成影響周圍環(huán)境的信號人工智能
31、的許多技術在機器視覺的各個方面起著重要作用事實上,機器視覺通常被視為人工智能的一個分支人工神經(jīng)網(wǎng)絡(artificial neural networks, ANNs)是一種信息處理系統(tǒng),它是由大量簡單的處理單元(稱為神經(jīng)元)通過具有強度的連接(connection)相互聯(lián)系起來,實現(xiàn)并行分布式處理(parallel distribution processing, PDP)人工神經(jīng)網(wǎng)絡的最大特點是可以通過改變連接強度來調整系統(tǒng),使之適應復雜的環(huán)境,實現(xiàn)類似人的學習、歸納和分類等功能人工神經(jīng)網(wǎng)絡已經(jīng)在許多工程技術領域得到了廣泛的應用神經(jīng)網(wǎng)絡作為一種方法和機制將用于解決機器視覺中的許多問題神經(jīng)物理
32、學與認知科學長期將人類視覺作為主要的研究對象機器視覺中已有的許多方法與人類視覺極為相似目前,許多機器視覺研究者對研究人類視覺計算模型比研究機器視覺系統(tǒng)更感興趣,希望機器視覺更加自然化,更加接近生物視覺。我們在第二章介紹人類視覺的一些研究成果,使讀者在研究機器視覺時或多或少能從生物視覺機理中得到啟發(fā)不過,我們的重點在于研究機器視覺系統(tǒng),因此,不討論機器視覺與神經(jīng)物理學或認知科學的聯(lián)系16 成象幾何基礎一般的成象系統(tǒng)通常將三維場景變換成二維灰度或彩色圖像,這種變換可以用一個從三維空間到二維空間的映射來表示: (11)如果考慮時變三維場景,則上述變換是四維空間到三維空間的變換,如果再考慮某一波段或某
33、幾個波段的光譜,則上式的維數(shù)將增加到五維或更高維這里我們只考慮三維空間到二維空間的兩種常用映射:透視投影變換和正交投影變換16 透視投影 透視投影(perspective projection)是最常用的成像模型,可以用針孔(pinhole)成像模型來近似表示透視投影成像模型的特點是所有來自場景的光線均通過一個投影中心,它對應于透鏡的中心,經(jīng)過投影中心且垂直于圖像平面(成像平面)的直線稱為投影軸或光軸,如圖16所示其中是固定在攝象機上的直角坐標系,遵循右手法則,其原點位于投影中心,軸與投影軸重合并指向場景,軸、軸與圖像平面的坐標軸和平行,平面與圖像平面的距離為,一般稱為攝象機的焦距在實際攝像機
34、中,圖像平面位于投影中心后面距離為的位置(圖16),其投影圖像是倒立的為了避免這種倒立圖像,假定圖像平面位于投影中心的前面,如圖17所示場景中一點在圖像平面上的投影位置可以通過計算點的視線(空間點與投影中心的連線)與圖像平面的相交位置得到 點的視線、點到軸的垂直線段以及軸形成了一個三角形圖像平面上點的視線、點到軸垂直線段以及軸形成了另一個三角形這兩個三角形是相似三角形,因此得到透視投影方程: (12)點在圖像平面中的位置由下式給出: (13) ( 圖16 透視投影倒立成像幾何示意圖圖17 透視投影幾何示意圖16 正交投影正交投影(orthogonal projection)指用平行于光軸的光將
35、場景投射到圖像平面上, 因此也稱為平行投影(parallel projection),如圖18所示正交投影是透視投影的一個特例,當透視投影模型的焦距很大且物體距投影中心很遠時,透視投影就可以用正交投影來近似此時,投影方程為: (14)圖 18 正交投影幾何示意圖163視覺系統(tǒng)坐標系在計算機視覺系統(tǒng)中涉及到以下幾種坐標:l 像素坐標:表示圖像陣列中圖像像素的位置;l 圖像平面坐標:表示場景點在圖像平面上的投影;l 攝象機坐標:即以觀察者為中心的坐標,將場景點表示成以觀察者為中心的數(shù)據(jù)形式l 場景坐標:也稱作絕對坐標(或世界坐標),用于表示場景點的絕對坐標; 像素坐標也稱為圖像陣列坐標或網(wǎng)格坐標圖
36、像處理通常是在圖像陣列的像素坐標系中進行,其中圖像的行數(shù)和列數(shù)對應于圖像網(wǎng)格的整數(shù)坐標,即像素的坐標是整數(shù)值,像素位于圖像的左上角,指向下方,指向右方這種圖像像素坐標系,正好對應計算機程序里的陣列語法為了提高圖像處理的精度,需要引入子像素(sub-pixel)概念所謂子像素是指像素與像素之間的點,其坐標用小數(shù)表示使用攝象機幾何假設條件可以將像素點坐標轉化成圖像平面坐標圖像平面坐標定義如下:假定攝像機主點,即光軸與圖像平面的交點,位于圖像的中心點,若圖像陣列為,則圖像平面坐標的中心坐標為: (15)其中表示中心坐標的估計值;圖像平面坐標軸方向是列數(shù)標號增加的方向,但軸方向指向行數(shù)標號增加方向的反向假定圖像陣列的行列間距是相等的,則像素坐標到圖像坐標的變換公式為: (16) 如果圖像陣列的行列間距不相等,并設列間距為,行間距為,則像素坐標到圖像坐標的變換式為: (17) 為了簡化運算,在機器視覺應用中普遍要求攝象機的像素為正方形像素如果使用了非正方形像素攝象機,則必須考慮非正方形像素對測量的影響若有影響,則必須在測量之前將其坐標轉化為標
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年中國可洗尿不濕行業(yè)市場全景分析及前景機遇研判報告
- 2025年中國可生物降解的環(huán)保塑料袋行業(yè)市場全景分析及前景機遇研判報告
- 計算機應用技術專業(yè)教學標準(高等職業(yè)教育??疲?025修訂
- 2025年中國可充電吸塵器行業(yè)市場全景分析及前景機遇研判報告
- 2025年中國接近鞋(Approach Shoes)市場全景分析及前景機遇研判報告
- 中國防腐木市場供需格局及投資規(guī)劃研究
- 貨運招商培訓課件
- 中國電站用電纜行業(yè)市場發(fā)展前景及發(fā)展趨勢與投資戰(zhàn)略研究報告(2024-2030)
- 中國三合一復合布行業(yè)市場發(fā)展前景及發(fā)展趨勢與投資戰(zhàn)略研究報告(2024-2030)
- 承德杭氧氣體有限公司介紹企業(yè)發(fā)展分析報告模板
- 網(wǎng)絡傳播概論(第5版)課件 第四章 網(wǎng)絡傳播的多重策略
- 濕地監(jiān)理實施細則
- 中小企業(yè)數(shù)字化轉型工作方案模板范文
- 收肌康復創(chuàng)新技術
- 《濟南市供用水合同》
- 智能化設備技術規(guī)格書范本
- 工程拆墻合同范本
- 2024夏季東南亞風情水上樂園潑水電音節(jié)開幕式活動方案-52P
- 模擬聯(lián)合國大會流程及議題講義模板
- 呼倫貝爾職業(yè)技術學院輔導員考試試題2024
- 無損檢測PTⅡ級滲透檢測理論考試題庫
評論
0/150
提交評論