數(shù)字音視頻處理 課件 第7章 數(shù)字圖像視頻處理技術(shù)_第1頁
數(shù)字音視頻處理 課件 第7章 數(shù)字圖像視頻處理技術(shù)_第2頁
數(shù)字音視頻處理 課件 第7章 數(shù)字圖像視頻處理技術(shù)_第3頁
數(shù)字音視頻處理 課件 第7章 數(shù)字圖像視頻處理技術(shù)_第4頁
數(shù)字音視頻處理 課件 第7章 數(shù)字圖像視頻處理技術(shù)_第5頁
已閱讀5頁,還剩184頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

第7章

數(shù)字圖像/視頻處理技術(shù)7.1圖像的低層視覺處理7.2圖像的中層視覺處理7.3視頻處理中的關(guān)鍵技術(shù)研究7.4本章小結(jié)

7.1圖像的低層視覺處理

7.1.1概述圖像的低層視覺處理主要是指通過各種濾波器來實現(xiàn)圖像增強。圖像濾波即在盡量保留圖像細(xì)節(jié)特征的條件下對目標(biāo)圖像的噪聲進行抑制,是圖像預(yù)處理中不可缺少的操作,其處理效果的好壞將直接影響到后續(xù)圖像處理和分析的有效性和可靠性。

圖像增強方法按作用域可分為空域法和頻域法兩類??沼蚍ㄖ苯訉D像中像素灰度值進行操作。常用的空域法包括圖像的灰度變換、直方圖修正、空域平滑、銳化處理和彩色增強等,本節(jié)重點介紹空域濾波增強。頻域法是在圖像的變換域中,對圖像的變換值進行操作,然后經(jīng)逆變換獲得所需的增強結(jié)果。常用的方法包括低通濾波、高通濾波以及同態(tài)濾波等。

7.1.2空域濾波增強

空域濾波是在圖像空間中借助模板進行鄰域操作完成的,根據(jù)其特點一般可分為線性和非線性兩類。線性系統(tǒng)的轉(zhuǎn)移函數(shù)和脈沖函數(shù)或點擴散函數(shù)構(gòu)成傅里葉變換對,所以線性濾波器的設(shè)計常?;趯Ω道锶~變換的分析。非線性空間濾波器則一般直接對鄰域進行操作。另外,各種空域濾波器根據(jù)功能又主要分成平滑的和銳化的。平滑可用低通濾波實現(xiàn)。

平滑的目的又可分為兩類:一類是模糊,目的是在提取較大的目標(biāo)前去除太小的細(xì)節(jié)或?qū)⒛繕?biāo)內(nèi)的小間斷連接起來;另一類是消除噪聲。銳化可用高通濾波實現(xiàn)。銳化的目的是為了增強被模糊的細(xì)節(jié)。空間濾波器的工作原理可借助頻域進行分析。它們的基本特點是讓圖像在傅里葉空間某個范圍內(nèi)的分量受到抑制而讓其他分量不受影響,從而改變輸出圖像的頻率分布,以達到增強的目的。

圖像增強中用到的空間濾波器主要有兩類。一類是平滑(低通)濾波器,它能減弱或消除傅里葉空間的高頻分量,但不影響低頻分量。因為高頻分量對應(yīng)圖像中的區(qū)域邊緣等灰度值變化較大較快的部分,濾波器將這些分量濾去可使圖像平滑。另一類是銳化(高通)濾波器,它能減弱或消除傅里葉空間的低頻分量,但不影響高頻分量。

1.平滑濾波器

1)鄰域平均法

鄰域平均法是經(jīng)典的線性濾波器方法。我們知道,圖像中的大部分噪聲是隨機噪聲,其對某一像素點的影響可以看成是孤立的。因此,噪聲點與該像素點的鄰近各點相比,其灰度值有顯著的不同(突跳變大或變小)?;谶@一事實,可以采用鄰域平均的方法來判定圖像中每一像素點是否有噪聲,并用適當(dāng)?shù)姆椒▉頊p弱或消除該噪聲。

圖7-1像素點(m,n)和其鄰域的坐標(biāo)示意圖

鄰域平均能很大程度上削弱噪聲,但同時會引起失真,具體表現(xiàn)為圖像中目標(biāo)物的邊緣或細(xì)節(jié)變模糊。圖像鄰域平均示例如圖7-2所示。圖7-2圖像鄰域平均示例

2)中值濾波法

中值濾波法是經(jīng)典的非線性濾波方法。我們知道,低通濾波器在消除噪聲的同時會使圖像中的一些細(xì)節(jié)變模糊。在含噪圖像中,噪聲往往以孤立點的形式出現(xiàn),尤其是干擾脈沖和椒鹽噪聲。這些噪聲所占的像素很少,而圖像則是由像素數(shù)目較多、面積較大的塊組成的。如果既要消除噪聲又要保持圖像的細(xì)節(jié),可以使用中值濾波器。由于它在實際運算中并不需要圖像的統(tǒng)計特性,因此比較方便。在一定的條件下,中值濾波法可以克服線性濾波器所帶來的圖像細(xì)節(jié)模糊問題,而且對濾除脈沖干擾及圖像掃描噪聲最為有效。但是對一些細(xì)節(jié)多的圖像,特別是點、線、尖頂細(xì)節(jié)多的圖像不宜采用中值濾波的方法。

中值濾波法的原理是:對一個窗口(記為W)內(nèi)的所有像素灰度值進行排序,取排序結(jié)果的中間值作為W中心點處像素的灰度值。用公式表示為

通常W內(nèi)像素個數(shù)選為奇數(shù),以保證有一個中間值。而若W內(nèi)像素數(shù)選為偶數(shù),則取中間兩個值的平均值作為中值。

中值濾波的作用是:抑制干擾脈沖和點噪聲,并且能較好地保持圖像邊緣。

中值濾波的依據(jù)是:噪聲以孤立點的形式出現(xiàn),這些點對應(yīng)的像素數(shù)很少,而圖像則由像素數(shù)目較多、面積較大的塊構(gòu)成。

中值濾波的關(guān)鍵是:選擇合適的窗口形狀和大小,因為不同形狀和大小的濾波窗會帶來不同的濾波結(jié)果。一般要根據(jù)噪聲和圖像中目標(biāo)物細(xì)節(jié)的情況來選擇。常用的中值濾波窗口有線狀、十字形、X狀、方形、菱形和圓形等。對于有緩慢變化的較長輪廓線物體的圖像,采用方形或圓形窗口為宜,對于包括尖頂角物體的圖像,適宜用十字形窗口。使用二維中值濾波最值得注意的是保持圖像中有效的細(xì)線狀物體。

中值濾波法與平均濾波法的對比:已知原始圖像塊(包含點噪聲)為f(m,n),加權(quán)平均法用模板

M1

處理,結(jié)構(gòu)為g1(m,n);中值濾波法用模板

M2

處理,結(jié)構(gòu)為g2(m,n);用矩陣可分別表示為

圖7-3給出了圖像平均濾波和中值濾波的對比結(jié)果。從圖中可以看出,加權(quán)平均法在濾掉點噪聲的同時,使目標(biāo)物的邊緣變模糊;中值濾波法在濾掉點噪聲的同時,保留了目標(biāo)物的邊緣。

圖7-3圖像平均濾波和中值濾波的對比

相對于平均濾波,中值濾波對于椒鹽噪聲及干擾脈沖有很好的濾除作用,同時還能保持目標(biāo)物的邊緣,但這要在合適的應(yīng)用場合和合適的濾波窗口形狀和大小的情況下,因為濾波的目的是既要濾除噪聲和干擾,又要保持圖像中目標(biāo)物的細(xì)節(jié)。因此,在使用中值濾波時,要注意以下事項:①

中值濾波適合濾除椒鹽噪聲和干擾脈沖,尤其適合目標(biāo)物形狀是塊狀時的圖像濾波;②

具有豐富尖角幾何結(jié)構(gòu)的圖像,一般采用十字形濾波窗,且窗口大小最好不要超過圖像中最小目標(biāo)物的尺寸,否則會丟失目標(biāo)物的細(xì)小幾何特征;③

需要保持細(xì)線狀及尖頂角目標(biāo)物細(xì)節(jié)時,最好不要采用中值濾波。

2.銳化濾波器

圖像在形成和傳輸過程中,如果成像系統(tǒng)聚焦不好或信道的帶寬過窄,會使圖像目標(biāo)物輪廓變模糊,細(xì)節(jié)不清晰。同時,圖像平滑后也會變模糊,究其原因,主要是對圖像進行了平均或積分運算。對此,可采用相反的運算(如微分運算)來增強圖像,使圖像變得更清晰。圖像銳化處理要求輸入的圖像有較高的信噪比,否則經(jīng)過銳化后信噪比更低,因為銳化將使噪聲受到比信號還強的增強。一般是先去除或減輕干擾噪聲后,才能進行銳化處理。

微分作為數(shù)學(xué)中求變化率的一種方法,可用來求解圖像中目標(biāo)物輪廓和細(xì)節(jié)(統(tǒng)稱為邊緣)等突變部分的變化。對于數(shù)字信號,微分通常用差分來表示。常用的一階和二階微分的差分表示為

在圖像銳化增強中,我們希望找到一種各向同性的邊緣檢測算子,使不同走向的邊緣都能達到增強的效果。這個算子就是拉普拉斯算子,該算子及其對f(x,y)的作用可表示為

則數(shù)字圖像的銳化公式為

用差分表示為

則圖像的拉普拉斯銳化表示為

式中,α

為銳化強度系數(shù)(一般取為正整數(shù)),α

越大,銳化的程度就越強。圖像在不同α

取值下的銳化結(jié)果對比如圖7-4所示。

圖7-4圖像在不同α取值下的銳化結(jié)果對比

將式(7-9)寫成模板形式,則有

當(dāng)α取1和2時,就有

圖7-4中的(b)和(c)就相當(dāng)于W2

和W3

對圖7-4(a)銳化的結(jié)果。同理,我們可以根據(jù)實際需要,設(shè)計出其他具有不同特性的銳化模板,如

式中,W1、W2

和W3

為拉普拉斯銳化模板,也稱為4鄰銳化模板;W4、W5

和W6

為8鄰銳化模板,也稱為8鄰拉普拉斯銳化模板,它們既能像8鄰模板一樣對水平和垂直方向邊緣有銳化增強作用,也對邊角方向的邊緣有增強作用;W7-

和W8

與其他模板不同的是,W7-在對水平和垂直方向邊緣增強的同時,在對角方向還有平滑作用,W8在對對角方向邊緣增強的同時,在水平和垂直方向還有平滑作用,即W7-

和W8

在銳化的同時還有抑制噪聲的作用。

圖7-5圖像、邊緣和銳化結(jié)果的關(guān)系(α=2)

7.1.3頻域增強

1.低通濾波

信息(包括信號和噪聲)在空域和頻域存在對應(yīng)關(guān)系,即隨空間位置突變的信息在頻域表現(xiàn)為高頻,而緩變的信息在頻域表現(xiàn)為低頻。具體到圖像中,邊緣和噪聲對應(yīng)頻域的高頻區(qū)域,背景及信號緩變部分則對應(yīng)頻域的低頻區(qū)域。因此,我們可以利用頻域的低通濾波法來達到濾除(高頻)噪聲的目的,這就是圖像的頻域平滑法,一般稱為頻域低通濾波法。

由于圖像中的邊緣反映在頻域上也是高頻,因此,在低通濾波的同時,也會損失邊緣信息,使圖像變模糊。

設(shè)F(u,v)和G(u,v)分別由含噪圖像f(m,n)和濾波結(jié)果圖像g(m,n)的頻域表示,H(u,v)為低通濾波器。圖7-6給出了采用離散傅里葉變換(FFT)的頻域低通濾波法的處理過程。當(dāng)然這里的變換方法不僅僅局限于離散傅里葉變換。

圖7-6頻域低通濾波法的處理過程

由圖7-6可知,對含噪圖像f(m,n)進行傅里葉變換,得到F(u,v),即

設(shè)計給定低通濾波器

H(u,v),則由卷積定理得

經(jīng)過傅里葉逆變換(IFFT)得到濾波結(jié)果圖像g(m,n),即

一個理想低通濾波器的傳遞函數(shù)定義為

式中,D0

為理想低通濾波器的截止頻率;D(u,v)為從頻域平面原點到點(u,v)的距離,即

理想低通濾波器的特征曲線如圖7-7所示。其濾波特征為:以D0為半徑的圓內(nèi)的所有頻率分量無失真地通過,而圓外的所有頻率分量完全被抑制。事實上,這種理想低通濾波器是無法用硬件實現(xiàn)的,因為實際的器件無法實現(xiàn)從1到0的突變。同時,既然是理想的矩形特性,那么其反變換的特性必然會產(chǎn)生無限的振鈴現(xiàn)象。截止頻率半徑越小,這種現(xiàn)象就越嚴(yán)重。當(dāng)然,其濾波效果也就越差。這是理想低通濾波器不可克服的缺點。不同截止頻率的理想低通濾波結(jié)果的比較如圖7-8所示,其中,圖7-8(b)和圖7-8(c)中有明顯的振鈴現(xiàn)象出現(xiàn),而且圖像變模糊了。

圖7-7-理想低通濾波特性曲線

圖7-8不同截止頻率的理想低通濾波結(jié)果的比較

2.高通濾波

圖像的邊緣反映在頻域的高頻部分,通過頻域上高通濾波器可以得到圖像邊緣的信息,再對圖像進行銳化,其結(jié)果相當(dāng)于對高頻(邊緣)分量的提升,可稱為頻域高通濾波法。

設(shè)F(u,v)和ΔF(u,v)分別表示原圖像f(m,m)和高通濾波結(jié)果Δf(m,n)的頻域,H(u,v)為高通濾波器,g(m,n)為銳化結(jié)果。圖7-9給出了頻域高通濾波法的處理過程。與低通濾波器相似,幾種常用的高通濾波器的特性曲線如圖7-10所示。高通濾波所得到的并不是銳化圖像,而是原圖像的高頻圖像,即圖像的邊緣,我們需要按如圖7-9所示的方法將該高頻圖像附加到原圖像中去,才能夠得到期望的銳化圖像。

圖7-9頻域高通濾波法的處理過程

圖7-10高通濾波器的特性曲線

與低通濾波器的性能相類似,由于理想高通濾波器是突變的,因此由它得到的高頻圖像中存在有較強的振鈴現(xiàn)象。不同截止頻率的理想高通濾波結(jié)果的比較如圖7-11所示。在圖7-11(b)和(c)中可以看到明顯的振鈴現(xiàn)象,即使在截止頻率較大的圖7-11(d)中也存在輕微的振鈴現(xiàn)象。

圖7-11不同截止頻率的理想高通濾波結(jié)果的比較

3.同態(tài)濾波

從圖像的形成和其光特性方面考慮,一幅圖像是由光源的照度分量(也稱為照度場)i(m,n)和目標(biāo)場的反射分量r(m,n)組成的,即

圖7-12圖像同態(tài)濾波的處理過程

圖7-13同態(tài)濾波器的特性曲線

圖7-14圖像經(jīng)同態(tài)濾波后增晰的示例

7.2圖像的中層視覺處理

7.2.1概述圖像的低層視覺處理主要是對圖像進行加工和處理,得到滿足人的視覺和心理需要的改進形式。中層視覺處理則是對圖像中目標(biāo)物(或稱為景物)進行分析和理解,主要包括:①

把圖像分割成目標(biāo)物和背景區(qū)域兩部分;②

提取正確代表不同目標(biāo)物特點的特征參數(shù),并進行描述;③

對圖像中目標(biāo)物進行識別和分類。

在對圖像的研究和應(yīng)用中,人們往往僅對各幅圖像中的某些部分感興趣。這些部分常稱為目標(biāo)或前景(其他部分稱為背景),它們一般對應(yīng)圖像中特定的、具有獨特性質(zhì)的區(qū)域。為了辨識和分析目標(biāo),需要將這些有關(guān)區(qū)域分離提取出來,在此基礎(chǔ)上才有可能對目標(biāo)進一步利用,如進行特征提取和測量。圖像分割就是指把圖像分成各具特性的區(qū)域并提取出感興趣目標(biāo)區(qū)域的技術(shù)和過程。這里的特性可以是灰度、顏色和紋理等,目標(biāo)可以對應(yīng)單個區(qū)域,也可以對應(yīng)多個區(qū)域。

圖像分割是由圖像處理到圖像分析的關(guān)鍵步驟,也是一種基本的計算機視覺技術(shù)。這是因為圖像的分割、目標(biāo)的分離、特征的提取和參數(shù)的測量可將原始圖像轉(zhuǎn)化為更抽象、更緊湊的形式,使更高層的分析和理解成為可能。圖像分割多年來一直得到人們的高度重視。

7.2.2圖像分割的定義和依據(jù)

1.圖像分割的定義

令集合R

代表整個圖像區(qū)域,對R

的分割可看成將R

分成N個滿足以下五個條件的非空子集(子區(qū)域)R1,R2,…,Rn。

2.圖像分割方法分類

利用不同區(qū)域的交界(邊緣)處像素灰度值的不連續(xù)(突變)性,先找到區(qū)域交界處的點、線(邊緣線),邊緣線圍成的區(qū)域就是分割的子區(qū);也可以利用同一區(qū)域內(nèi)像素一般具有灰度相似性的特點,據(jù)此找到灰度值相似的區(qū)域;區(qū)域的外輪廓就是對象的邊緣。所以,無論是利用像素灰度取值的突變性還是連續(xù)性,都可以達到圖像分割的目的。

據(jù)此,可將圖像分割的方法分為兩種:一種是利用區(qū)域間灰度的突變性,確定區(qū)域的邊界或邊緣的位置,稱為邊緣檢測法;另一種是利用區(qū)域內(nèi)灰度的相似性,將圖像像素點分成若干相似的區(qū)域,稱為區(qū)域生成法。這兩種方法互為對偶,相輔相成。前者相當(dāng)于用邊緣點定義線(邊緣線),而后者可由兩個面的交界形成一條曲線(邊緣線)。圖像分割的兩種方法示例如圖7-15所示。

圖7-15圖像分割的兩種方法示例

7.2.3邊緣點檢測

邊緣定義為圖像局部特性的不連續(xù)性,具體到灰度圖像中就是圖像差別較大的兩個區(qū)域的交界線。邊緣作為圖像的最基本特征廣泛存在于目標(biāo)物與背景之間、目標(biāo)物與目標(biāo)物之間,在圖像處理中有著重要的作用和廣泛的應(yīng)用。

1.邊緣點檢測的基本原理

邊緣點檢測就是要確定圖像中有無邊緣點,還要進一步確定其位置。在具體實施時,可分為兩步:首先對圖像中每一個像素施以檢測算子,然后根據(jù)確定的準(zhǔn)則對檢測算子的輸出進行判定,確定該像素點是否為邊緣點。具體檢測算子和判定準(zhǔn)則取決于實際應(yīng)用環(huán)境及被檢測的邊緣類型。

在一幅圖像中,邊緣有方向和幅度兩個特性。一般沿著邊緣走向的灰度值緩變或不變,而垂直于邊緣走向的灰度則突變。這種變化形式的不同就形成了不同類型的邊緣。幾種類型邊緣的截面圖如圖7-16所示。

圖7-16幾種類型邊緣的截面圖

圖7-17給出了階躍式邊緣與其一階、二階導(dǎo)數(shù)的關(guān)系示意圖。圖7-17-階躍式邊緣與其一階、二階導(dǎo)數(shù)關(guān)系的示意圖

2.邊緣點檢測常用算子

1)正交梯度算子法

在圖像處理中,一階導(dǎo)數(shù)是通過梯度來實現(xiàn)的,因此,利用一階導(dǎo)數(shù)檢測邊緣點的方法就稱為梯度算子法。

在求解梯度時,既可以利用兩個垂直方向的一階導(dǎo)數(shù),也可以利用不同方向的一階導(dǎo)數(shù)集。前者可稱為正交梯度,由此生成的邊緣點檢測模板稱為正交模板;后者稱為方向梯度,用它在檢測邊緣點的同時,還可以確定其方向,由此生成的邊緣點檢測模板稱為方向匹配模板。

(1)正交梯度法。

在數(shù)字圖像處理中,常用差分來近似導(dǎo)數(shù)。連續(xù)函數(shù)f(x,y)的梯度在x

和y方向的分量就對應(yīng)于數(shù)字圖像f(m,n)的水平和垂直方向的差分。水平和垂直方向的梯度可定義為

對應(yīng)水平及垂直方向的梯度模板可表示為

利用模板對圖像進行處理相當(dāng)于模板與圖像的卷積,因此,水平和垂直方向梯度為

式中,*為卷積運算符號。梯度幅度為

在實際應(yīng)用中,根據(jù)不同圖像需要來選用上述三種梯度幅度公式,所得結(jié)果稱為梯度圖像。

為檢測邊緣點,可選取適當(dāng)?shù)拈撝礣,對梯度圖像進行二值化,即

這樣就形成了一幅邊緣二值化圖像,其中為1的像素點就是階躍狀邊緣點。據(jù)此可得到利用正交梯度法檢測邊緣點的過程如圖7-18所示。

圖7-18利用正交梯度法檢測邊緣點的過程

圖7-19給出了一個通過正交梯度法對一副圖像邊緣點進行檢測的示例。圖7-19利用正交梯度法檢測邊緣點的示例

(2)Roberts梯度算子法。

事實上,任意一對相互垂直方向上的差分都可用來估計梯度。Roberts梯度就是采用對角方向相鄰兩像素之差,故也稱為四點差分點。其水平和垂直方向梯度定義為

對應(yīng)的水平和垂直方向的模板為

根據(jù)式(7-32)就可以計算Roberts梯度。

(3)平滑梯度算子法。

梯度算子類邊緣檢測方法的效果類似于高通濾波,有增強高頻分量、抑制低頻分量的作用。這類算子對噪聲比較敏感,它們會把噪聲當(dāng)作邊緣點而檢測出來,這就給后續(xù)的邊緣特征提取和邊緣線追蹤帶來很大的困難。為此,在對實際含噪聲圖像進行邊緣點檢測時,人們希望檢測算法同時具有噪聲抑制作用。

①Prewitt梯度算子法。Prewitt算子是一階微分算子的邊緣檢測,利用像素點上下、左右鄰點的灰度差,在邊緣處達到極值檢測邊緣,去掉部分偽邊緣,對噪聲具有平滑作用。其噪聲抑制是在圖像空間利用兩個方向模板與圖像進行領(lǐng)域卷積來完成的,這兩個方向模板一個檢測水平邊緣,一個檢測垂直邊緣。

水平和垂直梯度模板分別為

有了檢測模板,就可以利用式(7-32)求得水平和垂直方向的梯度,再通過梯度合成和邊緣點判定,就可得到平均差分法的檢測結(jié)果。按照同樣的原理,可以進一步擴大窗口,則抑制噪聲會更明顯,但同時也會損失一些邊緣信息。

②Sobel算子法。將Prewitt算子中的平均差分改為加權(quán)平均差分,即對當(dāng)前行或列對應(yīng)值加權(quán)后,再進行平均差分,就形成Sobel差分,也稱為加權(quán)平均差分。其水平和垂直梯度模板分別為

圖7-20幾種梯度算子檢測邊緣點的示例

2)二階導(dǎo)數(shù)算子法

寫成檢測模板為

該模板也稱為4鄰域Laplacian檢測模板,同理也可給出8鄰域檢測模板為

(2)LoG算子法。在實際應(yīng)用中,由于噪聲的影響,對噪聲敏感的邊緣點檢測算法(如Laplacian算子法)可能會把噪聲當(dāng)成邊緣點檢測出來,而真正的邊緣點會被噪聲淹沒而未檢測出。為此,馬爾(Marr)和希爾德雷斯(Hildreth)提出了高斯

拉普拉斯(LaplacianofaGaussian,LoG)邊緣檢測算子,簡稱LoG算子法。該方法是先采用高斯算子對原圖像進行平滑,然后再施加Laplacian算子,這就克服了Laplacian算子對噪聲敏感的缺點,減少了噪聲的影響。

圖7-21H(x,y)的截面圖

圖7-22Laplacian算子和LoG算子邊緣點檢測結(jié)果對比

7.2.4邊緣線跟蹤

7.2.3節(jié)之所以稱為邊緣點檢測,是因為無論是通過梯度算子、方向梯度算子、線檢測模板還是二階導(dǎo)數(shù)算子,檢測結(jié)果都是滿足算子條件的離散點,包括真正的邊緣點,也有噪聲點和其他干擾點。因為噪聲、干擾及成像時不均勻光照的影響,所以很少能真正得到一組完整描述一條邊緣線的邊緣點集,檢測到的邊緣點可能是不同的邊緣線上的像素點,也可能是噪聲點或干擾點,同時在邊緣點組成邊緣線時還會發(fā)現(xiàn)中間斷裂或間斷的現(xiàn)象。

本節(jié)介紹的邊緣線跟蹤就是要把檢測到的邊緣點連接成邊緣線,因為邊緣線是描述目標(biāo)物特性的最基本特征,也是基于邊緣檢測的圖像分割中分割區(qū)域的邊界最佳表示方式。邊緣線跟蹤也稱為邊緣連接或邊界檢測。

以下介紹幾種常用的方法。

1.局部邊緣連接法

將邊緣點連成邊緣線的最簡單的方法是依據(jù)預(yù)先確定的準(zhǔn)則,把相似的邊緣點連成線。該方法以局部梯度算子處理后的梯度圖像作為輸入,連接過程分為以下兩步。

(1)選擇可能位于邊緣線上的邊緣點。在邊緣點(m,n)的一個小鄰域(如3×3、4×4或5×5)內(nèi),若其中梯度值超過某一預(yù)定閾值,則具有最大梯度值的點被稱為候選邊緣點。對每一個候選點,利用方向梯度或模板匹配的方法確定其邊緣方向。

(2)對相鄰的候選邊緣點,根據(jù)事先確定的相似準(zhǔn)則判定是否連接。如果相鄰的小鄰域內(nèi)的兩個候選點的梯度和方向差值都在某閾值之內(nèi),則這兩點被認(rèn)為屬于同一邊緣線,可以連接起來。相似準(zhǔn)則定義為

式中,G1(m,n)和G2(i,j)分別為邊緣點(m,n)和(i,j)的梯度模值;?1(m,n)和?2(i,j)分別為兩邊緣點的方向(角度)值。

2.光柵掃描跟蹤法

光柵掃描跟蹤法是一種按照電視光柵行的掃描順序,對遇到的像素進行閾值判定而實現(xiàn)的邊緣跟蹤方法,也稱為順序掃描跟蹤法。下面結(jié)合一個實例來介紹這種方法。

圖7-23為光柵掃描跟蹤法的示例。圖7-23(a)為一幅含有三條曲線的模糊圖像,其各條曲線與水平方向夾角近似于90度,現(xiàn)在要檢測出這些曲線。

圖7-23光柵掃描跟蹤法的示例

圖7-23光柵掃描跟蹤法的示例

光柵掃描跟蹤法的實施步驟如下:

(1)先設(shè)立兩種門限:檢測門限d和跟蹤門限t,且d>t。在本例中,d=7,t=4。

(2)將每一行中像素灰度值大于檢測門限的點記為1,作為下一步的跟蹤起點,這就是檢測準(zhǔn)則。本例檢測結(jié)果如圖7-23(b)所示。

(3)對第m

行上被記為1的點(m,n),就在下一行的(m+1,n-1)、(m+1,n)和(m+1,n+1)點上進行跟蹤判決,只要這些點的灰度值達到跟蹤門限t,這些也被記為1,這就是跟蹤準(zhǔn)則。本例中的跟蹤結(jié)果如圖7-23(d)所示。

3.Hough變換法

一般地,邊緣線的檢測要經(jīng)過兩個過程。首先進行邊緣點的檢測,再將邊緣點連接成邊緣線。由于噪聲、干擾及成像時不均勻光照的影響,通過邊緣點檢測很少能真正得到一組完整描述一條邊緣線的點跡,那么通過局部邊緣連接也就很難得到準(zhǔn)確的邊緣線。而Hough變換能根據(jù)待檢測曲線對應(yīng)像素間的整體關(guān)系,檢測出已知形狀的曲線并用參數(shù)方程描述出來。其主要優(yōu)點是可以抗噪聲、干擾點及斷點的影響。因此,Hough變換是將邊緣點連成邊緣線的全局最優(yōu)方法。

1)Hough變換的基本原理

已知圖像中檢測出的n

個邊緣點,希望找到位于同一條直線上的點組成的子集。一種可行的方法是根據(jù)數(shù)學(xué)上兩點成一線的原理,對這n

個點組成的直線(最多有n(n-1)/2條)中的每一條求其共線點(位于該直線上的點)個數(shù),則共線點最多的那條直線就是要找的直線。這種方法原理上看似簡單,但要完成最多n(n-1)/2條線段的判定,運算量較大,在實際應(yīng)用中很難得到滿足。對此,Hough巧妙利用坐標(biāo)變換使圖像變換到另一坐標(biāo)系后在其特定位置上出現(xiàn)峰值,則曲線(包括直線)檢測就變成了尋找峰值位置的問題,這樣就能大大減少運算量。

現(xiàn)在觀察以x

和y

為坐標(biāo)的圖像空間(如圖7-24(a)所示)和以ρ和θ為坐標(biāo)的參數(shù)空間(如圖7-24(b)所示),得到以下的對應(yīng)關(guān)系:

(1)圖像空間中的一條直線,在參數(shù)空間映射為一個點(ρ,θ)(分別如圖7-24(a)和圖7-24(b)所示)。

(2)圖像空間的一個點映射為參數(shù)空間的一條正弦曲線(分別如圖7-24(c)和圖7-24(d)所示)。

(3)圖像空間的一條直線上的多個共線點映射為參數(shù)空間相交于一點的多條正弦曲線(分別如圖7-24(e)和圖7-24(f)所示)。

這種圖像空間上的點和參數(shù)空間上的線之間的映射關(guān)系就稱為Hough變換。據(jù)此,要檢測圖像空間共線點最多的直線,就變成了參數(shù)空間相交于一點正弦曲線最多的這個峰值點。這就是Hough變換檢測直線的原理。

圖7-24Hough變換的基本原理示意圖

Hough變換不僅可以檢測直線,也可以檢測圓、橢圓和拋物線等形狀的曲線,其示例如圖7-25所示。

圖7-25Hough變換檢測示例

2)廣義Hough變換

Hough變換除了能檢測可以用解析形式表示的曲線及形狀(有規(guī)曲線)外,也可以推廣到任意形狀的檢測,一般稱為廣義Hough變換,如圖7-26所示。這里以給定形狀、大小及方向而位置未知,且形狀不能用解析式表示的目標(biāo)物檢測為例,來說明廣義Hough變換的檢測過程。

圖7-26廣義Hough變換

圖7-26所示的任意形狀目標(biāo)物內(nèi)任意確定一點(xc,yc)作為參考點,并通過它向邊界上的點(x,y)作直線,連線的長度為r,連線與x

軸夾角為α,r

和α都是?

的函數(shù)。?是邊界點(x,y)的梯度方向,即邊界點(x,y)的切線與x軸的夾角。這時,可通過下式計算參考點位置(xc,yc),即

7.2.5門限化分割

根據(jù)圖像分割的定義,同一個分割區(qū)的圖像灰度值具有相似(相近)性,不同的分割區(qū)具有較大差別。尤其圖像中的目標(biāo)物與背景、不同目標(biāo)物之間的灰度值具有明顯的差別,其灰度直方圖呈雙峰或多峰形狀,如圖7-27所示,此時可通過取門限的方法將圖像分割成不同的目標(biāo)物和背景區(qū)域?;叶乳T限法主要分為單閾值分割和多閾值分割。

圖7-27-具有雙峰和多峰的灰度直方圖

1.單閾值分割

當(dāng)圖像的灰度直方圖呈雙峰形狀時,如圖7-27(a)所示,可通過取單閾值,將圖像分割成目標(biāo)物和背景兩類,即

式中,T為灰度門限,一般取直方圖雙峰間波谷的灰度值,此時就將圖像分成了標(biāo)記為“1”的區(qū)域和標(biāo)記為“0”的另一區(qū)域。至于哪個區(qū)域是目標(biāo)物,哪個區(qū)域是背景,要看目標(biāo)物和背景灰度取值的相對大小。這種方法也稱為門限化二值分割。圖7-28所示的是單閾值分割的示例。

圖7-28單閾值分割的示例

2.多閾值分割

當(dāng)圖像的灰度直方圖呈多峰形狀時,如圖7-27(b)所示,可通過取多個閾值的方法,將圖像分割成不同目標(biāo)物和背景區(qū)域,即

式中,T0,T1,…,Tk

為一系列門限值;k

為分割后各區(qū)域的標(biāo)記,k=1,2,…,M。這樣就將圖像分割成了M+1個區(qū)域。圖7-29所示的是多閾值分割的示例。

圖7-29多閾值分割的示例

門限化分割方法具有簡單、高效的特點,但是其局限性也大:對目標(biāo)和背景灰度級有明顯差別的圖像分割效果較好;但對于目標(biāo)物和背景灰度一致性或均勻性較差(如目標(biāo)的部分區(qū)域與背景灰度相近或者低于背景灰度)的圖像分割效果不好。

7.2.6區(qū)域分割法

區(qū)域分割法就是利用同一區(qū)域內(nèi)灰度值的相似性,將相似的區(qū)域合并,把不相似區(qū)域分開,最終形成不同的分割區(qū)域。常用的區(qū)域分割方法有區(qū)域生長法、分裂合并法及空間聚類法等。

1.區(qū)域生長法

區(qū)域生長是把圖像分割成特征相似的若干小區(qū)域,比較相鄰小區(qū)域的特征,若相似則合并為同一區(qū)域,如此進行直到不能再合并為止,最后生成特征不同的各區(qū)域。這種分割方法也稱為區(qū)域擴張法。

根據(jù)所用鄰域方式和相似性準(zhǔn)則的不同,區(qū)域生長法可以分為簡單生長法(像素+像素)、質(zhì)心生長法(區(qū)域+像素)和混合生長法(區(qū)域+區(qū)域)。分述如下:

(1)簡單生長法。按事先確定的相似性準(zhǔn)則,生長點(種子點為第一個生長點)接收(合并)其鄰域(如4鄰域)的像素點,該區(qū)域開始生長。接收后的像素點稱為生長點,其值取種子點的值。重復(fù)該過程,直到不能再生長為止,到此該區(qū)域生成。簡單生長法的相似性準(zhǔn)則為

(2)質(zhì)心生長法。修改簡單生長法的相似性準(zhǔn)則,即相似性準(zhǔn)則變?yōu)?/p>

(3)混合生長法?;旌仙L法是按相似性準(zhǔn)則進行相鄰區(qū)域的合并,其相似性準(zhǔn)則是相鄰兩區(qū)域的灰度均值相近,即

圖7-30給出了一個區(qū)域生長法分割圖像的示例。圖7-30(a)為原圖像塊,其中標(biāo)定的兩個種子點(灰度低值區(qū)的灰度1和灰度高值區(qū)的灰度6)用陰影標(biāo)出。圖7-30(b)和圖7-30(c)分別為當(dāng)門限T1=T2=3時簡單生長法和質(zhì)心生長法的分割結(jié)果,圖像塊被分成兩個區(qū)域。雖然兩種方法的分割結(jié)果恰巧相同,但生長過程中所用相似性準(zhǔn)則是不同的。在簡單生長法中,是用生長點與其鄰域點直接比較,質(zhì)心生長法則是用生長區(qū)域內(nèi)所有生長點的均值與其鄰域點比較。

圖7-30區(qū)域生長法分割圖像的示例

2.分裂合并法

當(dāng)事先完全不了解區(qū)域形狀和區(qū)域數(shù)目時,可采用分裂合并法。這種方法首先將圖像分解成互不重疊的區(qū)域,再按相似準(zhǔn)則進行合并。若用R表示圖像,則利用四叉樹分裂合并法實現(xiàn)圖像分割的步驟如下:

(1)給定一相似準(zhǔn)則P,如果對圖像中的任一區(qū)域Ri,有P(Ri)=false,即不滿足相似性準(zhǔn)則,則把Ri區(qū)域等分為四個子區(qū),即Ri1、Ri2、Ri3和Ri4。

(2)對相鄰的區(qū)域Ri和Rj,若P(Ri∪Rj)=true,則合并這兩個區(qū)域。

(3)直到合并和分割都無法再進行時,分割結(jié)束。

圖7-31利用四叉樹分裂合并法進行二值圖像分割的示例

7.3視頻處理中的關(guān)鍵技術(shù)研究

7.3.1概述視頻是用來記錄信息的重要載體,由于它同時可以包含圖像、聲音和字幕信息,因此被人們廣泛使用。隨著數(shù)字技術(shù)日新月異的發(fā)展,數(shù)字視頻的數(shù)量飛速增長。一方面,包括數(shù)字?jǐn)z像機在內(nèi)的一些數(shù)字視頻獲取設(shè)備已經(jīng)有了很廣泛的應(yīng)用;另一方面,原來的使用膠片記錄的模擬視頻也有著轉(zhuǎn)化為數(shù)字視頻的需要,以便于更好地進行處理和保存。這就對數(shù)字視頻的處理和管理技術(shù)提出了很大的挑戰(zhàn)。

視頻的數(shù)據(jù)從結(jié)構(gòu)上自頂向下可分為視頻序列、場景、鏡頭和幀。幀是視頻數(shù)據(jù)的最小單元,是一幅靜止的畫面。鏡頭是視頻數(shù)據(jù)的基本單位,它是由一個攝像機連續(xù)拍攝得到的時間上連續(xù)的若干幀圖像組成的。視頻組成的層次結(jié)構(gòu)越高,其中所含的內(nèi)容信息也越豐富,也就意味著處理的難度越高。

7.3.2鏡頭邊界檢測

鏡頭是視頻流在編輯制作及檢索中的基本結(jié)構(gòu)單元,因此鏡頭的自動分割是視頻結(jié)構(gòu)化的基礎(chǔ),也是視頻分析和檢索過程中的首要任務(wù)。鏡頭分割的效果將直接影響到更高一級的視頻結(jié)構(gòu)化以及后續(xù)的瀏覽和檢索。

鏡頭邊界檢測是視頻摘要提取系統(tǒng)的一個重要組成部分,鏡頭邊界檢測的準(zhǔn)確率直接關(guān)系到視頻摘要提取系統(tǒng)后續(xù)的關(guān)鍵幀提取的效果。鏡頭的邊界類型可以被分為三類:突變類型、淡入淡出類型和溶解類型,分別如圖7-32、圖7-33和圖7-34所示。

圖7-32突變類型的鏡頭

圖7-33淡入淡出類型的鏡頭

圖7-34溶解類型的鏡頭

1.像素域中的鏡頭邊界檢測方法

像素域中的鏡頭邊界檢測方法主要是利用空時域中的顏色、紋理和形狀等特征來進行的,常見的方法有以下幾種。

1)像素差異法

2)統(tǒng)計量法

3)直方圖法

4)塊匹配法

5)邊界變化率法

6)距離差異法

7)聚類算法

以上七種方法為像素域中鏡頭邊界檢測的常用方法,表7-1列出了這七種方法的綜合比較。

2.壓縮域中的鏡頭邊界檢測方法

1)離散余弦變換(DiscreteCosineTransform,DCT)系數(shù)法

2)小波變換法

小波變換法是在子帶域上對鏡頭邊界進行檢測的一種檢測方法,其基本思想是將圖像進行小波分解后,分別對它的低頻部分和高頻部分進行分析和處理。

3)空時分析法

空時分析法利用圖像在空間上的特點以及其在時間上與前后幀圖像間的相關(guān)性來檢測漸變過渡。

4)矢量量化法

根據(jù)編譯碼理論,最好的接收形式是矢量而不是標(biāo)量。因此,矢量量化的技術(shù)無論是在傳輸中還是在檢索中都非常重要。根據(jù)這一特點,很多學(xué)者將矢量量化的方法應(yīng)用到視頻漸變檢測中,其基本思想是構(gòu)造相似性函數(shù),通過幀間相似性來檢測鏡頭的變化。

5)運動矢量法

在漸變檢測中,運動分析是一個非常重要的檢測手段,它對于描述視頻的內(nèi)容具有非常重要的作用,許多專家、學(xué)者在這方面做了很多的研究工作。

表7-2列出了上述五種壓縮域中漸變鏡頭檢測方法的綜合比較??傮w來看,該類算法檢測精度不太高,但是速度卻是相當(dāng)快的。

7.3.3視頻關(guān)鍵幀提取

關(guān)鍵幀也稱為代表幀,它是用來描述一個鏡頭的關(guān)鍵圖像幀,反映了一個鏡頭的主要內(nèi)容。把它作為視頻流的索引,比用原始的視頻數(shù)據(jù)更有效,同時關(guān)鍵幀也為檢索和瀏覽視頻提供了一個組織框架。

1.非壓縮域關(guān)鍵幀提取算法

1)基于鏡頭邊界法

基于鏡頭邊界法是指由切分得到的鏡頭中的第一幅圖像和最后一幅圖像作為鏡頭關(guān)鍵幀。這種方法的原理和思想是:在一組鏡頭中,相鄰圖像幀之間的特征變化很少,整個鏡頭中圖像幀的特征變化也不大,因此選擇鏡頭的第一幀和最后一幀可以將鏡頭的內(nèi)容全部表達出來。

2)基于平均值法

基于平均值法包括幀平均法和直方圖平均法,這兩種方法是關(guān)鍵幀提取的經(jīng)典方法。幀平均法是指從鏡頭中取所有幀在某個位置上像素值的平均值,然后將鏡頭中該點位置的像素值最接近平均值的幀作為關(guān)鍵幀;直方圖平均法則是將鏡頭中所有幀的統(tǒng)計直方圖取平均值,然后選擇與該平均直方圖最接近的幀作為關(guān)鍵幀。平均值法的優(yōu)點是計算比較簡單;缺點是從一個鏡頭中選取一個關(guān)鍵幀,無法準(zhǔn)確描述有多個物體運動的鏡頭。

3)基于內(nèi)容的自適應(yīng)提取算法

基于內(nèi)容的自適應(yīng)提取算法的基礎(chǔ)是基于內(nèi)容的,因此必須分析視頻圖像的局部特征變化。該算法在理論上首先假設(shè)用連續(xù)關(guān)鍵幀之間特征點的變化來代表連續(xù)單元之間的特征變化。在此基礎(chǔ)上,該算法的具體操作步驟如下:

(1)設(shè)視頻鏡頭S

的總幀數(shù)為n,預(yù)計提取的關(guān)鍵幀數(shù)為n'=n×6%,將其劃分為長度均為L

的小單元,使得相鄰兩單元中的第一幀和最后一幀相同。

(2)定義差異度量Change=Dc(Ri,Ri+1,Ri

表示第i幀的顏色直方圖),此處

Dc

用來計算相鄰兩幀的顏色直方圖的幀間方差值。在每個單元內(nèi)計算第一幀和最后一幀的差異。

(3)選擇率值r,0<r<1,將分組根據(jù)單元內(nèi)的變化分為兩類,第一類為變化小的,長度為k×r,稱為小類,k

為一個常數(shù)。剩下的則為變化較大的,長度為k×(1-r),稱為大類。

(4)將大類中的元素對應(yīng)的單元所包含的幀全部作為當(dāng)前的關(guān)鍵幀,將小類對應(yīng)單元中所包含的幀只保留首、末兩幀添加到當(dāng)前關(guān)鍵幀,刪除k×r×(L-2)的冗余幀。

(5)假設(shè)當(dāng)前取得的關(guān)鍵幀數(shù)為n',如果n'≤n,則停止。如果n'≥n,將當(dāng)前關(guān)鍵幀按序重組。重復(fù)進行上述操作,直到滿足條件為止。

通過研究發(fā)現(xiàn),基于內(nèi)容的自適應(yīng)提取算法的主要思想是將單元內(nèi)特征變化小的逐漸縮小聚合,這樣經(jīng)過幾次重復(fù),剩下的將是單元內(nèi)特征變化大的,而其中這些幀就可以用來表達視頻內(nèi)容的變化,每次縮小聚合的執(zhí)行都會有冗余的幀從小單元中刪除,不論期望數(shù)有多少,算法最終都將收斂。

4)基于運動分析法

在視頻拍攝過程中,攝像機運動是產(chǎn)生圖像變化的重要因素,這也可以作為提取關(guān)鍵幀的一個依據(jù)。這種方法將攝像機造成的圖像變化分成兩類:一類是由相機焦距變化而引起的;另一類是由相機角度變化而引起的。對于第一類,選擇首、末兩幀作為關(guān)鍵幀。對于第二類,如果當(dāng)前幀與前一幀重疊小于30%,則選當(dāng)前幀為關(guān)鍵幀。

5)基于聚類的關(guān)鍵幀提取算法

聚類分析的方法在語音識別、人工智能和模式識別等領(lǐng)域都有十分廣泛的應(yīng)用。聚類分析是給定大量的樣本,在不知道樣本的分類,甚至連樣本分成幾類也不知道的情況下,希望用某種方法將觀測進行合理的分類,使同一類的觀測比較接近,不同類的觀測相差較多。它是無監(jiān)督學(xué)習(xí)算法的一種。聚類分析依賴于對觀測間的接近程度或相似程度的理解,定義不同的距離量度和相似性量度就可以產(chǎn)生不同的聚類結(jié)果。將它用于提取視頻關(guān)鍵幀也是現(xiàn)在的主流技術(shù)。

基于聚類的關(guān)鍵幀提取算法大致描述如下:

(1)假設(shè)某個鏡頭Si

包含n

個圖像幀,可以表示為Si={Fi1,…,F(xiàn)in},其中,F(xiàn)i1為首幀,F(xiàn)in為尾幀。設(shè)定相鄰兩幀之間的相似度度量。相似度度量可以采用任何有用的視覺或語義特征,也可以是各種特征的組合。在此我們以顏色直方圖為例,并預(yù)定義一個閾值s控制聚類的密度。

(2)計算當(dāng)前幀F(xiàn)ii與現(xiàn)有某個聚類質(zhì)心間的距離。如果當(dāng)前位于首幀,將第一幀作為第一個聚類與其后的圖像幀相比較。

(3)如果該值大于s,則該幀與該聚類之間的距離太大,不能加入。如果Fii與所有現(xiàn)存類質(zhì)心的距離都小于s,則以Fii為質(zhì)心形成一個新的聚類。否則,將該幀加入與之相似度最大的聚類中,使該幀與這個聚類的質(zhì)心之間的距離最小,并調(diào)整該聚類的質(zhì)心為

式中,centrod、centrod'和Fn

分別是聚類群原有的質(zhì)心、更新后的質(zhì)心和聚類群的總幀數(shù)。

(4)在整個鏡頭聚類完成后,就可以選擇關(guān)鍵幀,從每個聚類中抽取距離質(zhì)心最近的幀作為這個聚類的代表幀,所有聚類的代表幀就構(gòu)成了鏡頭Si

的關(guān)鍵幀。鏡頭Si

形成了

N

個聚類,那么就可以提取N

個關(guān)鍵幀。算法的優(yōu)劣主要由閾值s控制,s越大,形成的聚類越多,鏡頭劃分越細(xì),選擇的關(guān)鍵幀越多;反之,s越小,形成的聚類個數(shù)越少,鏡頭劃分越粗。

6)基于圖論分析法

基于圖論分析法是關(guān)鍵幀提取算法在理論上的最新進展之一。該方法將視頻看成高維特征空間上的點。這樣,提取關(guān)鍵幀就等價于在這些點中選取一個子集,這個子集中的點的特點是:

一是能在指定特征距離內(nèi)覆蓋其他點;

二是反映了鏡頭內(nèi)容上的顯著變化。

2.壓縮域視頻關(guān)鍵幀提取算法

1)I幀等價算法

上節(jié)討論的方法都是針對非壓縮域的視頻流,直接分析鏡頭內(nèi)的幀,但目前網(wǎng)絡(luò)上的很多視頻都是以MPEG等壓縮形式存取的。

2)比較宏塊互異數(shù)算法

根據(jù)MPEG數(shù)據(jù)流編碼的特性,還有一些專門的提取關(guān)鍵幀方法。其中比較典型的方法是比較宏塊互異數(shù)算法。

3.關(guān)鍵幀提取結(jié)果示例

有三類鏡頭是視頻中最常見的,第一類是攝像機縮放鏡頭,第二類是具有豐富運動特性的鏡頭,第三類是攝像機平移鏡頭。下面分別給出這三類具有代表性的鏡頭的關(guān)鍵幀提取結(jié)果示例。

1)攝像機縮放鏡頭的關(guān)鍵幀提取

圖7-35顯示了一個含有186幀的攝像機縮放鏡頭以30幀為抽樣間隔的抽樣幀。圖7-36顯示了從這段視頻中抽取出的關(guān)鍵幀。可以看到,抽取的關(guān)鍵幀很好地表示了整個縮放鏡頭的內(nèi)容。圖7-35攝像機縮放鏡頭的抽樣幀圖7-36攝像機縮放鏡頭的關(guān)鍵幀

2)具有豐富運動特性的鏡頭的關(guān)鍵幀提取

具有豐富運動特性的鏡頭在視頻中較為常見。圖7-37是從包含了395幀的豐富運動場景鏡頭中的50幀為采樣間隔的抽樣幀。圖7-38則給出了從這段視頻中抽取出的關(guān)鍵幀。圖7-37-

圖7-38豐富運動特性的鏡頭的關(guān)鍵幀

3)攝像機平移鏡頭的關(guān)鍵幀提取

對于攝像機平移鏡頭,實驗中選取了一段含有263幀的足球比賽視頻。圖7-39為這段視頻的每隔50幀的抽樣幀。圖7-40給出了我們在這段視頻中抽取出的關(guān)鍵幀。圖7-40攝像機平移鏡頭的關(guān)鍵幀

4)基于多模式的新聞視頻中主持人幀檢測和提取

對于已得到的候選主持人關(guān)鍵幀和我們提取到的主持人模板進行模板匹配的過程,實質(zhì)上是一個類似圖像檢索的過程。所不同的是,候選主持人幀中找到的并不一定是與模板完全匹配的鏡頭幀,而是相似的主持人幀。該檢測方法的具體步驟如下:

步驟1:從音頻檢測中找到音樂向語音過渡的靜音幀(即新聞的開始部分),如果其長度大于某一閾值,則將其后面的視頻幀作為主持人幀;

步驟2:提取出主持人幀模板;

步驟3:提取鏡頭的第一幀作為關(guān)鍵幀,進行模板匹配,從而減少了運算復(fù)雜度以及閾值選擇帶來的誤差;

步驟4:用檢測到的主持人幀對新聞視頻進行粗分類。

圖7-41(a)為主持人鏡頭模板幀,圖7-41(b)為提取出的主持人關(guān)鍵幀。圖7-41基于多模式的新聞視頻中主持人幀檢測和提取

7.3.4視頻目標(biāo)檢測

1.基于視頻的目標(biāo)檢測方法

目標(biāo)是指一個待探測、定位、識別和確認(rèn)的物體。目標(biāo)檢測分為純檢測和辨別檢測,前者是指從局部均勻的背景中檢測出一個物體,后者是指識別出某些外形或形狀,以便從背景的雜亂物體中區(qū)分出來。如何從圖像中檢測出目標(biāo)是計算機視覺的基礎(chǔ)問題之一,目標(biāo)的檢測可以在靜態(tài)圖像中進行,也可以在視頻序列中進行。對于靜態(tài)圖像中目標(biāo)的檢測,可以采用基于圖像分割技術(shù)的方法。

它利用目標(biāo)圖像的灰度、紋理等特征將目標(biāo)和背

景分開,再利用先驗知識將兩者進行分離。同時也可以采用基于模板匹配的方法,這種方法根據(jù)已有的模板在場景中匹配尋找最相似的目標(biāo)。靜態(tài)圖像中的目標(biāo)檢測在本章中不再介紹,在這里我們主要介紹視頻序列中的目標(biāo)檢測方法。常見的基于視頻的運動目標(biāo)檢測方法主要有以下幾種。

1)背景相減法

背景相減法是利用當(dāng)前幀圖像與背景幀圖像對應(yīng)的灰度值相減,在環(huán)境亮度變化不大的情況下,認(rèn)為像素灰度差值很小時,物體是靜止的;當(dāng)像素灰度值變化很大時,認(rèn)為該區(qū)域是由運動物體引起的。背景相減法的關(guān)鍵技術(shù)在于對圖像背景進行建模,然后將當(dāng)前幀與背景幀對應(yīng)灰度值進行比較,獲得運動變化區(qū)域。背景相減法的算法簡單,但其對光照、運動目標(biāo)陰影的變化比較敏感,并且當(dāng)攝像機運動時該算法需要不斷更新背景模型,檢測效果較差。

2)鄰幀差分法

鄰幀差分法是將相鄰幀對應(yīng)的像素點灰度值相減,在環(huán)境變化不大的情況下,可以認(rèn)為灰度變化大的區(qū)域是由物體運動引起的,利用這些標(biāo)志像素的區(qū)域即可確定目標(biāo)在圖像中的大小和位置。該算法的優(yōu)點是對于像素灰度變化明顯的點容易檢測且利于實時實現(xiàn),缺點首先是對于像素變化較小的點難以準(zhǔn)確檢測,如紋理單一的目標(biāo)往往出現(xiàn)空洞現(xiàn)象,還需要利用相關(guān)算法進行填充,其次對光照變化、背景變化和噪聲干擾無能為力。因此該算法只適合背景單一或背景不變、環(huán)境干擾較小場合的目標(biāo)檢測。

鄰幀差分法有三種形式:正差分、負(fù)差分和全差分。圖7-42(a)和7-42(b)是視頻序列中連續(xù)兩幀,圖7-42(c)和圖7-42(d)分別為正差分和負(fù)差分檢測結(jié)果,與圖7-42(e)所示的全差分檢測結(jié)果相比較,全差分效果最好。圖7-42鄰幀差分法

3)光流法

光流法是利用運動目標(biāo)隨時間變化的光流特性,計算位移向量光流場來初始化基于輪廓的跟蹤算法,從而提取出運動目標(biāo)。與鄰幀差分法和背景相減法不同的是,光流法可以用于攝像機靜止和攝像機運動兩種狀態(tài)下的運動目標(biāo)檢測,但該算法比較復(fù)雜,不利于硬件實現(xiàn)。

2.視頻序列中字幕檢測

為了更好地理解各種字幕檢測與提取算法的思想,有必要對字幕的特點進行說明。視頻字幕可以分為兩類:一類是標(biāo)注字幕,這種字幕是通過后期制作合成到視頻流中去的,包含了對當(dāng)前視頻流內(nèi)容的語義描述;另一類是場景字幕,這類字幕是錄制中環(huán)境和物體本身所攜帶的文字,如路牌上的路名、服裝上的文字和產(chǎn)品上的商標(biāo)等。

與光學(xué)字符識別(OpticalCharacterRecognition,OCR)相比,視頻字幕的提取面臨如下幾個問題:

視頻圖像的復(fù)雜背景使字幕提取和分割極其困難;

為避免遮擋圖像的主體部分,許多視頻字符的尺寸都相當(dāng)小且分辨率低;

數(shù)字視頻采用有損壓縮方式的格式存儲,再次降低了其分辨率。

另外,視頻字幕一般有幾個特點:

字幕的尺寸限定在一定的范圍之內(nèi);

采用通用且規(guī)范的粗筆畫字體,如黑體和宋體等;

字幕按照水平方向排列形式聚集在一起;

采用邊影,邊影是字幕前景或襯底顏色的補色。

利用這些特性,可以降低字幕的提取難度,并使提取出的字幕具有更高的準(zhǔn)確性。

近年來出現(xiàn)了許多字幕檢測提取方法,它們大致可分為三類:連通分量法、紋理分類法和邊緣檢測法。

(1)連通分量法。連通分量法是假設(shè)字幕被表示為統(tǒng)一的顏色,經(jīng)過顏色量化后,提取出符合某種大小、形狀和空間限制條件的單色連通分量作為字符。這種方法在背景雜亂的情況下有效性較低。

(2)紋理分類法。紋理分類法是將字幕區(qū)作為一類特殊的紋理來處理,通過多路處理和計算空間變化來提取紋理特征或者利用神經(jīng)網(wǎng)絡(luò)檢測字幕區(qū)??傮w上講,在處理復(fù)雜背景時,紋理分類法比連通分量法更有效。然而,當(dāng)背景具有與字幕區(qū)相似的紋理結(jié)構(gòu)時,紋理分類法將變得更困難。此外,對大量的視頻數(shù)據(jù),由于計算復(fù)雜性,許多紋理分類方法不適用。

下面給出一個視頻序列字幕檢測示例。

在檢測出了相應(yīng)的字幕幀后,進行字幕定位,主要是字幕行的檢測和字幕列的檢測,分別如圖7-43和圖7-44所示。然后進行字幕提取,主要是進行字幕增強和切分字幕,分別如圖7-45和圖7-46所示。

圖7-43字幕行的檢測

圖7-44字幕列的檢測

圖7-44字幕列的檢測

圖7-45字幕增強

圖7-46切分字幕

3.視頻序列中人臉檢測

傳統(tǒng)的人臉檢測的基本思想是用知識或統(tǒng)計的方法對人臉進行建模,比較所有可能的待檢測區(qū)域與人臉模型的匹配度,從而得到可能存在人臉的區(qū)域。其方法大致可分為基于統(tǒng)計和基于知識兩類。前者將人臉圖像視為一個高維向量,從而將人臉檢測問題轉(zhuǎn)化為高維空間中分布信號的檢測問題;而后者則利用人的知識建立若干規(guī)則,從而將人臉檢測問題轉(zhuǎn)化為假設(shè)/驗證問題。

1)基于統(tǒng)計的人臉檢測方法

(1)示例學(xué)習(xí)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論