深度學(xué)習(xí) 課件 第2章 卷積神經(jīng)網(wǎng)絡(luò)_第1頁
深度學(xué)習(xí) 課件 第2章 卷積神經(jīng)網(wǎng)絡(luò)_第2頁
深度學(xué)習(xí) 課件 第2章 卷積神經(jīng)網(wǎng)絡(luò)_第3頁
深度學(xué)習(xí) 課件 第2章 卷積神經(jīng)網(wǎng)絡(luò)_第4頁
深度學(xué)習(xí) 課件 第2章 卷積神經(jīng)網(wǎng)絡(luò)_第5頁
已閱讀5頁,還剩223頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第二章卷積神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)的起源與發(fā)展1卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)2卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練3典型卷積神經(jīng)網(wǎng)絡(luò)45目錄Contents中英文術(shù)語對照7卷積神經(jīng)網(wǎng)絡(luò)的主要應(yīng)用6本章人物卷積神經(jīng)網(wǎng)絡(luò)的起源與發(fā)展1卷積神經(jīng)網(wǎng)絡(luò)的起源4D.H.Hubel(1926-2013)andT.N.Wiesel(1924-).

Receptivefields,binocularinteractionandfunctionalarchitectureinthecat‘svisualcortex.

JournalofPhysiology,1962,160(1):106-154.Hubel-Weisel實驗(1959年)卷積神經(jīng)網(wǎng)絡(luò)的起源5。簡單細(xì)胞(SimpleCell):對光束的位置有反應(yīng)。復(fù)雜細(xì)胞(ComplexCell):對光束的位置和移動有反應(yīng)。超級復(fù)雜細(xì)胞(Hyper-complexCell):對有端點的光束移動有反應(yīng)。層次關(guān)系:通過對光束特征的不斷提取和綜合實現(xiàn)整個光束的識別。Hubel-Weisel實驗(1959年)卷積神經(jīng)網(wǎng)絡(luò)的起源6KunihikoFukushima.Neocognitron:Aself-organizingneuralnetworkmodelforamechanismofpatternrecognitionunaffectedbyshiftinposition.BiologicalCybernetics,1980,36:193–202.福島邦彥神經(jīng)認(rèn)知機(jī)(1980年)卷積神經(jīng)網(wǎng)絡(luò)的起源7

神經(jīng)認(rèn)知機(jī)(1980年)卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)2卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)10典型的卷積神經(jīng)網(wǎng)絡(luò)一般由卷積層(含激活函數(shù))、池化層、全連接層和輸出層構(gòu)成,其中卷積層與池化層一般交替排列,之后接一層或者多層全連接層,最后是輸出層。卷積層11卷積運算卷積運算(Convolution)是數(shù)學(xué)中的常見運算,分為離散卷積與連續(xù)卷積。

例子:求兩個骰子之和為4的概率12例子:求兩個骰子之和為4的概率13

例子:求兩個骰子之和為4的概率14例子:求兩個骰子之和為4的概率15兩枚骰子點數(shù)加起來為4的概率為:

f(1)g(3)+f(2)g(2)+f(3)g(1)

寫成標(biāo)準(zhǔn)的形式:

卷積公式

16一維連續(xù)卷積一維離散卷積卷積公式二維卷積:17二維連續(xù)卷積二維離散卷積18卷積層

19卷積層卷積核相當(dāng)于傳統(tǒng)計算機(jī)視覺領(lǐng)域中的特征算子,用于提取圖像特征。傳統(tǒng)的Sobel梯度算子45°方向模板被設(shè)計為:20卷積層數(shù)據(jù)填充:

p=1s=121卷積層在使用PyTorch等深度學(xué)習(xí)框架時,卷積層有Padding參數(shù),有三種選擇:‘Full’、‘Valid’和‘Same’?!瓼ull’表示需要填充,當(dāng)卷積核與輸入開始接觸時進(jìn)行卷積操作,‘Valid’表示不需要填充,‘Same’表示需要填充并保證輸出與輸入具有相同的尺寸。22卷積層步幅:

p=1s=223卷積層通道(Channel):一般指的圖像的顏色通道。單通道圖像:一般指的灰度圖像。多通道圖像:一般指的基于RGB的圖像,有R、G、B三個通道。特征圖(Featuremap):經(jīng)卷積和激活函數(shù)處理后的圖像。24卷積層單通道卷積:單通道圖像的卷積。單卷積核單通道卷積多卷積核單通道卷積25卷積層多通道卷積:多通道圖像的卷積。單卷積核多通道卷積(一般不這樣做)多卷積核多通道卷積26卷積層多通道卷積:多通道圖像的卷積。多卷積核多通道卷積(卷積計算)27卷積層多通道卷積:多通道圖像的卷積。多卷積核多通道卷積(求和)28卷積層多通道卷積:多通道圖像的卷積。多卷積核多通道卷積(偏置(bias))29卷積層

CS231N:http://cs231n.github.io/convolutional-networks/多通道卷積30卷積層卷積層的主要作用淺層卷積層:提取的是圖像基本特征,如邊緣、方向和紋理等特征。深層卷積層:提取的是圖像高階特征,出現(xiàn)了高層語義模式,如“車輪”、“人臉”等特征。31卷積層卷積層的主要作用32卷積層卷積層的主要作用33激活函數(shù)激活函數(shù)的引入,增強(qiáng)了人工神經(jīng)網(wǎng)絡(luò)的非線性表達(dá)能力,從而提高了模型的學(xué)習(xí)能力。在人工神經(jīng)網(wǎng)絡(luò)發(fā)展的初期,Sigmoid激活函數(shù)起到了十分重要的作用,但隨著人工神經(jīng)網(wǎng)絡(luò)層數(shù)的增加以及反向傳播算法的使用,會產(chǎn)生梯度消失問題。在卷積神經(jīng)網(wǎng)絡(luò)中,為了緩解梯度消失問題,常用的激活函數(shù)有ReLU、PReLU、ERU和Maxout等。

34激活函數(shù)Sigmoid激活函數(shù)存在“梯度飽和效應(yīng)”問題,即Sigmoid激活函數(shù)兩端梯度都趨于0,因此在使用誤差反向傳播算法進(jìn)行網(wǎng)絡(luò)訓(xùn)練時,該區(qū)域的誤差無法傳遞到前一層,從而導(dǎo)致網(wǎng)絡(luò)訓(xùn)練失敗。35激活函數(shù)36激活函數(shù)

Tanh激活函數(shù)同樣存在“梯度飽和效應(yīng)”問題,即Tanh激活函數(shù)兩端梯度也都趨于0,因此在使用誤差反向傳播算法進(jìn)行網(wǎng)絡(luò)訓(xùn)練時,該區(qū)域的誤差也無法傳遞到前一層,從而導(dǎo)致網(wǎng)絡(luò)訓(xùn)練失敗。37激活函數(shù)38激活函數(shù)

與Sigmoid激活函數(shù)相比,ReLU在x≥0部分消除了“梯度飽和效應(yīng)”,且ReLU的計算更簡單,計算速度更快。但ReLU本身也存在缺陷,如果輸入為負(fù)值,其梯度等于0,導(dǎo)致“神經(jīng)元死亡”,將無法進(jìn)行權(quán)重更新,進(jìn)而無法完成網(wǎng)絡(luò)訓(xùn)練。即便如此,ReLU仍然是當(dāng)前深度學(xué)習(xí)領(lǐng)域中最為常用的激活函數(shù)之一。39激活函數(shù)40激活函數(shù)

41激活函數(shù)42激活函數(shù)

ELU激活函數(shù)的優(yōu)點是處理含有噪聲的數(shù)據(jù)有優(yōu)勢,與Sigmoid激活函數(shù)相比更容易收斂。ELU激活函數(shù)的缺點是計算量較大,與ReLU激活函數(shù)相比,收斂速度較慢。43激活函數(shù)44激活函數(shù)

Maxout激活函數(shù)的優(yōu)點是能夠緩解梯度消失問題,規(guī)避了ReLU激活函數(shù)“神經(jīng)元死亡”的缺點。Maxout激活函數(shù)的缺點是增加了一層神經(jīng)網(wǎng)絡(luò),無形中增加了參數(shù)和計算量。45激活函數(shù)卷積神經(jīng)網(wǎng)絡(luò)中的激活函數(shù)選擇CNN在卷積層盡量不要使用Sigmoid和Tanh,將導(dǎo)致梯度消失。首先選用ReLU,使用較小的學(xué)習(xí)率,以免造成神經(jīng)元死亡的情況。如果ReLU失效,考慮使用LeakyReLU、PReLU、ELU或者M(jìn)axout,此時一般情況都可以解決。46激活函數(shù)47池化層池化操作使用某位置相鄰輸出的總體統(tǒng)計特征作為該位置的輸出。常用類型:最大池化(max-pooling)和均值池化(average-pooling)。池化層不包含需要訓(xùn)練學(xué)習(xí)的參數(shù),僅需指定池化操作的核大小、步幅以及池化類型。48池化層池化層的作用對輸入對象進(jìn)行“降采樣(Downsampling)”操作,一定程度上提高了模型的容錯能力。保證了當(dāng)輸入出現(xiàn)少量平移時,輸出近似不變,增強(qiáng)了網(wǎng)絡(luò)對輸入圖像中的小變形、扭曲、平移的魯棒性(輸入里的微小扭曲不會改變池化輸出)。池化核的指定相當(dāng)于在空間范圍內(nèi)對特征圖的特征進(jìn)行了維度約減,同時縮小了下一層輸入的特征圖尺寸,進(jìn)而在一定程度上減少了網(wǎng)絡(luò)的參數(shù)個數(shù)和計算量。49全連接層全連接層一般由一到多層的全連接神經(jīng)網(wǎng)絡(luò)組成,功能是對卷積層或池化層輸出的特征圖(二維)進(jìn)行降維。50全連接層可以將不同的區(qū)域特征合并為一個完整的特征。/weixin_40903337/article/details/10007487851輸出層分類問題:使用Softmax函數(shù)遞歸問題:使用線性函數(shù)

52卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練以圖像分類任務(wù)為例用隨機(jī)數(shù)初始化網(wǎng)絡(luò)需訓(xùn)練的參數(shù)(如權(quán)重、偏置)。將訓(xùn)練圖像作為輸入,進(jìn)行卷積層、ReLU、池化層以及全連接層的前向傳播,并計算每個類別的對應(yīng)輸出概率。計算輸出層的總誤差:總誤差=-∑(目標(biāo)概率×log?(輸出概率))。使用BP算法計算總誤差相對于所有參數(shù)的梯度,并用梯度下降法或其他優(yōu)化算法更新所有參數(shù)的值,以使輸出誤差最小。卷積核個數(shù)、卷積核大小以及網(wǎng)絡(luò)架構(gòu),是在步驟1之前就已經(jīng)確定的,且不會在訓(xùn)練過程中改變,只有網(wǎng)絡(luò)的其他參數(shù),如神經(jīng)元的權(quán)重、偏置會更新。53卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練池化層的訓(xùn)練:把池化層改為多層神經(jīng)網(wǎng)絡(luò)的形式。54卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練池化層的訓(xùn)練:最大池化和均值池化的誤差反向傳播。最大池化均值池化55卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練卷積層的訓(xùn)練:首先把卷積層也改為多層神經(jīng)網(wǎng)絡(luò)的形式,之后使用BP算法進(jìn)行訓(xùn)練。56卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練

57卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練

58卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練

典型卷積神經(jīng)網(wǎng)絡(luò)4LeNet-5AlexNetVGGNetGoolgeNetResNet60經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)61LeNet-5LeNet-5由LeCun等人提出于1998年提出。主要進(jìn)行手寫數(shù)字識別和英文字母識別。LetNet雖小,各模塊齊全,是學(xué)習(xí)CNN的基礎(chǔ)。/exdb/lenet/。Y.LeCun,L.Bottou,Y.Bengio,andP.Haffner.Gradient-basedlearningappliedtodocumentrecognition.ProceedingsoftheIEEE,November1998.62LeNet-563LeNet-5輸入層:尺寸大小為32×32的圖像。C1層(卷積層):選用6個5×5的卷積核,步長為1,得到6個大小為28×28的特征圖(32-5+1=28),神經(jīng)元的個數(shù)為6×28×28=4704。64LeNet-5S2層(下采樣層):對C1所得6個28×28的特征圖進(jìn)行均值池化,池化核大小選擇2×2,步長為2,得到的均值乘上一個權(quán)重加上一個偏置作為Sigmoid激活函數(shù)的輸入,得到6個14×14的特征圖,神經(jīng)元個數(shù)為6×14×14=1176。65LeNet-5C3層(卷積層):選用16個5×5卷積核組(前6個卷積核組中的卷積核個數(shù)為3,中間6個為4,之后3個為4,最后1個為6)對S2層輸出的特征圖進(jìn)行卷積,加偏置和激活函數(shù)(Sigmoid)后得到16張10×10(14-5+1=10)新特征圖。此時神經(jīng)元個數(shù)為16×10×10=1600?!?6LeNet-5S4層(下采樣層):對C3的16張10×10特征圖進(jìn)行最大池化,池化核大小為2×2,步長為2,得到的最大值乘以一個權(quán)重參數(shù),再加上一個偏置參數(shù)作為激活函數(shù)(Sigmoid)的輸入,得到16張5×5的特征圖,神經(jīng)元個數(shù)已經(jīng)減少為16×5×5=400。67LeNet-5C5層(卷積層):選用16個5×5的卷積核進(jìn)行卷積,乘以一個權(quán)重參數(shù)并求和,再加上一個偏置參數(shù)作為激活函數(shù)(Sigmoid)的輸入,得到1×1(5-5+1=1)的特征圖。然后我們希望得到120個特征圖,就要用總共120個5×5卷積核組(每個組16個卷積核)進(jìn)行卷積,神經(jīng)元減少為120個。68LeNet-5F6層(全連接層):與C5層全連接,有84個神經(jīng)元,對應(yīng)于一個7×12的比特圖。將輸入乘以一個權(quán)重并求和,再加上一個偏置作為Sigmoid函數(shù)的輸入,得到84個值。ASCII編碼圖(每個字符7X12像素)C5層120個69LeNet-5Output層(全連接層):與F6層全連接,共有10個神經(jīng)元,分別代表數(shù)字0到9。輸出層采用徑向基函數(shù)(RadialBasisFunction,RBF)的網(wǎng)絡(luò)連接方式。70LeNet-5

71LeNet-5總結(jié):卷積核大小、卷積核個數(shù)(特征圖需要多少個)、池化核大小和步長等這些參數(shù)都是變化的,這就是所謂的CNN調(diào)參,需要學(xué)會根據(jù)需要進(jìn)行不同的選擇。72AlexNetAlexNet由Hinton的學(xué)生AlexKrizhevsky于2012年提出。獲得ImageNetLSVRC-2012(物體識別挑戰(zhàn)賽)的冠軍,數(shù)據(jù)集包含1000個類別120萬幅高清圖像,Error:26.2%(2011)→15.3%(2012)。通過AlexNet確定了CNN在計算機(jī)視覺領(lǐng)域的王者地位。A.Krizhevsky,I.Sutskever,andG.Hinton.Imagenetclassificationwithdeepconvolutionalneuralnetworks.InNIPS,2012.73AlexNet首次成功應(yīng)用ReLU作為CNN的激活函數(shù)。使用Dropout丟棄部分神元,避免了過擬合。使用重疊MaxPooling(讓池化層的步長小于池化核的大?。?,提升了特征的豐富性。首次使用CUDA加速訓(xùn)練過程。使用了數(shù)據(jù)增強(qiáng),在原始圖像大小為256×256的原始圖像中重復(fù)截取224×224大小的區(qū)域,大幅增加了數(shù)據(jù)量。對圖像數(shù)據(jù)通過主成分分析方法進(jìn)行降維處理。74AlexNetAlexNet的原始結(jié)構(gòu)75AlexNetAlexNet的簡化結(jié)構(gòu)76AlexNetAlexNet可分為8層(池化層未單獨算作一層),包括5個卷積層以及3個全連接層。輸入層:AlexNet首先使用大小為224×224×3圖像作為輸入,后改為227×227×3。77AlexNet第一個卷積層(含池化):包含96個大小為11×11的卷積核組,卷積步長為4,因此第一層輸出大小為55×55×96((227-11)/4+1=55),分為兩組,每組48個;然后構(gòu)建一個核大小為3×3、步長為2的最大池化層進(jìn)行數(shù)據(jù)降采樣,進(jìn)而輸出大小為27×27×96((55-3)/2+1=27),每組48個。78AlexNet第二個卷積層(含池化):包含256個大小為5×5的卷積核組,卷積步長為1,同時利用padding保證輸出尺寸不變,因此該層輸出大小為27×27×256;然后再次通過核大小為3×3、步長為2的最大池化層進(jìn)行數(shù)據(jù)降采樣,進(jìn)而輸出大小為13×13×256((27-3)/2+1=13)。79AlexNet第三層與第四層(卷積層):均為卷積核大小為3×3、步長為1的same卷積,共包含384個卷積核,因此兩層的輸出大小都為13×13×384。80AlexNet第五層(卷積層):同樣為卷積核大小為3×3、步長為1的same卷積,但包含256個卷積核,進(jìn)而輸出大小為13×13×256;在數(shù)據(jù)進(jìn)入全連接層之前再次通過一個核大小為3×3、步長為2的最大池化層進(jìn)行數(shù)據(jù)降采樣,數(shù)據(jù)大小降為6×6×256((13-3)/2+1=6),并將數(shù)據(jù)扁平化處理展開為9216個單元。81AlexNet第一個、第二個和第三個全連接層:第一個全連接層與第二個全連接層的神經(jīng)元個數(shù)都是4096,第三個全連接層神經(jīng)元個數(shù)為1000個,使用Softmax分類器輸出1000類的分類結(jié)果。82VGG-16

K.SimonyanandA.Zisserman.Verydeepconvolutionalnetworksforlarge-scaleimagerecognition.InICLR,2015.83VGG-1684VGG-16

Conv1Conv2Conv3Conv4Conv5卷積層數(shù)22333卷積核數(shù)6412825651251285VGG-16兩個卷積核大小為3*3的卷積層串聯(lián)后的感受野尺寸為5*5,相當(dāng)于單個卷積核大小為5*5的卷積層。兩者參數(shù)數(shù)量比值為(2*3*3)/(5*5)=72%

,前者參數(shù)量更少。此外,兩個卷積層串聯(lián)可使用兩次ReLU激活函數(shù),而一個卷積層只使用一次。86GoogleNet由Google公司2014年提出,獲得ImageNetLSVRC-2014冠軍。它的主要思想是除了在網(wǎng)絡(luò)深度上加深(22層)之外,在寬度上也加寬。GoogleNet的核心是Inception模塊,Inception模塊包含4個分支,每個分支均使用了1×1卷積,它可以跨通道組織信息,提高網(wǎng)絡(luò)的表達(dá)能力,同時還可以對輸出通道進(jìn)行升維和降維。Inception模塊中包含了1×1、3×3、5×5三種不同尺寸的卷積和1個3×3最大池化,增強(qiáng)了網(wǎng)絡(luò)對不同尺度特征圖的適應(yīng)性。87GoogleNet深度:層數(shù)更深,采用了22層。寬度:InceptionModule包含4個分支,在卷積核3x3、5x5之前、maxpooling之后分別加上了1x1的卷積核,起到了降低特征圖厚度的作用。88InceptionNetInception四個版本所對應(yīng)的論文及ILSVRC中的Top-5錯誤率:[v1]GoingDeeperwithConvolutions:6.67%testerror。[v2]BatchNormalization:AcceleratingDeepNetworkTrainingbyReducingInternalCovariateShift:4.8%testerror。[v3]RethinkingtheInceptionArchitectureforComputerVision:3.5%testerror。[v4]Inception-v4,Inception-ResNetandtheImpactofResidualConnectionsonLearning:3.08%testerror。

參考鏈接:/p/cc830a6ed54b

89ResNetResNet(ResidualNeuralNetwork),又叫做殘差神經(jīng)網(wǎng)絡(luò),是由微軟研究院的何凱明等人2015年提出。獲得ImageNetILSVRC2015比賽冠軍。獲得CVPR2016最佳論文獎。KaimingHe,XiangyuZhang,ShaoqingRen,JianSun.DeepResidualLearningforImageRecognition.CVPR2016:770-77890ResNet隨著卷積網(wǎng)絡(luò)層數(shù)的增加,誤差的逆?zhèn)鞑ミ^程中存在的梯度消失和梯度爆炸問題同樣也會導(dǎo)致模型的訓(xùn)練難以進(jìn)行。甚至?xí)霈F(xiàn)隨著網(wǎng)絡(luò)深度的加深,模型在訓(xùn)練集上的訓(xùn)練誤差會出現(xiàn)先降低再升高的現(xiàn)象。殘差網(wǎng)絡(luò)的引入則有助于解決梯度消失和梯度爆炸問題。91ResNet梯度消失和梯度爆炸問題原因深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練問題。激活函數(shù)問題。/qq_25737169/article/details/78847691。92ResNetResNet的核心是叫做殘差塊(Residualblock)的小單元,殘差塊可以視作在標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上加入了跳躍連接(Skipconnection)。

93ResNet卷積神經(jīng)網(wǎng)絡(luò)的主要應(yīng)用595卷積神經(jīng)網(wǎng)絡(luò)的主要應(yīng)用目標(biāo)檢測:R-CNN系列,YOLO系列圖像分割:FCN,SegNet,UNet姿態(tài)估計:DeepPose,基于沙漏網(wǎng)絡(luò)的姿態(tài)估計人臉識別:DeepFace,DeepID/DeepID2,F(xiàn)aceNet96目標(biāo)檢測目標(biāo)檢測是指將圖像或者視頻中的目標(biāo)物體用邊框(BoundingBox)標(biāo)記并識別出該目標(biāo)物體的類別。目前目標(biāo)檢測任務(wù)有兩類模型一類是以區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Region-CNN,R-CNN)系列為代表的兩階段模型一類是以YOLO系列為代表的一階段模型97R-CNN系列R-CNN由RossGirshick等人2014年提出。首先在ImageNet上訓(xùn)練模型,然后在PASCALVOC數(shù)據(jù)集上進(jìn)行Fine-tuning。在PascalVOC2012的數(shù)據(jù)集上,能夠?qū)⒛繕?biāo)檢測的驗證指標(biāo)mAP提升到53.7%,這相對于之前最好的結(jié)果提升了整整13.3%。RossB.Girshick,JeffDonahue,TrevorDarrell,JitendraMalik.RichFeatureHierarchiesforAccurateObjectDetectionandSemanticSegmentation.CVPR2014:580-58798R-CNN系列99R-CNN系列實現(xiàn)過程區(qū)域劃分:給定一張輸入圖片,采用SelectiveSearch算法從圖片中提取2000左右類別獨立的候選區(qū)域。特征提取:對于每個區(qū)域利用Alexnet抽取一個固定長度的特征向量。目標(biāo)分類:對每個區(qū)域利用SVM

進(jìn)行分類。邊框回歸:使用BoundingboxRegression(Bbox回歸)進(jìn)行邊框坐標(biāo)偏移優(yōu)化和調(diào)整。100R-CNN系列Crop就是從一個大圖摳出網(wǎng)絡(luò)輸入大小的patch,比如227×227Warp把一個邊界框boundingbox的內(nèi)容resize成227×227101R-CNN系列區(qū)域劃分SelectiveSearch算法的核心思想:圖像中物體可能存在的區(qū)域應(yīng)該有某些相似性或者連續(xù)性的,算法采用子區(qū)域合并的方法提取候選邊界框。首先,通過圖像分割算法將輸入圖像分割成許多小的子區(qū)域。其次,根據(jù)這些子區(qū)域之間的相似性(主要考慮顏色、紋理、尺寸和空間交疊4個方面的相似性)

進(jìn)行區(qū)域迭代合并。每次迭代過程中對這些合并的子區(qū)域做Boundingboxes(外切矩形),這些子區(qū)域的外切矩形就是通常所說的候選框。SelectiveSearch算法相似度計算考慮了顏色、紋理、尺寸和是否交疊四個方面:102R-CNN系列[1]PedroF.Felzenszwalb,DanielP.Huttenlocher.EfficientGraph-BasedImageSegmentation.IJCV,200459(2):167-181JasperR.R.Uijlings,KoenE.A.vandeSande,TheoGevers,ArnoldW.M.Smeulders.SelectiveSearchforObjectRecognition.IJCV,2013,104(2):154-171層次分組算法(HierarchicalGroupAlgorithm)輸入:(彩色)圖像輸出:目標(biāo)定位假設(shè)L的集合EndEnd103R-CNN系列104R-CNN系列105R-CNN系列SVM分類(二分類)訓(xùn)練時,把Ground-truth作為該類別的正例,把IoU小于0.3的Proposal作為該類別的負(fù)例。調(diào)優(yōu)CNN時,把IoU大于0.5的Proposal作為該類別的正例,其他作為負(fù)例(所有類別的背景)。IntersectionoverUnionIoU=(A∩B)/(A∪B)106R-CNN系列邊框回歸GroundtruthProposal107R-CNN系列邊框回歸:是使得預(yù)測的邊框盡可能與人工標(biāo)定的邊框越接近越好。108R-CNN系列

109R-CNN系列

110R-CNN系列

基于邊長的歸一化尺度比例的對數(shù)111R-CNN系列

112R-CNN系列邊框回歸113R-CNN系列mAP:meanAveragePrecision,是多標(biāo)簽圖像分類任務(wù)中的評價指標(biāo)。AP衡量的是學(xué)出來的模型在給定類別上的好壞,而mAP衡量的是學(xué)出的模型在所有類別上的好壞。/xw_2_xh/article/details/88190806114SPPNet

KaimingHe,XiangyuZhang,ShaoqingRen,JianSun.

SpatialPyramidPoolinginDeepConvolutionalNetworksforVisualRecognition.IEEETrans.PatternAnal.Mach.Intell.37(9):1904-1916(2015)115SPPNet

KaimingHe,XiangyuZhang,ShaoqingRen,JianSun.

SpatialPyramidPoolinginDeepConvolutionalNetworksforVisualRecognition.IEEETrans.PatternAnal.Mach.Intell.37(9):1904-1916(2015)116R-CNN系列SPPnet如圖所示,在conv5層得到的特征圖是256個,每個都做一次spatialpyramidpooling。先把每個特征圖分割成多個不同尺寸的網(wǎng)格,比如網(wǎng)格分別為4*4、2*2、1*1,然后對每個網(wǎng)格做maxpooling,這樣256個特征圖就形成了16*256,4*256,1*256維特征。它們連起來就形成了一個固定長度的特征向量,將這個向量輸入到后面的全連接層。117R-CNN系列FastR-CNN使用Softmax分類替換R-CNN中的SVM分類。將候選框目標(biāo)分類與邊框回歸同時放入全連接層,形成一個多任務(wù)學(xué)習(xí)(Multi-taskLearning)模型,設(shè)計了聯(lián)合損失函數(shù),將Softmax分類、邊框回歸一起訓(xùn)練。添加感興趣區(qū)域池化(RegionofInterestPooling,RoIPooling)層,實現(xiàn)了不同大小區(qū)域特征圖的池化。訓(xùn)練時所有的特征存在緩存中,不再存到硬盤上,提升了速度。RossB.Girshick.

FastR-CNN.ICCV2015:1440-1448118R-CNN系列訓(xùn)練時:RoI共64個測試時:RoI共2000個119R-CNN系列120R-CNN系列ROIPooling層:將每個候選區(qū)域均勻分成M×N塊,對每塊進(jìn)行maxpooling。將特征圖上大小不一的候選區(qū)域轉(zhuǎn)變?yōu)榇笮〗y(tǒng)一的數(shù)據(jù),送入下一層。121R-CNN系列在R-CNN中的流程是先提proposal,然后CNN提取特征,之后用SVM分類器,最后再做Bbox回歸進(jìn)行候選框的微調(diào)。FastR-CNN在CNN提取特征后,做一個RoIpooling,再將候選框目標(biāo)分類與Bbox回歸同時放入全連接層,形成一個multi-task模型。122R-CNN系列

即對真實分類的概率取負(fù)log123R-CNN系列

124R-CNN系列125R-CNN系列126R-CNN系列FasterR-CNNRPN(RegionProposalNetwork):使用全卷積神經(jīng)網(wǎng)絡(luò)來生成區(qū)域建議(Regionproposal),替代之前的Selectivesearch。

ShaoqingRen,KaimingHe,RossB.Girshick,JianSun.FasterR-CNN:TowardsReal-TimeObjectDetectionwithRegionProposalNetworks.IEEETrans.PatternAnal.Mach.Intell.39(6):1137-1149(2017)127R-CNN系列/p/31426458128R-CNN系列FasterR-CNN卷積層(Convlayers):首先使用一組Conv+ReLU+Pooling組合提取Image的特征圖(Featuremaps),特征圖被共享用于后續(xù)的RPN和RoIPooling。區(qū)域建議網(wǎng)絡(luò)(RegionProposalNetworks,RPN):RPN用于生成regionproposals。它通過Softmax判斷區(qū)域是有目標(biāo)的正例(Positive)還是沒有目標(biāo)的負(fù)例(Negative),再利用邊框回歸獲得候選區(qū)域。129R-CNN系列FasterR-CNNRoIPooling:該層接收卷積層的featuremaps和RPN層的proposals,綜合這些信息后提取proposalfeaturemaps,送入全連接層判定目標(biāo)類別。Classification:利用proposalfeaturemaps計算proposal的類別,同時再次使用Bbox回歸獲得檢測框最終的精確位置。130R-CNN系列RPNAnchor:矩形框。RPN中使用了長寬比為1:1,1:2和2:1三種矩形框。輸入圖像需要reshape適應(yīng)Anchor大小。131R-CNN系列RPNClslayer用Softmax計算Anchor內(nèi)是某個object的概率。Reglayer實現(xiàn)Anchor邊界框回歸輸出。132R-CNN系列RPN通過Softmax分類anchors獲得positive和negative分類。計算anchors的Bbox回歸的偏移量。最后的Proposal綜合positiveanchors和對應(yīng)Bbox回歸偏移量獲取proposals,同時剔除太小和超出邊界的proposals。133R-CNN系列

134R-CNN系列

135R-CNN系列FasterR-CNN訓(xùn)練方式Alternatingtraining。Approximatejointtraining。Non-approximatejointtraining。136R-CNN系列137R-CNN系列138R-CNN系列139YOLO系列YOLO與R-CNN系列最大的區(qū)別是用一個卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)(one-stage)就可以從輸入圖像直接預(yù)測boundingbox和類別概率,實現(xiàn)了End2End訓(xùn)練??梢詫W(xué)到物體的全局信息,背景誤檢率比R-CNN降低一半,泛化能力強(qiáng)。準(zhǔn)確率不如R-CNN高,小物體檢測效果較差。速度非???,實時性好。JosephRedmon,SantoshKumarDivvala,RossB.Girshick,AliFarhadi.YouOnlyLookOnce:Unified,Real-TimeObjectDetection.CVPR2016:779-788140YOLO系列141YOLO系列若某個物體的中心位置的坐標(biāo)落入到某個格子,那么這個格子就負(fù)責(zé)檢測出這個物體142YOLO系列x,y是boundingbox中心位置相對于當(dāng)前格子位置的偏移值,并且被歸一化到[0,1]內(nèi)。w和h的值根據(jù)圖像的寬度和高度把boundingbox寬度和高度歸一化到[0,1]內(nèi)。143YOLO系列

xy144YOLO系列145YOLO系列146YOLO系列

147YOLO系列

148YOLO系列

149YOLO系列

150YOLO系列YOLO損失函數(shù)位置誤差含有目標(biāo)的置信度誤差不含目標(biāo)的置信度誤差分類誤差第i個Cell的第j個Bbox負(fù)責(zé)object,與groundtruthBbox的IoU值最大的負(fù)責(zé)151YOLO系列152YOLO系列YOLO2和YOLO9000JosephRedmon,AliFarhadi.YOLO9000:Better,Faster,Stronger.CVPR2017:6517-6525153YOLO系列YOLOv2Batchnormalization:在每一個卷積層后添加batchnormalization,極大的改善了收斂速度同時減少了對其它regularization方法的依賴,使得mAP獲得了2%的提升。分辨率修改:YOLOv2首先修改預(yù)訓(xùn)練分類網(wǎng)絡(luò)的分辨率為448*448,在ImageNet數(shù)據(jù)集上訓(xùn)練10輪(10epochs),mAP獲得了4%的提升。多尺度訓(xùn)練:YOLO使用全連接層數(shù)據(jù)進(jìn)行boundingbox預(yù)測(要把1470*1的全鏈接層reshape為7*7*30的最終特征),這會丟失較多的空間信息導(dǎo)致定位不準(zhǔn),丟棄全連接層使用RPN中的anchorbox去做Bbox回歸。154YOLO系列BatchnormalizationSergeyIoffe,

ChristianSzegedy.BatchNormalization:AcceleratingDeepNetworkTrainingbyReducingInternalCovariateShift./abs/1502.03167v3155YOLO系列YOLO2156YOLO系列YOLO9000首先基于Wordnet構(gòu)建WordTree層次分類?;赪ordTree進(jìn)行圖像分類和目標(biāo)檢測的聯(lián)合訓(xùn)練。157YOLO系列YOLOV3更好的主干網(wǎng)Darknet-53。多尺度預(yù)測。更好的分類器:Softmax不適用于多標(biāo)簽分類使用獨立的多個logistic分類器,準(zhǔn)確率不會下降158YOLO系列YOLOV3159YOLO系列YOLOv4使用CSPDarknet-53作為骨干網(wǎng)絡(luò),并引入特征金字塔池化、Mosaic數(shù)據(jù)增強(qiáng)和Mish激活函數(shù)等改進(jìn)方法,與YOLOv3相比,檢測準(zhǔn)確率有較大的提升。YOLOv5與YOLOv4相比,改進(jìn)不大,主要是把最大池化由并行改為了串行。YOLOv6的改進(jìn)也不大,主要的改進(jìn)是骨干網(wǎng)絡(luò)由CSPDarknet-53改為了EfficientRep。160YOLO系列Mosaic數(shù)據(jù)增強(qiáng):將四張圖片進(jìn)行拼接到一張圖上作為訓(xùn)練樣本隨機(jī)選取四張圖片。對每張圖片進(jìn)行數(shù)據(jù)增強(qiáng),翻轉(zhuǎn)、縮放、色域變化。進(jìn)行圖片的組合和候選框的組合,形成一張圖片。Mish激活函數(shù):光滑函數(shù),比ReLU泛化能力更好161圖像分割全卷積網(wǎng)絡(luò)(FullyConvolutionalNetworks,F(xiàn)CN)是使用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像分割的開山之作。FCN與傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)不同,僅包含卷積層和池化層,不再包含全連接層和輸出層。因此,它也不再對整幅圖像進(jìn)行分類,而是實現(xiàn)了像素級的分類,進(jìn)而輸出圖像分割的結(jié)果。J.Long,E.Shelhamer,andT.Darrell,“Fullyconvolutionalnetworksforsemanticsegmentation,”inProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition,2015,pp.3431–3440.FCN162FCN與傳統(tǒng)CNN的區(qū)別FCN163FCN中的卷積過程和上采樣過程FCN164image經(jīng)過多個conv和一個maxpooling變?yōu)閜ool1feature,特征圖的寬高變?yōu)?/2。pool1feature再經(jīng)過多個conv和一個maxpooling變?yōu)閜ool2feature,特征圖的寬高變?yōu)?/4。pool2feature再經(jīng)過多個conv和一個maxpooling變?yōu)閜ool3feature,特征圖的寬高變?yōu)?/8。直到pool5feature,寬高變?yōu)?/32。FCN中的卷積過程FCN165對于FCN-32s,直接對pool5feature進(jìn)行32倍上采樣獲得32xupsampledfeature,再對32xupsampledfeature每個點做softmaxprediction獲得32xupsampledfeatureprediction(即分割圖)。對于FCN-16s,首先對pool5feature進(jìn)行2倍上采樣獲得2xupsampledfeature,再把pool4feature和2xupsampledfeature逐點相加,然后對相加的feature進(jìn)行16倍上采樣,并softmaxprediction,獲得16xupsampledfeatureprediction。對于FCN-8s,首先進(jìn)行pool4+2xupsampledfeature逐點相加,然后又進(jìn)行pool3+2xupsampledfeature逐點相加,即進(jìn)行更多次特征融合。FCN中的上采樣過程FCN166上采樣(upsampling)一般包括2種方式:調(diào)整尺寸(Resize),如使用雙線性插值進(jìn)行圖像放大。逆卷積(Deconvolution),也叫TransposedConvolution。FCN167

FCN168SegNet169V.Badrinarayanan,A.Kendall,andR.Cipolla.

Segnet:Adeepconvolutionalencoder-decoderarchitectureforimagesegmentation,arXivpreprintarXiv:1511.00561,2016.http://mi.eng.cam.ac.uk/projects/segnet/EncoderVGG-16,13個卷積層(卷積+BatchNormalization+ReLU),不含全連接層。5個最大池化層。進(jìn)行2×2最大池化時,存儲相應(yīng)的最大池化索引(位置)。170SegNetDecoderVGG-16,13個卷積層(卷積+BatchNo-rmalization+ReLU),不含全連接層。5個上采樣層,采用Encoder的最大池化索引進(jìn)行上采樣。使用K類Softmax分類器來預(yù)測每個像素的類別。171SegNetSegNet172SegNet173SegNet174UNet175OlafRonneberger,PhilippFischer,andThomasBrox.

U-Net:ConvolutionalNetworksforBiomedicalImageSegmentation.arXiv:1505.04597v1[cs.CV]18May2015Encoder-Decoder架構(gòu)Encoder:左半部分,由兩個3x3的卷積層(RELU)再加上一個2x2的Maxpooling層組成,一共下采樣4次。Decoder:右半部分,由一個上采樣的逆卷積層加上特征拼接再加上兩個3x3的卷積層(ReLU)組成,也相應(yīng)上采樣4次。176UNetSkipconnection在同一個層次進(jìn)行了特征Copy,保證了最后恢復(fù)出來的特征圖融合了更多的底層特征,也使得不同尺度(scale)的特征得到了的融合,從而可以進(jìn)行多尺度預(yù)測,4次上采樣也使得分割圖恢復(fù)邊緣等信息更加精細(xì)。177UNetUNet178UNet179基于UNet的眼球血管圖像分割DRIVE數(shù)據(jù)集,/UNet180基于UNet的醫(yī)學(xué)圖像分割姿態(tài)估計181姿態(tài)估計(PoseEstimation):可視為圖像或視頻中人體關(guān)節(jié)位置(也稱為關(guān)鍵點,如手肘、膝蓋、肩膀等)的定位問題,因此也被稱為人體關(guān)鍵點檢測。MSCOCO人體姿態(tài)關(guān)鍵點格式人體姿態(tài)識別示例0:nose1:neck2:rightshoulder3:rightelbow4:rightwrist5:leftshoulder6:leftelbow7:leftwrist8:righthip9:rightknee10:rightankle11:lefthip12:leftknee13:leftankle14:righteye15:lefteye16:rightear17:leftear姿態(tài)估計182姿態(tài)估計分類單人姿態(tài)估計(SinglePersonPoseEstimation,SPPE)。多人姿態(tài)估計(MultiplePersonPoseEstimation,MPPE)。姿態(tài)估計方法最初集中于SPPE,但MPPE更符合實際情況但也更難,隨著更多的MPPE數(shù)據(jù)集出現(xiàn),針對MPPE的工作越來越多。姿態(tài)估計183多人姿態(tài)估計方法Top-Down方法:首先利用目標(biāo)檢測器檢測圖像中出現(xiàn)的多個人,然后使用SPPE模型估計每一個人的姿態(tài)。Bottom-Up方法:首先檢測出圖像中所有的關(guān)鍵點位置,然后問題轉(zhuǎn)換為關(guān)鍵點的分配問題,將屬于不同人的關(guān)鍵點進(jìn)行關(guān)聯(lián)和組合。姿態(tài)估計184Top-Down方法:先目標(biāo)檢測,然后對單人進(jìn)行姿態(tài)估計。Bottom-Up方法:先檢測出所有的關(guān)鍵點,然后進(jìn)行關(guān)鍵點之間的關(guān)聯(lián)。姿態(tài)估計185Top-Down方法優(yōu)點:思路直觀,易于實現(xiàn),單人姿態(tài)估計精度高。缺點:依賴于人體目標(biāo)檢測的效果,無法很好的解決遮擋問題,并且速度會隨著圖像場景中人數(shù)的增加而變慢。Bottom-Up方法優(yōu)點:整個圖像只需要處理一次,且速度不受圖像場景中人數(shù)變化影響,相對而言實時性更好。缺點:精度相對不如Top-Down方法,同樣無法很好解決遮擋問題。姿態(tài)估計186單人姿態(tài)估計(DeepPose)

DeepPose是使用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行人體姿態(tài)識別的開山之作,將姿態(tài)估計問題轉(zhuǎn)換為圖像的卷積特征提取與關(guān)鍵點坐標(biāo)位置回歸問題。藍(lán)色為卷積層,綠色為全連接層AlexanderToshev,

ChristianSzegedy:DeepPose:

Human

Pose

Estimation

via

Deep

Neural

Networks.

CVPR2014:

1653-1660姿態(tài)估計187

姿態(tài)估計188

姿態(tài)估計189單人姿態(tài)估計(DeepPose)

模型還使用了級聯(lián)回歸器(cascadedregressors)對預(yù)測結(jié)果進(jìn)行細(xì)化。模型基于前一階段預(yù)測坐標(biāo)位置對圖像進(jìn)行局部裁剪作為現(xiàn)階段的輸入,因此現(xiàn)階段的輸入有著更高的分辨率,從而能學(xué)習(xí)到更為精細(xì)的尺度特征,以此來對前一階段的預(yù)測結(jié)果進(jìn)行細(xì)化。綠色為groundtruth,紅色為每一階段輸出姿態(tài)估計190

姿態(tài)估計191單人姿態(tài)估計(StackedHourglass)

StackedHourglass的提出有著里程碑式的意義,不僅在姿態(tài)估計各數(shù)據(jù)集取得了當(dāng)時SOTA的效果,后續(xù)也被應(yīng)用于目標(biāo)檢測、分割等領(lǐng)域。下圖中重復(fù)的形似沙漏的結(jié)構(gòu)就是Hourglass模塊。AlejandroNewell,KaiyuYang,JiaDeng:StackedHourglassNetworksforHumanPoseEstimation.ECCV(8)2016:483-499姿態(tài)估計192單人姿態(tài)估計(StackedHourglass)

Hourglass模塊包含重復(fù)的降采樣(高分辨率到低分辨率)和上采樣(低分辨率到高分辨率),此外還使用了殘差連接保存不同分辨率下的空間信息。與DeepPose采用級聯(lián)回歸器目的相似,Hourglass模塊的初衷在于捕捉與利用多個尺度上的信息,例如局部特征信息對于識別臉部、手部等特征十分重要,但人體最終的姿態(tài)估計也需要圖像的全局特征信息。姿態(tài)估計193

姿態(tài)估計194單人姿態(tài)估計(StackedHourglass)

人臉識別所謂人臉識別,就是利用計算機(jī)分析人臉圖像,并從中提取出有效的特征,最終判別人臉對象的身份。人臉識別已經(jīng)成為計算機(jī)視覺領(lǐng)域的最重要的應(yīng)用之一,目前在人們生產(chǎn)和生活的很多方面開展了應(yīng)用,包括乘坐高鐵、飛機(jī)時的身份驗證、銀行賬戶驗證、手機(jī)支付驗證等。195人臉識別人臉識別宏觀上分為兩種:人臉驗證/人臉比對(FaceVerification)

1比1的比對,即判斷兩張圖片里的人是否為同一人。應(yīng)用場景:手機(jī)人臉解鎖。人臉識別(FaceIdentification)1比N的比對,即判斷系統(tǒng)當(dāng)前見到的人,為數(shù)據(jù)庫中眾多人中的哪一個。應(yīng)用場景:疑犯追蹤,小區(qū)門禁,會場簽到,客戶識別。196人臉識別傳統(tǒng)人臉識別的主要思路是設(shè)計特征提取器,再利用機(jī)器學(xué)習(xí)算法對提取特征進(jìn)行分類。核心思想為:不同人臉由不同特征組成。5個特征,可識別32張臉特征越多,識別能力越強(qiáng)神經(jīng)網(wǎng)絡(luò)具有自動提取特征的能力,與人臉識別任務(wù)很契合!197人臉識別人臉識別的性能,取決于特征的數(shù)量與辨識度,并依托于假設(shè):同一個人在不同照片里的臉,在特征空間里非常接近。不同人的臉在特征空間里相距較遠(yuǎn)。實際應(yīng)用中,光照、遮擋、形變(表情)、側(cè)臉等諸多條件下,會導(dǎo)致“異常臉”的出現(xiàn):異常臉在特征空間里落到錯誤的位置,導(dǎo)致識別和驗證失敗。無論是傳統(tǒng)算法,還是深度學(xué)習(xí),目前皆處理不好異常臉情況。通常采用拒絕辨識,限制識別環(huán)境等方式。198數(shù)據(jù)集2007年發(fā)布的LFW是第一個在非限定環(huán)境下進(jìn)行人臉識別的數(shù)據(jù)集。2014年發(fā)布的CASIA-Webface是第一個被廣泛使用的公共訓(xùn)練集,自此之后涌現(xiàn)了許多大規(guī)模的訓(xùn)練集,如包含260萬張人臉的VGGFace。上圖中粉紅色框內(nèi)多被用來作為大規(guī)模訓(xùn)練集,其余則作為不同任務(wù)和場景下的測試集。199數(shù)據(jù)集LFW(LabeledFacesintheWild)專為研究非受限人臉識別問題而設(shè)計的人臉照片數(shù)據(jù)庫。包含從網(wǎng)絡(luò)收集的超過13,000張人臉圖像。每張臉都標(biāo)有人物的名字,有1680人有兩張或更多張不同的照片。人臉圖片均來源于生活中的自然場景,因此識別難度會增大,尤其由于多姿態(tài)、光照、表情、年齡、遮擋等因素影響導(dǎo)致即使同一人的照片差別也很大。有些照片中可能不止一個人臉出現(xiàn)(此時僅選擇中心坐標(biāo)的人臉作為目標(biāo),其余視為噪聲)。200數(shù)據(jù)集MatchPairsMismatchPairsLFW數(shù)據(jù)集中的圖片被兩兩分組,這兩張圖片可能來自同一個人(如左圖),也可能來自不同的人(如右圖)。模型需要做的就是判斷兩張照片是否來自同一個人。201

評估指標(biāo)202DeepFaceDeepFace是2014年,F(xiàn)acebook提出的模型,是CNN在人臉識別領(lǐng)域的奠基之作,具有以下貢獻(xiàn):人臉識別中,通常經(jīng)過四個步驟:檢測,對齊(校正),表示,分類。論文主要闡述了在對齊和表示這兩個步驟上提出了新的方法,模型的表現(xiàn)超越了前人的工作,在LFW上達(dá)到了97.35%的人臉驗證精度。對齊方面主要使用了3D人臉模型來對齊人臉。表示方面使用了一個9層的CNN,其中使用了局部卷積。對齊可理解為:獲取正臉(去噪)表示可理解為:構(gòu)造特征Y.Taigman,M.Yang,M.Ranzato,andL.Wolf.Deepface:Closingthegaptohuman-levelperformanceinfaceverification.InCVPR,pages1701–1708,2014.203DeepFace204DeepFace對齊用LBP+SVR的方法檢測出人臉的6個基準(zhǔn)點,眼鏡兩個點,鼻子一個點,嘴巴三個點,如圖(a)。通過擬合一個對基準(zhǔn)點的轉(zhuǎn)換(縮放,旋轉(zhuǎn),平移)對圖像進(jìn)行裁剪,得到圖(b)。對圖像定位67個基準(zhǔn)點,并進(jìn)行三角剖分,得到圖(c)。用一個3D人臉庫USFHuman-ID得到一個平均3D人臉模型(正臉),如圖(d)。學(xué)習(xí)一個3D人臉模型和原2D人臉之間的映射P,并可視化為三角塊,如圖(e)。通過相關(guān)的映射,把原2D人臉中的基準(zhǔn)點轉(zhuǎn)換成3D模型產(chǎn)生的基準(zhǔn)點,得到圖(f)。最后的正臉,圖(g)。205LocalBinaryPattern:每個像素與周圍像素的關(guān)系SupportVectorRegression:使到超平面最遠(yuǎn)的樣本點的“距離”最小DeepFace表示前3層采用傳統(tǒng)的卷積和池化提取信息,共享卷積核。后3個卷積層采用局部連接,提取不同維度上的特征,不共享卷積核。倒數(shù)第二層采用全連接層提取出對應(yīng)的人臉特征,最后是Softmax層進(jìn)行分類。206DeepFace

207DeepFace

208DeepIDDeepID源于論文于2014年提出,主要針對的是人臉驗證任務(wù)。模型在訓(xùn)練集中對10000個人臉實體進(jìn)行分類,再將學(xué)習(xí)到的特征用于人臉驗證。模型使用人臉上不同的區(qū)域訓(xùn)練多個單獨的ConvNet,每個ConvNet的最后一個隱層為提取到的特征,稱之為DeepID(DeephiddenIDentityfeature)。209Y.Sun,X.Wang,andX.Tang.Deeplearningfacerepresentationfrompredicting10,000classes.InCVPR,pages1891–1898,2014.DeepID210DeepIDConvNet的結(jié)構(gòu)由四層CNN和一層Softmax組成。輸入的不是整個人臉,而是人臉中的某個區(qū)域(Patch)。輸入數(shù)據(jù)有兩種,一種是39*31*k,對應(yīng)矩形區(qū)域,一種是31*31*k,對應(yīng)正方形區(qū)域,其中k當(dāng)輸入是RGB圖像時為3,灰度圖時為1。輸出的特征DeepID是Softmax層之前的隱層,Softmax層只

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論