深度學(xué)習(xí) 課件第2章卷積神經(jīng)網(wǎng)絡(luò)

上傳人：q*** IP屬地：山東上傳時間：2025-05-21 格式：PPTX 頁數(shù)：228 大小：20.32MB 積分：15 舉報 版權(quán)申訴

深度學(xué)習(xí) 課件第2章卷積神經(jīng)網(wǎng)絡(luò)_第2頁

深度學(xué)習(xí) 課件第2章卷積神經(jīng)網(wǎng)絡(luò)_第3頁

深度學(xué)習(xí) 課件第2章卷積神經(jīng)網(wǎng)絡(luò)_第4頁

深度學(xué)習(xí) 課件第2章卷積神經(jīng)網(wǎng)絡(luò)_第5頁

已閱讀5頁，還剩223頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第二章卷積神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)的起源與發(fā)展1卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)2卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練3典型卷積神經(jīng)網(wǎng)絡(luò)45目錄Contents中英文術(shù)語對照7卷積神經(jīng)網(wǎng)絡(luò)的主要應(yīng)用6本章人物卷積神經(jīng)網(wǎng)絡(luò)的起源與發(fā)展1卷積神經(jīng)網(wǎng)絡(luò)的起源4D.H.Hubel（1926-2013）andT.N.Wiesel（1924-）.

Receptivefields,binocularinteractionandfunctionalarchitectureinthecat‘svisualcortex.

JournalofPhysiology,1962,160(1):106-154.Hubel-Weisel實驗（1959年）卷積神經(jīng)網(wǎng)絡(luò)的起源5。簡單細(xì)胞（SimpleCell）：對光束的位置有反應(yīng)。復(fù)雜細(xì)胞（ComplexCell）：對光束的位置和移動有反應(yīng)。超級復(fù)雜細(xì)胞（Hyper-complexCell）：對有端點的光束移動有反應(yīng)。層次關(guān)系：通過對光束特征的不斷提取和綜合實現(xiàn)整個光束的識別。Hubel-Weisel實驗（1959年）卷積神經(jīng)網(wǎng)絡(luò)的起源6KunihikoFukushima.Neocognitron:Aself-organizingneuralnetworkmodelforamechanismofpatternrecognitionunaffectedbyshiftinposition.BiologicalCybernetics,1980,36:193–202.福島邦彥神經(jīng)認(rèn)知機(jī)（1980年）卷積神經(jīng)網(wǎng)絡(luò)的起源7

神經(jīng)認(rèn)知機(jī)（1980年）卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)2卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)10典型的卷積神經(jīng)網(wǎng)絡(luò)一般由卷積層（含激活函數(shù)）、池化層、全連接層和輸出層構(gòu)成，其中卷積層與池化層一般交替排列，之后接一層或者多層全連接層，最后是輸出層。卷積層11卷積運算卷積運算（Convolution）是數(shù)學(xué)中的常見運算，分為離散卷積與連續(xù)卷積。

例子：求兩個骰子之和為4的概率12例子：求兩個骰子之和為4的概率13

例子：求兩個骰子之和為4的概率14例子：求兩個骰子之和為4的概率15兩枚骰子點數(shù)加起來為4的概率為：

f(1)g(3)+f(2)g(2)+f(3)g(1)

寫成標(biāo)準(zhǔn)的形式：

卷積公式

16一維連續(xù)卷積一維離散卷積卷積公式二維卷積：17二維連續(xù)卷積二維離散卷積18卷積層

19卷積層卷積核相當(dāng)于傳統(tǒng)計算機(jī)視覺領(lǐng)域中的特征算子，用于提取圖像特征。傳統(tǒng)的Sobel梯度算子45°方向模板被設(shè)計為：20卷積層數(shù)據(jù)填充：

p=1s=121卷積層在使用PyTorch等深度學(xué)習(xí)框架時，卷積層有Padding參數(shù)，有三種選擇：‘Full’、‘Valid’和‘Same’?！瓼ull’表示需要填充，當(dāng)卷積核與輸入開始接觸時進(jìn)行卷積操作，‘Valid’表示不需要填充，‘Same’表示需要填充并保證輸出與輸入具有相同的尺寸。22卷積層步幅：

p=1s=223卷積層通道（Channel）：一般指的圖像的顏色通道。單通道圖像：一般指的灰度圖像。多通道圖像：一般指的基于RGB的圖像，有R、G、B三個通道。特征圖（Featuremap）：經(jīng)卷積和激活函數(shù)處理后的圖像。24卷積層單通道卷積：單通道圖像的卷積。單卷積核單通道卷積多卷積核單通道卷積25卷積層多通道卷積：多通道圖像的卷積。單卷積核多通道卷積（一般不這樣做）多卷積核多通道卷積26卷積層多通道卷積：多通道圖像的卷積。多卷積核多通道卷積（卷積計算）27卷積層多通道卷積：多通道圖像的卷積。多卷積核多通道卷積（求和）28卷積層多通道卷積：多通道圖像的卷積。多卷積核多通道卷積（偏置（bias））29卷積層

CS231N：http://cs231n.github.io/convolutional-networks/多通道卷積30卷積層卷積層的主要作用淺層卷積層：提取的是圖像基本特征，如邊緣、方向和紋理等特征。深層卷積層：提取的是圖像高階特征，出現(xiàn)了高層語義模式，如“車輪”、“人臉”等特征。31卷積層卷積層的主要作用32卷積層卷積層的主要作用33激活函數(shù)激活函數(shù)的引入，增強(qiáng)了人工神經(jīng)網(wǎng)絡(luò)的非線性表達(dá)能力，從而提高了模型的學(xué)習(xí)能力。在人工神經(jīng)網(wǎng)絡(luò)發(fā)展的初期，Sigmoid激活函數(shù)起到了十分重要的作用，但隨著人工神經(jīng)網(wǎng)絡(luò)層數(shù)的增加以及反向傳播算法的使用，會產(chǎn)生梯度消失問題。在卷積神經(jīng)網(wǎng)絡(luò)中，為了緩解梯度消失問題，常用的激活函數(shù)有ReLU、PReLU、ERU和Maxout等。

34激活函數(shù)Sigmoid激活函數(shù)存在“梯度飽和效應(yīng)”問題，即Sigmoid激活函數(shù)兩端梯度都趨于0，因此在使用誤差反向傳播算法進(jìn)行網(wǎng)絡(luò)訓(xùn)練時，該區(qū)域的誤差無法傳遞到前一層，從而導(dǎo)致網(wǎng)絡(luò)訓(xùn)練失敗。35激活函數(shù)36激活函數(shù)

Tanh激活函數(shù)同樣存在“梯度飽和效應(yīng)”問題，即Tanh激活函數(shù)兩端梯度也都趨于0，因此在使用誤差反向傳播算法進(jìn)行網(wǎng)絡(luò)訓(xùn)練時，該區(qū)域的誤差也無法傳遞到前一層，從而導(dǎo)致網(wǎng)絡(luò)訓(xùn)練失敗。37激活函數(shù)38激活函數(shù)

與Sigmoid激活函數(shù)相比，ReLU在x≥0部分消除了“梯度飽和效應(yīng)”，且ReLU的計算更簡單，計算速度更快。但ReLU本身也存在缺陷，如果輸入為負(fù)值，其梯度等于0，導(dǎo)致“神經(jīng)元死亡”，將無法進(jìn)行權(quán)重更新，進(jìn)而無法完成網(wǎng)絡(luò)訓(xùn)練。即便如此，ReLU仍然是當(dāng)前深度學(xué)習(xí)領(lǐng)域中最為常用的激活函數(shù)之一。39激活函數(shù)40激活函數(shù)

41激活函數(shù)42激活函數(shù)

ELU激活函數(shù)的優(yōu)點是處理含有噪聲的數(shù)據(jù)有優(yōu)勢，與Sigmoid激活函數(shù)相比更容易收斂。ELU激活函數(shù)的缺點是計算量較大，與ReLU激活函數(shù)相比，收斂速度較慢。43激活函數(shù)44激活函數(shù)

Maxout激活函數(shù)的優(yōu)點是能夠緩解梯度消失問題，規(guī)避了ReLU激活函數(shù)“神經(jīng)元死亡”的缺點。Maxout激活函數(shù)的缺點是增加了一層神經(jīng)網(wǎng)絡(luò)，無形中增加了參數(shù)和計算量。45激活函數(shù)卷積神經(jīng)網(wǎng)絡(luò)中的激活函數(shù)選擇CNN在卷積層盡量不要使用Sigmoid和Tanh，將導(dǎo)致梯度消失。首先選用ReLU，使用較小的學(xué)習(xí)率，以免造成神經(jīng)元死亡的情況。如果ReLU失效，考慮使用LeakyReLU、PReLU、ELU或者M(jìn)axout，此時一般情況都可以解決。46激活函數(shù)47池化層池化操作使用某位置相鄰輸出的總體統(tǒng)計特征作為該位置的輸出。常用類型：最大池化（max-pooling）和均值池化（average-pooling）。池化層不包含需要訓(xùn)練學(xué)習(xí)的參數(shù)，僅需指定池化操作的核大小、步幅以及池化類型。48池化層池化層的作用對輸入對象進(jìn)行“降采樣（Downsampling）”操作，一定程度上提高了模型的容錯能力。保證了當(dāng)輸入出現(xiàn)少量平移時，輸出近似不變，增強(qiáng)了網(wǎng)絡(luò)對輸入圖像中的小變形、扭曲、平移的魯棒性(輸入里的微小扭曲不會改變池化輸出）。池化核的指定相當(dāng)于在空間范圍內(nèi)對特征圖的特征進(jìn)行了維度約減，同時縮小了下一層輸入的特征圖尺寸，進(jìn)而在一定程度上減少了網(wǎng)絡(luò)的參數(shù)個數(shù)和計算量。49全連接層全連接層一般由一到多層的全連接神經(jīng)網(wǎng)絡(luò)組成，功能是對卷積層或池化層輸出的特征圖（二維）進(jìn)行降維。50全連接層可以將不同的區(qū)域特征合并為一個完整的特征。/weixin_40903337/article/details/10007487851輸出層分類問題：使用Softmax函數(shù)遞歸問題：使用線性函數(shù)

52卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練以圖像分類任務(wù)為例用隨機(jī)數(shù)初始化網(wǎng)絡(luò)需訓(xùn)練的參數(shù)（如權(quán)重、偏置）。將訓(xùn)練圖像作為輸入，進(jìn)行卷積層、ReLU、池化層以及全連接層的前向傳播，并計算每個類別的對應(yīng)輸出概率。計算輸出層的總誤差：總誤差=-∑(目標(biāo)概率×log?(輸出概率))。使用BP算法計算總誤差相對于所有參數(shù)的梯度，并用梯度下降法或其他優(yōu)化算法更新所有參數(shù)的值，以使輸出誤差最小。卷積核個數(shù)、卷積核大小以及網(wǎng)絡(luò)架構(gòu)，是在步驟1之前就已經(jīng)確定的，且不會在訓(xùn)練過程中改變，只有網(wǎng)絡(luò)的其他參數(shù)，如神經(jīng)元的權(quán)重、偏置會更新。53卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練池化層的訓(xùn)練：把池化層改為多層神經(jīng)網(wǎng)絡(luò)的形式。54卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練池化層的訓(xùn)練：最大池化和均值池化的誤差反向傳播。最大池化均值池化55卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練卷積層的訓(xùn)練：首先把卷積層也改為多層神經(jīng)網(wǎng)絡(luò)的形式，之后使用BP算法進(jìn)行訓(xùn)練。56卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練

57卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練

58卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練

典型卷積神經(jīng)網(wǎng)絡(luò)4LeNet-5AlexNetVGGNetGoolgeNetResNet60經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)61LeNet-5LeNet-5由LeCun等人提出于1998年提出。主要進(jìn)行手寫數(shù)字識別和英文字母識別。LetNet雖小，各模塊齊全，是學(xué)習(xí)CNN的基礎(chǔ)。/exdb/lenet/。Y.LeCun,L.Bottou,Y.Bengio,andP.Haffner.Gradient-basedlearningappliedtodocumentrecognition.ProceedingsoftheIEEE,November1998.62LeNet-563LeNet-5輸入層：尺寸大小為32×32的圖像。C1層（卷積層）：選用6個5×5的卷積核，步長為1，得到6個大小為28×28的特征圖（32-5+1=28），神經(jīng)元的個數(shù)為6×28×28=4704。64LeNet-5S2層（下采樣層）：對C1所得6個28×28的特征圖進(jìn)行均值池化，池化核大小選擇2×2，步長為2，得到的均值乘上一個權(quán)重加上一個偏置作為Sigmoid激活函數(shù)的輸入，得到6個14×14的特征圖，神經(jīng)元個數(shù)為6×14×14=1176。65LeNet-5C3層（卷積層）：選用16個5×5卷積核組（前6個卷積核組中的卷積核個數(shù)為3，中間6個為4，之后3個為4，最后1個為6）對S2層輸出的特征圖進(jìn)行卷積，加偏置和激活函數(shù)(Sigmoid)后得到16張10×10（14-5+1=10）新特征圖。此時神經(jīng)元個數(shù)為16×10×10=1600?！?6LeNet-5S4層（下采樣層）：對C3的16張10×10特征圖進(jìn)行最大池化，池化核大小為2×2，步長為2，得到的最大值乘以一個權(quán)重參數(shù)，再加上一個偏置參數(shù)作為激活函數(shù)（Sigmoid）的輸入，得到16張5×5的特征圖，神經(jīng)元個數(shù)已經(jīng)減少為16×5×5=400。67LeNet-5C5層（卷積層）：選用16個5×5的卷積核進(jìn)行卷積，乘以一個權(quán)重參數(shù)并求和，再加上一個偏置參數(shù)作為激活函數(shù)（Sigmoid）的輸入，得到1×1（5-5+1=1）的特征圖。然后我們希望得到120個特征圖，就要用總共120個5×5卷積核組（每個組16個卷積核）進(jìn)行卷積，神經(jīng)元減少為120個。68LeNet-5F6層（全連接層）：與C5層全連接，有84個神經(jīng)元，對應(yīng)于一個7×12的比特圖。將輸入乘以一個權(quán)重并求和，再加上一個偏置作為Sigmoid函數(shù)的輸入，得到84個值。ASCII編碼圖（每個字符7X12像素）C5層120個69LeNet-5Output層（全連接層）：與F6層全連接，共有10個神經(jīng)元，分別代表數(shù)字0到9。輸出層采用徑向基函數(shù)（RadialBasisFunction，RBF）的網(wǎng)絡(luò)連接方式。70LeNet-5

71LeNet-5總結(jié)：卷積核大小、卷積核個數(shù)（特征圖需要多少個）、池化核大小和步長等這些參數(shù)都是變化的，這就是所謂的CNN調(diào)參，需要學(xué)會根據(jù)需要進(jìn)行不同的選擇。72AlexNetAlexNet由Hinton的學(xué)生AlexKrizhevsky于2012年提出。獲得ImageNetLSVRC-2012（物體識別挑戰(zhàn)賽）的冠軍，數(shù)據(jù)集包含1000個類別120萬幅高清圖像，Error:26.2%(2011)→15.3%(2012)。通過AlexNet確定了CNN在計算機(jī)視覺領(lǐng)域的王者地位。A.Krizhevsky,I.Sutskever,andG.Hinton.Imagenetclassificationwithdeepconvolutionalneuralnetworks.InNIPS,2012.73AlexNet首次成功應(yīng)用ReLU作為CNN的激活函數(shù)。使用Dropout丟棄部分神元，避免了過擬合。使用重疊MaxPooling（讓池化層的步長小于池化核的大?。?，提升了特征的豐富性。首次使用CUDA加速訓(xùn)練過程。使用了數(shù)據(jù)增強(qiáng)，在原始圖像大小為256×256的原始圖像中重復(fù)截取224×224大小的區(qū)域，大幅增加了數(shù)據(jù)量。對圖像數(shù)據(jù)通過主成分分析方法進(jìn)行降維處理。74AlexNetAlexNet的原始結(jié)構(gòu)75AlexNetAlexNet的簡化結(jié)構(gòu)76AlexNetAlexNet可分為8層（池化層未單獨算作一層），包括5個卷積層以及3個全連接層。輸入層：AlexNet首先使用大小為224×224×3圖像作為輸入，后改為227×227×3。77AlexNet第一個卷積層（含池化）：包含96個大小為11×11的卷積核組，卷積步長為4，因此第一層輸出大小為55×55×96（（227-11）/4+1=55），分為兩組，每組48個；然后構(gòu)建一個核大小為3×3、步長為2的最大池化層進(jìn)行數(shù)據(jù)降采樣，進(jìn)而輸出大小為27×27×96(（55-3）/2+1=27)，每組48個。78AlexNet第二個卷積層（含池化）：包含256個大小為5×5的卷積核組，卷積步長為1，同時利用padding保證輸出尺寸不變，因此該層輸出大小為27×27×256；然后再次通過核大小為3×3、步長為2的最大池化層進(jìn)行數(shù)據(jù)降采樣，進(jìn)而輸出大小為13×13×256((27-3）/2+1=13)。79AlexNet第三層與第四層（卷積層）：均為卷積核大小為3×3、步長為1的same卷積，共包含384個卷積核，因此兩層的輸出大小都為13×13×384。80AlexNet第五層（卷積層）：同樣為卷積核大小為3×3、步長為1的same卷積，但包含256個卷積核，進(jìn)而輸出大小為13×13×256；在數(shù)據(jù)進(jìn)入全連接層之前再次通過一個核大小為3×3、步長為2的最大池化層進(jìn)行數(shù)據(jù)降采樣，數(shù)據(jù)大小降為6×6×256((13-3)/2+1=6)，并將數(shù)據(jù)扁平化處理展開為9216個單元。81AlexNet第一個、第二個和第三個全連接層：第一個全連接層與第二個全連接層的神經(jīng)元個數(shù)都是4096，第三個全連接層神經(jīng)元個數(shù)為1000個，使用Softmax分類器輸出1000類的分類結(jié)果。82VGG-16

K.SimonyanandA.Zisserman.Verydeepconvolutionalnetworksforlarge-scaleimagerecognition.InICLR,2015.83VGG-1684VGG-16

Conv1Conv2Conv3Conv4Conv5卷積層數(shù)22333卷積核數(shù)6412825651251285VGG-16兩個卷積核大小為3*3的卷積層串聯(lián)后的感受野尺寸為5*5，相當(dāng)于單個卷積核大小為5*5的卷積層。兩者參數(shù)數(shù)量比值為(2*3*3)/(5*5)=72%

，前者參數(shù)量更少。此外，兩個卷積層串聯(lián)可使用兩次ReLU激活函數(shù)，而一個卷積層只使用一次。86GoogleNet由Google公司2014年提出，獲得ImageNetLSVRC-2014冠軍。它的主要思想是除了在網(wǎng)絡(luò)深度上加深（22層）之外，在寬度上也加寬。GoogleNet的核心是Inception模塊，Inception模塊包含4個分支，每個分支均使用了1×1卷積，它可以跨通道組織信息，提高網(wǎng)絡(luò)的表達(dá)能力，同時還可以對輸出通道進(jìn)行升維和降維。Inception模塊中包含了1×1、3×3、5×5三種不同尺寸的卷積和1個3×3最大池化，增強(qiáng)了網(wǎng)絡(luò)對不同尺度特征圖的適應(yīng)性。87GoogleNet深度：層數(shù)更深，采用了22層。寬度：InceptionModule包含4個分支，在卷積核3x3、5x5之前、maxpooling之后分別加上了1x1的卷積核，起到了降低特征圖厚度的作用。88InceptionNetInception四個版本所對應(yīng)的論文及ILSVRC中的Top-5錯誤率：[v1]GoingDeeperwithConvolutions:6.67%testerror。[v2]BatchNormalization:AcceleratingDeepNetworkTrainingbyReducingInternalCovariateShift:4.8%testerror。[v3]RethinkingtheInceptionArchitectureforComputerVision:3.5%testerror。[v4]Inception-v4,Inception-ResNetandtheImpactofResidualConnectionsonLearning:3.08%testerror。

參考鏈接：/p/cc830a6ed54b

89ResNetResNet（ResidualNeuralNetwork），又叫做殘差神經(jīng)網(wǎng)絡(luò)，是由微軟研究院的何凱明等人2015年提出。獲得ImageNetILSVRC2015比賽冠軍。獲得CVPR2016最佳論文獎。KaimingHe,XiangyuZhang,ShaoqingRen,JianSun.DeepResidualLearningforImageRecognition.CVPR2016:770-77890ResNet隨著卷積網(wǎng)絡(luò)層數(shù)的增加，誤差的逆?zhèn)鞑ミ^程中存在的梯度消失和梯度爆炸問題同樣也會導(dǎo)致模型的訓(xùn)練難以進(jìn)行。甚至?xí)霈F(xiàn)隨著網(wǎng)絡(luò)深度的加深，模型在訓(xùn)練集上的訓(xùn)練誤差會出現(xiàn)先降低再升高的現(xiàn)象。殘差網(wǎng)絡(luò)的引入則有助于解決梯度消失和梯度爆炸問題。91ResNet梯度消失和梯度爆炸問題原因深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練問題。激活函數(shù)問題。/qq_25737169/article/details/78847691。92ResNetResNet的核心是叫做殘差塊（Residualblock）的小單元，殘差塊可以視作在標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上加入了跳躍連接（Skipconnection）。

93ResNet卷積神經(jīng)網(wǎng)絡(luò)的主要應(yīng)用595卷積神經(jīng)網(wǎng)絡(luò)的主要應(yīng)用目標(biāo)檢測：R-CNN系列，YOLO系列圖像分割：FCN，SegNet，UNet姿態(tài)估計：DeepPose，基于沙漏網(wǎng)絡(luò)的姿態(tài)估計人臉識別：DeepFace，DeepID/DeepID2，F(xiàn)aceNet96目標(biāo)檢測目標(biāo)檢測是指將圖像或者視頻中的目標(biāo)物體用邊框（BoundingBox）標(biāo)記并識別出該目標(biāo)物體的類別。目前目標(biāo)檢測任務(wù)有兩類模型一類是以區(qū)域卷積神經(jīng)網(wǎng)絡(luò)（Region-CNN，R-CNN）系列為代表的兩階段模型一類是以YOLO系列為代表的一階段模型97R-CNN系列R-CNN由RossGirshick等人2014年提出。首先在ImageNet上訓(xùn)練模型，然后在PASCALVOC數(shù)據(jù)集上進(jìn)行Fine-tuning。在PascalVOC2012的數(shù)據(jù)集上，能夠?qū)⒛繕?biāo)檢測的驗證指標(biāo)mAP提升到53.7%，這相對于之前最好的結(jié)果提升了整整13.3%。RossB.Girshick,JeffDonahue,TrevorDarrell,JitendraMalik.RichFeatureHierarchiesforAccurateObjectDetectionandSemanticSegmentation.CVPR2014:580-58798R-CNN系列99R-CNN系列實現(xiàn)過程區(qū)域劃分：給定一張輸入圖片，采用SelectiveSearch算法從圖片中提取2000左右類別獨立的候選區(qū)域。特征提取：對于每個區(qū)域利用Alexnet抽取一個固定長度的特征向量。目標(biāo)分類：對每個區(qū)域利用SVM

進(jìn)行分類。邊框回歸：使用BoundingboxRegression（Bbox回歸)進(jìn)行邊框坐標(biāo)偏移優(yōu)化和調(diào)整。100R-CNN系列Crop就是從一個大圖摳出網(wǎng)絡(luò)輸入大小的patch，比如227×227Warp把一個邊界框boundingbox的內(nèi)容resize成227×227101R-CNN系列區(qū)域劃分SelectiveSearch算法的核心思想：圖像中物體可能存在的區(qū)域應(yīng)該有某些相似性或者連續(xù)性的，算法采用子區(qū)域合并的方法提取候選邊界框。首先，通過圖像分割算法將輸入圖像分割成許多小的子區(qū)域。其次，根據(jù)這些子區(qū)域之間的相似性(主要考慮顏色、紋理、尺寸和空間交疊4個方面的相似性)

進(jìn)行區(qū)域迭代合并。每次迭代過程中對這些合并的子區(qū)域做Boundingboxes(外切矩形)，這些子區(qū)域的外切矩形就是通常所說的候選框。SelectiveSearch算法相似度計算考慮了顏色、紋理、尺寸和是否交疊四個方面：102R-CNN系列[1]PedroF.Felzenszwalb,DanielP.Huttenlocher.EfficientGraph-BasedImageSegmentation.IJCV,200459(2):167-181JasperR.R.Uijlings,KoenE.A.vandeSande,TheoGevers,ArnoldW.M.Smeulders.SelectiveSearchforObjectRecognition.IJCV,2013,104(2):154-171層次分組算法（HierarchicalGroupAlgorithm）輸入：（彩色）圖像輸出：目標(biāo)定位假設(shè)L的集合EndEnd103R-CNN系列104R-CNN系列105R-CNN系列SVM分類（二分類）訓(xùn)練時，把Ground-truth作為該類別的正例，把IoU小于0.3的Proposal作為該類別的負(fù)例。調(diào)優(yōu)CNN時，把IoU大于0.5的Proposal作為該類別的正例，其他作為負(fù)例（所有類別的背景）。IntersectionoverUnionIoU=(A∩B)/(A∪B)106R-CNN系列邊框回歸GroundtruthProposal107R-CNN系列邊框回歸：是使得預(yù)測的邊框盡可能與人工標(biāo)定的邊框越接近越好。108R-CNN系列

109R-CNN系列

110R-CNN系列

基于邊長的歸一化尺度比例的對數(shù)111R-CNN系列

112R-CNN系列邊框回歸113R-CNN系列mAP:meanAveragePrecision,是多標(biāo)簽圖像分類任務(wù)中的評價指標(biāo)。AP衡量的是學(xué)出來的模型在給定類別上的好壞，而mAP衡量的是學(xué)出的模型在所有類別上的好壞。/xw_2_xh/article/details/88190806114SPPNet

KaimingHe,XiangyuZhang,ShaoqingRen,JianSun.

SpatialPyramidPoolinginDeepConvolutionalNetworksforVisualRecognition.IEEETrans.PatternAnal.Mach.Intell.37(9):1904-1916(2015)115SPPNet

KaimingHe,XiangyuZhang,ShaoqingRen,JianSun.

SpatialPyramidPoolinginDeepConvolutionalNetworksforVisualRecognition.IEEETrans.PatternAnal.Mach.Intell.37(9):1904-1916(2015)116R-CNN系列SPPnet如圖所示，在conv5層得到的特征圖是256個，每個都做一次spatialpyramidpooling。先把每個特征圖分割成多個不同尺寸的網(wǎng)格，比如網(wǎng)格分別為4*4、2*2、1*1,然后對每個網(wǎng)格做maxpooling，這樣256個特征圖就形成了16*256，4*256，1*256維特征。它們連起來就形成了一個固定長度的特征向量，將這個向量輸入到后面的全連接層。117R-CNN系列FastR-CNN使用Softmax分類替換R-CNN中的SVM分類。將候選框目標(biāo)分類與邊框回歸同時放入全連接層，形成一個多任務(wù)學(xué)習(xí)（Multi-taskLearning）模型，設(shè)計了聯(lián)合損失函數(shù)，將Softmax分類、邊框回歸一起訓(xùn)練。添加感興趣區(qū)域池化（RegionofInterestPooling，RoIPooling）層，實現(xiàn)了不同大小區(qū)域特征圖的池化。訓(xùn)練時所有的特征存在緩存中，不再存到硬盤上，提升了速度。RossB.Girshick.

FastR-CNN.ICCV2015:1440-1448118R-CNN系列訓(xùn)練時：RoI共64個測試時：RoI共2000個119R-CNN系列120R-CNN系列ROIPooling層：將每個候選區(qū)域均勻分成M×N塊，對每塊進(jìn)行maxpooling。將特征圖上大小不一的候選區(qū)域轉(zhuǎn)變?yōu)榇笮〗y(tǒng)一的數(shù)據(jù)，送入下一層。121R-CNN系列在R-CNN中的流程是先提proposal，然后CNN提取特征，之后用SVM分類器，最后再做Bbox回歸進(jìn)行候選框的微調(diào)。FastR-CNN在CNN提取特征后，做一個RoIpooling，再將候選框目標(biāo)分類與Bbox回歸同時放入全連接層，形成一個multi-task模型。122R-CNN系列

即對真實分類的概率取負(fù)log123R-CNN系列

124R-CNN系列125R-CNN系列126R-CNN系列FasterR-CNNRPN（RegionProposalNetwork）：使用全卷積神經(jīng)網(wǎng)絡(luò)來生成區(qū)域建議（Regionproposal），替代之前的Selectivesearch。

ShaoqingRen,KaimingHe,RossB.Girshick,JianSun.FasterR-CNN:TowardsReal-TimeObjectDetectionwithRegionProposalNetworks.IEEETrans.PatternAnal.Mach.Intell.39(6):1137-1149(2017)127R-CNN系列/p/31426458128R-CNN系列FasterR-CNN卷積層（Convlayers）：首先使用一組Conv+ReLU+Pooling組合提取Image的特征圖（Featuremaps），特征圖被共享用于后續(xù)的RPN和RoIPooling。區(qū)域建議網(wǎng)絡(luò)（RegionProposalNetworks，RPN）：RPN用于生成regionproposals。它通過Softmax判斷區(qū)域是有目標(biāo)的正例（Positive）還是沒有目標(biāo)的負(fù)例（Negative），再利用邊框回歸獲得候選區(qū)域。129R-CNN系列FasterR-CNNRoIPooling：該層接收卷積層的featuremaps和RPN層的proposals，綜合這些信息后提取proposalfeaturemaps，送入全連接層判定目標(biāo)類別。Classification：利用proposalfeaturemaps計算proposal的類別，同時再次使用Bbox回歸獲得檢測框最終的精確位置。130R-CNN系列RPNAnchor：矩形框。RPN中使用了長寬比為1:1,1:2和2:1三種矩形框。輸入圖像需要reshape適應(yīng)Anchor大小。131R-CNN系列RPNClslayer用Softmax計算Anchor內(nèi)是某個object的概率。Reglayer實現(xiàn)Anchor邊界框回歸輸出。132R-CNN系列RPN通過Softmax分類anchors獲得positive和negative分類。計算anchors的Bbox回歸的偏移量。最后的Proposal綜合positiveanchors和對應(yīng)Bbox回歸偏移量獲取proposals，同時剔除太小和超出邊界的proposals。133R-CNN系列

134R-CNN系列

135R-CNN系列FasterR-CNN訓(xùn)練方式Alternatingtraining。Approximatejointtraining。Non-approximatejointtraining。136R-CNN系列137R-CNN系列138R-CNN系列139YOLO系列YOLO與R-CNN系列最大的區(qū)別是用一個卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)(one-stage)就可以從輸入圖像直接預(yù)測boundingbox和類別概率，實現(xiàn)了End2End訓(xùn)練?？梢詫W(xué)到物體的全局信息，背景誤檢率比R-CNN降低一半，泛化能力強(qiáng)。準(zhǔn)確率不如R-CNN高，小物體檢測效果較差。速度非?？?，實時性好。JosephRedmon,SantoshKumarDivvala,RossB.Girshick,AliFarhadi.YouOnlyLookOnce:Unified,Real-TimeObjectDetection.CVPR2016:779-788140YOLO系列141YOLO系列若某個物體的中心位置的坐標(biāo)落入到某個格子，那么這個格子就負(fù)責(zé)檢測出這個物體142YOLO系列x，y是boundingbox中心位置相對于當(dāng)前格子位置的偏移值，并且被歸一化到[0,1]內(nèi)。w和h的值根據(jù)圖像的寬度和高度把boundingbox寬度和高度歸一化到[0,1]內(nèi)。143YOLO系列

xy144YOLO系列145YOLO系列146YOLO系列

147YOLO系列

148YOLO系列

149YOLO系列

150YOLO系列YOLO損失函數(shù)位置誤差含有目標(biāo)的置信度誤差不含目標(biāo)的置信度誤差分類誤差第i個Cell的第j個Bbox負(fù)責(zé)object，與groundtruthBbox的IoU值最大的負(fù)責(zé)151YOLO系列152YOLO系列YOLO2和YOLO9000JosephRedmon,AliFarhadi.YOLO9000:Better,Faster,Stronger.CVPR2017:6517-6525153YOLO系列YOLOv2Batchnormalization:在每一個卷積層后添加batchnormalization，極大的改善了收斂速度同時減少了對其它regularization方法的依賴，使得mAP獲得了2%的提升。分辨率修改：YOLOv2首先修改預(yù)訓(xùn)練分類網(wǎng)絡(luò)的分辨率為448*448，在ImageNet數(shù)據(jù)集上訓(xùn)練10輪（10epochs），mAP獲得了4%的提升。多尺度訓(xùn)練：YOLO使用全連接層數(shù)據(jù)進(jìn)行boundingbox預(yù)測（要把1470*1的全鏈接層reshape為7*7*30的最終特征），這會丟失較多的空間信息導(dǎo)致定位不準(zhǔn)，丟棄全連接層使用RPN中的anchorbox去做Bbox回歸。154YOLO系列BatchnormalizationSergeyIoffe,

ChristianSzegedy.BatchNormalization:AcceleratingDeepNetworkTrainingbyReducingInternalCovariateShift./abs/1502.03167v3155YOLO系列YOLO2156YOLO系列YOLO9000首先基于Wordnet構(gòu)建WordTree層次分類?；赪ordTree進(jìn)行圖像分類和目標(biāo)檢測的聯(lián)合訓(xùn)練。157YOLO系列YOLOV3更好的主干網(wǎng)Darknet-53。多尺度預(yù)測。更好的分類器：Softmax不適用于多標(biāo)簽分類使用獨立的多個logistic分類器，準(zhǔn)確率不會下降158YOLO系列YOLOV3159YOLO系列YOLOv4使用CSPDarknet-53作為骨干網(wǎng)絡(luò)，并引入特征金字塔池化、Mosaic數(shù)據(jù)增強(qiáng)和Mish激活函數(shù)等改進(jìn)方法，與YOLOv3相比，檢測準(zhǔn)確率有較大的提升。YOLOv5與YOLOv4相比，改進(jìn)不大，主要是把最大池化由并行改為了串行。YOLOv6的改進(jìn)也不大，主要的改進(jìn)是骨干網(wǎng)絡(luò)由CSPDarknet-53改為了EfficientRep。160YOLO系列Mosaic數(shù)據(jù)增強(qiáng)：將四張圖片進(jìn)行拼接到一張圖上作為訓(xùn)練樣本隨機(jī)選取四張圖片。對每張圖片進(jìn)行數(shù)據(jù)增強(qiáng)，翻轉(zhuǎn)、縮放、色域變化。進(jìn)行圖片的組合和候選框的組合，形成一張圖片。Mish激活函數(shù)：光滑函數(shù)，比ReLU泛化能力更好161圖像分割全卷積網(wǎng)絡(luò)（FullyConvolutionalNetworks，F(xiàn)CN）是使用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像分割的開山之作。FCN與傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)不同，僅包含卷積層和池化層，不再包含全連接層和輸出層。因此，它也不再對整幅圖像進(jìn)行分類，而是實現(xiàn)了像素級的分類，進(jìn)而輸出圖像分割的結(jié)果。J.Long,E.Shelhamer,andT.Darrell,“Fullyconvolutionalnetworksforsemanticsegmentation,”inProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition,2015,pp.3431–3440.FCN162FCN與傳統(tǒng)CNN的區(qū)別FCN163FCN中的卷積過程和上采樣過程FCN164image經(jīng)過多個conv和一個maxpooling變?yōu)閜ool1feature，特征圖的寬高變?yōu)?/2。pool1feature再經(jīng)過多個conv和一個maxpooling變?yōu)閜ool2feature，特征圖的寬高變?yōu)?/4。pool2feature再經(jīng)過多個conv和一個maxpooling變?yōu)閜ool3feature，特征圖的寬高變?yōu)?/8。直到pool5feature，寬高變?yōu)?/32。FCN中的卷積過程FCN165對于FCN-32s，直接對pool5feature進(jìn)行32倍上采樣獲得32xupsampledfeature，再對32xupsampledfeature每個點做softmaxprediction獲得32xupsampledfeatureprediction（即分割圖）。對于FCN-16s，首先對pool5feature進(jìn)行2倍上采樣獲得2xupsampledfeature，再把pool4feature和2xupsampledfeature逐點相加，然后對相加的feature進(jìn)行16倍上采樣，并softmaxprediction，獲得16xupsampledfeatureprediction。對于FCN-8s，首先進(jìn)行pool4+2xupsampledfeature逐點相加，然后又進(jìn)行pool3+2xupsampledfeature逐點相加，即進(jìn)行更多次特征融合。FCN中的上采樣過程FCN166上采樣（upsampling）一般包括2種方式：調(diào)整尺寸(Resize)，如使用雙線性插值進(jìn)行圖像放大。逆卷積(Deconvolution)，也叫TransposedConvolution。FCN167

FCN168SegNet169V.Badrinarayanan,A.Kendall,andR.Cipolla.

Segnet:Adeepconvolutionalencoder-decoderarchitectureforimagesegmentation,arXivpreprintarXiv:1511.00561,2016.http://mi.eng.cam.ac.uk/projects/segnet/EncoderVGG-16，13個卷積層（卷積+BatchNormalization+ReLU），不含全連接層。5個最大池化層。進(jìn)行2×2最大池化時，存儲相應(yīng)的最大池化索引（位置）。170SegNetDecoderVGG-16，13個卷積層（卷積+BatchNo-rmalization+ReLU），不含全連接層。5個上采樣層，采用Encoder的最大池化索引進(jìn)行上采樣。使用K類Softmax分類器來預(yù)測每個像素的類別。171SegNetSegNet172SegNet173SegNet174UNet175OlafRonneberger,PhilippFischer,andThomasBrox.

U-Net:ConvolutionalNetworksforBiomedicalImageSegmentation.arXiv:1505.04597v1[cs.CV]18May2015Encoder-Decoder架構(gòu)Encoder：左半部分，由兩個3x3的卷積層（RELU）再加上一個2x2的Maxpooling層組成，一共下采樣4次。Decoder：右半部分，由一個上采樣的逆卷積層加上特征拼接再加上兩個3x3的卷積層（ReLU）組成，也相應(yīng)上采樣4次。176UNetSkipconnection在同一個層次進(jìn)行了特征Copy，保證了最后恢復(fù)出來的特征圖融合了更多的底層特征，也使得不同尺度（scale）的特征得到了的融合，從而可以進(jìn)行多尺度預(yù)測，4次上采樣也使得分割圖恢復(fù)邊緣等信息更加精細(xì)。177UNetUNet178UNet179基于UNet的眼球血管圖像分割DRIVE數(shù)據(jù)集，/UNet180基于UNet的醫(yī)學(xué)圖像分割姿態(tài)估計181姿態(tài)估計（PoseEstimation）：可視為圖像或視頻中人體關(guān)節(jié)位置（也稱為關(guān)鍵點，如手肘、膝蓋、肩膀等）的定位問題，因此也被稱為人體關(guān)鍵點檢測。MSCOCO人體姿態(tài)關(guān)鍵點格式人體姿態(tài)識別示例0:nose1:neck2:rightshoulder3:rightelbow4:rightwrist5:leftshoulder6:leftelbow7:leftwrist8:righthip9:rightknee10:rightankle11:lefthip12:leftknee13:leftankle14:righteye15:lefteye16:rightear17:leftear姿態(tài)估計182姿態(tài)估計分類單人姿態(tài)估計（SinglePersonPoseEstimation，SPPE）。多人姿態(tài)估計（MultiplePersonPoseEstimation，MPPE）。姿態(tài)估計方法最初集中于SPPE，但MPPE更符合實際情況但也更難，隨著更多的MPPE數(shù)據(jù)集出現(xiàn)，針對MPPE的工作越來越多。姿態(tài)估計183多人姿態(tài)估計方法Top-Down方法：首先利用目標(biāo)檢測器檢測圖像中出現(xiàn)的多個人，然后使用SPPE模型估計每一個人的姿態(tài)。Bottom-Up方法：首先檢測出圖像中所有的關(guān)鍵點位置，然后問題轉(zhuǎn)換為關(guān)鍵點的分配問題，將屬于不同人的關(guān)鍵點進(jìn)行關(guān)聯(lián)和組合。姿態(tài)估計184Top-Down方法：先目標(biāo)檢測，然后對單人進(jìn)行姿態(tài)估計。Bottom-Up方法：先檢測出所有的關(guān)鍵點，然后進(jìn)行關(guān)鍵點之間的關(guān)聯(lián)。姿態(tài)估計185Top-Down方法優(yōu)點：思路直觀，易于實現(xiàn)，單人姿態(tài)估計精度高。缺點：依賴于人體目標(biāo)檢測的效果，無法很好的解決遮擋問題，并且速度會隨著圖像場景中人數(shù)的增加而變慢。Bottom-Up方法優(yōu)點：整個圖像只需要處理一次，且速度不受圖像場景中人數(shù)變化影響，相對而言實時性更好。缺點：精度相對不如Top-Down方法，同樣無法很好解決遮擋問題。姿態(tài)估計186單人姿態(tài)估計（DeepPose）

DeepPose是使用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行人體姿態(tài)識別的開山之作，將姿態(tài)估計問題轉(zhuǎn)換為圖像的卷積特征提取與關(guān)鍵點坐標(biāo)位置回歸問題。藍(lán)色為卷積層，綠色為全連接層AlexanderToshev,

ChristianSzegedy:DeepPose:

Human

Pose

Estimation

via

Deep

Neural

Networks.

CVPR2014:

1653-1660姿態(tài)估計187

姿態(tài)估計188

姿態(tài)估計189單人姿態(tài)估計（DeepPose）

模型還使用了級聯(lián)回歸器（cascadedregressors）對預(yù)測結(jié)果進(jìn)行細(xì)化。模型基于前一階段預(yù)測坐標(biāo)位置對圖像進(jìn)行局部裁剪作為現(xiàn)階段的輸入，因此現(xiàn)階段的輸入有著更高的分辨率，從而能學(xué)習(xí)到更為精細(xì)的尺度特征，以此來對前一階段的預(yù)測結(jié)果進(jìn)行細(xì)化。綠色為groundtruth，紅色為每一階段輸出姿態(tài)估計190

姿態(tài)估計191單人姿態(tài)估計（StackedHourglass）

StackedHourglass的提出有著里程碑式的意義，不僅在姿態(tài)估計各數(shù)據(jù)集取得了當(dāng)時SOTA的效果，后續(xù)也被應(yīng)用于目標(biāo)檢測、分割等領(lǐng)域。下圖中重復(fù)的形似沙漏的結(jié)構(gòu)就是Hourglass模塊。AlejandroNewell,KaiyuYang,JiaDeng:StackedHourglassNetworksforHumanPoseEstimation.ECCV(8)2016:483-499姿態(tài)估計192單人姿態(tài)估計（StackedHourglass）

Hourglass模塊包含重復(fù)的降采樣（高分辨率到低分辨率）和上采樣（低分辨率到高分辨率），此外還使用了殘差連接保存不同分辨率下的空間信息。與DeepPose采用級聯(lián)回歸器目的相似，Hourglass模塊的初衷在于捕捉與利用多個尺度上的信息，例如局部特征信息對于識別臉部、手部等特征十分重要，但人體最終的姿態(tài)估計也需要圖像的全局特征信息。姿態(tài)估計193

姿態(tài)估計194單人姿態(tài)估計（StackedHourglass）

人臉識別所謂人臉識別，就是利用計算機(jī)分析人臉圖像，并從中提取出有效的特征，最終判別人臉對象的身份。人臉識別已經(jīng)成為計算機(jī)視覺領(lǐng)域的最重要的應(yīng)用之一，目前在人們生產(chǎn)和生活的很多方面開展了應(yīng)用，包括乘坐高鐵、飛機(jī)時的身份驗證、銀行賬戶驗證、手機(jī)支付驗證等。195人臉識別人臉識別宏觀上分為兩種：人臉驗證/人臉比對（FaceVerification）

1比1的比對，即判斷兩張圖片里的人是否為同一人。應(yīng)用場景：手機(jī)人臉解鎖。人臉識別（FaceIdentification）1比N的比對，即判斷系統(tǒng)當(dāng)前見到的人，為數(shù)據(jù)庫中眾多人中的哪一個。應(yīng)用場景：疑犯追蹤，小區(qū)門禁，會場簽到，客戶識別。196人臉識別傳統(tǒng)人臉識別的主要思路是設(shè)計特征提取器，再利用機(jī)器學(xué)習(xí)算法對提取特征進(jìn)行分類。核心思想為：不同人臉由不同特征組成。5個特征，可識別32張臉特征越多，識別能力越強(qiáng)神經(jīng)網(wǎng)絡(luò)具有自動提取特征的能力，與人臉識別任務(wù)很契合！197人臉識別人臉識別的性能，取決于特征的數(shù)量與辨識度，并依托于假設(shè)：同一個人在不同照片里的臉，在特征空間里非常接近。不同人的臉在特征空間里相距較遠(yuǎn)。實際應(yīng)用中，光照、遮擋、形變（表情）、側(cè)臉等諸多條件下，會導(dǎo)致“異常臉”的出現(xiàn)：異常臉在特征空間里落到錯誤的位置，導(dǎo)致識別和驗證失敗。無論是傳統(tǒng)算法，還是深度學(xué)習(xí)，目前皆處理不好異常臉情況。通常采用拒絕辨識，限制識別環(huán)境等方式。198數(shù)據(jù)集2007年發(fā)布的LFW是第一個在非限定環(huán)境下進(jìn)行人臉識別的數(shù)據(jù)集。2014年發(fā)布的CASIA-Webface是第一個被廣泛使用的公共訓(xùn)練集，自此之后涌現(xiàn)了許多大規(guī)模的訓(xùn)練集，如包含260萬張人臉的VGGFace。上圖中粉紅色框內(nèi)多被用來作為大規(guī)模訓(xùn)練集，其余則作為不同任務(wù)和場景下的測試集。199數(shù)據(jù)集LFW（LabeledFacesintheWild）專為研究非受限人臉識別問題而設(shè)計的人臉照片數(shù)據(jù)庫。包含從網(wǎng)絡(luò)收集的超過13,000張人臉圖像。每張臉都標(biāo)有人物的名字，有1680人有兩張或更多張不同的照片。人臉圖片均來源于生活中的自然場景，因此識別難度會增大，尤其由于多姿態(tài)、光照、表情、年齡、遮擋等因素影響導(dǎo)致即使同一人的照片差別也很大。有些照片中可能不止一個人臉出現(xiàn)（此時僅選擇中心坐標(biāo)的人臉作為目標(biāo)，其余視為噪聲）。200數(shù)據(jù)集MatchPairsMismatchPairsLFW數(shù)據(jù)集中的圖片被兩兩分組，這兩張圖片可能來自同一個人（如左圖），也可能來自不同的人（如右圖）。模型需要做的就是判斷兩張照片是否來自同一個人。201

評估指標(biāo)202DeepFaceDeepFace是2014年，F(xiàn)acebook提出的模型，是CNN在人臉識別領(lǐng)域的奠基之作，具有以下貢獻(xiàn)：人臉識別中，通常經(jīng)過四個步驟：檢測，對齊（校正），表示，分類。論文主要闡述了在對齊和表示這兩個步驟上提出了新的方法，模型的表現(xiàn)超越了前人的工作，在LFW上達(dá)到了97.35%的人臉驗證精度。對齊方面主要使用了3D人臉模型來對齊人臉。表示方面使用了一個9層的CNN，其中使用了局部卷積。對齊可理解為：獲取正臉（去噪）表示可理解為：構(gòu)造特征Y.Taigman,M.Yang,M.Ranzato,andL.Wolf.Deepface:Closingthegaptohuman-levelperformanceinfaceverification.InCVPR,pages1701–1708,2014.203DeepFace204DeepFace對齊用LBP+SVR的方法檢測出人臉的6個基準(zhǔn)點，眼鏡兩個點，鼻子一個點，嘴巴三個點，如圖(a)。通過擬合一個對基準(zhǔn)點的轉(zhuǎn)換（縮放，旋轉(zhuǎn)，平移）對圖像進(jìn)行裁剪，得到圖(b)。對圖像定位67個基準(zhǔn)點，并進(jìn)行三角剖分，得到圖(c)。用一個3D人臉庫USFHuman-ID得到一個平均3D人臉模型（正臉），如圖(d)。學(xué)習(xí)一個3D人臉模型和原2D人臉之間的映射P，并可視化為三角塊，如圖(e)。通過相關(guān)的映射，把原2D人臉中的基準(zhǔn)點轉(zhuǎn)換成3D模型產(chǎn)生的基準(zhǔn)點，得到圖(f)。最后的正臉，圖(g)。205LocalBinaryPattern：每個像素與周圍像素的關(guān)系SupportVectorRegression:使到超平面最遠(yuǎn)的樣本點的“距離”最小DeepFace表示前3層采用傳統(tǒng)的卷積和池化提取信息，共享卷積核。后3個卷積層采用局部連接，提取不同維度上的特征，不共享卷積核。倒數(shù)第二層采用全連接層提取出對應(yīng)的人臉特征，最后是Softmax層進(jìn)行分類。206DeepFace

207DeepFace

208DeepIDDeepID源于論文于2014年提出，主要針對的是人臉驗證任務(wù)。模型在訓(xùn)練集中對10000個人臉實體進(jìn)行分類，再將學(xué)習(xí)到的特征用于人臉驗證。模型使用人臉上不同的區(qū)域訓(xùn)練多個單獨的ConvNet，每個ConvNet的最后一個隱層為提取到的特征，稱之為DeepID(DeephiddenIDentityfeature)。209Y.Sun,X.Wang,andX.Tang.Deeplearningfacerepresentationfrompredicting10,000classes.InCVPR,pages1891–1898,2014.DeepID210DeepIDConvNet的結(jié)構(gòu)由四層CNN和一層Softmax組成。輸入的不是整個人臉，而是人臉中的某個區(qū)域（Patch）。輸入數(shù)據(jù)有兩種，一種是39*31*k,對應(yīng)矩形區(qū)域，一種是31*31*k，對應(yīng)正方形區(qū)域，其中k當(dāng)輸入是RGB圖像時為3，灰度圖時為1。輸出的特征DeepID是Softmax層之前的隱層，Softmax層只

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

深度學(xué)習(xí) 課件第2章卷積神經(jīng)網(wǎng)絡(luò)

文檔簡介

溫馨提示

最新文檔

評論

深度學(xué)習(xí) 課件 第2章 卷積神經(jīng)網(wǎng)絡(luò)

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔

深度學(xué)習(xí) 課件第2章卷積神經(jīng)網(wǎng)絡(luò)