深度學習調研報告_第1頁
深度學習調研報告_第2頁
深度學習調研報告_第3頁
深度學習調研報告_第4頁
深度學習調研報告_第5頁
已閱讀5頁,還剩14頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

調研報告目前人臉識別的主要研究方法有3種。①基于模板匹配的方法。模板匹配是指固定模板匹配和形變模板匹配。固定模板匹配是通過計算人臉圖像和分布模型之間特征向量的差值來識別人臉。形變模板匹配是通過參數(shù)化的簡單人臉圖元模型來識別人臉;②基于主分量分析的方法。主分量分析的實質是對人臉圖像進行壓縮,用一個低維向量來代替人臉圖像,該向量包含原始圖像的重要信息即特征臉,利用該方法可以重建和識別人臉;③基于神經網絡的方法。神經網絡是一種基于樣本統(tǒng)計模型的方法,通過監(jiān)督學習方法對人臉樣本進行訓練,并根據提取的特征構建分類器,從而對測試樣本進行人臉識別。一般在實際運用中,會綜合以上幾種方法。自從2006年Hiton提出深度學習的概念以來,對于深度學習的研究便廣泛進行,在理論和運用方面都有巨大進展。深度學習的主要框架如下。無監(jiān)督+有監(jiān)督的有受限波爾茲曼機和自動編碼機兩種框架。自動編碼機又拓展為稀疏自動編碼機(降低隱層維度)和降噪自動編碼機(加入隨機噪聲)。純有監(jiān)督的主要是卷積神經網絡。在實際的運用中主要還是采用深度卷積神經網絡的模式。人臉識別的技術運用廣泛,在追蹤嫌犯、養(yǎng)老生存認證、考生身份驗證、金融銀行、交通、社區(qū)、景點檢票、門禁、考勤等各種各樣的社會化場景中都可以看到人臉識別技術的應用。當今的人臉識別系統(tǒng)雖然包含無數(shù)細節(jié)和各種工程技巧,但大的系統(tǒng)框架不外乎如下圖所示的流程:一張人臉圖片輸入后,需要先找到人臉的位置(人臉檢測),然后在這個基礎上定位人臉關鍵點的位置(如眼睛中心或嘴角等),每個系統(tǒng)關鍵提取的數(shù)量相差很大,有的只有左右眼睛中心兩個點,有的可能多達近百個點。這些點的位置一是用來做人臉的幾何校正,即把人臉通過縮放、旋轉、拉伸等圖像變化變到一個比較標準的大小位置。這樣待識別的人臉區(qū)域會更加規(guī)整,便于后續(xù)進行匹配。同時,現(xiàn)在的實際系統(tǒng)一般也都配有人臉光學校正模塊,通過一些濾波的方法,去除一些對光照更加敏感的面部特征。在做完這些預處理之后,就是從人臉區(qū)域提取各種特征,包括LBP、HOG、Gabor等。最終相關的特征會連接成一個長的特征向量(Feature

Vector),然后匹配出人臉的相似度,根據相似度的大小,系統(tǒng)會判定兩張圖片到底是不是一個人。人臉識別技術是一個系統(tǒng)鏈條較長,較為有技術門檻的領域。因為這條流水線的每個環(huán)節(jié)可能都會嚴重影響最終系統(tǒng)性能,所以一個好的人臉識別技術需要在各個環(huán)節(jié)上追求細節(jié),最終才有可能在最后的人臉識別精度上有出色的表現(xiàn)。接下來介紹幾個具有代表性的研究人臉識別的企業(yè)及主要算法。Deepface:Deepface是facebook公司研發(fā)的人臉識別算法。DeepFace利用面部多點的稠密對齊,借助于3D模型對有姿態(tài)的人臉進行校正,同時利用一個9層深度卷積神經網絡在400萬規(guī)模的人臉庫上訓練了一個深度人臉表示模型,在LFW數(shù)據集上取得了97.25%的平均精度。DeepID:DeepID是香港中文大學湯曉鷗課題組發(fā)明的一種人臉識別算法。孫祎團隊研發(fā)的技術和產品已經在當今備受關注的互聯(lián)網金融領域被應用于“人臉在線身份認證”,讓用戶無需面簽即可通過人臉識別在手機端認證身份,繼而開戶、轉賬、借貸,這項身份認證服務已達到了百萬級/天的調用量。其經過了三代的發(fā)展。第一代DeepID結構與普通的卷積神經網絡的結構相似,但是在隱含層,也就是倒數(shù)第二層,與Convolutionallayer4和Max-poolinglayer3相連,鑒于卷積神經網絡層數(shù)越高視野域越大的特性,這樣的連接方式可以既考慮局部的特征,又考慮全局的特征。DeepID2在DeepID的基礎上添加了驗證信號。具體來說,原本的卷積神經網絡最后一層softmax使用的是LogisticRegression作為最終的目標函數(shù),也就是識別信號;但在DeepID2中,目標函數(shù)上添加了驗證信號,兩個信號使用加權的方式進行了組合。第三代DeepID2+有如下貢獻,第一點是繼續(xù)更改了網絡結構;第二點是對卷積神經網絡進行了大量的分析,發(fā)現(xiàn)了幾大特征,包括:1神經單元的適度稀疏性,該性質甚至可以保證即便經過二值化后,仍然可以達到較好的識別效果;2高層的神經單元對人比較敏感,即對同一個人的頭像來說,總有一些單元處于一直激活或者一直抑制的狀態(tài);3DeepID2+的輸出對遮擋非常魯棒。Facenet:FacenNet是Google開發(fā)的深度學習算法。與其他的深度學習方法在人臉上的應用不同,F(xiàn)aceNet并沒有用傳統(tǒng)的softmax的方式去進行分類學習,然后抽取其中某一層作為特征,而是直接進行端對端學習一個從圖像到歐式空間的編碼方法,然后基于這個編碼再做人臉識別、人臉驗證和人臉聚類等。FaceNet算法有如下要點:去掉了最后的softmax,而是用元組計算距離的方式來進行模型的訓練。使用這種方式學到的圖像表示非常緊致,使用128位足矣。元組的選擇非常重要,選的好可以很快的收斂。三元組比softmax的優(yōu)勢在于:softmax不直接,(三元組直接優(yōu)化距離),因而性能也不好。softmax產生的特征表示向量都很大,一般超過1000維。商湯科技:SenseTime(商湯科技),是中國一家致力于計算機視覺和深度學習原創(chuàng)技術的創(chuàng)新型科技公司,總部位于北京。Face++:Face++TM是北京曠視科技有限公司旗下的新型視覺服務平臺,F(xiàn)ace++TM平臺通過提供云端API、離線SDK、以及面向用戶的自主研發(fā)產品形式,將人臉識別技術廣泛應用到互聯(lián)網及移動應用場景中,人臉識別云計算平臺市場前景廣闊。和螞蟻金服共同開發(fā)的SmiletoPay,可以進行掃臉支付。Face++和螞蟻金服今年開發(fā)的人工智能機器人——螞可,于6月30日和“水哥”進行了一次網紅臉識別的比賽。近日,CVPR2016剛剛召開,會議上深度學習基本占據了主導,成了計算機視覺研究的標配。以下是關于人臉識別的幾篇文章的概括。商湯科技這次提交的其中一篇文章為JointTrainingofCascadedCNNforFaceDetection。文章考慮了一個如何聯(lián)合訓練檢測器的問題,可以認為是卷積神經網絡方案中的一個,但是不局限于某個特定的CNN檢測方法。不管是人工設計的特征的方法,還是基于卷積神經網絡的檢測算法,往往都需要做級聯(lián)。而級聯(lián)的缺點是不太好直接聯(lián)合訓練,這恰恰破壞了卷積神經網絡可以端到端訓練的性質。由于傳統(tǒng)的級聯(lián)訓練往往是單步求解最優(yōu),得到的結果可能沒有多步聯(lián)合最優(yōu)的效果好。為此,文章提出了一種可以聯(lián)合訓練整個級聯(lián)分類器的一種方式。得益于神經網絡可以反向傳播的性質,給出了如何聯(lián)合訓練整個級聯(lián)分類器。并且,我們說明了如何在簡單的cascadeCNN和更復雜一點的faster-RCNN上都可以用這種方式來聯(lián)合訓練,并且可以取得非常優(yōu)異的性能。特別是當網絡的規(guī)模比較小的時候,這種聯(lián)合訓練的方法提升非常大。這個工作做完之后,我們進一步大幅度提升了檢測的速度和精度,并把完全基于CNN的方法做到了包括ARM,CPU和GPU各個平臺上,并且跑到了非常好的速度。如今,商湯科技基于深度學習的人臉檢測技術適配于多個品牌不同型號的手機上,支持著幾十個各類APP的人臉分析功能;在單核CPU上可以跑到上百FPS,并每天支持著大量的金融人臉認證服務;在單個GPU上可以實時的處理超過12路以上的高清視頻,并運用到很多的安防監(jiān)控系統(tǒng)中;甚至不久的將來,還會集成到相機前端的人臉抓拍芯片中。湯曉鷗課題組的SparsifyingNeuralNetworkConnectionsforFaceRecognition:提出通過稀疏神經網絡的連接來提升人臉識別的效果。稀疏卷積網絡通過迭代的方法來學習,每次將一個額外的層進行稀疏化,將整個模型在之前迭代所得的權重下再訓練。一個重要的發(fā)現(xiàn),一開始就使用稀疏卷積網絡訓練無法得到很好地人臉識別效果,但使用之前訓練好的密集模型來初始化一個稀疏模型對學習人臉識別的有效特征很關鍵。本文還提出來一種基于相關性的權重選擇標準,并從經驗上證實了它每次迭代中從之前學習的模型中選擇有益連接的有效性。選擇合適的稀疏模型(大概為密集模型的26-76%),使用同樣的數(shù)據集,它提升了最新的DeepID2+模型的人臉識別效果。他只需要12%的原來的參數(shù)就能達到基準模型的表現(xiàn)。研究發(fā)現(xiàn),神經元之間的相關系數(shù)比權重的大小或二階導能更好地衡量神經元連接的重要性。經過這幾年的研究,在現(xiàn)有的人臉數(shù)據庫如LFW中,現(xiàn)有的算法已經達到幾乎完美的水平,識別能力已經超過人眼,但這并不能代表在現(xiàn)實中會有這樣的效果。于是提出創(chuàng)建更大更有挑戰(zhàn)性的數(shù)據庫TheMegaFaceBenchmark。TheMegaFaceBenchmark:1MillionFacesforRecognitionatScale:新建的數(shù)據庫,包含690000人的1百萬張照片。參加測試的算法,能夠在LFW數(shù)據庫(相當于只有10個干擾項)上達到95%以上的識別率,在這個有1M的干擾項中只達到35-75%的識別率,LBP和聯(lián)合貝葉斯算法作為基準則降到了不足10%。如谷歌的FaceNet和FaceN這樣在大的數(shù)據集上進行訓練的算法,在MegaFace中測試時的效果更好。而且在Face-Scrub數(shù)據集中,在18M照片中訓練的FaceN達到了和在500M照片中訓練的FaceNet相當?shù)男Ч?。驗證集和注冊集之間人物的年齡差別對于識別影響很大。驗證集和注冊集之間的動作變化導致識別率減低,對于大規(guī)模的數(shù)據尤其重要。WIDERFACE:AFaceDetectionBenchmark。湯曉歐課題組也提出了一個用于人臉識別的數(shù)據庫---WINDERFACE,比現(xiàn)有的數(shù)據庫大10倍多,包含豐富的注釋,包括地點,姿勢,活動類別,和臉部邊框。用這個數(shù)據庫訓練,當前最好的算法也只能達到70%的正確率。這個數(shù)據庫更像現(xiàn)實中的人臉采集狀況,也是將來研究的方向。本次CVPR最佳論文DeepResidualLearningforImageRecognition。這是微軟方面的最新研究成果,在第六屆ImageNet年度圖像識別測試中,微軟研究院的計算機圖像識別系統(tǒng)在幾個類別的測試中獲得第一名。之前的研究發(fā)現(xiàn),卷積網絡的深度越深,訓練效果越好。本文是解決超深度CNN網絡訓練問題,152層及嘗試了1000層。本文主要解決的是隨著深度的增大,訓練誤差也增加的問題。求取殘差映射F(x):=H(x)-x,那么原先的映射就是F(x)+x,對原先的

平原網絡(plainnetwork)上加入快捷連接(shortcutconnections)構成殘差網絡,以此隨著網絡深度的增加檢測效果也更好。Pose-AwareFaceRecognitionintheWild。只要是來研究在對于不同的人臉姿態(tài)的識別,不同于其他的方法,要么通過訓練大量的數(shù)據來希望找到一個模型來學習姿態(tài)的不變性,要么將圖像標準化為一個正面姿態(tài),該方法是使用多種姿態(tài)確定模型和提取的臉部圖像來解決姿態(tài)的變化。用訓練多個深度卷積神經網絡來學習不同角度的人臉圖像。FaceAlignmentAcrossLargePoses:A3DSolution。也是研究人臉對齊的文章。他主要考慮了人臉姿態(tài)特別偏的情況,會到時人臉的一些特征點看不到。于是他們提出一種三維密集臉部模型的方法,構建人的三維人臉,而不是用離散的特征點來對其,這樣解決了局部特征看不到的問題。然后用卷積神經網絡來擬合三維人臉模型。FACEALIGNMENTBYDEEPCONVOLUTIONALNETWORKWITHADAPTIVELEARNINGRATE。是在2016年ICASSP會議上的一篇文章。主要是研究使用深度卷積網絡來進行人臉對齊。該方法是基于數(shù)據增加和自適應學習速率的對于人臉特征點的檢測。數(shù)據增加解決缺少圖像的問題,自適應學習來得到定位的最優(yōu)解。該網絡可以學習全局的高級特征,直接預測人臉特征點的坐標。各項測試表明,該方法效果很好,尤其在復雜環(huán)境,姿勢,光照等情況下。文章DEEPPAIR-WISESIMILARITYLEARNINGFORFACERECOGNITION。作者提出了一種新的人臉識別的模型。主要考慮到很多情況下充足的數(shù)據無法提供,那么現(xiàn)有的算法無法發(fā)揮很好地效果。該方法的輸入時成對的圖片,不像現(xiàn)有的深度學習模型來學習單個圖片的特征,再進行分類,該方法是直接學習兩張圖片的相似性,直接作出判斷。該算法通過融合兩張圖片,輸入卷積網絡,提取特征,但并不進行分類,而是直接計算相似系數(shù),來判斷兩張圖片是否是一個人。主要用來識別同一個人的人臉的不同姿勢。針對現(xiàn)有的人臉識別數(shù)據庫做如下總結:1.ImageNet這個數(shù)據集包含約120萬張訓練圖像、5萬張驗證圖像和10萬張測試圖像,分為1000個不同的類別。每年的ILSVRC競賽就是基于這個數(shù)據集。2.CIFAR-10CIFAR-10數(shù)據集包含60000個32*32的彩色圖像,共有10類。有50000個訓練圖像和10000個測試圖像。數(shù)據集分為5個訓練塊和1個測試塊,每個塊有10000個圖像。測試塊包含從每類隨機選擇的1000個圖像。訓練塊以隨機的順序包含這些圖像,但一些訓練塊可能比其它類包含更多的圖像。訓練塊每類包含5000個圖像。3.CIFAR-100數(shù)據集包含100小類,每小類包含600個圖像,其中有500個訓練圖像和100個測試圖像。100類被分組為20個大類。每個圖像帶有1個小類的“fine”標簽和1個大類“coarse”標簽。4.COCO是微軟組件的一個新的圖像識別、分割、和字幕數(shù)據集,包含300000多張圖片,超過2百萬個例子,80多類,每張圖有5個注釋,有100000人的關鍵點。5.LFW由美國馬薩諸塞大學阿姆斯特分校計算機視覺實驗室整理完成,共13233幅圖像,其中5749個人,其中1680人有兩幅及以上的圖像,4069人只有一幅圖像。圖像為250*250大小的JPEG格式。絕大多數(shù)為彩色圖,少數(shù)為灰度圖。大多數(shù)圖像都是由Viola-Jones的檢測器得到之后,被裁剪為固定大小,有少量的,人為地從falsepositive中得到。6.WIDERFACE湯曉歐課題組也提出了一個用于人臉檢測的數(shù)據庫---WINDERFACE,比現(xiàn)有的數(shù)據庫大10倍多,包含豐富的注釋,包括地點,姿勢,活動類別,和臉部邊框。用這個數(shù)據庫訓練,當前最好的算法也只能達到70%的正確率。這個數(shù)據庫更像現(xiàn)實中的人臉采集狀況,其中的人臉形狀小,有遮擋,姿勢比較極端,也是將來研究的方向。7.TheMegaFaceBenchmark:新建的數(shù)據庫,包含690000人的1百萬張照片。8.CASIA-WebFace:包含10575人的494414張圖片,公開使用。9.SFC:Facebook的人臉數(shù)據庫,包含4030人的4400000張照片,不公開10.YoutubeFace(YTF):3425videos/1595人,非限制場景、視頻,來源于Youtube上的名人,公開。11.FaceNet:谷歌的數(shù)據庫,擁有超過10M人的超過500M的照片,來源于互聯(lián)網,不公開12.IJB-AIAPRA:500人的25813張照片13.FaceScrub:530人,約100k張圖片,非限制場景14.MultiPIE:337個人的不同姿態(tài)、表情、光照的人臉圖像,共750k+人臉圖像,限制場景人臉識別15.CAS-PEAL:1040個人的30k+張人臉圖像,主要包含姿態(tài)、表情、光照變化,限制場景下人臉識別16.Pubfig:200個人的58k+人臉圖像,非限制場景下的人臉識別17.FDDB:2845張圖片中的5171張臉,標準人臉檢測評測集針對現(xiàn)有的人臉識別算法做如下歸納:1.Deepface:Deepface是facebook公司研發(fā)的人臉識別算法。其實現(xiàn)的基本流程為:分為如下幾步:首先是人臉對其,通過以下流程實現(xiàn):a.人臉檢測,使用6個基點b.二維剪切,將人臉部分裁剪出來c.67個基點,然后Delaunay三角化,在輪廓處添加三角形來避免不連續(xù)d.將三角化后的人臉轉換成3D形狀e.三角化后的人臉變?yōu)橛猩疃鹊?D三角網f.將三角網做偏轉,使人臉的正面朝前。g.最后放正的人臉h.一個新角度的人臉總體上說,這一步的作用就是使用3D模型來將人臉對齊,從而使CNN發(fā)揮最大的效果。第二步:人臉表示經過3D對齊以后,形成的圖像都是152×152的圖像,輸入到上述網絡結構中,進行卷積神經網絡處理,該結構的參數(shù)如下:Conv:32個11×11×3的卷積核max-pooling:3×3,stride=2Conv:16個9×9的卷積核Local-Conv:16個9×9的卷積核,Local的意思是卷積核的參數(shù)不共享Local-Conv:16個7×7的卷積核,參數(shù)不共享Local-Conv:16個5×5的卷積核,參數(shù)不共享Fully-connected:4096維Softmax:4030維第三步:人臉表示歸一化對于輸出的4096-d向量:先每一維進行歸一化,即對于結果向量中的每一維,都要除以該維度在整個訓練集上的最大值。每個向量進行L2歸一化最后進行分類:得到表示后,使用了多種方法進行分類:直接算內積;加權的卡方距離;使用Siamese網絡結構。2.VGG模型框架為:輸入為尺寸224X224的RGB圖,由A-E5個卷積網絡構成,深度由淺到深。所有的卷積核都是用很小的3x3,步長為1,只有一個是1x1的卷積核,可視為輸入通道的線性變換。一共有5個池化層,不是每個卷積層后都有池化層。池化用2x2像素的窗口,步長為2.。最后三層是全連接層,前兩層有4096個通道,最后一層有1000個通道分別對應1000個類別,最后一層用softmax分類。每個隱層用ReLU做輸出函數(shù),整個網絡都不用LRN,因為沒效果,還占內存消耗和計算時間。訓練的目的是為了最優(yōu)化多項邏輯回歸,通過基于BP算法的mini-batchgradientdescent來實現(xiàn)。訓練通過權重衰減和對前兩層全連接層的dropoutregularisation來調整參數(shù)。學習速率初始設為0.01,并以10倍減少當正確率不再提高時。一共衰減了三次,學習到370K次迭代后停止。初始化網絡的權重:首先用隨機初始化訓練結構A,因為網絡較淺;訓練其他深的結構,就用A來初始化他們的前四層和最后三個全連接層,中間層隨機初始化,不改變預初始化的學習速率,讓他們隨著學習改變。隨機初始化用,使用0平均和10-2的方差的標準正態(tài)分布。有兩種確定訓練圖像大小的方法,出于速度的考慮,采取單一大小的方式,并定為384.3.DeepID系列DeepID:結構:由四層卷積神經網絡構成,前三層后跟池化層,第三層池化層和第四層卷積層一起全連接夠成最后的DeepID層,提取圖片特征。最后用Soft-max來分類,結構如下:實現(xiàn):在DeepID的實驗過程中,使用的外部數(shù)據集為CelebFaces+,有10177人,202599張圖片;8700人訓練DeepID,1477人訓練JointBayesian分類器。切分的patch數(shù)目為100,使用了五種不同的scale。每張圖片最后形成的向量長度為32000,使用PCA降維到150。如此,達到97.20的效果。使用某種TransferLearning的算法后,達到97.45%的最終效果。DeepID2:結構框架:輸入為55x47的RGB圖,網絡包含4個卷積層,前三個后面跟著池化層。為了學到不同的高層特征,高層卷積網絡權值不共享。尤其,第三層卷積網絡權值只在2x2的局部區(qū)域共享,第四層本地連接層完全不共享。最后的一層是第三和第四兩層卷積網絡的全連接層,提取了160維的向量。使用ReLU作為激活函數(shù)。另外,加上了faceidentificationsignal和faceverificationsignal兩個監(jiān)督信號。faceidentificationsignal通過在DeepID2層之后加上n路的softmax層,通過訓練最小化交叉熵損失,來確保正確分類。那么DeepID2層就要找到最具類間區(qū)分度的特征,這樣就最大化了類間差距。faceverificationsignal用來認準兩個人是否是同一個人。通過L1/L2標準化或余弦相似性來衡量,通過訓練,使DeepID2層對于同一個人盡量顯示一致的特征,以此來減小類內差距。結構如下圖:訓練過程:首先初始化權重參數(shù),從訓練集中隨機取兩個樣例輸入網絡,計算各自的輸出,采用隨機梯度下降法來更新各參數(shù),進行迭代,知道模型收斂,輸出各權重參數(shù)。如下圖:人臉驗證:首先使用SDM算法對每張人臉檢測出21個landmarks,然后根據這些landmarks,再加上位置、尺度、通道、水平翻轉等因素,每張人臉形成了400張patch,使用200個CNN對其進行訓練,水平翻轉形成的patch跟原始圖片放在一起進行訓練。這樣,就形成了400×160維的向量。這樣形成的特征維數(shù)太高,所以要進行特征選擇,不同于之前的DeepID直接采用PCA的方式,DeepID2先對patch進行選取,使用前向-后向貪心算法選取了25個最有效的patch,這樣就只有25×160維向量,然后使用PCA進行降維,降維后為180維,然后再輸入到聯(lián)合貝葉斯模型中進行分類。DeepID2使用的外部數(shù)據集仍然是CelebFaces+,但先把CelebFaces+進行了切分,切分成了CelebFaces+A(8192個人)和CelebFaces+B(1985個人)。首先,訓練DeepID2,CelebFaces+A做訓練集,此時CelebFaces+B做驗證集;其次,CelebFaces+B切分為1485人和500人兩個部分,進行特征選擇,選擇25個patch。最后在CelebFaces+B整個數(shù)據集上訓練聯(lián)合貝葉斯模型,然后在LFW上進行測試。在上一段描述的基礎上,進行了組合模型的加強,即在選取特征時進行了七次。第一次選效果最好的25個patch,第二次從剩余的patch中再選25個,以此類推。然后將七個聯(lián)合貝葉斯模型使用SVM進行融合。最終達到了99.15%的結果。DeepID2+:結構:和DeepID2基本類似,區(qū)別在于將前三層的池化層和第四層卷積網絡都和最后一層進行了全連接,每層提供128維的特征,一共組成512維的DeepID2+向量,對其添加faceidentificationsignal和faceverificationsignal兩個監(jiān)督信號,等于是對每層都進行監(jiān)督,增強了監(jiān)督;還有就是加大了訓練集,訓練集將CelebFaces+和WDRef數(shù)據集進行了融合,共有12000人,290000張圖片。結構如下:4.SparsifyingNeuralNetworkConnectionsforFaceRecognition研究發(fā)現(xiàn)對于有挑戰(zhàn)的人臉識別問題,神經元相關性的指標,用神經元聯(lián)系的重要性衡量比權重的量級或二階導更好。結構:先訓練一個基準模型:基準模型和VGG類似,每兩個卷積層跟一個池化層,主要區(qū)別在于最后兩個卷積層替換為兩個局部連接層。這是為了學習人臉不同部分的不同特征。第二個局部連接層后跟著一個512維的全連接層,全連接層的特征用來進行人臉識別。結構如下:把Jointidentification-verificationsupervisorysignal加入到最后的全連接層來學習特征表述,來區(qū)分不同人臉,識別出同一個人臉,同樣的監(jiān)督信號也加入到之前的一些層,在學習階段增強監(jiān)督。用ReLU做所有卷積,局部連接和全連接層的激活函數(shù)。將30-50%丟棄率的Dropoutlearning用于最后一層局部連接層和全連接層。用同樣的數(shù)據,單個的這個模型已經比單個DeepID2+效果更好。對基準模型進行稀疏卷積化:從最后的全連接層開始,逐層稀疏化網絡。因為最后幾層有大量參數(shù)的冗余,減少他們不會影響網絡的效果。用前一次的密集網絡的權重參數(shù)來初始化此次的網絡,再進行稀疏化。直到所有層都稀疏化。5.FaceNetFaceNet是谷歌提出的人臉識別算法。結構:從圖像中獲取輸入快,經過卷積神經網絡來獲取特征,但并沒有使用softmax來分類,而是經過L2歸一化后,用訓練好的三元組計算三元損失,直接判斷圖片是否是一個人。結構如下圖:實施過程:三元損失由三部分組成,需要被判斷的圖像(anchor),屬于同一個人的另一張圖像(positive),和不是同一個人的一張圖像(negative).訓練目的就是為了讓所有anchor和positive之間的距離都要比anchor和negative之間的距離都要短,那么就能正判斷出圖中的人是否是同一個。而三元組的選擇很重要,選的好就能迅速收斂。文章提出兩種方法:1.每N步線下在數(shù)據的子集上生成一些triplet2.在線生成triplet,在每一個mini-batch中選擇hardpos/neg樣例。使用線上生成時,為了使mini-batch中生成的triplet合理,生成mini-batch的時候,保證每個mini-batch中每個人平均有40張圖片。然后隨機加一些反例進去。在生成triplet的時候,找出所有的anchor-pos對,然后對每個anchor-pos對找出其hardneg樣本。這里,并不是嚴格的去找hard的anchor-pos對,找出所有的anchor-pos對訓練的收斂速度也很快。文章選擇了兩種深度卷積神經網絡:1.第一種是Zeiler&Fergus架構,22層,140M參數(shù),1.6billionFLOPS稱之為NN12第二種是GoogleNet式的Inception模型。模型參數(shù)是第一個的20分之一,F(xiàn)LOPS是第一個的五分之一。針對Inception模型,提出了兩個小模型NNS1和NNS2可以運用到手機上。保持結構一樣,減少輸入尺寸,提出NN3和NN4.NN2模型如下:參考文獻:1.KarenSimonyan,AndrewZisserman.VERYDEEPCONVOLUTIONALNETWORKSFORLARGE-SCALEIMAGERECOGNITION2.YiSun,XiaogangWang,XiaoouTang.SparsifyingNeuralNetworkConnectionsforFaceRecognition3.SunY,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論