完整版目標檢測綜述_第1頁
完整版目標檢測綜述_第2頁
完整版目標檢測綜述_第3頁
完整版目標檢測綜述_第4頁
完整版目標檢測綜述_第5頁
免費預(yù)覽已結(jié)束,剩余2頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、一、傳統(tǒng)目標檢測方法首先在給定的圖像上傳統(tǒng)Ll標檢測的方法一般分為三個階段:如上圖所示,最后 使用訓練的分類器進行分然后對這些區(qū)域提取特征,選擇一些候選的區(qū)域, 類。下面我們對這三個階段分別進行介紹。山于IJ標可能出現(xiàn)在這一步是為了對 目標的位置進行定位。區(qū)域選擇(1)所以最初采用滑動窗口而且Ll標的大小、長寬比例也不確定,圖像的任何位置, 這種窮而且需要設(shè)置不同的尺度,不同的長寬比。的策略對整幅圖像進行遍歷, 時間舉的策略雖然包含了 Ll標所有可能出現(xiàn)的位置,但是缺點也是顯而易見的: 這也嚴重影響后續(xù)特征提取和分類的速度和性復(fù)雜度太高,產(chǎn)生冗余窗口太多,(實際上山于受到時間復(fù)雜度的問題,滑動

2、窗口的長寬比一般都是固定的設(shè)能。 即便是滑動窗口遍歷也不所以對于長寬比浮動較大的多類別IJ標檢測,置兒個, 能得到很好的區(qū)域)山于IJ標的形態(tài)多樣性,光照變化多樣性,背景多樣性等因特征提?。?)然而提取特征的好壞直接影響到分素使得設(shè)訃一個魯棒的特征并不是那么容易。HOG等)(這個階段常用的特征有類的準確性。SIFT、 等。 主要有SVM, AdabOOSt 分類器(3)總結(jié):傳統(tǒng)IJ標檢測存在的兩個主要問題:一是基于滑動窗口的區(qū)域選擇策略 沒有針對性,時間復(fù)雜度髙,窗口冗余;二是手工設(shè)計的特征對于多樣性的變 化并沒有很好的魯棒性。的深度學習目標檢測算法二、基于RegiOnPrOPOSal對于傳

3、統(tǒng)目標檢測任務(wù)存在的兩個主要問題,我們該如何解決呢? region提供了很好的解決方案。PrOPOSalregiOn對于滑動窗口存在的問題,PrOPOSaK候選區(qū)域)是預(yù)先找出圖中IJ標可能出現(xiàn)的位置。但山于region PrOPOSal 利用了圖像中的紋理、邊緣、顏色等信息,可以保證在選取較少窗口(兒千個甚 至兒白個)的情況下保持較高的召回率。這大大降低了后續(xù)操作的時間復(fù)雜度, 并且獲取的候選窗口要比滑動窗口的質(zhì)量更高(滑動窗口固定長寬比)。比較常 用的 region PrOPOSal 算法有 SeleCtiVe SearCh 和 edge Boxes,如果想具體 了解 region PrO

4、POSal 可以看一下 PAMI2015 的 44 What makes for effective detection proposals? ”有了候選區(qū)域,剩下的工作實際就是對候選區(qū)域進行圖像分類的工作(特征提取 +分類)。對于圖像分類,不得不提的是2012年ImageNet大規(guī)模視覺識別挑戰(zhàn)賽(ILSVRC)上,機器學習泰斗GeOffrey HintOn教授帶領(lǐng)學生KriZheVSky使用卷積 神經(jīng)網(wǎng)絡(luò)將ILSVRC分類任務(wù)的Top-5 error降低到了 15.3%,而使用傳統(tǒng)方法的第二名top-5 error高達26.2%o此后,卷積神經(jīng)網(wǎng)絡(luò)占據(jù)了圖像分類任務(wù)的絕對統(tǒng) 治地位,微軟最

5、新的ReSNet和谷歌的InCePtiOn V4模型的top-5 error降到了 4% 以內(nèi)多,這已經(jīng)超越人在這個特定任務(wù)上的能力。所以IJ標檢測得到候選區(qū)域后 使用CNN對其進行圖像分類是一個不錯的選擇。2014年,RBG ( RoSS B.GirShiCk)大神使用region PrOPOSaI+CNN代替?zhèn)鹘y(tǒng)Ll標檢測使用的滑動窗I 工 設(shè)計特征,設(shè)計了 RCNN框架,使得IJ標檢測取得巨大突破,并開啟了基于深 度學習目標檢測的熱潮。1. R-CNN (CVPR2014, TPAMl2015)(RegiOn-based COnVOIUtiOnNetWOrkS for ACCUrate

6、ObjeCt detection and SegmentatiOn)R-CNN: RegiOn-based COnVOlUtiOnal NetWOrkWarPe<1 regionJcroplaiwu n*pcr>vn: vcs.IVnialIIOr9 no.1. InPUt 2. EXIraCtI region 3. COmPUte 4. CIaSSify image PrOPOSaIS (2k) CNN IeaIUreS regions上面的框架圖清晰的給岀了 R-CNN的Ll標檢測流程:(1) 輸入測試圖像(2) 利用SeleCtiVe SearCh算法在圖像中提取2000個左

7、右的region PrOPOSalo將每個region PrOPOSal縮放(WarP)成227x227的大小并輸入到CNN ,將CNN 的fc7層的輸出作為特征。將每個region PrOPOSal提取到的CNN特征輸入到SVM進行分類。上面的框架圖是測試的流程圖,要進行測試我們首先要訓練好提取特征的CNN 模型,以及用于分類的SVM:使用在ImageNet上預(yù)訓練的模型(AIeXNet/VGG16) 進行微調(diào)得到用于特征提取的CNN模型,然后利用CNN模型對訓練集提特征訓 練 SVMo對每個region PrOPOSal縮放到同一尺度是因為CNN全連接層輸入需要保證維度 固定。上圖少畫了一

8、個過程對于SVM分好類的region PrOPOSal做邊框回歸(bounding-box regression)邊框回歸是對region PrOPOSal進行糾正的線性回歸 算法,為了讓region PrOPOSal 取到的窗口跟目標真實窗口更吻合。因為region PrOPOSal提取到的窗口不可能跟人手工標記那么準,如果region PrOPOSal跟Ll標 位置偏移較大,即便是分類正確了,但是山于IOU(region PrOPOSal與GrOUnd TrUth 的窗口的交集比并集的比值)低于0.5,那么相當于Ll標還是沒有檢測到。小結(jié):R-CNN在PASCAL VOC2007上的檢測結(jié)

9、果從DPM HSC的34.3%直接提升到 Y 66%(mAP)o如此大的提升使我們看到了 region PrOPOSaI+CNN的巨大優(yōu)勢。 但是R-CNN框架也存在著很多問題:(1) 訓練分為多個階段,步驟繁瑣:微調(diào)網(wǎng)絡(luò)+訓練SVM+訓練邊框回歸器(2) 訓練耗時,占用磁盤空間大:5000張圖像產(chǎn)生兒百G的特征文件 速度慢:使用GPU, VGG16模型處理一張圖像需要47s。針對速度慢的這個問題,SPP-NET給出了很好的解決方案。2. SPP-NET (ECCV2014, TPAMI2015)(SPatial PyramiCi POOIingin DeeP COnVOIUtiOnal Ne

10、tWOrkS for Visual ReCOgnitiOn)先看一下R-CNN為什么檢測速度這么慢,一張圖都需要47s !仔細看下R-CNN框 架發(fā)現(xiàn),對圖像提完region PrOPOSal (2000個左右)之后將每個PrOPOSal當成一 張圖像進行后續(xù)處理(CNN提特征+SVM分類),實際上對一張圖像進行了 2000次 提特征和分類的過程! 有沒有方法提速呢?好像是有的,這2000個region PrOPOSal不都是圖像的一部分嗎,那么我們完全可以對圖像提一次卷積層特征, 然后只需要將region PrOPOSal在原圖的位置映射到卷積層特征圖上,這樣對于一 張圖像我們只需要提一次卷

11、積層特征,然后將每個region PrOPOSal的卷積層特征 輸入到全連接層做后續(xù)操作。(對于CNN來說,大部分運算都耗在卷積操作上, 這樣做可以節(jié)省大量時間)?,F(xiàn)在的問題是每個region PrOPOSal的尺度不一樣, 直接這樣輸入全連接層肯定是不行的,因為全連接層輸入必須是固定的長度。 SPP-NET恰好可以解決這個問題:.經(jīng)過CNN, -NET的網(wǎng)絡(luò)結(jié)構(gòu)圖,任意給一張圖像輸入到上圖對應(yīng)的就是SPP共 產(chǎn)生,VGG16最后的卷積層為conv5,3卷積操作我們可以得到卷積特征(比如對 應(yīng)到特征圖的region PrOPOSaIWindOW張?zhí)卣鲌D)。圖中的是就是原圖一個512的 特征映射

12、到同樣的維度,將其作為全連區(qū)域,只需要將這些不同大小WindOW使 用了空間金字塔NET-SPP接的輸入,就能保證只對圖像提取一次卷積層特征。.釆樣(SPatial Pyramid pooling):將每個 WindOW 劃分為 4*4, 2*2, 1*1 的塊,然后 每個塊使用max-pooling下釆樣,這樣對于每個WindOW經(jīng)過SPP層之后都得到 了一個長度為(4*4+2*2÷l)*512維度的特征向量,將這個作為全連接層的輸入進 行后續(xù)操作。小結(jié):使用SPP-NET相比于R-CNN可以大大加快Ij標檢測的速度,但是依然存在著很多問題:(1) 訓練分為多個階段,步驟繁瑣:微調(diào)

13、網(wǎng)絡(luò)+訓練SVM+訓練訓練邊框回歸器(2) SPP-NET在微調(diào)網(wǎng)絡(luò)的時候固定了卷積層,只對全連接層進行微調(diào),而對于一個新的任務(wù),有必要對卷積層也進行微調(diào)。(分類的模型提取的特征更注重高層 語義,而標檢測任務(wù)除了語義信息還需要Ll標的位置信息)針對這兩個問題,RBG 乂提出FaSt R-CNN, 一個精簡而快速的Ll標檢測框架。3. FaSt R-CNN(ICCV2015)有了前邊R-CNN和SPP-NET的介紹,我們直接看FaSt R-CNN的框架圖:IulIV-Conncted IayerS <tce. lc7)Hxecl-Ieny;Ih reprvseiikition框架圖對比,可

14、以發(fā)現(xiàn)主要有兩處不同:一是最后一個卷積層后CNNR-與,-task IOSS),加了一個ROl POOling layer二是損失函數(shù)使用了多任務(wù)損失函數(shù)(multi網(wǎng) 絡(luò)中訓練。將邊框回歸直接加入到CNN對每個NET的一個精簡版,SPP-NETSPPlayerROl (1) PoOling實際上是-只需要下采 樣到一IayerpooIingROI使用了不同大小的金字塔映射,而PrOPOSal 個7x7的特征圖。對于VGG16網(wǎng)絡(luò)COnV5_3有512個特征圖,這樣所有region PrOPOSal對應(yīng)了一個7*7*512維度的特征向量作為全連接層的輸入。R-CNN訓練過程分為了三個階段,而F

15、aSt R-CNN直接使用SOftmaX替代SVM 分類,同時利用多任務(wù)損失函數(shù)邊框回歸也加入到了網(wǎng)絡(luò)中,這樣整個的訓練過 程是端到端的(除去region PrOPOSal提取階段)。FaSt R-CNN在網(wǎng)絡(luò)微調(diào)的過程中,將部分卷積層也進行了微調(diào),取得了更好 的檢測效果。小結(jié):FaSt R-CNN融合了 RCNN和SPP-NET的精髓,并且引入多任務(wù)損失函數(shù), 使整個網(wǎng)絡(luò)的訓練和測試變得十分方便。在PaSCal VOC2007訓練集上訓練,在 VOC2007測試的結(jié)果為66.9%(mAP),如果使用VOC2007+2012訓練集訓練,在 VOC2007 ±測試結(jié)果為70% (數(shù)據(jù)集

16、的擴充能大幅提高Ll標檢測性能)。使用 VGG16每張圖像總共需要3s左右。缺點:region PrOPOSal的提取使用SeleCtiVe search, Ll標檢測時間大多消耗在這 上面(提region PrOPOSal 23s,而提特征分類只需0.32s),無法滿足實時應(yīng)用, 而且并沒有實現(xiàn)真正意義上的端到端訓練測試(region PrOPOSal使用SeleCtiVe SearCh先提取處來)。那么有沒有可能直接使用CNN直接產(chǎn)生region PrOPOSal并 對其分類? FaSter R-CNN框架就是符合這樣需要的U標檢測框架。4. FaSter R-CNN(NIPS2015)(

17、FaSter R-CNN: TOWardSReaI-TimeObjeCt DeteCtiOn With RegiOn PrOPOSal NetWOrkS)在region PrOPOSal + CNN分類的這種Ll標檢測框架中,region PrOPOSal質(zhì)量好壞 直接影響到Ll標檢測任務(wù)的精度。如果找到一種方法只提取兒白個或者更少的高 質(zhì)量的預(yù)選窗口,而且召回率很高,這不但能加快IJ標檢測速度,還能提高口標 檢測的性能(假陽例少)。RPN(RegiOn PrOPOSal NetWOrkS)網(wǎng)絡(luò)應(yīng)運而生。 RPN 的核心思想是使用卷積神經(jīng)網(wǎng)絡(luò)直接產(chǎn)生region proposal,使用的方法本

18、質(zhì)上就 是滑動窗口CRPN的設(shè)計比較巧妙,RPN只需在最后的卷積層上滑動一遍,因為。 region PrOPOSal機制和邊框回歸可以得到多尺度多長寬比的anchor,給定輸入圖像(假設(shè)分模型)網(wǎng)絡(luò)結(jié)構(gòu)圖(使用了 ZF我們直接看上邊的RPNO)(大小約為40*60辨率為600*1000),經(jīng)過卷積操作得到最后一層的卷積特征圖 最后一層卷與特征圖進行卷積,的卷積核(滑動窗口)在這個特征圖上使用3怡 維2563*3的區(qū)域卷積后可以獲得一個個feature map,那么這個積層共有 256CNNFaSt R-和reg layer分別用于分類和邊框回歸(跟后邊接的特征向量,CIS Iayer滑窗對應(yīng)的

19、每個特征。3*3類似,只不過這里的類別只有Ll標和背景兩個類 別)region )的種長寬比(2:1,1:2,2:1 (區(qū)域同時預(yù)測輸入圖像3種尺度 128,256,512), 3,總 feature map 的 anchor。所以對于這個 40*60PrOPOSah 這種 映射的機制稱為這樣個region PrOPOSaIo共有約20000(40*60*9)個anchor,也就是預(yù)測20000滑動窗口操作是但是:設(shè)計的好處是什么呢?雖然現(xiàn)在也是用 的滑動窗口策略,次416*16倍(中間經(jīng)過了在卷積層特征圖上進行的,維度較 原始圖像降低了對應(yīng)了三種尺度和三種長寬比種anchor操作);多尺度采

20、用 Y 9pooling2*2的外的窗口也能得到一個跟U種anchor加上后邊接了邊框回歸, 所以即便是這9使用的檢測框架-CNNNlPS2015版本的FaSter Ro標比較接近的 regiOn PrOPOSal 一樣,CNN整體流程跟FaSt R-RPN網(wǎng)絡(luò)+Fast R-CNN網(wǎng)絡(luò)分離進行的U標檢測, 是。SearCh) RPNPrOPOSal現(xiàn)在是用網(wǎng)絡(luò)提取的(代替原來的SeleCtiVe只是region RPN訓練-CNN網(wǎng)絡(luò)實現(xiàn)卷積層的權(quán)值共享,的網(wǎng)絡(luò)和同時作者為了讓RPNFaSt R :4CNN的時候用了階段的訓練方法FaStR和 網(wǎng)絡(luò);RPN上預(yù)訓練的 模型初始化網(wǎng)絡(luò)參數(shù),微調(diào)

21、ImageNet使用在(1).(2)使用中RPN網(wǎng)絡(luò)提取region PrOPOSal訓練FaSt R-CNN網(wǎng)絡(luò); 使用的FaSt R-CNN網(wǎng)絡(luò)重新初始化RPNz固定卷積層進行微調(diào): 固定(2)中FaSt R-CNN的卷積層,使用中RPN提取的region PrOPOSal微調(diào)網(wǎng) 絡(luò)。權(quán)值共享后的RPN和FaSt R-CNN用于IJ標檢測精度會提高一些。使用訓練好的RPN網(wǎng)絡(luò),給定測試圖像,可以直接得到邊緣回歸后的region PrOPOSaL根據(jù)region PrOPOSal的類別得分對RPN網(wǎng)絡(luò)進行排序,并選取前300 個窗口作為FaSt R-CNN的輸入進行目標檢測,使用VOeO7+

22、12訓練集訓練, VOC2007 測試集測試 mAP 達到 73.2% (SeIeCtiVe SearCh + FaSt R-CNN 是 70%),目 標檢測的速度可以達到每秒5幀(SeIeCtiVe SearCh+Fast R-CNN是23s 一張)。 需要注意的是,最新的版本已經(jīng)將RPN網(wǎng)絡(luò)和FaSt R-CNN網(wǎng)絡(luò)結(jié)合到了一起一 將RPN獲取到的PrOPOSal直接連到ROl POOling層,這才是一個真正意義上的 使用一個CNN網(wǎng)絡(luò)實現(xiàn)端到端目標檢測的框架。小結(jié):FaSter R-CNN將一直以來分離的region PrOPOSal和CNN分類融合到了一起, 使用端到端的網(wǎng)絡(luò)進行Ll

23、標檢測,無論在速度上還是精度上都得到了不錯的提高。 然而FaSter R-CNN還是達不到實時的目標檢測,預(yù)先獲取region proposal,然后 在對每個PrOPOSal分類計算量還是比較大。比較幸運的是YOLO這類標檢測方 法的出現(xiàn)讓實時性也變的成為可能??偟膩碚f,從R-CNN, SPP-NET, FaStR-CNN, FaSter R-CNN 一路走來,基于深度學習IJ標檢測的流程變得越來越精簡,精度越來越高,速度也越來越快。可以說基于region ProPoSal的R-CNN系列LJ標 檢測方法是當前目標最主要的一個分支。三、基于回歸方法的深度學習目標檢測算法FaSter R-CN

24、N的方法LJ前是主流的H標檢測方法,但是速度上并不能滿足實時的 要求。YoLO 類的方法慢慢顯現(xiàn)出其重要性,這類方法使用了回歸的思想,既 給定輸入圖像,直接在圖像的多個位置上回歸出這個位置的LI標邊框以及Ll標類 別。UnifiedJOnce: LOOk OnIy (YOUOraI)(CVPR2016, YOLO 1.Real-Time ObjeCt DeteCtiOn)YOLO的H標檢測的流程圖:我們直接看上面的網(wǎng)格7*7(1)給個一個輸入圖像,首先將圖像劃分成個邊框(包括每個邊框是H標的置信度以2(2) 對于每個網(wǎng)格,我們都預(yù)測及每個邊框區(qū)域在多個類別上的概率)個IJ標窗口,然后根據(jù)閾值去

25、除可能性比7*7*2根據(jù)上一步可以預(yù)測出(3)NMS較低的H標窗口,最后去除冗余窗口即可。在找口標,直接region PrOPOSal可以看到整個過程非常簡單,不需要中間的回歸便完成了位置和類別 的判 定。4Jc corii HAtcCh IayerLntCmICdIaK IayCIreg IAyeI那么如何才能做到直接在不同位置的網(wǎng)格上回歸出IJ標的位置和類別信息呢? 的模型比較類似,主GOOgLeNet ±面是YoLO的網(wǎng)絡(luò)結(jié)構(gòu)圖,前邊的網(wǎng)絡(luò)結(jié)構(gòu)跟 維的全連接層,然后后邊乂 4096要的是最后兩層的結(jié)構(gòu),卷積層之后接了一個 就是劃分的網(wǎng)格數(shù),現(xiàn)在要在嚴7全連接到一個7*7*30維

26、的張量上。實際上這 也就是每個網(wǎng)格上預(yù)測Ll標兩個可能的位置以及這個位置的IJ標置信度和類別, 1,長寬)4維坐標信息(中心點坐標+每個網(wǎng)格預(yù)測兩個D標,每個Izl標的信息有 (4+1)*2+20 = 30,總共就是202O(VOC上個類別)個是Ll標的置信度,還有類別數(shù) 維的全圖特征直接在每個網(wǎng)格上回歸出IJ標維的向量。這樣可以利用前邊4096 檢測需要的信息(邊框信息加類別)。大大加快了檢測的速度,YOLO將IJ標檢測 任務(wù)轉(zhuǎn)換成一個回歸問題,小結(jié):張圖像。而且山于每個網(wǎng)絡(luò)預(yù)測IJ標窗口時使 用的45使得YOLO可以每秒處理YOLOo但是是全圖信息,使得false POSitiVe比 例大

27、幅降低(充分的上下文信息)的網(wǎng)格回歸會使得Ll標不只使用機制,7穴7也 存在問題:沒有了 region PrOPOSalYoLo的檢測精度并不是很高。能非常精準的定位,這也導(dǎo)致了(SSD: SingIeShOtMUItiBOXDeteCtor) 2.SSD的粗糙網(wǎng)格內(nèi)回歸對IJ 7*7上面分析了 YOLO存在的問題,使用整圖特征在 的思想實現(xiàn)精準一些那是不是可以結(jié)合region PrOPOSal標的定位并不是很精準。 機制做到了這點OanChor的CNN-FaSterR的回歸思想以及YOLO結(jié)合SSD的定位?-YOLOSSD獲取IJ標位置和類別的方法跟 上圖是SSD的一個框架圖,首先 預(yù)測某S

28、SDvOLO預(yù)測某個位置使用的是全圖的特征,樣,都是使用回歸,但是。 那么如何建立某個位個位置使用的是這個位置周圉的特征(感覺更合理一些)機 的anchorFaster R-CNN置和其特征的對應(yīng)關(guān)系呢?可能你已經(jīng)想到了,使用 3*38*8,那么就使用(圖b)大小是制。如SSD的框架圖所示,假如某一層特征圖 然后這個特征回歸得到Ll標的坐標信息和類別信息的滑窗提取每個位置的特征, C)O (圖上,這樣可以利用feature map,這個anchor是在多個CNN不同于FaSter R-滑窗感受野不3*3多層的特征并且自然的達到多尺度(不同層的feature mapO同)機制,使anchorCNN中的結(jié)合了 SSDYOLO中的回歸思想和FaSter R- 小結(jié):速度快的特性,也YoLo用全圖各個位置的多尺度區(qū)域特征進行回歸,既 保持了可以上mAP 一樣比較精準。SSD在VOC2007CNN保證了窗口預(yù)測的跟 FaSter R的提出給U標

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論