




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
利用Matlab和LabVIEW實(shí)現(xiàn)維納濾波與小波閾值聯(lián)合音頻去噪系統(tǒng)摘要隨著多媒體技術(shù)的發(fā)展和提升,多媒體數(shù)據(jù)(例如圖像、視頻等)成為信息的主要組成部分。而圖像是信息傳播的主要方式和媒介,在人們的生活和社會(huì)的發(fā)展中都產(chǎn)生了不可或缺的重要的影響。在此基礎(chǔ)下,圖像分類便作為計(jì)算機(jī)視覺(jué)領(lǐng)域的一個(gè)基礎(chǔ)性任務(wù),其要求是為圖像中存在的對(duì)象分配正確及合適的標(biāo)簽,從而將圖像的視覺(jué)信息轉(zhuǎn)變成語(yǔ)義信息,同時(shí)實(shí)現(xiàn)最小的分類誤差,方便人們更好能夠去理解圖像并分析圖像深層含義。多標(biāo)簽圖像識(shí)別作為圖像分類的一個(gè)分支,同樣是是計(jì)算機(jī)視覺(jué)領(lǐng)域的一項(xiàng)基本任務(wù),其要求是為圖像中存在的多個(gè)對(duì)象分配正確及合適的標(biāo)簽。這項(xiàng)技術(shù)可應(yīng)用于通信、無(wú)人駕駛、人類屬性識(shí)別和醫(yī)學(xué)影像分析等諸多領(lǐng)域。研究基于圖卷積的多標(biāo)簽圖像識(shí)別能夠促進(jìn)圖像分類技術(shù)的發(fā)展,幫助人們從多方面多角度理解和分析圖像,推動(dòng)多媒體技術(shù)的發(fā)展。本文將依據(jù)多標(biāo)簽圖像識(shí)別和圖卷積網(wǎng)絡(luò)等相關(guān)理論,參考基于圖卷積網(wǎng)絡(luò)的多標(biāo)簽圖像識(shí)別算法框架結(jié)構(gòu)及算法步驟,改進(jìn)其多標(biāo)簽圖像識(shí)別算法,分析此方法相較于其他各種方法的優(yōu)劣。本文在MSCOCO2014以及PASCALVOC2007數(shù)據(jù)集上開(kāi)展各項(xiàng)算法實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果顯示,該多標(biāo)簽圖像識(shí)別算法在以上數(shù)據(jù)集取得了最好的結(jié)果。關(guān)鍵詞:圖卷積神經(jīng)網(wǎng)絡(luò);多標(biāo)簽圖像識(shí)別;標(biāo)簽依賴性目錄1緒論 51.1課題研究背景及意義 51.2國(guó)內(nèi)外研究現(xiàn)狀 61.3課題研究?jī)?nèi)容 71.4本文章節(jié)安排 72多標(biāo)簽圖像識(shí)別相關(guān)研究工作 82.1傳統(tǒng)識(shí)別方法 82.2圖卷積網(wǎng)絡(luò)簡(jiǎn)介 92.3本章小結(jié) 103融合區(qū)域語(yǔ)義關(guān)聯(lián)的多標(biāo)簽圖像識(shí)別方法 103.1融合區(qū)域語(yǔ)義關(guān)聯(lián)的多標(biāo)簽圖像識(shí)別算法框架 103.2圖像特征學(xué)習(xí) 113.3相關(guān)系數(shù)矩陣 113.4GCN分類器學(xué)習(xí) 123.5本章小結(jié) 134實(shí)驗(yàn)過(guò)程及結(jié)果分析 134.1實(shí)驗(yàn)數(shù)據(jù)集介紹 134.2評(píng)價(jià)指標(biāo) 144.3實(shí)現(xiàn)細(xì)節(jié) 154.4MSCOCO數(shù)據(jù)集實(shí)驗(yàn)結(jié)果及分析 154.5PASCALVOC2007數(shù)據(jù)集實(shí)驗(yàn)結(jié)果與分析 164.6本章小結(jié) 165結(jié)論 16主要參考文獻(xiàn): 181緒論隨著多媒體技術(shù)的發(fā)展,多媒體數(shù)據(jù)迅速充斥著人們的生活,并在國(guó)民社會(huì)、經(jīng)濟(jì)生活中承擔(dān)著愈發(fā)重要的角色。原因是與文字語(yǔ)言相比,圖像不僅能夠生動(dòng)、真實(shí)、可靠地描述客觀事物及對(duì)象,也可以直觀地傳達(dá)所要表達(dá)的信息。1.1課題研究背景及意義圖像分類是一項(xiàng)傳統(tǒng)的研究課題,通過(guò)計(jì)算機(jī)將大量的圖片進(jìn)行分類和識(shí)別,是主要的研究方向之一(林俊杰,何婉如,2022)。根據(jù)這些數(shù)據(jù)看出因?yàn)閳D像識(shí)別任務(wù)的目標(biāo)和檢測(cè)數(shù)量不同,分類任務(wù)可以分成單標(biāo)簽圖像識(shí)別和多標(biāo)簽圖像識(shí)別。而單標(biāo)簽圖像識(shí)別是圖像分類的傳統(tǒng)課題,已有多年的研究,基于當(dāng)前背景技術(shù)已經(jīng)趨于成熟,并在識(shí)別精度和效果上都取得了不錯(cuò)的進(jìn)展。單標(biāo)簽圖像識(shí)別是指為每張圖片分配一個(gè)正確及合適的類別標(biāo)簽。在此基礎(chǔ)上,因?yàn)槲矬w所含類別的數(shù)量不同,又可以細(xì)分成兩種分類方法:二分類和多類別分類。例如下圖1,下圖明顯含有飛機(jī),則可以將標(biāo)簽記為飛機(jī)。通過(guò)單標(biāo)簽圖像識(shí)別本文可以判斷該圖像中是否含有飛機(jī)(駱詩(shī)雅,周德清,2023)。圖1:機(jī)場(chǎng)但現(xiàn)實(shí)生活中一幅圖片中往往包含多個(gè)類別的物體,有豐富的標(biāo)簽,這也更加符合人的認(rèn)知習(xí)慣(潘志偉,陳曉梅,2021)。例如上圖中,含有飛機(jī)標(biāo)簽的同時(shí),也含有機(jī)場(chǎng)和候機(jī)樓等標(biāo)簽。因此,在此情境之中多標(biāo)簽圖像識(shí)別相比于單標(biāo)簽圖像識(shí)別是一個(gè)更為普遍和實(shí)際的問(wèn)題,它不僅能分辨圖片中是否同時(shí)包含我們所要檢測(cè)的內(nèi)容,也打破了以往圖像分類過(guò)于單一的局限性(程志強(qiáng),鄒宇航,2021)。多標(biāo)簽圖像識(shí)別是在單標(biāo)簽圖像識(shí)別基礎(chǔ)上的推廣,其要求是為圖像分配多個(gè)正確及合適的標(biāo)簽來(lái)充分表達(dá)圖像中蘊(yùn)含的一些視覺(jué)信息。通過(guò)分析可見(jiàn)一斑由于其豐富及強(qiáng)大的表示能力,其在圖像檢索、人臉識(shí)別、場(chǎng)景識(shí)別等計(jì)算機(jī)視覺(jué)領(lǐng)域具有更加重要的地位和更加廣泛的應(yīng)用(桑志剛,邵曉燕,2023)。這在一定程度上反映出來(lái)多標(biāo)簽圖像識(shí)別的主要任務(wù)是通過(guò)對(duì)圖像中所包含多個(gè)目標(biāo)分配正確及合適的類別標(biāo)簽來(lái)對(duì)圖像進(jìn)行分類。從整體上講,圖像多標(biāo)簽分類涉及到圖像上的多個(gè)標(biāo)簽,在這種狀態(tài)下因此有必要更好地理解圖像信息與圖像中目標(biāo)對(duì)象的類別標(biāo)簽,這就表示著海量圖像的分類概率很有可能大大提高(馮志豪,錢(qián)思琪,2018)[[]DaiY,LiY,LiST.Multi-labellearningforconcept-orientedlabelsofproductimagedata[J].ImageandVisionComputing,2020,93:103821.[]DaiY,LiY,LiST.Multi-labellearningforconcept-orientedlabelsofproductimagedata[J].ImageandVisionComputing,2020,93:103821.多標(biāo)簽圖像識(shí)別的任務(wù)相比于單標(biāo)簽圖像識(shí)別更加重要,原因在于我們生活中遇到的且需要進(jìn)行分類的大多數(shù)圖像都包含許多不同類型的對(duì)象,單一的標(biāo)簽無(wú)法完整的表達(dá)出一篇圖像中所包含的語(yǔ)義信息,從這些規(guī)定可以認(rèn)識(shí)到它們需要由多個(gè)不同的數(shù)據(jù)標(biāo)簽信息構(gòu)成(熊梓淇,周子昂,2021);另一方面,在多標(biāo)簽圖像數(shù)據(jù)集里面,每個(gè)對(duì)象之間也存在著一定程度相互關(guān)聯(lián)與相互影響的內(nèi)在關(guān)系,多標(biāo)簽數(shù)據(jù)帶來(lái)了分類精度提升的巨大阻礙[[]YeH,LuoZ.Deeprankingbasedcost-sensitivemulti-labellearningfordistantsupervisionrelationextraction[J].InformationProcessingandManagement,2019:102096.]。對(duì)于上文所提結(jié)論的驗(yàn)證環(huán)節(jié),此處暫不深入細(xì)究,究其緣由,時(shí)間因素的作用不可小覷。科學(xué)研究多是一個(gè)漫長(zhǎng)的歷程,尤其在涉足復(fù)雜問(wèn)題或未知領(lǐng)域之際,須要充足的時(shí)間用于觀察現(xiàn)象、處理數(shù)據(jù),以期得出穩(wěn)固可靠的結(jié)論。當(dāng)前研究雖已斬獲部分階段性成果,但要實(shí)現(xiàn)對(duì)所有結(jié)論的全方位且深度的驗(yàn)證,仍需更漫長(zhǎng)的跟蹤考察與反復(fù)試驗(yàn)。這不單有助于排除偶然因素的干擾,也能確保研究成果擁有更高的嚴(yán)謹(jǐn)性與普適性。再者,技術(shù)手段的發(fā)展層級(jí)同樣制約著結(jié)論驗(yàn)證的進(jìn)程。隨著科技的不斷發(fā)展,全新的研究工具與技術(shù)如雨后春筍般涌現(xiàn),為科學(xué)研究提供了更為廣闊的探索空間。例如下圖2,單標(biāo)簽圖像識(shí)別往往只能識(shí)別其中包含的單個(gè)標(biāo)簽,只能識(shí)別圖像中是否包含該標(biāo)簽。而多標(biāo)簽圖像識(shí)別往往能識(shí)別出不同目標(biāo)并分配正確及合適的標(biāo)簽(王俊凱,趙月華,2020)。[]YeH,LuoZ.Deeprankingbasedcost-sensitivemulti-labellearningfordistantsupervisionrelationextraction[J].InformationProcessingandManagement,2019:102096.圖2:?jiǎn)螛?biāo)簽圖像識(shí)別對(duì)比多標(biāo)簽圖像識(shí)別這在一定角度上表達(dá)了多標(biāo)簽圖像識(shí)別目前主要存在以下問(wèn)題:一是圖像中需要識(shí)別的目標(biāo)可能被遮擋導(dǎo)致識(shí)別不全或者背景過(guò)于復(fù)雜導(dǎo)致識(shí)別效果較差,另外還有目標(biāo)可能過(guò)小導(dǎo)致現(xiàn)有技術(shù)無(wú)法識(shí)別等問(wèn)題。二是由于多標(biāo)簽圖像識(shí)別中一幅圖像往往具有多個(gè)標(biāo)簽,導(dǎo)致要分類的可能性隨類別呈指數(shù)性增長(zhǎng),在這樣的環(huán)境中輸出空間隨著標(biāo)簽數(shù)指數(shù)性增長(zhǎng)等問(wèn)題(徐浩淼,林澤楷,2021)。在數(shù)據(jù)分析方法的甄選層面,本文不但運(yùn)用了經(jīng)典的統(tǒng)計(jì)分析方式,像是描述性統(tǒng)計(jì)、回歸分析等,還融入了近些年快速崛起的數(shù)據(jù)挖掘技術(shù)與算法。比如借助聚類分析來(lái)察覺(jué)數(shù)據(jù)里潛藏的模式,或者利用決策樹(shù)算法來(lái)預(yù)判未來(lái)走向。這些前沿的方法為透徹剖析復(fù)雜現(xiàn)象給予了堅(jiān)實(shí)的支撐,并能夠助力挖掘出隱匿在龐大數(shù)據(jù)背后的深層關(guān)聯(lián)。此外,本文還著重突出了混合方法的運(yùn)用,也就是將定量探究與定性研究相融合,以此獲取更為全面的洞察視角。目前多標(biāo)簽圖像識(shí)別的解決方案與單標(biāo)簽的同類解決方案相比,分類性能明顯不足。在多標(biāo)簽域中,通常不事先知道新示例所屬的類數(shù)。按照該理論框架進(jìn)行細(xì)致研究可得出它受到原始數(shù)據(jù)集中先前觀察到的可能類別的數(shù)量限制,雖然缺少此信息可能不會(huì)在類別少的域中構(gòu)成主要問(wèn)題,但是在較大的域中,缺少此信息會(huì)使分類變得非常復(fù)雜(郭潤(rùn),陳欣怡,2021)[[]HeZF,YangM,GaoY,etal.Jointmulti-labelclassificationandlabelcorrelationswithmissinglabelsandfeatureselection[J].Knowledge-Based{{{SYS}}}tems,2019,163:145-158.]。而且在語(yǔ)義空間中絕大部分的標(biāo)簽往往是相互關(guān)聯(lián),本于前述之研究在實(shí)際的多標(biāo)簽分類場(chǎng)景里面,假如能夠挖掘出標(biāo)簽彼此之間的相關(guān)性關(guān)系,則能夠促進(jìn)分類的過(guò)程,這將大大提高分類的效率,尤其在某些極端的場(chǎng)景下,根據(jù)這些數(shù)據(jù)看出例如面對(duì)指數(shù)級(jí)別的候選標(biāo)簽情形下,訓(xùn)練數(shù)據(jù)集里面的某一樣本的標(biāo)簽信息與其他樣本的標(biāo)簽信息之間的潛在關(guān)聯(lián),會(huì)在很大程度上左右著多標(biāo)簽分類的預(yù)測(cè)成績(jī)(成澤翔,付雪倩,張怡萱,2020)[]HeZF,YangM,GaoY,etal.Jointmulti-labelclassificationandlabelcorrelationswithmissinglabelsandfeatureselection[J].Knowledge-Based{{{SYS}}}tems,2019,163:145-158.[]YangH,ZhouJT,CaiJ.Improvingmulti-labellearningwithmissinglabelsbystructuredsemanticcorrelations[C]Europeanconferenceoncomputervision.Springer,Cham,2016:835-851.1.2國(guó)內(nèi)外研究現(xiàn)狀目前在圖像分類上,基于當(dāng)前背景基于機(jī)器學(xué)習(xí)的算法主要有兩個(gè)方向:一是問(wèn)題遷移,該方向的主要解決思路是將復(fù)雜的多標(biāo)簽圖像識(shí)別轉(zhuǎn)化為單一的單標(biāo)簽圖像識(shí)別,如訓(xùn)練多個(gè)分類器、將標(biāo)簽轉(zhuǎn)化為向量等;在此情境之中二是根據(jù)多標(biāo)簽圖像識(shí)別的特點(diǎn),提出新的算法和模型,包括ML-KNN、RankingSVM、Multi-labelDecisionTree等。在第一種解決思路中,R(甘博遠(yuǎn),胡睿德,2018)vian等[[]R{{{AZA}}}vianAS,AzizpourH,SullivanJ,etal.CNNfeaturesoff-the-shelf:anastoundingbaselineforrecognition[C]//Proceedingsof2014I{{{EEE}}}ConferenceonComputerVisionandPatternRecognition,2014:512–519.]首先使用大規(guī)模單標(biāo)簽數(shù)據(jù)集ImageNet[[]DengJ,DongW,SocherR,etal.ImageNet:alarge-scalehierarchicalimagedatabase[C]//Proceedingsof2009I{{{EEE}}}ComputerVisionandPatternRecognition,2009:248–255.]預(yù)訓(xùn)練網(wǎng)絡(luò)模型,在訓(xùn)練完成后將該網(wǎng)絡(luò)模型的參數(shù)遷移到多標(biāo)簽網(wǎng)絡(luò)模型中,然后使用網(wǎng)絡(luò)模型輸出的圖像特征標(biāo)簽訓(xùn)練每個(gè)標(biāo)簽的支持向量機(jī)分類器,該解決方法在識(shí)別效果上有一定的提升,但結(jié)果是不夠精確(余澤光,錢(qián)佳怡,2020)。Wei等[[]WeiYC,XiaW,LinM,etal.HCP:aflexibleCNNframeworkformulti-labelimageclassification[J].I{{{EEE}}}TransactionsonPatternAnalysisandMachineIntelligence,2016,38(9):1901–1907.]提出了另一種解決方法,即HCP網(wǎng)絡(luò)模型。本文在數(shù)據(jù)分析期間使用了不同的統(tǒng)計(jì)學(xué)方法來(lái)確認(rèn)數(shù)據(jù)的準(zhǔn)確性,并識(shí)別出潛在的偏差值。通過(guò)對(duì)數(shù)據(jù)結(jié)構(gòu)的深度剖析,本文清除了異常數(shù)據(jù)點(diǎn),同時(shí)確保了重要樣本信息的完整性。為了衡量參數(shù)變動(dòng)對(duì)研究結(jié)論的影響,本文還進(jìn)行了敏感性評(píng)估。通過(guò)分析可見(jiàn)一斑該模型首先利用BING[[]ChengMM,ZhangZM,LinWY,etal.BING:binarizednormedgradientsforobjectnessestimationat300fps[C]//Proceedingsof2014I{{{EEE}}}ConferenceonComputerVisionandPatternRecognition,2014:3286–3293.]算法提取出包含單個(gè)目標(biāo)的備用塊,然后在此基礎(chǔ)上使用聚類算法,從這些備用塊中挑選出一定量的備用塊輸入到網(wǎng)絡(luò)模型當(dāng)中(張成棟、付志遠(yuǎn)、黃睿智,2023)。對(duì)于每個(gè)輸入的備用塊,網(wǎng)絡(luò)模型都會(huì)對(duì)其進(jìn)行分類并輸出分類結(jié)果,最后使用類別最大池化方式進(jìn)行融合得到最終的多標(biāo)簽圖像識(shí)別結(jié)果。該方法同樣提升了一定的識(shí)別想過(guò)。但是由于圖像中的多個(gè)標(biāo)簽往往是具有一定的關(guān)聯(lián)性的,這在一定程度上反映出來(lái)而上述方法選擇忽略了這種關(guān)聯(lián)性,使得分類的效果并不十分理想(龔欣怡,成天羽,2021)。例如,“飛機(jī)”和“天空”、“機(jī)場(chǎng)”和“飛機(jī)”會(huì)經(jīng)常出現(xiàn)在同一幅圖像中。于是在這些關(guān)聯(lián)性的影響下,Wang等[[]WangJ,YangY,MaoJH,etal.CNN-RNN:aunifiedframeworkformulti-labelimageclassification[C]//Proceedingsof2016I{{{EEE}}}ConferenceonComputerVisionandPatternRecognition,2016:2285–2294.[]R{{{AZA}}}vianAS,AzizpourH,SullivanJ,etal.CNNfeaturesoff-the-shelf:anastoundingbaselineforrecognition[C]//Proceedingsof2014I{{{EEE}}}ConferenceonComputerVisionandPatternRecognition,2014:512–519.[]DengJ,DongW,SocherR,etal.ImageNet:alarge-scalehierarchicalimagedatabase[C]//Proceedingsof2009I{{{EEE}}}ComputerVisionandPatternRecognition,2009:248–255.[]WeiYC,XiaW,LinM,etal.HCP:aflexibleCNNframeworkformulti-labelimageclassification[J].I{{{EEE}}}TransactionsonPatternAnalysisandMachineIntelligence,2016,38(9):1901–1907.[]ChengMM,ZhangZM,LinWY,etal.BING:binarizednormedgradientsforobjectnessestimationat300fps[C]//Proceedingsof2014I{{{EEE}}}ConferenceonComputerVisionandPatternRecognition,2014:3286–3293.[]WangJ,YangY,MaoJH,etal.CNN-RNN:aunifiedframeworkformulti-labelimageclassification[C]//Proceedingsof2016I{{{EEE}}}ConferenceonComputerVisionandPatternRecognition,2016:2285–2294.[]HochreiterS,SchmidhuberJ.Longshort-termmemory[J].NeuralComputation,1997,9(8):1735–1780.[]ZhangJJ,WuQ,ShenCH,etal.Multilabelimageclassificationwithregionallatentsemanticdependencies[J].I{{{EEE}}}TransactionsonMultimedia,2018,20(10):2801–2813.1.3課題研究?jī)?nèi)容本項(xiàng)設(shè)計(jì)研究采用參閱前人論文和設(shè)計(jì)研究成果,研究圖卷積和多標(biāo)簽圖像識(shí)別,設(shè)計(jì)基于圖卷積的多標(biāo)簽分類模型,在這樣的環(huán)境中運(yùn)用軟件集成開(kāi)發(fā)平臺(tái)和編程軟件及Pytorch深度學(xué)習(xí)框架,自主開(kāi)發(fā)設(shè)計(jì)實(shí)現(xiàn)基于圖卷積的多標(biāo)簽圖像識(shí)別。整體思路為首先通過(guò)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像特征的提取,按照該理論框架進(jìn)行細(xì)致研究可得出再通過(guò)設(shè)計(jì)的圖卷積網(wǎng)絡(luò)將詞嵌入向量映射到一組互相依賴的分類器上,最后通過(guò)將分類器直接應(yīng)用于提取出的圖像特征得到分類結(jié)果。1.4本文章節(jié)安排第一章為緒論,主要介紹多標(biāo)簽圖像識(shí)別的研究背景和研究意義,闡述國(guó)內(nèi)外的多標(biāo)簽圖像識(shí)別算法研究現(xiàn)狀并討論其優(yōu)劣,本于前述之研究最后闡述本文研究共工作。第二章為相關(guān)工作,討論幾種傳統(tǒng)的多標(biāo)簽圖像識(shí)別算法,并介紹本文算法使用的圖卷積神經(jīng)網(wǎng)絡(luò)。第三章為多標(biāo)簽圖像識(shí)別算法,介紹本文采用的多標(biāo)簽圖像識(shí)別算法框架,并詳細(xì)闡述了算法步驟。第四章為對(duì)各實(shí)驗(yàn)結(jié)果進(jìn)行分析與評(píng)價(jià),根據(jù)這些數(shù)據(jù)看出并分析算法的優(yōu)點(diǎn)與缺點(diǎn)。第五章為總結(jié),對(duì)本文中的主要內(nèi)容包括模型算法、實(shí)驗(yàn)結(jié)果等進(jìn)行最后總結(jié)。2多標(biāo)簽圖像識(shí)別相關(guān)研究工作2.1傳統(tǒng)識(shí)別方法傳統(tǒng)的多標(biāo)簽圖像識(shí)別方法中,由于輸出空間呈指數(shù)性增長(zhǎng),導(dǎo)致訓(xùn)練過(guò)程較慢。例如為表明單個(gè)標(biāo)簽是否被包含,輸出空間就有2,即包含或不包含。而20個(gè)標(biāo)簽輸出空間就有2^20。所以我們?yōu)樘嵘P托阅?,基于?dāng)前背景加快訓(xùn)練過(guò)程,就需要研究標(biāo)簽之間的關(guān)聯(lián)性(宮文博,靳曉萱,2023)。通過(guò)標(biāo)簽之間的關(guān)聯(lián)性,多標(biāo)簽圖像識(shí)別方法可以被大致歸納為三種類型,具體類型分為一階策略,在此情境之中二階策略和高階策略。一階策略:即不考慮標(biāo)簽之間的關(guān)聯(lián)性,只考慮單個(gè)標(biāo)簽是否存在(殷嘉和,陸頂琪,2023)。一個(gè)典型方法就是把復(fù)雜多標(biāo)簽圖像識(shí)別的問(wèn)題分解成多個(gè)單一的單標(biāo)簽圖像識(shí)別問(wèn)題。這種類型的多標(biāo)簽圖像識(shí)別算法因?yàn)橹粏为?dú)檢測(cè)每個(gè)標(biāo)簽,通過(guò)分析可見(jiàn)一斑實(shí)現(xiàn)起來(lái)簡(jiǎn)單且所用資源較少,但該類模型的泛化能力不足,對(duì)訓(xùn)練集效果可能不錯(cuò),但對(duì)于測(cè)試集效果較差,原因在于這類算法因?yàn)闆](méi)有去研究待訓(xùn)練圖像樣本里面的標(biāo)簽之間的關(guān)聯(lián)性。這種策略的代表性方法有BR算法(李天宇,王佳怡,2022)[[]TsoumakasG,KatakisI.Multi-labelclassification:Anoverview[J].InternationalJournalofDataWarehousingandMining(IJDWM),2007,3(3):1-13.][]TsoumakasG,KatakisI.Multi-labelclassification:Anoverview[J].InternationalJournalofDataWarehousingandMining(IJDWM),2007,3(3):1-13.二階策略:即考慮標(biāo)簽之間的關(guān)聯(lián)性,這在一定程度上反映出來(lái)但只考慮成對(duì)標(biāo)簽。比如將關(guān)聯(lián)性分為相關(guān)標(biāo)簽和不相關(guān)標(biāo)簽。通過(guò)研究相關(guān)標(biāo)簽與不相關(guān)標(biāo)簽來(lái)簡(jiǎn)化輸出空間,與一階策略相比極大的改善了模型的泛化能力,在這種狀態(tài)下無(wú)論是訓(xùn)練過(guò)程還是測(cè)試過(guò)程都展現(xiàn)出了較為優(yōu)秀的性能(盛澤楷,胡俊杰,2021)。正是因?yàn)槎A策略這類方法在一定程度上去直接研究使用了待訓(xùn)練樣本標(biāo)簽里面的標(biāo)簽相關(guān)性等信息,從這些規(guī)定可以認(rèn)識(shí)到才使得多標(biāo)簽圖像識(shí)別效果有了提升,但并不能包含所有的類別標(biāo)簽的情況,有一定的局限性。這種策略的代表方法是CLR[[]FürnkranzJ,HüllermeierE,MencíaEL,etal.Multilabelclassificationviacalibratedlabelranking[J].Machinelearning,2008,73(2):133-153.[]FürnkranzJ,HüllermeierE,MencíaEL,etal.Multilabelclassificationviacalibratedlabelranking[J].Machinelearning,2008,73(2):133-153.高階策略(許文韜,劉思琪,2023):即考慮多個(gè)標(biāo)簽之間的關(guān)聯(lián)性,對(duì)每個(gè)標(biāo)簽都考慮所有其與其它所有標(biāo)簽之間的關(guān)聯(lián)性。這在一定角度上表達(dá)了這種策略的基本原則是假設(shè)所有標(biāo)簽之間都存在著一定的關(guān)聯(lián)性并且充分研究使用待訓(xùn)練樣本里面的標(biāo)簽之間的關(guān)聯(lián)性,極大的提升了模型的泛化能力,這種做法能更好地體現(xiàn)和使用實(shí)際樣本下標(biāo)簽相關(guān)性。但考慮過(guò)于全面導(dǎo)致計(jì)算過(guò)于復(fù)雜,用來(lái)處理大規(guī)模的學(xué)習(xí)難度過(guò)高,在更大規(guī)模數(shù)據(jù)集的可擴(kuò)展性較差(崔皓天,周嘉誠(chéng),2021)。這種策略的代表方法包括DBR算法[[]Monta?esE,SengeR,BarranqueroJ,etal.Dependentbinaryrelevancemodelsformulti-labelclassification[J].PatternRecognition,2014,47(3):1494-1508.]和RAKEL算法[[[]Monta?esE,SengeR,BarranqueroJ,etal.Dependentbinaryrelevancemodelsformulti-labelclassification[J].PatternRecognition,2014,47(3):1494-1508.[]TsoumakasG,VlahavasI.Randomk-labelsets:Anensemblemethodformultilabelclassification[C]Europeanconferenceonmachinelearning.Springer,Berlin,Heidelberg,2007:406-417.2.2圖卷積網(wǎng)絡(luò)簡(jiǎn)介圖卷積網(wǎng)絡(luò)本質(zhì)是一個(gè)特征提取器,可以用來(lái)進(jìn)行半監(jiān)督分類任務(wù),核心思想是通過(guò)相關(guān)系數(shù)矩陣來(lái)進(jìn)行節(jié)點(diǎn)之間的信息傳播,并通過(guò)更新節(jié)點(diǎn)來(lái)進(jìn)行分類任務(wù)。其主要操作對(duì)象是圖數(shù)據(jù),在這樣的環(huán)境中通過(guò)圖卷積神經(jīng)網(wǎng)絡(luò)得到特征,然后使用得到的特征去對(duì)圖數(shù)據(jù)進(jìn)行節(jié)點(diǎn)分類、圖分類、邊預(yù)測(cè),還可以得到圖的嵌入表示。用途廣泛,功能強(qiáng)大(李靖雯,張志宇,2021)。圖2:圖卷積神經(jīng)網(wǎng)絡(luò)模型按照該理論框架進(jìn)行細(xì)致研究可得出標(biāo)準(zhǔn)卷積方法是在一張圖像局部歐氏結(jié)構(gòu)之上進(jìn)行操作的,而GCN的目標(biāo)是學(xué)習(xí)一個(gè)圖G的函數(shù)f(.,.)。該函數(shù)輸入為特征描述Hl∈?n×dHl+1每個(gè)GCN層都可以寫(xiě)成:Hl+1f(.,.)可表示為Hl+1然后可以通過(guò)堆疊多個(gè)GCN層來(lái)對(duì)節(jié)點(diǎn)之間復(fù)雜關(guān)系進(jìn)行建模。構(gòu)造圖卷積神經(jīng)網(wǎng)絡(luò)主要分為兩個(gè)方法。第一種是空間方法,即通過(guò)在節(jié)點(diǎn)域定義函數(shù),用來(lái)合并每個(gè)中心點(diǎn)及其鄰近點(diǎn)的信息,每個(gè)節(jié)點(diǎn)可以表示為自身信息和周圍節(jié)點(diǎn)信息的疊加(蔣俊馳,葉天佑,2023);本文同樣是在已有的理論架構(gòu)下組建了此次的框架模型,不管是在信息流程還是數(shù)據(jù)分析方式上,都展現(xiàn)出對(duì)前人研究成就的敬意與傳承,并基于此開(kāi)展了創(chuàng)新與精進(jìn)。首先,在信息流的布局維度,本文依據(jù)經(jīng)典的信息管理理論,確保信息從搜集、傳遞到剖析的每一道工序都得以高效且精準(zhǔn)地落實(shí)。憑借對(duì)數(shù)據(jù)出處的嚴(yán)格把控以及標(biāo)準(zhǔn)化的處理規(guī)程,信息的質(zhì)量獲得了可靠護(hù)佑,從而得以更加著重于信息流的清晰度與可溯源性。第二種是譜方法,本于前述之研究就是將時(shí)間域的卷積利用傅里葉變化映射到頻域的乘積,再映射到時(shí)間域。兩種方法各有優(yōu)劣,但各自適用于不同情況(龔啟元,柳舒暢,2021)。2.3本章小結(jié)本章對(duì)傳統(tǒng)的多標(biāo)簽圖像識(shí)別方法進(jìn)行梳理,根據(jù)這些數(shù)據(jù)看出對(duì)每種策略進(jìn)行詳細(xì)的介紹,闡明策略的不同及優(yōu)缺點(diǎn),分析不同策略所存在的問(wèn)題,基于當(dāng)前背景為接下來(lái)的多標(biāo)簽圖像識(shí)別算法做鋪墊。其次是介紹了圖卷積的相關(guān)知識(shí)及用于圖像分類的原因。3融合區(qū)域語(yǔ)義關(guān)聯(lián)的多標(biāo)簽圖像識(shí)別方法在本節(jié)中將闡述融合區(qū)域語(yǔ)義關(guān)聯(lián)的多標(biāo)簽圖像識(shí)別算法,在此情境之中詳細(xì)說(shuō)明本算法的兩個(gè)分支:圖像特征提取分支和GCN分類器訓(xùn)練分支。3.1融合區(qū)域語(yǔ)義關(guān)聯(lián)的多標(biāo)簽圖像識(shí)別算法框架圖3:模型總體框架GCN原本是被設(shè)計(jì)來(lái)進(jìn)行半監(jiān)督分類,每個(gè)GCN節(jié)點(diǎn)的輸出結(jié)果是其預(yù)測(cè)分?jǐn)?shù),但本文中將每個(gè)GCN節(jié)點(diǎn)的最終輸出都被設(shè)計(jì)成與標(biāo)簽相關(guān)的分類器。由于多標(biāo)簽圖像識(shí)別任務(wù)需要相關(guān)系數(shù)矩陣來(lái)進(jìn)行節(jié)點(diǎn)之間信息的更新與傳遞,本文中并未預(yù)先定義相關(guān)系數(shù)矩陣,通過(guò)分析可見(jiàn)一斑所以需要從頭構(gòu)建相關(guān)系數(shù)矩陣(甘博遠(yuǎn),胡睿德,2018)。整體思路為,使用常規(guī)的圖像特征學(xué)習(xí)方法提取圖像特征再與設(shè)計(jì)的圖卷積神經(jīng)網(wǎng)絡(luò)計(jì)算得到預(yù)測(cè)分?jǐn)?shù)。這樣,通過(guò)既有階段性研究的總結(jié),對(duì)后面的研究產(chǎn)生了一定的啟發(fā)作用。在研究策略上,本文能夠發(fā)現(xiàn)不少有待優(yōu)化和改進(jìn)之處。先前的研究階段給本文留下了寶貴的經(jīng)驗(yàn)教訓(xùn),揭示了哪些方法是切實(shí)可行的,哪些還需要進(jìn)一步調(diào)整或者放棄。例如,在資料收集方面,本文可以更加關(guān)注樣本的豐富性和代表性,確保所選取的樣本能夠準(zhǔn)確反映目標(biāo)群體的整體特征。此外,針對(duì)不一樣的研究問(wèn)題,靈活采用多種資料收集技術(shù)可以提高資料的全面性和可靠性在這種狀態(tài)下具體算法步驟(白睿淵,柯宇軒,2023):輸入圖片,通過(guò)卷積神經(jīng)網(wǎng)絡(luò)提取輸入圖片的特征映射,然后應(yīng)用全局最大池化得到圖像層面的特征。將所有標(biāo)簽由詞嵌入向量表示,使用這些標(biāo)簽建立有向圖,并訓(xùn)練本文中GCN,最終輸出為一組相互依賴的目標(biāo)分類器。將分類器直接應(yīng)用于學(xué)習(xí)到的圖像特征得到預(yù)測(cè)分?jǐn)?shù)。3.2圖像特征學(xué)習(xí)傳統(tǒng)圖像特征提取基本使用的是方向梯度直方圖(HOG)、局部二值模式(LBP)和高斯函數(shù)差分(DOG)等手動(dòng)設(shè)計(jì)的特征。這些手動(dòng)設(shè)計(jì)的特征都有其各自的優(yōu)缺點(diǎn),例如LBP算法,其優(yōu)點(diǎn)是所占空間少且效率高,缺點(diǎn)是在圖片有噪聲和其他影響因素的情況下,在這種狀態(tài)下特征提取率會(huì)降低,并且由于其只考慮圖片中心與鄰域的像素特征,可能會(huì)導(dǎo)致部分特征信息不能被有效提?。樜牟?,賀一鳴,2020)。而目前卷積神經(jīng)網(wǎng)絡(luò)發(fā)展的如火如荼,已成為深度學(xué)習(xí)的主力,在此基礎(chǔ)上,CNN也被用在了圖像特征提?。鲜篮?,梁愛(ài)琴,2020)。卷積神經(jīng)網(wǎng)絡(luò)通過(guò)卷積層和池化層提取圖像特征,經(jīng)過(guò)反向傳播最終確定卷積核參數(shù),得到最終的特征。卷積層中,從這些規(guī)定可以認(rèn)識(shí)到卷積核在圖像上不斷滑動(dòng)運(yùn)算。同時(shí),在內(nèi)積結(jié)果上取每一局部塊的最大值就是最大池化層的操作。CNN用卷積層和池化層實(shí)現(xiàn)了圖片特征提取方法(黃欣怡,李俊杰,2022)。本文在實(shí)驗(yàn)中使用ResNet101作為實(shí)驗(yàn)基礎(chǔ)模型,輸入大小為448*448的圖像,輸出大小為2048*14*14的特征映射,然后應(yīng)用全局最大池化獲取圖像層面的特征x:x=f其中,θcnn表示網(wǎng)絡(luò)參數(shù),D為緯度2048。即通過(guò)卷積網(wǎng)絡(luò),本文將圖像的特征提取為一個(gè)2048緯度的向量(丁睿德,任博遠(yuǎn),2018)3.3相關(guān)系數(shù)矩陣在GCN當(dāng)中,為使節(jié)點(diǎn)之間能夠進(jìn)行信息更新和傳遞,往往需要構(gòu)建節(jié)點(diǎn)間的相關(guān)系數(shù)矩陣。大部分情況下,這在一定角度上表達(dá)了相關(guān)系數(shù)矩陣都是預(yù)先定義好的,在本文中,將以數(shù)據(jù)驅(qū)動(dòng)的方式構(gòu)建一個(gè)相關(guān)系數(shù)矩陣,在這樣的環(huán)境中相關(guān)性可以通過(guò)挖掘標(biāo)簽在數(shù)據(jù)集中的共現(xiàn)模式而來(lái)定義。通過(guò)該相關(guān)系數(shù)矩陣來(lái)明確地建模分類器學(xué)習(xí)的標(biāo)簽依賴關(guān)系(彭宇軒,鄧詩(shī)琪,2022)。如下圖所示,按照該理論框架進(jìn)行細(xì)致研究可得出兩個(gè)標(biāo)簽之間的相關(guān)性可能相對(duì)不同,當(dāng)Lairport出現(xiàn)時(shí),Lplane出現(xiàn)的概率為0.9,即P(Lairport|Lplane)=0.9;當(dāng)Lplane構(gòu)建相關(guān)系數(shù)矩陣,首先需要統(tǒng)計(jì)訓(xùn)練集中標(biāo)簽對(duì)的出現(xiàn)次數(shù),得到矩陣M∈M本于前述之研究即一個(gè)標(biāo)簽與另一個(gè)標(biāo)簽的對(duì)應(yīng)關(guān)系,其中Ni表示標(biāo)簽i在訓(xùn)練集中出現(xiàn)的次數(shù),長(zhǎng)寬為標(biāo)簽的個(gè)數(shù),Mij表示標(biāo)簽i和標(biāo)簽j同時(shí)出現(xiàn)的次數(shù)。通過(guò)這個(gè)矩陣M,得到條件概率矩陣(劉語(yǔ)嫣,王志剛,2019):Pi圖4:標(biāo)簽依賴性但是僅僅通過(guò)這樣構(gòu)造相關(guān)系數(shù)矩陣存在著兩個(gè)問(wèn)題。首先,根據(jù)這些數(shù)據(jù)看出一個(gè)標(biāo)簽和其它標(biāo)簽的同時(shí)出現(xiàn)的次數(shù)可能出現(xiàn)長(zhǎng)尾分布,即分布不均衡,使得我們學(xué)習(xí)出的分類器不準(zhǔn),基于當(dāng)前背景并且其中某些罕見(jiàn)的共現(xiàn)可能是噪聲(王子和,周嘉琪,2020);其次,訓(xùn)練和測(cè)試中同時(shí)出現(xiàn)的絕對(duì)數(shù)可能并不完全一致,在此情境之中即過(guò)擬合。在數(shù)據(jù)解析環(huán)節(jié),已有研究的實(shí)踐啟示本文需強(qiáng)化對(duì)新型分析手段與技術(shù)的應(yīng)用。伴隨信息技術(shù)的迅猛演進(jìn),像大數(shù)據(jù)分析、機(jī)器學(xué)習(xí)算法這類前沿工具正逐步成為科學(xué)研究的關(guān)鍵要素。這些技術(shù)既能助力本文更快速地處理海量信息,又能夠洞察傳統(tǒng)途徑不易察覺(jué)的深層信息與規(guī)律。故而,在后續(xù)的研討中,本文理當(dāng)積極探尋如何把這些先進(jìn)技藝融入本文的解析體系里,以此強(qiáng)化研究結(jié)論的精準(zhǔn)度與洞察力。訓(xùn)練的模型過(guò)分?jǐn)M合訓(xùn)練集而在測(cè)試集效果不佳。避免過(guò)擬合是我們?cè)谀P蜆?gòu)建中主要需要解決的問(wèn)題之一。因此,我們必須對(duì)這種簡(jiǎn)單的相關(guān)性進(jìn)行優(yōu)化。本文通過(guò)對(duì)相關(guān)系數(shù)矩陣進(jìn)行二值化處理的方式來(lái)解決長(zhǎng)尾分布及過(guò)擬合的問(wèn)題。我們通過(guò)設(shè)置閾值τ的方式來(lái)進(jìn)行噪聲的過(guò)濾。通過(guò)分析可見(jiàn)一斑當(dāng)大于閾值τ的時(shí)候,我們就將該點(diǎn)值置為1,反之為0。具體公式如下,其中A是二值相關(guān)系數(shù)矩陣(薛佳妮,韓旭東,2019):Aij經(jīng)過(guò)以上二值化處理相關(guān)系數(shù)矩陣之后,一個(gè)節(jié)點(diǎn)的特征是其自身特征和相鄰節(jié)點(diǎn)特征的加權(quán)和。這在一定程度上反映出來(lái)但是經(jīng)過(guò)二值化處理相關(guān)系數(shù)矩陣后所面臨的一個(gè)直接問(wèn)題是其可能導(dǎo)致過(guò)度平滑,在這種狀態(tài)下即經(jīng)過(guò)多次卷積后,同一連通分量?jī)?nèi)所有節(jié)點(diǎn)的特征都趨于一致。過(guò)渡平滑被認(rèn)為是圖卷積神經(jīng)網(wǎng)絡(luò)性能下降的主要原因(劉雅婷,張學(xué)杰,2020)。因此為了緩解這一問(wèn)題,本文提出以下二次加權(quán)方法:Aij通過(guò)這種二次加權(quán)方法,從這些規(guī)定可以認(rèn)識(shí)到在通過(guò)相關(guān)系數(shù)矩陣進(jìn)行節(jié)點(diǎn)信息的更新時(shí),節(jié)點(diǎn)本身的權(quán)重是固定的,相關(guān)節(jié)點(diǎn)的權(quán)重則由鄰近分布確定。當(dāng)p→1時(shí),選擇節(jié)點(diǎn)本身的特征;當(dāng)p→0時(shí),選擇忽略相鄰信息(徐俊杰,郭昱然,2020)。3.4GCN分類器學(xué)習(xí)這在一定角度上表達(dá)了主要思路為通過(guò)GCN從標(biāo)簽關(guān)聯(lián)性中學(xué)習(xí)并輸出目標(biāo)分類器W={wi}i=1C。因?yàn)檩斎氲椒诸惼鞯脑~嵌入向量在所有類之間共享,同樣模擬了標(biāo)簽相關(guān)性。本文使用兩層GCN,第一層的輸入是詞嵌入向量Z∈?C×d,輸出節(jié)點(diǎn)特征Hly=Wx即將最后一層輸出分類器W∈?假設(shè)一張圖像的真實(shí)標(biāo)簽是y∈?C,yi={0,1},表示圖像中是否有標(biāo)簽i,?=c=1C其中σ?3.5本章小結(jié)本章詳細(xì)介紹了融合區(qū)域語(yǔ)義關(guān)聯(lián)的多標(biāo)簽圖像識(shí)別的基本流程及框架。介紹了各個(gè)功能框架的實(shí)現(xiàn)部分原理,本于前述之研究包括如何通過(guò)resnet101進(jìn)行圖像特征提取,然后闡述了GCN的節(jié)點(diǎn)更新方法及訓(xùn)練方法,詳細(xì)說(shuō)明了相關(guān)系數(shù)矩陣的構(gòu)造,并就分類器如何直接作用于圖像特征進(jìn)行了詳細(xì)的解釋,基于此,本文將在此模型上進(jìn)行多標(biāo)簽圖像識(shí)別的相關(guān)實(shí)驗(yàn)(鄒紫辰,梁宏偉,2020)。4實(shí)驗(yàn)過(guò)程及結(jié)果分析在本節(jié)中,根據(jù)這些數(shù)據(jù)看出本文首先介紹實(shí)驗(yàn)所用的數(shù)據(jù)集,描述了評(píng)估指標(biāo)和實(shí)驗(yàn)細(xì)節(jié)。然后,本文在MSCOCO2014和PASCALVOC2007兩個(gè)數(shù)據(jù)集上報(bào)告了實(shí)驗(yàn)結(jié)果,并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析。4.1實(shí)驗(yàn)數(shù)據(jù)集介紹為了驗(yàn)證本文所提出方法的有效性,本研究在MSCOC02014和PASCALV0C2007數(shù)據(jù)集上完成實(shí)驗(yàn)并和當(dāng)前最優(yōu)的算法進(jìn)行對(duì)比(孫宇陽(yáng),魏錦程,2020)。MSCOCO2014:MSCOCO2014數(shù)據(jù)集是一個(gè)國(guó)際權(quán)威數(shù)據(jù)集,基于當(dāng)前背景由微軟公司開(kāi)發(fā)維護(hù)。MSCOCO數(shù)據(jù)集2014版本包含有樣本總數(shù)82783張,其中訓(xùn)練集包含40504張圖片,測(cè)試集包含40775張圖片(何宇陽(yáng),許子怡,2022)。所有圖片被分為80個(gè)類,每個(gè)圖片大約有2.9個(gè)對(duì)象標(biāo)簽。在此情境之中其主要用于目標(biāo)分割、圖像識(shí)別等任務(wù)。特點(diǎn)是每張圖多目標(biāo)。MSCOCO中的圖片包含了自然圖片以及生活中常見(jiàn)的目標(biāo)圖片,背景比較復(fù)雜,目標(biāo)數(shù)量比較多,目標(biāo)尺寸較小。本文框架模型的一大突出之處在于其極強(qiáng)的靈活性與可擴(kuò)展性特質(zhì)。考慮到不同研究背景與需求的復(fù)雜多樣,本文在精心構(gòu)思模型時(shí),著力保證各個(gè)模塊單元的相對(duì)獨(dú)立性,從而在實(shí)際應(yīng)用場(chǎng)景中,可以依據(jù)具體需求靈活變動(dòng)或者替換相關(guān)模塊,而不會(huì)對(duì)整體結(jié)構(gòu)的穩(wěn)定性和有效性產(chǎn)生任何負(fù)面影響。這一設(shè)計(jì)策略不僅有效提高了模型的應(yīng)用潛力,也為后續(xù)研究人員提供了一個(gè)開(kāi)放的舞臺(tái),便于他們基于已有模型進(jìn)行深度開(kāi)發(fā)或革新。PASCALVOC2007:PASCALVOC2007數(shù)據(jù)集是一個(gè)國(guó)際權(quán)威的數(shù)據(jù)集,其包含樣本總數(shù)9963張,通過(guò)分析可見(jiàn)一斑其中訓(xùn)練集包含5011張圖片,測(cè)試集包含4962張圖片。所有圖片被分為20個(gè)類,大部分類是生活中常見(jiàn)的目標(biāo)圖片。數(shù)據(jù)集上除了person分類的圖片較多外,這在一定程度上反映出來(lái)其他種類的圖片數(shù)量并不是很多(孫若宇,邱雅靜,2019)。MSCOCO2014數(shù)據(jù)集比PASCALVOC2007數(shù)據(jù)集更加復(fù)雜。MSCOCO2014數(shù)據(jù)集在圖片數(shù)量上超過(guò)PASCALVOC2007十倍,在每張圖片所擁有的平均標(biāo)簽數(shù)量也要超過(guò)PASCALVOC2007。4.2評(píng)價(jià)指標(biāo)為了評(píng)估所提出的模型的性能,本文采用了per-classprecision(CP),recall(CR),F1(CF1),theaverageoverallprecision(OP),recall(OR),F1(OF1)和meanAveragePrecision(mAP)。per-classprecision(CP)為精確率(趙子墨,孫銘遠(yuǎn),2020)。在這種狀態(tài)下精確率主要針對(duì)預(yù)測(cè)結(jié)果,預(yù)測(cè)為正就有兩種可能,一種就是把正類預(yù)測(cè)為正類(TP),另一種就是把負(fù)類預(yù)測(cè)為正類(FP),它表示的是預(yù)測(cè)為正的樣本中有多少是真正的正樣本,也就是P=TPrecall(CR)為召回率,它主要針對(duì)原有樣本,表示的是樣本中的正例有多少被預(yù)測(cè)正確。預(yù)測(cè)為正例包含兩種可能,從這些規(guī)定可以認(rèn)識(shí)到一種是把原來(lái)的正類預(yù)測(cè)成正類(TP),另一種就是把原來(lái)的正類預(yù)測(cè)為負(fù)類(FN)。即R=TPF值是精確率和召回率加權(quán)調(diào)和平均值,更接近于兩個(gè)數(shù)較小的那個(gè)。最常見(jiàn)的F值計(jì)算方法如下:F=2?P?R其中p為精確率,R為召回率。當(dāng)精確率和召回率接近時(shí),F(xiàn)值最大。F值越高則說(shuō)明實(shí)驗(yàn)?zāi)P托阅茉胶?。OP則為平均精確率,OR為平均召回率,OF1為平均F1值。對(duì)于每個(gè)圖像,如果置信值大于0.5,這在一定角度上表達(dá)了標(biāo)簽被預(yù)測(cè)為正(李俊杰,張雅琪,2024)。此外,本文還計(jì)算并報(bào)告了平均精度(mAP)。mAP為所有類別的AP平均值,是為了解決精確率,召回率和F值的局限性的。計(jì)算公式如下:mAP=0其中p為精確率,R為召回率。一個(gè)模型的mAP值大,則效果更好。4.3實(shí)現(xiàn)細(xì)節(jié)在圖像表示學(xué)習(xí)分支中,本文采用斜率為負(fù)0.2的LeakyReLU[[]AndrewLMaas,AwniYHannun,andAndrewYNg.Rectifiernonlinearitiesimproveneuralnetworkacousticmodels.InICML,pages1–6,2013.3,5]作為非線性激活函數(shù),實(shí)驗(yàn)中收斂速度更快(李嘉欣,趙思雨,2022)。[]AndrewLMaas,AwniYHannun,andAndrewYNg.Rectifiernonlinearitiesimproveneuralnetworkacousticmodels.InICML,pages1–6,2013.3,5在GCN分類器學(xué)習(xí)分支中,本文中的GCN由兩個(gè)GCN層組成,輸出維度分別為1024維和2048維,按照該理論框架進(jìn)行細(xì)致研究可得出選擇輸入的詞嵌入向量是在Wikipediadataset上訓(xùn)練的300-dimGloVe[[]JeffreyPennington,RichardSocher,andChristopherManning.GloVe:Globalvectorsforwordrepresentation.InEMNLP,pages1532–1543,2014.5,6致謝{{{C1C}}}[]JeffreyPennington,RichardSocher,andChristopherManning.GloVe:Globalvectorsforwordrepresentation.InEMNLP,pages1532–1543,2014.5,6致謝{{{C1C}}}實(shí)驗(yàn)中,統(tǒng)一設(shè)置初始學(xué)習(xí)率lr為0.01,總訓(xùn)練輪數(shù)epochs設(shè)置為100,每經(jīng)過(guò)40輪次學(xué)習(xí)率lr衰減10倍(吳宇翔,孫澤宇,2024)。本文基于PyTorch實(shí)現(xiàn)了網(wǎng)絡(luò),開(kāi)發(fā)語(yǔ)言為Pytho
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 紙質(zhì)寵物用品市場(chǎng)渠道建設(shè)與拓展策略研究考核試卷
- 銀行員工轉(zhuǎn)正自我鑒定模板(9篇)
- 樂(lè)器行業(yè)跨界藝術(shù)合作考核試卷
- 云南省楚雄彝族自治州2024-2025學(xué)年高二下學(xué)期第一次月考?xì)v史試題 含解析
- 羊毛紗線防縮技術(shù)考核試卷
- 紡織品基礎(chǔ)知識(shí)入門(mén)考核試卷
- 學(xué)生消防安全心得體會(huì)500字(33篇)
- 債權(quán)登記公告(4篇)
- 船舶租賃合同范文集錦(17篇)
- 勞動(dòng)合同續(xù)簽的重點(diǎn)條款
- 專題09 鄉(xiāng)村和城鎮(zhèn)-五年(2019-2023)高考地理真題分項(xiàng)匯編(解析版)
- 2025年第三屆天揚(yáng)杯建筑業(yè)財(cái)稅知識(shí)競(jìng)賽題庫(kù)附答案(201-300題)
- T-NKFA 015-2024 中小學(xué)午休課桌椅
- 課題開(kāi)題報(bào)告:推進(jìn)家校社協(xié)同育人研究
- 拒絕校園霸凌守護(hù)美好校園
- 2025春新七年級(jí)道德與法治下冊(cè)全冊(cè)知識(shí)點(diǎn)
- Unit 9 Active learning 教學(xué)設(shè)計(jì)-2023-2024學(xué)年高中英語(yǔ)北師大版(2019)必修第三冊(cè)
- 漁場(chǎng)基地建設(shè)實(shí)施方案
- 《食源性病原體》課件
- 《藥品泡罩包裝應(yīng)用指南(征求意見(jiàn)稿)》
- Unit 6 Beautiful landscapes Integration 說(shuō)課稿 -2024-2025學(xué)年譯林版英語(yǔ)七年級(jí)下冊(cè)001
評(píng)論
0/150
提交評(píng)論