




免費(fèi)預(yù)覽已結(jié)束,剩余3頁可下載查看
下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
基于人工智能算法的圖像識別與生成 摘要 本次報告的工作是利用 PCA SVM 以及人工 神經(jīng)網(wǎng)絡(luò) ANN 實(shí)現(xiàn)對人臉的特征提取 分類和預(yù)測 然后利用 GAN 生成對抗網(wǎng)絡(luò) 實(shí)現(xiàn)對手寫數(shù)字的生成 并用 SVM 做預(yù)測 驗(yàn)證生成效果 本次報告采用的數(shù)據(jù)源自劍橋大學(xué)的 ORL 人臉數(shù)據(jù)庫 其中包含 40 個人共 400 張人臉圖像 關(guān)鍵詞 人工智能 圖像識別 數(shù)據(jù) 中圖分類號 TP18 文獻(xiàn)標(biāo)識碼 A 文章編號 1009 3044 2018 13 0173 02 1 PCA 降維 PCA principal components analysis 即主成分分析 又稱主分量分析 旨在利用降維的思想 把多指標(biāo)轉(zhuǎn)化為 少數(shù)幾個綜合指標(biāo) 首先我們給出了數(shù)據(jù)庫的平均臉的圖像 并利用 PCA 對人臉降維 通過改變降低到的維度研究了保留維度的多 少帶來的影響 最后給出了每一個維度的特征臉圖像 討 論了每一個維度所能夠代表的人臉信息 1 1 平均臉 首先 我們將數(shù)據(jù)庫中 400 張人臉按行存儲到一個矩 陣中 即每一行為一張人臉 10304 像素 每張人臉共 10304 維特征 我們對每一個維度去平均 構(gòu)成一個新的行 向量 這就是平均臉 平均臉反映了數(shù)據(jù)庫中 400 張人臉的平均特征 可以 看清人臉的輪廓 但無法識別人臉的局部細(xì)節(jié) 1 2 降低至不同維度時還原臉的情況 從左到右從上到下依次是同一張臉降低至 10 30 50 100 200 250 300 350 400 的圖像 可 以看到 隨著保留維數(shù)的增多 圖像越清晰 與原圖的差 異越小 1 3 提取單一維度的特征做還原 為了研究不同維度所代表的人臉的信息 我們把 PCA 之后的每一個特征向量單獨(dú)提取出來對人臉做還原 還原 的時候不加入平均臉并且做直方圖均衡化 結(jié)果如下 每一張圖像下方的數(shù)字代表了 PCA 之后按特征值從大 到小排序的順序 比如第一張圖代表 PCA 之后最大特征值 所對應(yīng)的特征向量還原出的人臉 特征累積圖的縱坐標(biāo)代表了所保留的特征占總特征的 比例 它是這樣計算出來的 假設(shè)保留 k 維信息 則縱坐 標(biāo)值為這 k 個特征值的和除以總的 400 400 10304 的矩陣 最多有 400 個非零特征值 個特征值的和 從圖 4 可以看出 當(dāng)保留維數(shù)為 100 維時 即能保留 人臉 90 的信息 而之后隨著保留維數(shù)的增多 保留信息 的增多變緩 同樣的結(jié)論也可由提取每個維度所代表的特征獲得 從前到后觀察實(shí)驗(yàn)所得的圖像 我們可以發(fā)現(xiàn) 人臉變得 越來越模糊 到 100 維以后已經(jīng)分辨不清人臉了 這就說 明前面的維度反映了大眾臉的特征 而越往后面的維度則 反映不同人臉的細(xì)節(jié) 比如頭發(fā)長短等等 以及圖片噪聲 2 SVM 對人臉分類 SVM 支持向量機(jī) 是 Corinna Cortes 和 Vapnik 等于 1995 年首先提出的 在機(jī)器學(xué)習(xí)中 支持向量機(jī)是與相關(guān) 的學(xué)習(xí)算法有關(guān)的監(jiān)督學(xué)習(xí)模型 可以分析數(shù)據(jù) 識別模 式 用于分類和回歸分析 2 1 制作多分類器 用 PCA 對人臉降維以后 我們用 SVM 將 400 張人臉 進(jìn)行分類 我們?nèi)∶總€人的前五張照片合并起來共 200 張 作為訓(xùn)練集 每個人后五張照片合并起來共 200 張作為測 試集 40 個人即有 40 個標(biāo)簽 也就是有 40 類 但 SVM 只 能作二分類器 因此我們利用二分類器生成多分類器 基 本思想是制作 C 40 2 個一對一分類器 也就是每兩個 類別一個 每一張照片都分別用所有一對一分類器分類 分類結(jié)果存儲到投票矩陣中 分類結(jié)果就是投票矩陣中數(shù) 字最大的那個 分類前 我們還需對 PCA 后的數(shù)據(jù)進(jìn)行歸一化處理 將圖像矩陣的每一個元素映射到 1 1 之間 2 2 參數(shù)選擇及程序結(jié)果 1 分類數(shù)據(jù) 每人取前五張做訓(xùn)練 后五張做測試 不加入自己的人臉 SVM 參數(shù)設(shè)定 k 75 PCA 降至 75 維 Sigma 30 c 15 預(yù)測準(zhǔn)確率 accuracy 0 8950 2 每人取前五張做訓(xùn)練 后五張做測試 加入自己的 人臉 SVM 參數(shù)同上 預(yù)測準(zhǔn)確率 accuracy 0 8585 我們發(fā)現(xiàn) 當(dāng)加入自己拍攝的人臉圖像后 預(yù)測準(zhǔn)確 率有一定的下降 這可能是由于拍照時的光線 角度等造 成的 3 ANN 對人臉分類 人工神經(jīng)網(wǎng)絡(luò) Artificial Neural Networks 簡寫為 ANNs 也簡稱為神經(jīng)網(wǎng)絡(luò) NNs 或稱作連接模型 Connection Model 它是一種模仿動物神經(jīng)網(wǎng)絡(luò)行為特 征 進(jìn)行分布式并行信息處理的算法數(shù)學(xué)模型 這種網(wǎng)絡(luò) 依靠系統(tǒng)的復(fù)雜程度 通過調(diào)整內(nèi)部大量節(jié)點(diǎn)之間相互連 接的關(guān)系 從而達(dá)到處理信息的目的 為了方便與 SVM 的結(jié)果作比對 ANN 的訓(xùn)練集和測 試集與 SVM 相同 并且不加入自己人臉 3 1 ANN 結(jié)果及與 SVM 分類比較 ANN 分類結(jié)果 ANN 參數(shù)設(shè)定為 1 個隱層 含 200 個神經(jīng)元 學(xué)習(xí)率 1 dropout fraction 0 5 激活函數(shù) sigmoid L2 正則 0 0001 epoch 200 batchsize 50 分類錯誤率 即分類準(zhǔn)確率 accuracy 為 93 5 驗(yàn)過程中可以發(fā)現(xiàn) 通過對神經(jīng)網(wǎng)絡(luò)多個參數(shù)的調(diào)節(jié) 準(zhǔn)確率的變化是很復(fù)雜的 最終的 93 5 的準(zhǔn)確率應(yīng)該還有 上升的空間 參數(shù)還待進(jìn)一步調(diào)整 與 SVM 比較 起來 ANN 準(zhǔn)確率更高 但分析表明 對于本次報告所采 用的數(shù)據(jù)庫 ANN 和 SVM 的準(zhǔn)確度不會有太大差異 因 此 SVM 的參數(shù)或許還可以進(jìn)一步優(yōu)化 4 GAN 生成手寫數(shù)字 生成對抗網(wǎng)絡(luò) GAN 是一種深度學(xué)習(xí)模型 是近年 來復(fù)雜分布上無監(jiān)督學(xué)習(xí)最具前景的方法之一 模型通過 框架中 至少 兩個模塊 生成模型 Generative Model 和判別模型 Discriminative Model 的互相博弈學(xué)習(xí)產(chǎn)生相 當(dāng)好的輸出 原始 GAN 理論中 并不要求 G 和 D 都是 神經(jīng)網(wǎng)絡(luò) 只需要是能擬合相應(yīng)生成和判別的函數(shù)即可 但實(shí)用中一般均使用深度神經(jīng)網(wǎng)絡(luò)作為 G 和 D 在下面的工作中 我們利用已有的手寫數(shù)字 0 9 圖 片 60000 張用于訓(xùn)練 10000 張用于測試 對生成對抗 網(wǎng)絡(luò) GAN 進(jìn)行訓(xùn)練并生成手寫數(shù)字 每個數(shù)字提取 5000 個樣本作為訓(xùn)練集 最后用 SVM 對電腦生成的手寫數(shù) 字分類 看是否能 騙過 分類器 4 1 參數(shù)設(shè)定及程序結(jié)果 首先 我們選取一個想要生成的手寫字體 將已有數(shù) 據(jù)中所有該字體挑出并取前 5000 個作為訓(xùn)練集 參數(shù)設(shè)定 生成器 generator 輸入層 隱層和輸出 層分別有 100 512 784 個神經(jīng)元 識別器 discriminator 輸入層 隱層和輸出層分別 有 784 200 1 個神經(jīng)元 學(xué)習(xí)率 0 01 Batchsize 50 更新判別器時的迭代次數(shù)設(shè)為 1 生成訓(xùn)練集 load mnist uint8 classify num 9 classify matrix zeros 1 10 classify matrix classify num 1 1 choose zeros size train x 1 1 for i 1 size train x 1 if train y i classify matrix choose i choose i 1 end end choose logical choose train x train x choose train x train x 1 5000 train x double reshape train x 5000 28 28 255 train x permute train x 1 3 2 train x reshape train x 5000 784 生成器損失雖然不是很低 但是最終基本穩(wěn)定 4 2 SVM 對生成手寫數(shù)字做分類 我們用 GAN 分別生成 0 到 9 的手寫數(shù)字 將生成的圖 片作為測試集用 SVM 做分類 看是否能分到正確的類別 Result 是 SVM 中的投票矩陣 投票數(shù)最多的一個的序 號減一即為所分到的類別 數(shù)字 0 9 這里的 SVM 別于 前面所討論的人臉識別的 SVM 它是由 45 個 C 10 2 一對一分類器生成的多分類器 可以看到 每一個由 GAN 生成的手寫數(shù)字均被 SVM 分到了正確的類別 如此可見 GAN 實(shí)在強(qiáng)大 5 總結(jié) 運(yùn)用 PCA 對原始數(shù)據(jù)進(jìn)行降維 不僅能夠保留原始的 主要信息 而且可以
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 營口市防范區(qū)管理辦法
- 科研產(chǎn)品維護(hù)管理辦法
- 西安拆遷評估管理辦法
- 徐州工地消防管理辦法
- 道路工程法務(wù)培訓(xùn)課件
- 培訓(xùn)課件設(shè)計的方案
- 肝膽外科護(hù)理課件
- 第一次學(xué)習(xí)比賽數(shù)學(xué)試卷
- 高二梅州市聯(lián)考數(shù)學(xué)試卷
- 高三返??紨?shù)學(xué)試卷
- 貴州企業(yè)招聘2025貴州貴旅國際旅行服務(wù)有限公司招聘筆試參考題庫附帶答案詳解
- 2025年心理b證筆試試題及答案
- 玉盤二部合唱簡譜
- 2024年人教版精通版三年級英語書帶音標(biāo)單詞表
- 接待服務(wù)規(guī)范手冊
- 氣瓶充裝質(zhì)量保證體系手冊
- 起重裝卸機(jī)械3級復(fù)習(xí)試題附答案
- 2025年貴州茅臺酒銷售有限公司招聘筆試參考題庫含答案解析
- 福建省廈門市(2024年-2025年小學(xué)六年級語文)統(tǒng)編版小升初真題(上學(xué)期)試卷及答案
- 叉車蓄電池知識培訓(xùn)課件
- 《北京市道路橋梁試驗(yàn)檢測費(fèi)用定額》
評論
0/150
提交評論