




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、精選優(yōu)質文檔-傾情為你奉上1. IntroductionAbaloneAge.data數據有4177個樣本,7個特征,其中rings作為預測標簽,也就是年齡。對樣本的一些統(tǒng)計數據如下表所示。NameData TypeMeas.DescriptionLengthcontinuousmmLongest shell measurementDiametercontinuousmmperpendicular to lengthHeightcontinuousmmwith meat in shellWhole weightcontinuousgramswhole abaloneShucked weight
2、continuousgramsweight of meatViscera weightcontinuousgramsgut weight (after bleeding)Shell weightcontinuousgramsafter being driedRingsintegerStatistics for numeric domains:LengthDiamHeightWholeShuckeVisceraShellRingsMin0.0750.0550.0000.0020.0010.0010.0021Max0.8150.6501.1302.8261.4880.7601.00529Mean0
3、.5240.4080.1400.8290.3590.1810.2399.934SD0.1200.0990.0420.4900.2220.1100.1393.224Correl0.5570.5750.5570.5400.4210.5040.6281.02. Algorithm Description考慮到數據的可分性,對年齡的預測是一個回歸問題,所以采用支持向量機對數據進行回歸分析。一、支持向量機的基本原理支持向量機(SVM)是Corinna和Vapnik于二十世紀末首先提出的。支持向量機方法Vapnik-Chervonenkis理論與構造風險最小理論為根底,使離超立體最接近的元素到超平面的間隔
4、最大。通常超平面不止一個,也就是說支持向量機的目標就是最大化超平面之間的間隔,也就是建立最好的分類超平面,從而來提高學習分類機器的的泛化處理能力。該方法在解決高維小樣本數據、數據的非線性以及解的局部極小點等多個問題中均展示出了很多獨有的優(yōu)點,并進而將其推行使用到了其余相聯(lián)系的機器學習問題中。支持向量機方法早已被廣泛的應用到了腫瘤數據分類等領域的問題研究中。支持向量機的具體求解過程如下:(1) 設已知樣本訓練集:其中,為特征向量。(2) 選擇適當核函數以及參數,解決優(yōu)化問題:得最優(yōu)解:。(3) 選取的正分量,計算樣本分類閾值:。(4) 構造最優(yōu)判別函數:。支持向量機內積核核函數K的主要種類有:
5、線性內核函數 多項式核函數 高斯徑向基核函數 (RBF) 雙曲正切核函數 (Sigmoid核函數) 一般地,用SVM做分類預測時必須調整相關參數(特別是懲罰參數和核函數參數),這樣才可以獲得比較滿意的預測分類精度,采用Cross Validation的思想可以獲取最優(yōu)的參數,并且有效防止過學習和欠學習狀態(tài)的產生,從而能夠對于測試集合的預測得到較佳的精度。根據輸入數據的線性可分性(線性可分或近似線性可分和線性不可分),可以將支持向量機分為兩大類:非線性支持向量機、線性支持向量機。(1)線性支持向量機若要介紹線性支持向量機,首先需要介紹下一個定義:線性分類器。A、B是兩個不同的類別,需要在其中間加
6、一個分類函數,這樣就能夠將A、B樣本區(qū)分開,那么則說這個數據集是線性可分,其所對應的分類器便是線性分類器。對于二維空間,顯然,分類函數可以看成是一條直線。同理,三維空間里分類函數就是一個平面,忽略空間的維數,分類函數就可以統(tǒng)稱為超平面。(2)非線性支持向量機從前一小節(jié)可以看出來,線性支持向量機是二類分類器。但是,在現實環(huán)境和問題中,往往要解決多類別的分類的問題。那么,怎么從二類分類器擴充到多類別分類器呢?就是一個值得思考探尋的方向。從二類分類器獲取多類分類器的方法有很多,但在實際應用中,采用的較多的措施是通過尋找一個合適的非線性轉換函數,進而能夠使數據從原始的特征空間中映射到新的特征空間中,使
7、得數據在新的特征空間中是線性可分的。但是,尋找這樣的非線性轉換函數很難,并且即使能找到,要實現這種非線性的轉換也很麻煩。因此,引入了核函數,它使得甚至可以不必知道變換函數,只要一種核函數滿足Mereer定理,它就對應某一變換空間中的內積,然而內積的計算卻容易的多。常用的核函數主要分為四類:核函數、核函數、核函數和核函數,不同的核函數對應不同的非線性變換函數,最后會形成不同的算法。這就使得相應的優(yōu)化問題變成了凸二次規(guī)劃問題,不會出現傳統(tǒng)神經網絡陷入局部極值的問題,這是SVM自提出后得到快速發(fā)展的重要原因之一。SVM的優(yōu)勢:(1)處理解決了樣本數據較少的機器學習問題;(2)提高了學習機的泛化性能;
8、(3) 少數支持向量決定了最后的決策函數,因此,某種程度上對高維問題有很好的輔助解決作用,提高了方法的魯棒性;(4)完善改進了對于非線性數據分類研究的問題;(5)規(guī)避了神經網絡在結構抉擇問題和局部極小值問題。SVM的劣勢:(1)缺乏對數據缺失的判斷能力;(2)解決非線性數據還沒有完善的方案和措施,只能靠慎重的選擇核函數來解決。另一方面,所有傳統(tǒng)分類方法中,SVM的分類性能是最好的,所以在本文的對比實驗中,從傳統(tǒng)分類方法中選擇了具有代表性的SVM分類器來進行對比實驗。二、SVM回歸的實驗步驟導入數據,記作X,分別將數據的特征和標簽賦值給矩陣matrix和rings,如圖所示。利用隨機數,隨機選擇
9、70%的樣本作為訓練集,余下的30%的樣本作為測試集,評價模型的好壞應該從訓練集和測試集兩個方面考慮,使用matlab自帶fitrsvm程序,對樣本歸一化后,訓練集進行訓練,得到模型Mdl。利用訓練得到的模型,分別對訓練集和測試集進行預測,并計算其與真實值之間的差距,評價指標選擇的是均方根誤差和平均絕對誤差。其中result_1記錄了訓練集真實和預測值,result_2記錄了測試集真實和預測值,abe1、mse1分別表示訓練集平均絕對誤差和均方根誤差??梢暬瘻y試集預測與真實年齡的差距。3. Conclution支持向量機是一種基于統(tǒng)計學習理論的模式識別方法。在模式識別等領域獲得了廣泛的應用。少
10、數支持向量決定了最后的決策函數,因此,某種程度上對高維問題有很好的輔助解決作用,提高了方法的魯棒性。隨機選擇70%的樣本作為訓練集,30%的樣本作為測試集,平均絕對誤差和均方根誤差作為模型的評價指標,訓練集預測結果與原始數據標簽的的平均絕對誤差(abe)為1.5723,均方根誤差(mse)為2.2745,測試集平均絕對誤差(abe)1.5671,均方根誤差(mse)為2.3279,說明支持向量機對數據年齡的預測具有較好的結果。AppendixCode:% 清空環(huán)境變量clearclc% 導入數據X=load(AbaloneAge.txt);matrix=X(:,1:6);rings=X(:,e
11、nd);% 1. 隨機產生訓練集和測試集n = randperm(size(matrix,1);% 2. 訓練集70%的樣本n1=floor(size(X,1)*0.7);p_train = matrix(n(1:n1),:);t_train = rings(n(1:n1),:);% 3. 測試集30%的個樣本p_test = matrix(n(n1+1:end),:);t_test = rings(n(n1+1:end),:);% 數據歸一化% 1. 訓練集pn_train,inputps = mapminmax(p_train);pn_train = pn_train;pn_test =
12、mapminmax(apply,p_test,inputps);pn_test = pn_test;% 2. 測試集tn_train,outputps = mapminmax(t_train);tn_train = tn_train;tn_test = mapminmax(apply,t_test,outputps);tn_test = tn_test;Mdl = fitrsvm(pn_train,tn_train);% yfit = predict(Mdl,pn_test);% SVM仿真預測Predict_1 = predict(Mdl,pn_train);Predict_2 = pred
13、ict(Mdl,pn_test);% 1. 反歸一化predict_1 = mapminmax(reverse,Predict_1,outputps);predict_2 = mapminmax(reverse,Predict_2,outputps);% 2. 結果對比result_1 = t_train predict_1;result_2 = t_test predict_2;re1= result_1(:,1)-result_1(:,2);abe1 = sum(abs(re1)/size(p_train,1)mse1 = sqrt(sum(re1.2)/size(p_train,1)re2= result_2(:,1)-resul
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2022年大學英語考試真題卷五11測
- 湖北省武漢市五校聯(lián)合體2024-2025學年高二下學期期末考試歷史試卷(含答案)
- 《高等數學》上冊課件09-05冪級數的應用
- 2025年關于環(huán)境科學的專業(yè)考試試卷及答案分析
- 小學數學微課制作培訓
- 中國傳統(tǒng)射箭課件
- 2025年工程項目管理概念復習試卷及答案
- 2025年校外教育機構教師資格考試試卷及答案
- 2025年電子工程與通信技術考試題及答案
- 接機禮儀培訓課件
- 養(yǎng)老護理員(高級)培訓課程-康復護理課件
- 安保部接管工作方案
- 08S305-小型潛水泵選用及安裝圖集
- 醫(yī)院手術患者術前術后訪視記錄單
- 三世演禽命理秘書講課教案
- 門診醫(yī)院感染管理質量檢查標準
- 論文交流匯報課件
- 津山鐵路立交橋試轉體施工準備匯報材料(47頁)
- 美的集團公司分權手冊
- 建筑行業(yè)安徽某抽水蓄能電站人工砂石加工系統(tǒng)工程施工技術標書
- 通風與空調工程施工工藝流程圖
評論
0/150
提交評論