




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、SVM1.判斷題(1) 在SVM訓練好后,我們可以拋棄非支持向量的樣本點,仍然可以對新樣本進行分類。(T)(2) SVM對噪聲(如來自其他分布的噪聲樣本)魯棒。(F)2簡答題現(xiàn)有一個點能被正確分類且遠離決策邊界。如果將該點加入到訓練集,為什么SVM的決策邊界不受其影響,而已經學好的logistic回歸會受影響?答:因為SVM采用的是hinge loss,當樣本點被正確分類且遠離決策邊界時,SVM給該樣本的權重為0,所以加入該樣本決策邊界不受影響。而logistic回歸采用的是log損失,還是會給該樣本一個小小的權重。3產生式模型和判別式模型。(30分,每小題10分)圖2:訓練集、最大間隔線性分
2、類器和支持向量(粗體)(1)圖中采用留一交叉驗證得到的最大間隔分類器的預測誤差的估計是多少(用樣本數(shù)表示即可)?從圖中可以看出,去除任意點都不影響SVM的分界面。而保留所有樣本時,所有的樣本點都能被正確分類,因此LOOCV的誤差估計為0。(2)說法“最小結構風險保證會找到最低決策誤差的模型”是否正確,并說明理由。(F)最小結構風險(SRM)只能保證在所有考慮的模型中找到期望風險上界最小的模型。(3)若采用等協(xié)方差的高斯模型分別表示上述兩個類別樣本的分布,則分類器的VC維是多少?為什么?等協(xié)方差的高斯模型的決策邊界為線性,因為其VC維維D+1。題中D=2.4、SVM分類。(第15題各4分,第6題
3、5分,共25分)下圖為采用不同核函數(shù)或不同的松弛因子得到的SVM決策邊界。但粗心的實驗者忘記記錄每個圖形對應的模型和參數(shù)了。請你幫忙給下面每個模型標出正確的圖形。(1)、其中。線性分類面,C較小,正則較大,|w|較小,Margin較大,支持向量較多(c)(2)、其中。線性分類面,C較大,正則較小,|w|較大,Margin較小支持向量的數(shù)目少(b)(3)、其中。二次多項式核函數(shù),決策邊界為二次曲線(d)(4)、其中。RBF核函數(shù),決策邊界為曲線, =1較大,曲線更平滑 (a)(5)、其中。RBF核函數(shù),決策邊界為曲線, =sqrt(1/2)較小,曲線更彎曲 (e)(6)考慮帶松弛因子的線性SVM
4、分類器:下面有一些關于某些變量隨參數(shù)C的增大而變化的表述。如果表述總是成立,標示“是”;如果表述總是不成立,標示“否”;如果表述的正確性取決于C增大的具體情況,標示“不一定”。(1) 不會增大(不一定)(2) 增大(不一定)(3) 不會減小(是)(4) 會有更多的訓練樣本被分錯(否)(5) 間隔(Margin)不會增大(是)5、考慮帶松弛因子的線性SVM分類器:。在下圖中,并且已經標出分界面和支持向量。請給每幅圖標出最可能的C的取值,并分析原因(20分)。答:等價于所以,即margin減小(當C增大到一定程度時,Margin不再變化),不允許錯分太多樣本(對錯分樣本的懲罰大),支持向量(落在M
5、argin內的樣本和錯分的樣本)的數(shù)目減少。6. SVM(1) 下面的情況,適合用原SVM求解還是用對偶SVM求解。1) 特征變換將特征從D維變換到無窮維。(對偶)2) 特征變換將特征從D維變換到2D維,訓練數(shù)據(jù)有上億個并且線性可分。(原)(2) 在線性可分情況下,在原問題形式化中怎樣確定一個樣本為支持向量?在原問題中,給出了w,w0,支持向量滿足:。7SVM和松弛因子。考慮如圖給出的訓練樣本,我們采用二次多項式做為核函數(shù),松弛因子為C。請對下列問題做出定性分析,并用一兩句話給出原因。(1) 當C時,決策邊界會變成什么樣?答:當C很大時,錯分樣本的懲罰會非常大,因此模型會盡可能將樣本分對。(記
6、住這里決策邊界為二次曲面) CC0(2) 當C0時,決策邊界會變成什么樣?可以錯分少量樣本,但Margin大(3) 你認為上述兩種情況,哪個在實際測試時效果會好些?我們不能過于相信某個特定的樣本,因此C0的效果會好些,因為它最大化樣本云團之間的Margin.(4) 在圖中增加一個點,使得當C時,決策邊界會不變。能被原來的分類器正確分類,不會是支持向量。(5) 在圖中增加一個點,使得當C時,該點會顯著影響決策邊界。能被原來的分類器正確分類,不會是支持向量。當C很大時,錯分樣本的懲罰會非常大,因此增加一個不能被原來分類器正確分類的樣本會影響決策邊界。8對outlier的敏感性。我們知道在SVM用于
7、回歸時,等價于采用不敏感的損失函數(shù)(如下圖所示),即SVM的目標為:。課堂已經討論L2損失對outliers比較敏感,而L1損失和huber損失相對不敏感些。(1) 請說明為什么L2損失比較L1損失對outliers更敏感。Outlier為離群點,因此其預測殘差r會比較大。L2損失為殘差r的平方r2,L1損失為殘差r的絕對值|r|。當r1時,r2|r|,從而L2損失在outliter樣本點的值會非常大,對結果影響更大。(2) 請給出一個outlier影響預測子的例子。(3) 相比于L2損失和L1損失,分析SVM的不敏感的損失函數(shù)對outliers敏感性。不敏感的損失函數(shù)對outliers的敏感
8、性更接近于L1損失,因此比L2損失更不敏感。初看起來,不敏感的損失函數(shù)在區(qū)間-,不施加懲罰,似乎比L1對outliers更不敏感。但實際上outliers對應的殘差通常很大,所以不會落在區(qū)間-,,所以不敏感的損失函數(shù)對outliers的敏感性和L1損失相似。(4) SVM也等價于MAP估計,則該MAP估計對應的先驗和似然是什么?同嶺回歸類似,先驗為0均值得高斯分布,但方差為2C,同時各維獨立,即,似然函數(shù)在區(qū)間-,為常數(shù),其他地方為Laplace分布:9. 多個數(shù)據(jù)源的SVM假設你在兩天內用兩個不同的儀器收集了兩批數(shù)據(jù),你覺得數(shù)據(jù)集1標簽的可信度為數(shù)據(jù)集2的兩倍。我們分別用表示數(shù)據(jù)集1,表示數(shù)據(jù)集2,數(shù)據(jù)集1的松弛因子表示為,數(shù)據(jù)集2的松弛因子表示,二者的Lagrange乘子分別表示為和。關于怎樣處理這兩批數(shù)據(jù),你的朋友們給出了不同的建議。張三:將數(shù)據(jù)集1的松弛懲罰乘以2,因此優(yōu)化問題為:李四:將數(shù)據(jù)集1的Lagrange乘子乘以2,因此優(yōu)化問題為:王五:將數(shù)據(jù)集1的數(shù)據(jù)點復制一份(即數(shù)據(jù)集1中的每個樣本點變成2個),然后照常處理。問題:請說明上述處理是否等價(得到的分
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 藥品認證倉庫管理辦法
- 幼兒心理保健管理辦法
- 育嬰員職業(yè)簡介課件模板
- 福州初三一模數(shù)學試卷
- 電力單招數(shù)學試卷
- 東博高考數(shù)學試卷
- 弱電施工安全培訓課件
- 費縣一年級數(shù)學試卷
- 2025年麗水青田縣人民醫(yī)院縣中醫(yī)醫(yī)院招聘編外聘用人員52人筆試歷年專業(yè)考點(難、易錯點)附帶答案詳解
- 2025年浙江杭州市蕭山區(qū)第一人民醫(yī)院醫(yī)共體招聘編外人員20人筆試歷年專業(yè)考點(難、易錯點)附帶答案詳解
- 開封網(wǎng)約車考試試題及答案
- 金華出租車從業(yè)資格證模擬考試題
- 勞務外包三方協(xié)議
- 水果禮盒創(chuàng)業(yè)計劃書
- 計算機操作系統(tǒng)教程(第3版)電子素材
- 復方電解質醋酸鈉葡萄糖注射液-藥品臨床應用解讀
- 水產養(yǎng)殖行業(yè)營銷策略方案
- 廠房分布式光伏系統(tǒng)施工進度計劃橫道圖
- 廣州市荔灣廣雅新初一分班(摸底)語文模擬試題(5套帶答案)
- 社會工作流程圖
- 人工智能方法在土木工程監(jiān)測中的運用
評論
0/150
提交評論