




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、 Boosting主要(zhyo)內(nèi)容:AdaBoost簡介(jin ji)訓(xùn)練誤差(wch)分析測試誤差分析貝葉斯最大后驗前向遞增建模一、AdaBoost簡介:1.1 算法簡介給定訓(xùn)練集:,其中,表示的正確的類別標簽,訓(xùn)練集上樣本的初始分布:對,計算弱分類器,該弱分類器在分布上的誤差為:計算該弱分類器的權(quán)重:更新訓(xùn)練樣本的分布:,其中為歸一化常數(shù)。最后的強分類器為:.1.2. AdaBoost過程舉例因為權(quán)重更新依賴于,而又依賴于,所以我們直接將權(quán)重更新公式用表示。樣本權(quán)重更新公式:,其中,當樣本分錯時,當樣本(yngbn)分對時,錯誤(cuw)分類樣本更新因子:正確分類樣本(yngbn)更
2、新因子:例:給定如圖1所示的樣本,弱分類器采用平行于坐標軸的直線 (1)得到第一個弱分類器:正確分類樣本權(quán)重:(7個)錯誤分類樣本權(quán)重:(3個)此時強分類器的訓(xùn)練錯誤為:0.3(2)繼續(xù)計算第二個弱分類器:正確(zhngqu)分類樣本權(quán)重:(7個)又分為(fn wi)兩種: 第一輪正確(zhngqu):(4個)第一輪錯分:(3個)錯誤分類樣本權(quán)重:(3個)第一輪正確: (3個):此時強分類器的訓(xùn)練錯誤為:0.3(3)繼續(xù)計算第三個弱分類器: 正確(zhngqu)分類樣本權(quán)重:(7個)又分為(fn wi)三種情況: 前兩輪(lin ln)都正確:(1個)第一輪錯分、第二輪正確:(3個)第一輪正確
3、、第二輪錯分:(3個)錯誤分類樣本權(quán)重:(3個)前兩輪正確: (3個):此時強分類器的訓(xùn)練錯誤為:0二、訓(xùn)練誤差分析記,由于弱分類器的錯誤率總是比隨機猜測(隨機猜測的分類器的錯誤率為0.5),所以,則訓(xùn)練誤差為:。記,則。證明:1、對進行迭代展開令。由于(yuy)是一個(y )分布,所以(suy):所以。訓(xùn)練誤差為 * 。所以,為訓(xùn)練誤差的上界。相當于損失(snsh)函數(shù)取,則經(jīng)驗(jngyn)風(fēng)險/訓(xùn)練(xnlin)誤差為,使該經(jīng)驗風(fēng)險最小的估計為。該風(fēng)險稱為指數(shù)風(fēng)險。*當樣本分對時,所以,是一個較小的正數(shù)。當樣本分錯時,所以。所以將變?yōu)椋喈斢趯ι鲜鰞煞N錯誤率都放大了,這樣不等式成立。證明
4、;問題:給定弱分類器的集合:,確定弱分類器及其權(quán)重。具體實現(xiàn)時,首先選一個錯誤率最小的弱分類器,然后確定其權(quán)重,所以是一個貪心算法。(相當于對,前向逐步遞增特征選擇,后面再詳細描述),因為即為分類正確(zhngqu)的樣本的集合,為分類(fn li)錯誤的樣本的集合。,兩邊(lingbin)同乘以正確率=,錯誤率=,所以所以。當很小時,很大,即錯誤率很小的弱分類器的權(quán)重很大。訓(xùn)練誤差令(t = “edge”),由于弱分類器的錯誤率總是比隨機猜測(隨機猜測的分類器的錯誤率為0.5),所以,所以(不等式可利用(lyng)在處Taylor展開(zhn ki)得到(d do))令,即為所有中最小的一個
5、。則訓(xùn)練誤差的上界為:。所以,當,即訓(xùn)練誤差的上界隨T的增加指數(shù)減小。三、測試誤差分析最終的強分類器為:。T為算法中唯一需要調(diào)整的參數(shù),那么T該取多大值?初步猜測:T太大,模型會變得很復(fù)雜,會發(fā)生過擬合。但實際的運行結(jié)果為當訓(xùn)練誤差已經(jīng)等于0后,測試誤差仍然沒有增加,即使T已經(jīng)達到1000。更好的解釋:Margin訓(xùn)練誤差只考慮了分類是否正確,還應(yīng)該(ynggi)考慮分類的信度。由于為弱分類器的投票權(quán)重,可將定義(dngy)為Margin,表示分類的信度。上述實驗(shyn)Margin的累積分布:可以證明,隨著T的增加,訓(xùn)練樣本的Margin會增大(證明過程類似訓(xùn)練誤差的證明);而大的Mar
6、gin會帶來更好的泛化性能(如果所有樣本的Margin都很大,可以用一個很簡單的分類器實現(xiàn)分類)理論上,測試誤差的界:,其中D為弱分類器的復(fù)雜度。事實上,AdaBoost也可能發(fā)生過擬合(如下圖所示)。通常(tngchng)當滿足下述條件時,發(fā)生過擬合的可能性很小:弱分類器的(edge)較大(jio d)(),即弱分類器不太弱,錯誤率不太低,從而(cng r)Margin較大;弱分類器相對樣本規(guī)模不太復(fù)雜。事實上上述heart-disease dataset就是數(shù)據(jù)規(guī)模太小,弱分類器的edge也較小。四、AdaBoost相當于最大貝葉斯后驗,當損失函數(shù)取時,則上述表達式為經(jīng)驗風(fēng)險,當樣本很多時
7、,樣本均值趨近于期望,即期望風(fēng)險/測試誤差為。對上述風(fēng)險,我們在每個樣本點(x)上最小化, 我們目標是風(fēng)險最小的,即所以,即所以(suy),為最大貝葉斯后驗。四、AdaBoost相當于前向逐步(zhb)遞增(dzng)建模,可視為基展開,其中為基函數(shù),為對應(yīng)基函數(shù)的權(quán)重。對基展開,通常是給定基函數(shù),一次聯(lián)合求出所有的基函數(shù)中的參數(shù)及其權(quán)重(如用最小二乘法或極大似然估計方法)。而AdaBoost可視為一個逐步遞增的方式增加基函數(shù),并計算其權(quán)重,不調(diào)整已添加的基函數(shù)中的參數(shù)及其權(quán)重。因此亦被稱為前向逐步遞增建模(forward stagewise additive modeling).假設(shè)第步的模
8、型為:當損失函數(shù)取時,則第T步新增加的基函數(shù)及其權(quán)重要使得訓(xùn)練誤差/經(jīng)驗風(fēng)險最小,即, ,其中。因為每個不依賴于,所以可以看作是應(yīng)用于每個觀測的權(quán)值,該權(quán)值依賴于,所以,每個樣本的權(quán)值隨每次迭代改變。上述問題可以分兩步實現(xiàn):第一步:首先選一個錯誤率最小的弱分類器,。第二步:然后確定(qudng)其權(quán)重, 因為(yn wi)將代入,即可得到(d do),其中表示錯誤率。指數(shù)損失對outliers比較敏感,且也不是任何二值變量y的概率密度取log后的表示。因此另一種選擇是損失函數(shù)取負log似然損失,得到logitBoost (算法16.3).對回歸問題,損失函數(shù)可取L2,得到L2boosting.圖:不同損失函數(shù)的比較。內(nèi)容總結(jié)(1)Boosting主要內(nèi)容:AdaBoost簡介訓(xùn)練誤差分析測試誤差分析貝葉斯最大后驗
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 探索學(xué)習(xí)動機背后的奧秘激發(fā)員工繼續(xù)教育的熱情
- 腫瘤放射治療及護理課件
- 安徽省A10聯(lián)盟2022-2023學(xué)年高二下學(xué)期4月期中考試政治試題
- 成都東方廣益投資有限公司下屬企業(yè)招聘筆試真題2024
- 2024年湖南省公安廳招聘警務(wù)輔助人員筆試真題
- 2025年中國辛拌磷行業(yè)投資前景及策略咨詢研究報告
- 2025年中國跆拳道圓靶行業(yè)投資前景及策略咨詢研究報告
- 2025年中國腳手架鋼管校直除銹機行業(yè)投資前景及策略咨詢研究報告
- 2025年中國細絨線行業(yè)投資前景及策略咨詢研究報告
- 2025年中國移動式混合機行業(yè)市場調(diào)查、投資前景及策略咨詢報告
- 2025年湖南省中考數(shù)學(xué)模擬試卷(二)
- 2025山煤國際井下崗位高校畢業(yè)生招聘300人(山西)筆試參考題庫附帶答案詳解
- 廣東省大灣區(qū)2025屆普通高中畢業(yè)年級聯(lián)合模擬考試(二)化學(xué)(含答案)
- 電大《組織行為學(xué)》期末題庫及答案
- 轉(zhuǎn)讓魚塘釣場協(xié)議書
- 叉車司機理論知識考試復(fù)習(xí)題庫(必會500題)
- 常州保安證考試題及答案
- 《化工和危險化學(xué)品生產(chǎn)經(jīng)營單位重大生產(chǎn)安全事故隱患判定標準》解讀與培訓(xùn)
- 優(yōu)化能源消耗的綠色IT部署戰(zhàn)略規(guī)劃
- 2025年上半年內(nèi)蒙古包頭市市直事業(yè)單位招考易考易錯模擬試題(共500題)試卷后附參考答案
- 2025年度人工智能產(chǎn)業(yè)投資基金入股協(xié)議4篇
評論
0/150
提交評論