數(shù)據(jù)挖據(jù)技術集成學習方法(ensemblelearnig).ppt_第1頁
數(shù)據(jù)挖據(jù)技術集成學習方法(ensemblelearnig).ppt_第2頁
數(shù)據(jù)挖據(jù)技術集成學習方法(ensemblelearnig).ppt_第3頁
數(shù)據(jù)挖據(jù)技術集成學習方法(ensemblelearnig).ppt_第4頁
數(shù)據(jù)挖據(jù)技術集成學習方法(ensemblelearnig).ppt_第5頁
已閱讀5頁,還剩39頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

數(shù)據(jù)挖據(jù)技術集成學習方法 ensemblelearnig 王磊 副教授 經濟信息工程學院 2 2 第六章 集成學習方法 基本概念baggingboosting隨機森林選擇性集成方法 在機器學習中 直接建立一個高性能的分類器是很困難的 但是 如果能找到一系列性能較差的分類器 弱分類器 并把它們集成起來的話 也許就能得到更好的分類器 日常生活中 三個臭皮匠 勝過諸葛亮 便是體現(xiàn)了這種思想 集成學習的基本概念 集成學習 圖示 我們一般選定加權平均的方法來構造集成學習的最終學習器 但是里面的每一個弱分類器 i 怎樣構造呢 有一些研究 是針對每個學習器都不同構的情況 比如識別一個人 一個學習器考慮臉 另一個考慮步態(tài) 另一個考慮指紋 這種研究通常稱為InformationFusion 不在我們今天討論的范疇 狹義的集成學習 ensemblelearning 是用同樣類型的學習算法來構造不同的弱學習器的方法 集成學習 如何構造 辦法就是改變訓練集 通常的學習算法 根據(jù)訓練集的不同 會給出不同的學習器 這時就可以通過改變訓練集來構造不同的學習器 然后再把它們集成起來 集成學習 如何構造 在原來的訓練集上隨機采樣 可以得到新的訓練集 隨機采樣 集成學習 EnsembleLearning 是一種機器學習方法 它使用多個 通常是同質的 學習器來解決同一個問題 集成學習中使用的多個學習器稱為個體學習器當個體學習器均為決策樹時 稱為 決策樹集成 當個體學習器均為神經網絡時 稱為 神經網絡集成 集成學習的定義 由于集成學習技術可以有效地提高學習系統(tǒng)的泛化能力 因此它成為國際機器學習界的研究熱點 并被國際權威T G Dietterich稱為當前機器學習四大研究方向之首 T G Dietterich AIMag97 問題 對20維超立方體空間中的區(qū)域分類左圖中縱軸為錯誤率從上到下的四條線分別表示 平均神經網絡錯誤率最好神經網絡錯誤率兩種神經網絡集成的錯誤率令人驚奇的是 集成的錯誤率比最好的個體還低 L K Hansen P Salamon TPAMI90 集成學習的重要性 集成學習技術已經在行星探測 地震波分析 Web信息過濾 生物特征識別 計算機輔助醫(yī)療診斷等眾多領域得到了廣泛的應用 只要能用到機器學習的地方 就能用到集成學習 集成學習的應用 如何構建好的集成 既然多個個體的集成比單個個體更好 那么是不是個體越多越好 更多的個體意味著 在預測時需要更大的計算開銷 因為要計算更多的個體預測更大的存儲開銷 因為有更多的個體需要保存 個體的增加將使得個體間的差異越來越難以獲得 個體越多越好嗎 集成策略 有多種策略可以將q個弱分類器組合成集成分類器 集成策略 從大小為n的原始數(shù)據(jù)集D中獨立隨機地抽取n 個數(shù)據(jù) n n 形成一個自助數(shù)據(jù)集 重復上述過程 產生出多個獨立的自助數(shù)據(jù)集 利用每個自助數(shù)據(jù)集訓練出一個 分量分類器 最終的分類結果由這些 分量分類器 各自的判別結果投票決定 基本思想 對訓練集有放回地抽取訓練樣例 從而為每一個基本分類器都構造出一個跟訓練集相當大小但各不相同的訓練集 從而訓練出不同的基本分類器 該算法是基于對訓練集進行處理的集成方法中最簡單 最直觀的一種 Bagging算法 Bagging算法 Boosting算法 Boosting流程描述 Step1 原始訓練集輸入Step2 計算訓練集中各樣本的權重Step3 采用已知算法訓練弱學習機 并對每個樣本進行判別Step4 計算對此次的弱學習機的權重Step5 轉到Step2 直到循環(huán)到達一定次數(shù)或者某度量標準符合要求Step6 將弱學習機按其相應的權重加權組合形成強學習機 核心思想 樣本的權重沒有先驗知識的情況下 初始的分布應為等概分布 也就是訓練集如果有N個樣本 每個樣本的分布概率為1 N每次循環(huán)一后提高錯誤樣本的分布概率 分錯樣本在訓練集中所占權重增大 使得下一次循環(huán)的弱學習機能夠集中力量對這些錯誤樣本進行判斷 弱學習機的權重準確率越高的弱學習機權重越高循環(huán)控制 損失函數(shù)達到最小在強學習機的組合中增加一個加權的弱學習機 使準確率提高 損失函數(shù)值減小 簡單問題演示 Boosting訓練過程 算法 boosting數(shù)學描述 訓練集 x1 y1 x2 y2 xN yN xi Rm yi 1 1 Dt為第t次循環(huán)時的訓練樣本分布 每個樣本在訓練集中所占的概率 Dt總和應該為1 ht X 1 1 為第t次循環(huán)時的Weaklearner 對每個樣本給出相應的假設 應該滿足強于隨機猜測 wt為ht的權重為t次循環(huán)得到的Stronglearner 樣本權重 思想 提高分錯樣本的權重反映了stronglearner對樣本的假設是否正確采用什么樣的函數(shù)形式 弱學習機權重 思想 錯誤率越低 該學習機的權重應該越大為學習機的錯誤概率采用什么樣的函數(shù)形式 和指數(shù)函數(shù)遙相呼應 AdaBoost算法 25 Adaboost訓練過程 26 Adaboost訓練過程 27 Adaboost訓練過程 Adaboost的缺點 隨機森林算法 隨機森林算法是LeoBreiman于2001年提出的一種新型分類和預測模型 它具有需要調整的參數(shù)少 不容易過度擬合 分類速度快 能高效處理大樣本數(shù)據(jù)等特點 Bagging和AdaBoost等方法只是通過改變樣本的權重來獲得不同的弱分類器 隨機森林 RF 則通過同時改變樣本和特征子集來獲得不同的弱分類器 隨機森林算法 隨機森林是采用隨機的方式建立一個森林 森林有很多決策樹組成 每棵決策樹之間沒有關聯(lián) 對于新的測試樣本 讓森林中的每一棵決策樹分布分別進行一下判斷 依據(jù)多數(shù)者投票方法決定樣本的類別 完全分裂的方式 隨機特征選取 當特征個數(shù)M較多時 隨機選擇m個用于訓練決策樹 m越小 樹的相關性越小 且訓練速度越快 當特征個數(shù)M較少時 可以由M個特征進行隨機線性組合來產生M 個擴展特征 然后 在 M M 上隨機選擇m個特征 構建決策樹 其中 每一個擴展特征的構造如下 從現(xiàn)有M特征中隨機抽取L個 它們的權重系數(shù)是 1 1 區(qū)間的均勻隨機數(shù) 然后 由L個已有特征線性組合出擴展特征 隨機特征數(shù)的確定 選擇性集成算法 一方面 使用更多的學習器將導致更大的計算和存儲開銷 另一方面 當個體學習器數(shù)目增加之后 學習器之間的差異將越來越難以獲得 因此 提出問題 為了達到更好的性能 是否必須使用更多的個體學習器 選擇性集成的理論分析 選擇性集成的理論分析 選擇性集成的理論分析 選擇性集成的理論分析 問題求解 問題求解 GASEN算法 論文講解 基于約束投影的支持向量機選擇性集成 2009 研究題目

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論