




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
數(shù)據(jù)挖掘應(yīng)用使用Embedded方法進(jìn)行特征篩選本節(jié)以手寫(xiě)數(shù)字圖片識(shí)別的數(shù)據(jù)集(dataset/digits_training.csv)作為基礎(chǔ)數(shù)據(jù),使用嵌入法進(jìn)行特征選擇,通過(guò)交叉驗(yàn)證的平均性能衡量特征子集的效果。一、任務(wù)描述Embedded方法介紹常用嵌入法技術(shù)CONTENTS二、任務(wù)解析Embedded方法介紹(一)1.Embedded方法即嵌入法,利用機(jī)器學(xué)習(xí)算法和模型進(jìn)行訓(xùn)練,得到各個(gè)特征的權(quán)值系數(shù),根據(jù)權(quán)值系數(shù)從大到小來(lái)選擇特征。3.嵌入法通過(guò)機(jī)器學(xué)習(xí)的方法來(lái)選擇特征,不通過(guò)不停的篩掉特征來(lái)進(jìn)行訓(xùn)練。2.嵌入法通過(guò)機(jī)器學(xué)習(xí)訓(xùn)練來(lái)確定特征的優(yōu)劣,不是直接從特征的統(tǒng)計(jì)學(xué)指標(biāo)來(lái)確定特征的優(yōu)劣。4.嵌入式特征選擇方法是將特征選擇過(guò)程與學(xué)習(xí)器訓(xùn)練過(guò)程融為一體,兩者在同一個(gè)優(yōu)化過(guò)程中完成,即在學(xué)習(xí)器訓(xùn)練過(guò)程中自動(dòng)完成了特征選擇。
在sklearn中,使用SelectFromModel函數(shù)來(lái)選擇特征。二、任務(wù)解析常用嵌入法技術(shù)(二)基于線性回歸模型方法(理解)基于L1的正則化方法(掌握使用方法、應(yīng)用場(chǎng)景和優(yōu)缺點(diǎn))線性模型和正則化(Embedded方式)二、任務(wù)解析常用嵌入法技術(shù)(二)Embedded方法在執(zhí)行模型訓(xùn)練時(shí)會(huì)同時(shí)進(jìn)行特征選擇。它將特征選擇過(guò)程與模型訓(xùn)練過(guò)程融合在一起,許多機(jī)器學(xué)習(xí)方法(如決策樹(shù)、支持向量機(jī)和正則化線性模型等)在訓(xùn)練過(guò)程中都自帶了特征選擇的功能?;跇?shù)模型的特征選擇(Embedded方式)基于隨機(jī)森林的嵌入方法二、任務(wù)解析常用嵌入法技術(shù)(二)1.選擇一個(gè)帶有特征選擇功能的模型。這些模型能為每個(gè)特征生成一個(gè)重要性分?jǐn)?shù)。使用Embedded方法進(jìn)行特征篩選的基本步驟:2.訓(xùn)練模型。在訓(xùn)練過(guò)程中,模型會(huì)根據(jù)每個(gè)特征對(duì)模型性能的貢獻(xiàn)來(lái)賦予它們重要性分?jǐn)?shù)。3.根據(jù)模型生成的重要性分?jǐn)?shù)進(jìn)行特征選擇??梢赃x擇分?jǐn)?shù)高于某個(gè)閾值的特征,或者直接選擇分?jǐn)?shù)最高的特征。二、任務(wù)解析常用嵌入法技術(shù)(二)優(yōu)勢(shì):它可以考慮特征之間的關(guān)系,因此可能較其他方法更能找到有用的特征。劣勢(shì):由于它依賴于特定的模型,可能會(huì)有過(guò)擬合的風(fēng)險(xiǎn),特別是在數(shù)據(jù)集小的情況。不同的模型可能會(huì)給出不同的特征重要性分?jǐn)?shù),因此在選模型時(shí),需要綜合考慮模型的預(yù)測(cè)性能和特征選擇的效能。優(yōu)劣勢(shì)使用Embedded方法進(jìn)行特征篩選任務(wù)描述任務(wù)解析任務(wù)實(shí)施任務(wù)拓展01020304四、任務(wù)拓展本節(jié)總結(jié)本節(jié)使用直接指定重要性閾值并形成特征子集、尋求最佳的閾值、應(yīng)用最佳閾值等嵌入法進(jìn)行特征選擇,對(duì)手寫(xiě)圖片數(shù)據(jù)集進(jìn)行特征選擇,通過(guò)交叉驗(yàn)證的平均性能衡量特征子集的效果。四、任務(wù)拓展請(qǐng)調(diào)整案例中
thresholds=np.linspace(0,max_import
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- gsp檢查培訓(xùn)課件
- 培訓(xùn)課件形成
- 2025年欽州客運(yùn)從業(yè)資格證試題
- 項(xiàng)目貸款培訓(xùn)課件
- 結(jié)晶培訓(xùn)課件
- 身心靈培訓(xùn)課件
- 剪切工藝及設(shè)備培訓(xùn)課件
- 小眾散文題目大全及答案
- ut探傷培訓(xùn)課件
- 2024年鄂爾多斯市康巴什區(qū)招聘社區(qū)工作者考試真題
- 饋線自動(dòng)化-集中型饋線自動(dòng)化(配電自動(dòng)化)
- 《膽腸吻合技術(shù)》課件
- 圍手術(shù)期患者疼痛管理課件
- 2024年度-2025年度XX村第三輪土地延包工作總結(jié)
- 2024年深圳市中考?xì)v史試卷真題(含答案解析)
- 2025年江蘇新海連發(fā)展集團(tuán)有限公司招聘筆試參考題庫(kù)含答案解析
- 雙重預(yù)防機(jī)制建設(shè)方案
- 2025山東產(chǎn)權(quán)交易中心招聘21人易考易錯(cuò)模擬試題(共500題)試卷后附參考答案
- 耗材物資管理制度
- 廣東省省級(jí)政務(wù)信息化服務(wù)預(yù)算編制標(biāo)準(zhǔn)(運(yùn)維服務(wù)分冊(cè))
- 2024-2025學(xué)年上海市嘉定區(qū)初三一模語(yǔ)文試卷(含答案)
評(píng)論
0/150
提交評(píng)論