



下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、精選優(yōu)質(zhì)文檔-傾情為你奉上習題3(第三章 分類技術(shù))1. 在決策樹歸納中,選項有:(a)將決策樹轉(zhuǎn)化為規(guī)則,然后對結(jié)果規(guī)則剪枝,或(b)對決策樹剪枝,然后將剪枝后的樹轉(zhuǎn)化為規(guī)則。相對于(b),(a)的優(yōu)點是什么?解答:如果剪掉子樹,我們可以用(b)將全部子樹移除掉,但是用方法(a)的話,我們可以將子樹的任何前提都移除掉。方法(a)約束更少。2. 在決策樹歸納中,為什么樹剪枝是有用的?使用分離的元組集評估剪枝有什么缺點?解答:決策樹的建立可能過度擬合訓練數(shù)據(jù),這樣就會產(chǎn)生過多分支,有些分支就是因為訓練數(shù)據(jù)中的噪聲或者離群點造成的。剪枝通過移除最不可能的分支(通過統(tǒng)計學方法),來排除這些過度擬合的
2、數(shù)據(jù)。這樣得到的決策樹就會變得更加簡單跟可靠,用它來對未知數(shù)據(jù)分類時也會變得更快、更精確。使用分離的元組集評估剪枝的缺點是,它可能不能代表那些構(gòu)建原始決策樹的訓練元組。如果分離的元組集不能很好地代表,用它們來評估剪枝樹的分類精確度將不是一個很好的指示器。而且,用分離的元組集來評估剪枝意味著將使用更少的元組來構(gòu)建和測試樹。3. 畫出包含4個布爾屬性A,B,C,D的奇偶函數(shù)的決策樹。該樹有可能被簡化嗎?ABCDClassTTTTTTTTFFTTFTFTTFFTTFTTFTFTFTTFFTTTFFFFFTTTFFTTFTFTFTTFTFFFFFTTTFFTFFFFFTFFFFFT解答:決策樹如下,該
3、樹不可能被簡化。4. X是一個具有期望Np、方差Np(1-p)的二項隨機變量,證明X/N同樣具有二項分布且期望為p方差為p(1-p)/N。解答:令r=X/N,因為是二項分布,同樣具有二項分布。期望,Er = EX/N = EX/N = (Np)/N = p;方差,E = E= E/ = Np(1-p)/ = p(1-p)/N5. 當一個數(shù)據(jù)對象同時屬于多個類時,很難評估分類的準確率。評述在這種情況下,你將使用何種標準比較對相同數(shù)據(jù)建立的不同分類器。解答:一個數(shù)據(jù)對象可能同時屬于多個類,然而,該數(shù)據(jù)對象可能屬于某個類的概率更高。因此,一個評估標準就是選擇正確預測出該數(shù)據(jù)對象通常屬于哪個類的分類器
4、。受此啟發(fā),一個分類預測如果滿足第一或第二最可能的類,那么就被認為是正確的。其他的評估標準包括速度、魯棒性、可伸縮性和可解釋性。通常,我們選擇的分類器一般趨向于含有這樣的特征:最小化計算開銷,即使給予噪聲數(shù)據(jù)或不完整數(shù)據(jù)也能準確預測,在大規(guī)模數(shù)據(jù)下仍然有效工作,提供簡明易懂的結(jié)果。6. 證明準確率是靈敏性和特效性的函數(shù),即證明式accuracy = sensitivity+specificity解答:accuracy = = + = + = sensitivity+specificity7. 支持向量機是一種具有高準確率的分類方法。然而,在使用大型數(shù)據(jù)元組集進行訓練時,該方法的處理速度很慢。討
5、論如何克服這一困難,并未大型數(shù)據(jù)集有效的SVM分類開發(fā)一種可伸縮的SVM算法。解答:我們可以使用micro-clustering技術(shù)("Classifying large data sets using SVM with hierarchical clusters" by Yu, Yang, and Han, in Proc. 2003 ACM SIGKDD Int. Conf. Knowledge Discovery and Data Mining (KDD'03), pages 306-315, Aug. 2003 YYH03)來克服這一困難。一種基于簇的SVM
6、方法如下描述:(1) 使用CF樹構(gòu)建微簇;(2) 在微簇的中心訓練SVM;(3) 打散邊界附近的條目;(4) 用其他的條目重復SVM訓練;(5) 重復上面的步驟直到收斂。8. 通過對預測器變量變換,有些非線性回歸模型可以轉(zhuǎn)化成線性模型。指出如何將非線性回歸方程y=轉(zhuǎn)換成可以用最小二乘方求解的線性回歸方程。解答:運用替換:,=,,可以獲得線性模型:。9. 什么是提升(Boosting)?陳述它為何能夠提決策樹歸納的準確性?解答:提升(Boosting)是一種用來提高分類準確度的技術(shù)?,F(xiàn)有一個包含s個元組的元組集S,訓練集(t=1,2,T),給中的元組賦予一定的權(quán)值。在中創(chuàng)建一個分類器。當創(chuàng)建好以后,更新中元組的權(quán)重,這樣如果元組造成分類錯誤的話,在接下來的分類器創(chuàng)建時,容易被發(fā)現(xiàn)。這樣就可以提高接下來的分類器的準確性。運用這種技術(shù),就可以保證每一個分類器都比之前的分類器具有更高的準確度。最終的分類器組合每個個體分類器,其中每個分類器投票的權(quán)重是其準確率的函數(shù)。10. 下表匯總了具有三個屬性A、B、C,以及兩個分類標號+、-的數(shù)據(jù)集,請根據(jù)此建立一棵兩層的決策樹ABC實例數(shù)+-TTT50FTT020TFT200FFT05TTF00FTF250TFF00FFF025解答:ABCclass11000+1
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 違法建筑拆除與建筑安全評估合同協(xié)議
- 參賽證明設(shè)計方案
- 街道防汛項目建設(shè)方案
- 幼兒園意外傷害的急救與預防培訓
- 油漆技師考試題及答案
- 環(huán)境健康與毒理學研究框架
- 在職口語考試題及答案
- 招商專員面試題及答案
- 2026版《全品高考》選考復習方案生物0506 微專題6 基因位置的判斷及相關(guān)實驗設(shè)計含答案
- 汽車美容與裝飾實訓課件 18-0項目七 任務(wù)三 后尾翼板安裝飾實訓
- 煤矸石處置合同范本
- 中暑急救培訓課件
- 能源管理體系及節(jié)能知識培訓課件
- 《SOP編寫培訓》課件
- 《紡織工藝》課件
- 廚房規(guī)范參觀流程
- 2025年陜西漢中市略陽縣綠色循環(huán)經(jīng)濟產(chǎn)業(yè)園區(qū)管委會招聘筆試參考題庫附帶答案詳解
- 2025年中煤集團招聘筆試參考題庫含答案解析
- 動設(shè)備監(jiān)測課件 轉(zhuǎn)動設(shè)備狀態(tài)監(jiān)測與故障診斷
- 小龍蝦啤酒節(jié)小龍蝦啤酒音樂節(jié)活動策劃方案
- 植物分類完整版本
評論
0/150
提交評論