數(shù)據(jù)挖掘數(shù)據(jù)清洗.doc_第1頁(yè)
數(shù)據(jù)挖掘數(shù)據(jù)清洗.doc_第2頁(yè)
數(shù)據(jù)挖掘數(shù)據(jù)清洗.doc_第3頁(yè)
數(shù)據(jù)挖掘數(shù)據(jù)清洗.doc_第4頁(yè)
數(shù)據(jù)挖掘數(shù)據(jù)清洗.doc_第5頁(yè)
免費(fèi)預(yù)覽已結(jié)束,剩余2頁(yè)可下載查看

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)預(yù)處理1 數(shù)據(jù)清理數(shù)據(jù)清洗是清除錯(cuò)誤和不一致數(shù)據(jù)的過(guò)程,當(dāng)然,數(shù)據(jù)清洗不是簡(jiǎn)單的用更新數(shù)據(jù)記錄,在數(shù)據(jù)挖掘過(guò)程中,數(shù)據(jù)清洗是第一步驟,即對(duì)數(shù)據(jù)進(jìn)行預(yù)處理的過(guò)程。數(shù)據(jù)清洗的任務(wù)是過(guò)濾或者修改那些不符合要求的數(shù)據(jù)。不符合要求的數(shù)據(jù)主要有不完整的數(shù)據(jù)、錯(cuò)誤的數(shù)據(jù)和重復(fù)的數(shù)據(jù)3大類。各種不同的挖掘系統(tǒng)都是針對(duì)特定的應(yīng)用領(lǐng)域進(jìn)行數(shù)據(jù)清洗的。包括:1) 檢測(cè)并消除數(shù)據(jù)異常2) 檢測(cè)并消除近似重復(fù)記錄3) 數(shù)據(jù)的集成4) 特定領(lǐng)域的數(shù)據(jù)清洗項(xiàng)目中的數(shù)據(jù)來(lái)源于數(shù)據(jù)倉(cāng)庫(kù),其中數(shù)據(jù)是不完整的、有噪聲和不一致的。數(shù)據(jù)清理過(guò)程試圖填充缺失的值,光滑噪聲并識(shí)別離群點(diǎn),并糾正數(shù)據(jù)中的不一致。數(shù)據(jù)清洗的目的是為挖掘提供準(zhǔn)確而有效的數(shù)據(jù),提高挖掘效率。下面介紹數(shù)據(jù)清理的過(guò)程,該過(guò)程依照云平臺(tái)的處理流程。2 缺失值處理對(duì)于數(shù)據(jù)集中的數(shù)據(jù),存在有這樣兩種情況:1) 數(shù)據(jù)中有大量缺失值的屬性,我們通常采取的措施是直接刪除,但是在有些系統(tǒng)進(jìn)行ETL處理時(shí),不能直接處理大量的缺失值。2) 對(duì)于比較重要的屬性,也會(huì)存在少量缺失值,需要將數(shù)據(jù)補(bǔ)充完整后進(jìn)行一系列的數(shù)據(jù)挖掘。針對(duì)這兩種不完整的數(shù)據(jù)特征,在數(shù)據(jù)清洗時(shí)采取了以下兩種方式對(duì)數(shù)據(jù)填補(bǔ):1) 將缺失的屬性值用同一個(gè)常數(shù)替換,如“Unknown”。這種方式用于處理上述的第一種數(shù)據(jù)特征的數(shù)據(jù),先用一個(gè)替換值將空值進(jìn)行約束替換。處理后的數(shù)據(jù)對(duì)后期挖掘工作沒(méi)有價(jià)值會(huì)選擇刪除。2) 利用該屬性的最可能的值填充缺失值。對(duì)于第二種數(shù)據(jù)特征的數(shù)據(jù),事先對(duì)每個(gè)屬性進(jìn)行值統(tǒng)計(jì),統(tǒng)計(jì)其值的分布狀態(tài)和頻率,對(duì)該屬性的所有遺漏的值均利用出現(xiàn)頻率最高的那個(gè)值來(lái)填補(bǔ)。對(duì)缺失數(shù)據(jù)進(jìn)行填補(bǔ)后,填入的值可能不正確,數(shù)據(jù)可能會(huì)存在偏置,并不是十分可靠的。然而,該方法使用了該屬性已有數(shù)據(jù)的大部分信息來(lái)預(yù)測(cè)缺失值。在估計(jì)缺失值時(shí),通過(guò)考慮該屬性的值的整體分布與頻率,保持該屬性的整體分布狀態(tài)。3 數(shù)據(jù)選擇在對(duì)數(shù)據(jù)進(jìn)行第一步缺失值清理后,會(huì)考慮刪除掉冗余屬性、或者與挖掘關(guān)系不大的屬性,這稱為人工選擇。屬性的人工選擇和數(shù)據(jù)消減是不同的,即使兩者的目的都是縮小所挖掘數(shù)據(jù)的規(guī)模,但卻不會(huì)影響(或基本不影響)最終的挖掘結(jié)果。都屬于屬性的降維,但是現(xiàn)有的數(shù)據(jù)消減包括:數(shù)據(jù)聚合、消減維度、數(shù)據(jù)壓縮和數(shù)據(jù)塊消減。而人工屬性選擇是物理降維方式,通過(guò)對(duì)業(yè)務(wù)的理解和相關(guān)人員的溝通,對(duì)數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行初步的篩選。4 數(shù)據(jù)變換數(shù)據(jù)變換是數(shù)據(jù)清理過(guò)程的第二步,是對(duì)數(shù)據(jù)的一個(gè)標(biāo)準(zhǔn)化的處理。大部分?jǐn)?shù)據(jù)需要進(jìn)行數(shù)據(jù)變換。數(shù)據(jù)變換是不同來(lái)源所得到的數(shù)據(jù)可能導(dǎo)致不一致,所以需要進(jìn)行數(shù)據(jù)變換,構(gòu)成一個(gè)適合數(shù)據(jù)挖掘決的描述形式。在項(xiàng)目中我們進(jìn)行數(shù)據(jù)轉(zhuǎn)換包含的處理內(nèi)容有:(1) 屬性的數(shù)據(jù)類型轉(zhuǎn)換。當(dāng)屬性之間的取值范圍可能相差很大時(shí),要進(jìn)行數(shù)據(jù)的映射處理,映射關(guān)系可以去平方根、標(biāo)準(zhǔn)方差以及區(qū)域?qū)?yīng)。當(dāng)屬性的取值類型較小時(shí),分析數(shù)據(jù)的頻率分布,然后進(jìn)行數(shù)值轉(zhuǎn)換,將其中字符型的屬性轉(zhuǎn)換為枚舉型。(2) 屬性構(gòu)造。根據(jù)已有的屬性集構(gòu)造新的屬性,以幫助數(shù)據(jù)挖掘過(guò)程。很多情況下需要從原始數(shù)據(jù)中生成一些新的變量作為預(yù)測(cè)變量。(3) 數(shù)據(jù)離散化。將連續(xù)取值的屬性離散化成若干區(qū)間,來(lái)幫助消減一個(gè)連續(xù)屬性的取值個(gè)數(shù)。例如年齡字段取值大于0,為了分析的方便,根據(jù)經(jīng)驗(yàn),可以將用戶的年齡段分成幾個(gè)不同的區(qū)間:015、1624、2535、3655、大于55,分別用1,2,3,4,5來(lái)表示。(4) 數(shù)據(jù)標(biāo)準(zhǔn)化:不同來(lái)源所得到的相同字段定義可能不一樣。如性別有男、女來(lái)表示,需要將定義標(biāo)準(zhǔn)化,把它們的定義和取值區(qū)間統(tǒng)一起來(lái)。如性別定義1(男)、2(女)、3(缺失)。數(shù)據(jù)標(biāo)準(zhǔn)化過(guò)程還用來(lái)消除變量之間不同數(shù)量級(jí)造成的數(shù)值之間的懸殊差異,消除個(gè)別數(shù)值較高的屬性對(duì)聚類結(jié)果的影響。5 數(shù)據(jù)的集成數(shù)據(jù)集成是把不同來(lái)源、格式、特點(diǎn)性質(zhì)的數(shù)據(jù)在邏輯上或物理上有機(jī)地集中,從而為數(shù)據(jù)挖掘提供完整的數(shù)據(jù)源。數(shù)據(jù)集成處理需要考慮以下幾個(gè)問(wèn)題:(1)來(lái)自多個(gè)數(shù)據(jù)源的數(shù)據(jù)表通過(guò)相同的主鍵進(jìn)行自然連接,各個(gè)表中的主鍵要相互匹配,否則不能連接。(2)冗余問(wèn)題,這是數(shù)據(jù)集成中經(jīng)常發(fā)生的一個(gè)問(wèn)題,所以在連接之前對(duì)各個(gè)表中字段進(jìn)行人工選擇,并采用自然連接的方式,防止冗余字段產(chǎn)生。(3)數(shù)據(jù)值的沖突檢測(cè),來(lái)自不同數(shù)據(jù)源的屬性值或許不同,所以要檢查數(shù)據(jù)表中連接字段的類型和是否有相同的記錄等問(wèn)題。6 數(shù)據(jù)消減對(duì)大規(guī)模的數(shù)據(jù)進(jìn)行復(fù)雜的數(shù)據(jù)分析與數(shù)據(jù)挖掘通常需要耗費(fèi)大量時(shí)間,所以在數(shù)據(jù)挖掘前要進(jìn)行數(shù)據(jù)的約減,減小數(shù)據(jù)規(guī)模,而且還需要交互式的數(shù)據(jù)挖掘,根據(jù)數(shù)據(jù)挖掘前后對(duì)比對(duì)數(shù)據(jù)進(jìn)行信息反饋。數(shù)據(jù)消減技術(shù)正是用于從原有龐大數(shù)據(jù)集中獲得一個(gè)精簡(jiǎn)的數(shù)據(jù)集合,并使這一精簡(jiǎn)數(shù)據(jù)集保持原有數(shù)據(jù)集的完整性,這樣在精簡(jiǎn)數(shù)據(jù)集上進(jìn)行數(shù)據(jù)挖掘顯然效率更高,并且挖掘出來(lái)的結(jié)果與使用原有數(shù)據(jù)集所獲得結(jié)果基本相同。數(shù)據(jù)消減的目的就是縮小所挖掘數(shù)據(jù)的規(guī)模,但卻不會(huì)影響(或基本不影響)最終的挖掘結(jié)果?,F(xiàn)有的數(shù)據(jù)消減包括:(1)數(shù)據(jù)聚合;(2)消減維度,通過(guò)相關(guān)分析消除多余屬性;(3)數(shù)據(jù)壓縮;(4)數(shù)據(jù)塊消減,利用聚類或參數(shù)模型替代原有數(shù)據(jù)。7 數(shù)據(jù)清洗評(píng)估 數(shù)據(jù)清洗的評(píng)估實(shí)質(zhì)上是對(duì)清洗后的數(shù)據(jù)的質(zhì)量進(jìn)行評(píng)估, 而數(shù)據(jù)質(zhì)量的評(píng)估過(guò)程是一種通過(guò)測(cè)量和改善數(shù)據(jù)綜合特征來(lái)優(yōu)化數(shù)據(jù)價(jià)值的過(guò)程。數(shù)據(jù)質(zhì)量評(píng)價(jià)指標(biāo)和方法研究的難點(diǎn)在于數(shù)據(jù)質(zhì)量的含義、 內(nèi)容、 分類、分級(jí)、 質(zhì)量的評(píng)價(jià)指標(biāo)等。數(shù)據(jù)質(zhì)量評(píng)估至少應(yīng)該包含以下兩方面的基本評(píng)估指標(biāo):1) 數(shù)據(jù)對(duì)用戶必須是可信的??尚判园ň_性、 完整性、 一致性、 有效性、 唯一性等指標(biāo)。(1) 精確性: 描述數(shù)據(jù)是否與其對(duì)應(yīng)的客觀實(shí)體的特征相一致。(2) 完整性: 描述數(shù)據(jù)是否存在缺失記錄或缺失字段。(3) 一致性: 描述同一實(shí)體的同一屬性的值在不同的系統(tǒng)是否一致。(4) 有效性: 描述數(shù)據(jù)是否滿足用戶定義的條件或在一定的域值范圍內(nèi)。(5) 唯一性: 描述數(shù)據(jù)是否存在重復(fù)記錄。2) 數(shù)據(jù)對(duì)用戶必須是可用的。包括時(shí)間性、 穩(wěn)定性等指標(biāo)。(1) 時(shí)間性: 描述數(shù)據(jù)是當(dāng)前數(shù)據(jù)還是歷史數(shù)據(jù)。(2) 穩(wěn)定性: 描述數(shù)據(jù)是否是穩(wěn)定的, 是否在其有效期內(nèi)。高質(zhì)量的決策必然依賴于高質(zhì)量的數(shù)據(jù),因此,數(shù)據(jù)變換操作,如規(guī)范化和集成,是導(dǎo)向挖掘過(guò)程成功的預(yù)處理過(guò)程,是十分必要和重要的。1:C4.5 C4.5就是一個(gè)決策樹(shù)算法,它是決策樹(shù)(決策樹(shù)也就是做決策的節(jié)點(diǎn)間的組織方式像一棵樹(shù),其實(shí)是一個(gè)倒樹(shù))核心算法ID3的改進(jìn)算法,所以基本上了解了一半決策樹(shù)構(gòu)造方法就能構(gòu)造它。決策樹(shù)構(gòu)造方法其實(shí)就是每次選擇一個(gè)好的特征以及分裂點(diǎn)作為當(dāng)前節(jié)點(diǎn)的分類條件。C4.5比ID3改進(jìn)的地方時(shí): ID3選擇屬性用的是子樹(shù)的信息增益(這里可以用很多方法來(lái)定義信息,ID3使用的是熵(entropy)(熵是一種不純度度量準(zhǔn)則),也就是熵的變化值.而C4.5用的是信息增益率。也就是多了個(gè)率嘛。一般來(lái)說(shuō)率就是用來(lái)取平衡用的,就像方差起的作用差不多,比如有兩個(gè)跑步的人,一個(gè)起點(diǎn)是10m/s的人、其1s后為20m/s;另一個(gè)人起速是1m/s、其1s后為2m/s。如果緊緊算差值那么兩個(gè)差距就很大了,如果使用速度增加率(加速度)來(lái)衡量,2個(gè)人就是一樣了。在這里,其克服了用信息增益選擇屬性時(shí)偏向選擇取值多的屬性的不足。在樹(shù)構(gòu)造過(guò)程中進(jìn)行剪枝,我在構(gòu)造決策樹(shù)的時(shí)候好討厭那些掛著幾個(gè)元素的節(jié)點(diǎn)。對(duì)于這種節(jié)點(diǎn),干脆不考慮最好,不然很容易導(dǎo)致overfitting。對(duì)非離散數(shù)據(jù)都能處理,這個(gè)其實(shí)就是一個(gè)個(gè)式,看對(duì)于連續(xù)型的值在哪里分裂好。也就是把連續(xù)性的數(shù)據(jù)轉(zhuǎn)化為離散的值進(jìn)行處理。能夠?qū)Σ煌暾麛?shù)據(jù)進(jìn)行處理,這個(gè)重要也重要,其實(shí)也沒(méi)那么重要,缺失數(shù)據(jù)采用一些方法補(bǔ)上去就是了。 2:CART CART也是一種決策樹(shù)算法!相對(duì)于上著有條件實(shí)現(xiàn)一個(gè)節(jié)點(diǎn)下面有多個(gè)子樹(shù)的多元分類,CART只是分類兩個(gè)子樹(shù),這樣實(shí)現(xiàn)起來(lái)稍稍簡(jiǎn)便些。所以說(shuō)CART算法生成的決策樹(shù)是結(jié)構(gòu)簡(jiǎn)潔的二叉樹(shù)。 3:KNN(K Nearest Neighbours) 這個(gè)很簡(jiǎn)單,就是看你周?chē)腒個(gè)人(樣本)那個(gè)類別的人占的多,那個(gè)多那我也是那個(gè)多的。實(shí)現(xiàn)起來(lái)就是對(duì)每個(gè)訓(xùn)練樣本都計(jì)算與其相似度,選擇相似度Top-K個(gè)訓(xùn)練樣本出來(lái),看這K個(gè)樣本中那個(gè)類別的多些,誰(shuí)多跟誰(shuí)。 4:Naïve Bayes(樸素貝葉斯NB) NB認(rèn)為各個(gè)特征是獨(dú)立的,誰(shuí)也不關(guān)誰(shuí)的事。所以一個(gè)樣本(特征值的集合,比如”數(shù)據(jù)結(jié)構(gòu)”出現(xiàn)2詞,“文件”出現(xiàn)1詞),可以通過(guò)對(duì)其所有出現(xiàn)特征在給定類別的概率相乘。比如“數(shù)據(jù)結(jié)構(gòu)”出現(xiàn)在類1的概率為0.5,“文件”出現(xiàn)在類1的概率為0.3,則可認(rèn)為其屬于類1的概率為0.5*0.5*0.3。 5:Support Vector Machine(支持向量機(jī)SVM) SVM就是想找一個(gè)分類得最”好”的分類線/分類面(最近的一些兩類樣本到這個(gè)”線”的距離最遠(yuǎn))。這個(gè)沒(méi)具體實(shí)現(xiàn)過(guò),上次聽(tīng)課,那位老師自稱自己實(shí)現(xiàn)了SVM,敬佩其鉆研精神。常用的工具包是LibSVM,SVMLight,MySVM. 6:EM(期望最大化) 這個(gè)我認(rèn)為就是假設(shè)數(shù)據(jù)時(shí)由幾個(gè)高斯分布組成的,所以最后就是要求幾個(gè)高斯分布的參數(shù)。通過(guò)先假設(shè)幾個(gè)值,然后通過(guò)反復(fù)迭代,以期望得到最好的擬合。 7:Apriori 這個(gè)是做關(guān)聯(lián)規(guī)則用的。不知道為什么,一提高關(guān)聯(lián)規(guī)則我就想到購(gòu)物籃數(shù)據(jù)。這個(gè)沒(méi)實(shí)現(xiàn)過(guò),不過(guò)也還要理解,它就是通過(guò)支持度和置信度兩個(gè)量來(lái)工作,不過(guò)對(duì)于Apriori,它通過(guò)頻繁項(xiàng)集的一些規(guī)律(頻繁項(xiàng)集的子集必定是頻繁項(xiàng)集等等啦)來(lái)減少計(jì)算復(fù)雜度。 8:FP-Tree(Mining frequent patterns without candidate generation) 這個(gè)也不太清楚。FP-growth算法(Frequent Pattern-growth)使用了一種緊縮的數(shù)據(jù)結(jié)構(gòu)來(lái)存儲(chǔ)查找頻繁項(xiàng)集所需要的全部信息。采用算法:將提供頻繁項(xiàng)集的數(shù)據(jù)庫(kù)壓縮到一棵FP-tree來(lái)保留項(xiàng)集關(guān)聯(lián)信息,然后將壓縮后的數(shù)據(jù)庫(kù)分成一組條件數(shù)據(jù)庫(kù)(一種特殊類型的投影數(shù)據(jù)庫(kù)),每個(gè)條件數(shù)據(jù)庫(kù)關(guān)聯(lián)一個(gè)頻繁項(xiàng)集。 9:PageRank 大名鼎鼎的PageRank大家應(yīng)該都知道(Google靠此專利發(fā)家,其實(shí)也不能說(shuō)發(fā)家啦!)。對(duì)于這個(gè)算法我的理解就是:如果我指向你(網(wǎng)頁(yè)間的連接)則表示我承認(rèn)你,則在計(jì)算你的重要性的時(shí)候可以加上我的一部分重要性(到底多少,要看我自己有多少和我共承認(rèn)多少個(gè)人)。通過(guò)反復(fù)這樣來(lái),可以求的一個(gè)穩(wěn)定的衡量各個(gè)人(網(wǎng)頁(yè))重要性的值。不過(guò)這里必須要做些限制(一個(gè)人的開(kāi)始默認(rèn)重要性都是1),不然那些值會(huì)越來(lái)越大越來(lái)越大。 10:HITS HITS也是一個(gè)連接分析算法,它是由IBM首先提出的。在HITS,每個(gè)節(jié)點(diǎn)(網(wǎng)頁(yè))都有一個(gè)重要度和權(quán)威度(Hubs and authorities,我也忘了具體的翻譯是什么了)。通過(guò)反復(fù)通過(guò)權(quán)威度來(lái)求重要度,通過(guò)重要度來(lái)求權(quán)威度得到最后的權(quán)威度和重要度。 11:K-Means K-Means是一種最經(jīng)典也是使用最廣泛的聚類方法,時(shí)至今日任然有很多基于其的改進(jìn)模型提出。K-Means的思想很簡(jiǎn)單,對(duì)于一個(gè)聚類任務(wù)(你需要指明聚成幾個(gè)類,當(dāng)然按照自然想法來(lái)說(shuō)不應(yīng)該需要指明類數(shù),這個(gè)問(wèn)題也是當(dāng)前聚類任務(wù)的一個(gè)值得研究的課題),首先隨機(jī)選擇K個(gè)簇中心,然后反復(fù)計(jì)算下面的過(guò)程直到所有簇中心不改變(簇集合不改變)為止:步驟1:對(duì)于每個(gè)對(duì)象,計(jì)算其與每個(gè)簇中心的相似度,把其歸入與其最相似的那個(gè)簇中。 步驟2:更新簇中心,新的簇中心通過(guò)計(jì)算所有屬于該簇的對(duì)象的平均值得到。 k-means 算法的工作過(guò)程說(shuō)明如下:首先從n個(gè)數(shù)據(jù)對(duì)象任意選擇k 個(gè)對(duì)象作為初始聚類中心;而對(duì)于所剩下其它對(duì)象,則根據(jù)它們與這些聚類中心的相似度(距離),分別將它們分配給與其最相似的(聚類中心所代表的)聚類;然后再計(jì)算每個(gè)所獲新聚類的聚類中心(該聚類中所有對(duì)象的均值);不斷重復(fù)這一過(guò)程直到標(biāo)準(zhǔn)測(cè)度函數(shù)開(kāi)始收斂為止。一般都采用均方差作為標(biāo)準(zhǔn)測(cè)度函數(shù). k個(gè)聚類具有以下特點(diǎn):各聚類本身盡可能的緊湊,而各聚類之間盡可能的分開(kāi)。 12:BIRCH BIRCH也是一種聚類算法,其全稱是Balanced Iterative Reducing and Clustering using Hierarchies。BIRCH也是只是看了理論沒(méi)具體實(shí)現(xiàn)過(guò)。是一個(gè)綜合的層次聚類特征(Clustering Feature, CF)和聚類特征樹(shù)(CF Tree)兩個(gè)概念,用于概括聚類描述。聚類特征樹(shù)概括了聚類的有用信息,并且占用空間較元數(shù)據(jù)集合小得多,可以存放在內(nèi)存中,從而可以提高算法在大型數(shù)據(jù)集合上的聚類速度及可伸縮性。 BIRCH算法包括以下兩個(gè)階段: 1)掃描數(shù)據(jù)庫(kù),建立動(dòng)態(tài)的一棵存放在內(nèi)存的CF Tree。如果內(nèi)存不夠,則增大閾值,在原樹(shù)基礎(chǔ)上構(gòu)造一棵較小的樹(shù)。 2)對(duì)葉節(jié)點(diǎn)進(jìn)一步利用一個(gè)全局性的聚類算法,改進(jìn)聚類質(zhì)量。 由于CF Tree的葉節(jié)點(diǎn)代表的聚類可能不是自然的聚類結(jié)果,原因是給定的閾值限制了簇的大小,并且數(shù)據(jù)的輸入順序也會(huì)影響到聚類結(jié)果。因此需要對(duì)葉節(jié)點(diǎn)進(jìn)一步利用一個(gè)全局性的聚類算法,改進(jìn)聚類質(zhì)量。 13:AdaBoost AdaBoost做分類的一般知道,它是一種boosting方法。這個(gè)不能說(shuō)是一種算法,應(yīng)該是一種方法,因?yàn)樗梢越⒃谌魏我环N分類算法上,可以是決策樹(shù),NB,SVM等。 Adaboost是一種迭代算法,其核心思想是針對(duì)同一個(gè)訓(xùn)練集訓(xùn)練不同的分類器(弱分類器),然后把這些弱分類器集合起來(lái),構(gòu)成一個(gè)更強(qiáng)的最終分類器(強(qiáng)分類器)。其算法本身是通過(guò)改變數(shù)據(jù)分布來(lái)實(shí)現(xiàn)的,它根據(jù)每次訓(xùn)練集之中每個(gè)樣本的分類是否正確,以及上次的總體分類的準(zhǔn)確率,來(lái)確定每個(gè)樣本的權(quán)值。將修改過(guò)權(quán)值的新數(shù)據(jù)集送給下層分類器進(jìn)行訓(xùn)練,最后將每次訓(xùn)練得到的分類器最后融合起來(lái),作為最后的決策分類器。使用adaboost分類器可以排除一些不必要的訓(xùn)練數(shù)據(jù),并將關(guān)鍵放在關(guān)鍵的訓(xùn)練數(shù)據(jù)上面。 14:GSP GSP,全稱為Generaliz

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論