數(shù)據(jù)挖掘數(shù)據(jù)清洗.doc

上傳人：油*** IP屬地：浙江上傳時(shí)間：2020-03-15 格式：DOC 頁(yè)數(shù)：7 大?。?4KB 積分：20 舉報(bào) 版權(quán)申訴

免費(fèi)預(yù)覽已結(jié)束，剩余2頁(yè)可下載查看

 下載本文檔

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)預(yù)處理1 數(shù)據(jù)清理數(shù)據(jù)清洗是清除錯(cuò)誤和不一致數(shù)據(jù)的過(guò)程，當(dāng)然，數(shù)據(jù)清洗不是簡(jiǎn)單的用更新數(shù)據(jù)記錄，在數(shù)據(jù)挖掘過(guò)程中，數(shù)據(jù)清洗是第一步驟，即對(duì)數(shù)據(jù)進(jìn)行預(yù)處理的過(guò)程。數(shù)據(jù)清洗的任務(wù)是過(guò)濾或者修改那些不符合要求的數(shù)據(jù)。不符合要求的數(shù)據(jù)主要有不完整的數(shù)據(jù)、錯(cuò)誤的數(shù)據(jù)和重復(fù)的數(shù)據(jù)3大類。各種不同的挖掘系統(tǒng)都是針對(duì)特定的應(yīng)用領(lǐng)域進(jìn)行數(shù)據(jù)清洗的。包括：1) 檢測(cè)并消除數(shù)據(jù)異常2) 檢測(cè)并消除近似重復(fù)記錄3) 數(shù)據(jù)的集成4) 特定領(lǐng)域的數(shù)據(jù)清洗項(xiàng)目中的數(shù)據(jù)來(lái)源于數(shù)據(jù)倉(cāng)庫(kù)，其中數(shù)據(jù)是不完整的、有噪聲和不一致的。數(shù)據(jù)清理過(guò)程試圖填充缺失的值，光滑噪聲并識(shí)別離群點(diǎn)，并糾正數(shù)據(jù)中的不一致。數(shù)據(jù)清洗的目的是為挖掘提供準(zhǔn)確而有效的數(shù)據(jù)，提高挖掘效率。下面介紹數(shù)據(jù)清理的過(guò)程，該過(guò)程依照云平臺(tái)的處理流程。2 缺失值處理對(duì)于數(shù)據(jù)集中的數(shù)據(jù)，存在有這樣兩種情況：1) 數(shù)據(jù)中有大量缺失值的屬性，我們通常采取的措施是直接刪除，但是在有些系統(tǒng)進(jìn)行ETL處理時(shí)，不能直接處理大量的缺失值。2) 對(duì)于比較重要的屬性，也會(huì)存在少量缺失值，需要將數(shù)據(jù)補(bǔ)充完整后進(jìn)行一系列的數(shù)據(jù)挖掘。針對(duì)這兩種不完整的數(shù)據(jù)特征，在數(shù)據(jù)清洗時(shí)采取了以下兩種方式對(duì)數(shù)據(jù)填補(bǔ)：1) 將缺失的屬性值用同一個(gè)常數(shù)替換，如“Unknown”。這種方式用于處理上述的第一種數(shù)據(jù)特征的數(shù)據(jù)，先用一個(gè)替換值將空值進(jìn)行約束替換。處理后的數(shù)據(jù)對(duì)后期挖掘工作沒(méi)有價(jià)值會(huì)選擇刪除。2) 利用該屬性的最可能的值填充缺失值。對(duì)于第二種數(shù)據(jù)特征的數(shù)據(jù)，事先對(duì)每個(gè)屬性進(jìn)行值統(tǒng)計(jì)，統(tǒng)計(jì)其值的分布狀態(tài)和頻率，對(duì)該屬性的所有遺漏的值均利用出現(xiàn)頻率最高的那個(gè)值來(lái)填補(bǔ)。對(duì)缺失數(shù)據(jù)進(jìn)行填補(bǔ)后，填入的值可能不正確，數(shù)據(jù)可能會(huì)存在偏置，并不是十分可靠的。然而，該方法使用了該屬性已有數(shù)據(jù)的大部分信息來(lái)預(yù)測(cè)缺失值。在估計(jì)缺失值時(shí)，通過(guò)考慮該屬性的值的整體分布與頻率，保持該屬性的整體分布狀態(tài)。3 數(shù)據(jù)選擇在對(duì)數(shù)據(jù)進(jìn)行第一步缺失值清理后，會(huì)考慮刪除掉冗余屬性、或者與挖掘關(guān)系不大的屬性，這稱為人工選擇。屬性的人工選擇和數(shù)據(jù)消減是不同的，即使兩者的目的都是縮小所挖掘數(shù)據(jù)的規(guī)模，但卻不會(huì)影響（或基本不影響）最終的挖掘結(jié)果。都屬于屬性的降維，但是現(xiàn)有的數(shù)據(jù)消減包括：數(shù)據(jù)聚合、消減維度、數(shù)據(jù)壓縮和數(shù)據(jù)塊消減。而人工屬性選擇是物理降維方式，通過(guò)對(duì)業(yè)務(wù)的理解和相關(guān)人員的溝通，對(duì)數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行初步的篩選。4 數(shù)據(jù)變換數(shù)據(jù)變換是數(shù)據(jù)清理過(guò)程的第二步，是對(duì)數(shù)據(jù)的一個(gè)標(biāo)準(zhǔn)化的處理。大部分?jǐn)?shù)據(jù)需要進(jìn)行數(shù)據(jù)變換。數(shù)據(jù)變換是不同來(lái)源所得到的數(shù)據(jù)可能導(dǎo)致不一致，所以需要進(jìn)行數(shù)據(jù)變換，構(gòu)成一個(gè)適合數(shù)據(jù)挖掘決的描述形式。在項(xiàng)目中我們進(jìn)行數(shù)據(jù)轉(zhuǎn)換包含的處理內(nèi)容有：(1) 屬性的數(shù)據(jù)類型轉(zhuǎn)換。當(dāng)屬性之間的取值范圍可能相差很大時(shí)，要進(jìn)行數(shù)據(jù)的映射處理，映射關(guān)系可以去平方根、標(biāo)準(zhǔn)方差以及區(qū)域?qū)?yīng)。當(dāng)屬性的取值類型較小時(shí)，分析數(shù)據(jù)的頻率分布，然后進(jìn)行數(shù)值轉(zhuǎn)換，將其中字符型的屬性轉(zhuǎn)換為枚舉型。(2) 屬性構(gòu)造。根據(jù)已有的屬性集構(gòu)造新的屬性，以幫助數(shù)據(jù)挖掘過(guò)程。很多情況下需要從原始數(shù)據(jù)中生成一些新的變量作為預(yù)測(cè)變量。(3) 數(shù)據(jù)離散化。將連續(xù)取值的屬性離散化成若干區(qū)間，來(lái)幫助消減一個(gè)連續(xù)屬性的取值個(gè)數(shù)。例如年齡字段取值大于0，為了分析的方便，根據(jù)經(jīng)驗(yàn)，可以將用戶的年齡段分成幾個(gè)不同的區(qū)間：015、1624、2535、3655、大于55，分別用1，2，3，4，5來(lái)表示。(4) 數(shù)據(jù)標(biāo)準(zhǔn)化：不同來(lái)源所得到的相同字段定義可能不一樣。如性別有男、女來(lái)表示，需要將定義標(biāo)準(zhǔn)化，把它們的定義和取值區(qū)間統(tǒng)一起來(lái)。如性別定義1（男）、2（女）、3（缺失）。數(shù)據(jù)標(biāo)準(zhǔn)化過(guò)程還用來(lái)消除變量之間不同數(shù)量級(jí)造成的數(shù)值之間的懸殊差異，消除個(gè)別數(shù)值較高的屬性對(duì)聚類結(jié)果的影響。5 數(shù)據(jù)的集成數(shù)據(jù)集成是把不同來(lái)源、格式、特點(diǎn)性質(zhì)的數(shù)據(jù)在邏輯上或物理上有機(jī)地集中，從而為數(shù)據(jù)挖掘提供完整的數(shù)據(jù)源。數(shù)據(jù)集成處理需要考慮以下幾個(gè)問(wèn)題：（1）來(lái)自多個(gè)數(shù)據(jù)源的數(shù)據(jù)表通過(guò)相同的主鍵進(jìn)行自然連接，各個(gè)表中的主鍵要相互匹配，否則不能連接。（2）冗余問(wèn)題，這是數(shù)據(jù)集成中經(jīng)常發(fā)生的一個(gè)問(wèn)題，所以在連接之前對(duì)各個(gè)表中字段進(jìn)行人工選擇，并采用自然連接的方式，防止冗余字段產(chǎn)生。（3）數(shù)據(jù)值的沖突檢測(cè)，來(lái)自不同數(shù)據(jù)源的屬性值或許不同，所以要檢查數(shù)據(jù)表中連接字段的類型和是否有相同的記錄等問(wèn)題。6 數(shù)據(jù)消減對(duì)大規(guī)模的數(shù)據(jù)進(jìn)行復(fù)雜的數(shù)據(jù)分析與數(shù)據(jù)挖掘通常需要耗費(fèi)大量時(shí)間，所以在數(shù)據(jù)挖掘前要進(jìn)行數(shù)據(jù)的約減，減小數(shù)據(jù)規(guī)模，而且還需要交互式的數(shù)據(jù)挖掘，根據(jù)數(shù)據(jù)挖掘前后對(duì)比對(duì)數(shù)據(jù)進(jìn)行信息反饋。數(shù)據(jù)消減技術(shù)正是用于從原有龐大數(shù)據(jù)集中獲得一個(gè)精簡(jiǎn)的數(shù)據(jù)集合，并使這一精簡(jiǎn)數(shù)據(jù)集保持原有數(shù)據(jù)集的完整性，這樣在精簡(jiǎn)數(shù)據(jù)集上進(jìn)行數(shù)據(jù)挖掘顯然效率更高，并且挖掘出來(lái)的結(jié)果與使用原有數(shù)據(jù)集所獲得結(jié)果基本相同。數(shù)據(jù)消減的目的就是縮小所挖掘數(shù)據(jù)的規(guī)模，但卻不會(huì)影響（或基本不影響）最終的挖掘結(jié)果?，F(xiàn)有的數(shù)據(jù)消減包括：（1）數(shù)據(jù)聚合；（2）消減維度，通過(guò)相關(guān)分析消除多余屬性；（3）數(shù)據(jù)壓縮；（4）數(shù)據(jù)塊消減，利用聚類或參數(shù)模型替代原有數(shù)據(jù)。7 數(shù)據(jù)清洗評(píng)估數(shù)據(jù)清洗的評(píng)估實(shí)質(zhì)上是對(duì)清洗后的數(shù)據(jù)的質(zhì)量進(jìn)行評(píng)估，而數(shù)據(jù)質(zhì)量的評(píng)估過(guò)程是一種通過(guò)測(cè)量和改善數(shù)據(jù)綜合特征來(lái)優(yōu)化數(shù)據(jù)價(jià)值的過(guò)程。數(shù)據(jù)質(zhì)量評(píng)價(jià)指標(biāo)和方法研究的難點(diǎn)在于數(shù)據(jù)質(zhì)量的含義、內(nèi)容、分類、分級(jí)、質(zhì)量的評(píng)價(jià)指標(biāo)等。數(shù)據(jù)質(zhì)量評(píng)估至少應(yīng)該包含以下兩方面的基本評(píng)估指標(biāo)：1) 數(shù)據(jù)對(duì)用戶必須是可信的?？尚判园ň_性、完整性、一致性、有效性、唯一性等指標(biāo)。(1) 精確性: 描述數(shù)據(jù)是否與其對(duì)應(yīng)的客觀實(shí)體的特征相一致。(2) 完整性: 描述數(shù)據(jù)是否存在缺失記錄或缺失字段。(3) 一致性: 描述同一實(shí)體的同一屬性的值在不同的系統(tǒng)是否一致。(4) 有效性: 描述數(shù)據(jù)是否滿足用戶定義的條件或在一定的域值范圍內(nèi)。(5) 唯一性: 描述數(shù)據(jù)是否存在重復(fù)記錄。2) 數(shù)據(jù)對(duì)用戶必須是可用的。包括時(shí)間性、穩(wěn)定性等指標(biāo)。(1) 時(shí)間性: 描述數(shù)據(jù)是當(dāng)前數(shù)據(jù)還是歷史數(shù)據(jù)。(2) 穩(wěn)定性: 描述數(shù)據(jù)是否是穩(wěn)定的，是否在其有效期內(nèi)。高質(zhì)量的決策必然依賴于高質(zhì)量的數(shù)據(jù)，因此，數(shù)據(jù)變換操作，如規(guī)范化和集成，是導(dǎo)向挖掘過(guò)程成功的預(yù)處理過(guò)程，是十分必要和重要的。1：C4.5 C4.5就是一個(gè)決策樹(shù)算法，它是決策樹(shù)(決策樹(shù)也就是做決策的節(jié)點(diǎn)間的組織方式像一棵樹(shù)，其實(shí)是一個(gè)倒樹(shù))核心算法ID3的改進(jìn)算法，所以基本上了解了一半決策樹(shù)構(gòu)造方法就能構(gòu)造它。決策樹(shù)構(gòu)造方法其實(shí)就是每次選擇一個(gè)好的特征以及分裂點(diǎn)作為當(dāng)前節(jié)點(diǎn)的分類條件。C4.5比ID3改進(jìn)的地方時(shí)： ID3選擇屬性用的是子樹(shù)的信息增益(這里可以用很多方法來(lái)定義信息，ID3使用的是熵(entropy)(熵是一種不純度度量準(zhǔn)則),也就是熵的變化值.而C4.5用的是信息增益率。也就是多了個(gè)率嘛。一般來(lái)說(shuō)率就是用來(lái)取平衡用的，就像方差起的作用差不多，比如有兩個(gè)跑步的人，一個(gè)起點(diǎn)是10m/s的人、其1s后為20m/s；另一個(gè)人起速是1m/s、其1s后為2m/s。如果緊緊算差值那么兩個(gè)差距就很大了，如果使用速度增加率(加速度)來(lái)衡量，2個(gè)人就是一樣了。在這里，其克服了用信息增益選擇屬性時(shí)偏向選擇取值多的屬性的不足。在樹(shù)構(gòu)造過(guò)程中進(jìn)行剪枝，我在構(gòu)造決策樹(shù)的時(shí)候好討厭那些掛著幾個(gè)元素的節(jié)點(diǎn)。對(duì)于這種節(jié)點(diǎn)，干脆不考慮最好，不然很容易導(dǎo)致overfitting。對(duì)非離散數(shù)據(jù)都能處理，這個(gè)其實(shí)就是一個(gè)個(gè)式，看對(duì)于連續(xù)型的值在哪里分裂好。也就是把連續(xù)性的數(shù)據(jù)轉(zhuǎn)化為離散的值進(jìn)行處理。能夠?qū)Σ煌暾麛?shù)據(jù)進(jìn)行處理，這個(gè)重要也重要，其實(shí)也沒(méi)那么重要，缺失數(shù)據(jù)采用一些方法補(bǔ)上去就是了。 2：CART CART也是一種決策樹(shù)算法！相對(duì)于上著有條件實(shí)現(xiàn)一個(gè)節(jié)點(diǎn)下面有多個(gè)子樹(shù)的多元分類，CART只是分類兩個(gè)子樹(shù)，這樣實(shí)現(xiàn)起來(lái)稍稍簡(jiǎn)便些。所以說(shuō)CART算法生成的決策樹(shù)是結(jié)構(gòu)簡(jiǎn)潔的二叉樹(shù)。 3：KNN(K Nearest Neighbours) 這個(gè)很簡(jiǎn)單，就是看你周?chē)腒個(gè)人(樣本)那個(gè)類別的人占的多，那個(gè)多那我也是那個(gè)多的。實(shí)現(xiàn)起來(lái)就是對(duì)每個(gè)訓(xùn)練樣本都計(jì)算與其相似度，選擇相似度Top-K個(gè)訓(xùn)練樣本出來(lái)，看這K個(gè)樣本中那個(gè)類別的多些，誰(shuí)多跟誰(shuí)。 4：Naïve Bayes(樸素貝葉斯NB) NB認(rèn)為各個(gè)特征是獨(dú)立的，誰(shuí)也不關(guān)誰(shuí)的事。所以一個(gè)樣本(特征值的集合，比如”數(shù)據(jù)結(jié)構(gòu)”出現(xiàn)2詞，“文件”出現(xiàn)1詞)，可以通過(guò)對(duì)其所有出現(xiàn)特征在給定類別的概率相乘。比如“數(shù)據(jù)結(jié)構(gòu)”出現(xiàn)在類1的概率為0.5，“文件”出現(xiàn)在類1的概率為0.3，則可認(rèn)為其屬于類1的概率為0.5*0.5*0.3。 5：Support Vector Machine(支持向量機(jī)SVM) SVM就是想找一個(gè)分類得最”好”的分類線/分類面(最近的一些兩類樣本到這個(gè)”線”的距離最遠(yuǎn))。這個(gè)沒(méi)具體實(shí)現(xiàn)過(guò)，上次聽(tīng)課，那位老師自稱自己實(shí)現(xiàn)了SVM，敬佩其鉆研精神。常用的工具包是LibSVM,SVMLight,MySVM. 6：EM(期望最大化) 這個(gè)我認(rèn)為就是假設(shè)數(shù)據(jù)時(shí)由幾個(gè)高斯分布組成的，所以最后就是要求幾個(gè)高斯分布的參數(shù)。通過(guò)先假設(shè)幾個(gè)值，然后通過(guò)反復(fù)迭代，以期望得到最好的擬合。 7：Apriori 這個(gè)是做關(guān)聯(lián)規(guī)則用的。不知道為什么，一提高關(guān)聯(lián)規(guī)則我就想到購(gòu)物籃數(shù)據(jù)。這個(gè)沒(méi)實(shí)現(xiàn)過(guò)，不過(guò)也還要理解，它就是通過(guò)支持度和置信度兩個(gè)量來(lái)工作，不過(guò)對(duì)于Apriori，它通過(guò)頻繁項(xiàng)集的一些規(guī)律(頻繁項(xiàng)集的子集必定是頻繁項(xiàng)集等等啦)來(lái)減少計(jì)算復(fù)雜度。 8：FP-Tree(Mining frequent patterns without candidate generation) 這個(gè)也不太清楚。FP-growth算法(Frequent Pattern-growth)使用了一種緊縮的數(shù)據(jù)結(jié)構(gòu)來(lái)存儲(chǔ)查找頻繁項(xiàng)集所需要的全部信息。采用算法：將提供頻繁項(xiàng)集的數(shù)據(jù)庫(kù)壓縮到一棵FP-tree來(lái)保留項(xiàng)集關(guān)聯(lián)信息，然后將壓縮后的數(shù)據(jù)庫(kù)分成一組條件數(shù)據(jù)庫(kù)（一種特殊類型的投影數(shù)據(jù)庫(kù)），每個(gè)條件數(shù)據(jù)庫(kù)關(guān)聯(lián)一個(gè)頻繁項(xiàng)集。 9：PageRank 大名鼎鼎的PageRank大家應(yīng)該都知道(Google靠此專利發(fā)家，其實(shí)也不能說(shuō)發(fā)家啦!)。對(duì)于這個(gè)算法我的理解就是：如果我指向你(網(wǎng)頁(yè)間的連接)則表示我承認(rèn)你，則在計(jì)算你的重要性的時(shí)候可以加上我的一部分重要性(到底多少，要看我自己有多少和我共承認(rèn)多少個(gè)人)。通過(guò)反復(fù)這樣來(lái)，可以求的一個(gè)穩(wěn)定的衡量各個(gè)人(網(wǎng)頁(yè))重要性的值。不過(guò)這里必須要做些限制(一個(gè)人的開(kāi)始默認(rèn)重要性都是1)，不然那些值會(huì)越來(lái)越大越來(lái)越大。 10：HITS HITS也是一個(gè)連接分析算法，它是由IBM首先提出的。在HITS，每個(gè)節(jié)點(diǎn)(網(wǎng)頁(yè))都有一個(gè)重要度和權(quán)威度(Hubs and authorities,我也忘了具體的翻譯是什么了)。通過(guò)反復(fù)通過(guò)權(quán)威度來(lái)求重要度，通過(guò)重要度來(lái)求權(quán)威度得到最后的權(quán)威度和重要度。 11：K-Means K-Means是一種最經(jīng)典也是使用最廣泛的聚類方法，時(shí)至今日任然有很多基于其的改進(jìn)模型提出。K-Means的思想很簡(jiǎn)單，對(duì)于一個(gè)聚類任務(wù)(你需要指明聚成幾個(gè)類，當(dāng)然按照自然想法來(lái)說(shuō)不應(yīng)該需要指明類數(shù)，這個(gè)問(wèn)題也是當(dāng)前聚類任務(wù)的一個(gè)值得研究的課題)，首先隨機(jī)選擇K個(gè)簇中心，然后反復(fù)計(jì)算下面的過(guò)程直到所有簇中心不改變(簇集合不改變)為止：步驟1：對(duì)于每個(gè)對(duì)象，計(jì)算其與每個(gè)簇中心的相似度，把其歸入與其最相似的那個(gè)簇中。步驟2：更新簇中心，新的簇中心通過(guò)計(jì)算所有屬于該簇的對(duì)象的平均值得到。 k-means 算法的工作過(guò)程說(shuō)明如下：首先從n個(gè)數(shù)據(jù)對(duì)象任意選擇k 個(gè)對(duì)象作為初始聚類中心；而對(duì)于所剩下其它對(duì)象，則根據(jù)它們與這些聚類中心的相似度（距離），分別將它們分配給與其最相似的（聚類中心所代表的）聚類；然后再計(jì)算每個(gè)所獲新聚類的聚類中心（該聚類中所有對(duì)象的均值）；不斷重復(fù)這一過(guò)程直到標(biāo)準(zhǔn)測(cè)度函數(shù)開(kāi)始收斂為止。一般都采用均方差作為標(biāo)準(zhǔn)測(cè)度函數(shù). k個(gè)聚類具有以下特點(diǎn)：各聚類本身盡可能的緊湊，而各聚類之間盡可能的分開(kāi)。 12：BIRCH BIRCH也是一種聚類算法，其全稱是Balanced Iterative Reducing and Clustering using Hierarchies。BIRCH也是只是看了理論沒(méi)具體實(shí)現(xiàn)過(guò)。是一個(gè)綜合的層次聚類特征(Clustering Feature, CF)和聚類特征樹(shù)(CF Tree)兩個(gè)概念，用于概括聚類描述。聚類特征樹(shù)概括了聚類的有用信息，并且占用空間較元數(shù)據(jù)集合小得多，可以存放在內(nèi)存中，從而可以提高算法在大型數(shù)據(jù)集合上的聚類速度及可伸縮性。 BIRCH算法包括以下兩個(gè)階段： 1）掃描數(shù)據(jù)庫(kù)，建立動(dòng)態(tài)的一棵存放在內(nèi)存的CF Tree。如果內(nèi)存不夠，則增大閾值，在原樹(shù)基礎(chǔ)上構(gòu)造一棵較小的樹(shù)。 2）對(duì)葉節(jié)點(diǎn)進(jìn)一步利用一個(gè)全局性的聚類算法，改進(jìn)聚類質(zhì)量。由于CF Tree的葉節(jié)點(diǎn)代表的聚類可能不是自然的聚類結(jié)果，原因是給定的閾值限制了簇的大小，并且數(shù)據(jù)的輸入順序也會(huì)影響到聚類結(jié)果。因此需要對(duì)葉節(jié)點(diǎn)進(jìn)一步利用一個(gè)全局性的聚類算法，改進(jìn)聚類質(zhì)量。 13：AdaBoost AdaBoost做分類的一般知道，它是一種boosting方法。這個(gè)不能說(shuō)是一種算法，應(yīng)該是一種方法，因?yàn)樗梢越⒃谌魏我环N分類算法上，可以是決策樹(shù)，NB，SVM等。 Adaboost是一種迭代算法，其核心思想是針對(duì)同一個(gè)訓(xùn)練集訓(xùn)練不同的分類器(弱分類器)，然后把這些弱分類器集合起來(lái)，構(gòu)成一個(gè)更強(qiáng)的最終分類器(強(qiáng)分類器)。其算法本身是通過(guò)改變數(shù)據(jù)分布來(lái)實(shí)現(xiàn)的，它根據(jù)每次訓(xùn)練集之中每個(gè)樣本的分類是否正確，以及上次的總體分類的準(zhǔn)確率，來(lái)確定每個(gè)樣本的權(quán)值。將修改過(guò)權(quán)值的新數(shù)據(jù)集送給下層分類器進(jìn)行訓(xùn)練，最后將每次訓(xùn)練得到的分類器最后融合起來(lái)，作為最后的決策分類器。使用adaboost分類器可以排除一些不必要的訓(xùn)練數(shù)據(jù)，并將關(guān)鍵放在關(guān)鍵的訓(xùn)練數(shù)據(jù)上面。 14：GSP GSP，全稱為Generaliz

人人文庫(kù)> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

數(shù)據(jù)挖掘數(shù)據(jù)清洗.doc

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

數(shù)據(jù)挖掘數(shù)據(jù)清洗.doc

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔