數(shù)據(jù)挖掘的模型及計(jì)算方式_第1頁(yè)
數(shù)據(jù)挖掘的模型及計(jì)算方式_第2頁(yè)
數(shù)據(jù)挖掘的模型及計(jì)算方式_第3頁(yè)
數(shù)據(jù)挖掘的模型及計(jì)算方式_第4頁(yè)
數(shù)據(jù)挖掘的模型及計(jì)算方式_第5頁(yè)
已閱讀5頁(yè),還剩314頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、數(shù)據(jù)挖掘?qū)д撓嚓P(guān)的參考文獻(xiàn)1 M. Berry and G. Linoff, Data Mining Techniques, John Wiley, 19972 William S. Cleveland, The Elements of Graphing Data, revised, Hobart Press, 19943 Howard Wainer, Visual Revelations, Copernicus, 19974 R.Kennedy, Lee, Reed, and Van Roy, Solving Pattern Recognition Problem , Prentice-Ha

2、ll, 19985 U. Fayyad, Piatetsky-Shapiro, Smyth, and Uthurusamy, Advances in KnowledgeDiscovery and Data Mining, MIT Press, 19966 Dorian Pyle, Data Preparation for Data Mining, Morgan Kaufmann, 19997 C. Westphal and T. Blaxton, Data Mining Solutions, John Wiley, 19988 Vasant Dhar and Roger Stein, Seve

3、n Methods for Transforming Corporate Data intoBusiness Intelligence, Prentice Hall 19979 Brieman, Freidman, Olshen, and Stone, Classification and Regression Trees,Wadsworth, 198410 J. R. Quinlan, C4.5: Programs for Machine Learning, Morgan Kaufmann, 1992目錄 HYPERLINK / l a1 介紹 HYPERLINK / l a2 什么是數(shù)據(jù)挖

4、掘 HYPERLINK / l a3 數(shù)據(jù)挖掘:不能干什么 HYPERLINK / l a4 數(shù)據(jù)挖掘和數(shù)據(jù)倉(cāng)庫(kù) HYPERLINK / l a5 數(shù)據(jù)挖掘和在線分析處理(OLAP) HYPERLINK / l a6 數(shù)據(jù)挖掘,機(jī)器學(xué)習(xí)和統(tǒng)計(jì) HYPERLINK / l a7 軟硬件進(jìn)展對(duì)數(shù)據(jù)挖掘的阻礙 HYPERLINK / l a8 數(shù)據(jù)挖掘應(yīng)用 HYPERLINK / l a9 成功的數(shù)據(jù)挖掘 HYPERLINK /zs18.htm l b1 描述型數(shù)據(jù)挖掘 HYPERLINK /zs18.htm l b2 統(tǒng)計(jì)和可視化 HYPERLINK /zs18.htm l b3 聚攏(分群) H

5、YPERLINK /zs18.htm l b4 關(guān)聯(lián)分析 HYPERLINK /zs18.htm l b5 預(yù)言型數(shù)據(jù)挖掘 HYPERLINK /zs18.htm l b6 你需要選擇的 HYPERLINK /zs18.htm l b7 一些術(shù)語(yǔ) HYPERLINK /zs18.htm l b8 分類(Classification) HYPERLINK /zs18.htm l b9 回歸(Regression) HYPERLINK /zs18.htm l b10 時(shí)刻序列(Time series) HYPERLINK /zs18.htm l b11 數(shù)據(jù)挖掘模型和算法 HYPERLINK /z

6、s18.htm l b12 神經(jīng)網(wǎng)絡(luò)(Neural networks) HYPERLINK /zs18.htm l b13 決策樹(shù)(Decision trees) HYPERLINK /zs19.htm 數(shù)據(jù)挖掘過(guò)程介紹什么是數(shù)據(jù)挖掘當(dāng)今數(shù)據(jù)庫(kù)的容量差不多達(dá)到上萬(wàn)億的水平(T) 1,000,000,000,000個(gè)字節(jié)。在這些大量數(shù)據(jù)的背后隱藏了專門(mén)多具有決策意義的信息,那么如何得到這些“知識(shí)”呢?也確實(shí)是如何樣通過(guò)一顆顆的樹(shù)木了解到整個(gè)森林的情況?計(jì)算機(jī)科學(xué)對(duì)那個(gè)問(wèn)題給出的最新回答確實(shí)是:數(shù)據(jù)挖掘,在“數(shù)據(jù)礦山”中找到蘊(yùn)藏的“知識(shí)金塊”,關(guān)心企業(yè)減少不必要投資的同時(shí)提高資金回報(bào)。數(shù)據(jù)挖掘給企

7、業(yè)帶來(lái)的潛在的投資回報(bào)幾乎是無(wú)止境的。世界范圍內(nèi)具有創(chuàng)新性的公司都開(kāi)始采納數(shù)據(jù)挖掘技術(shù)來(lái)推斷哪些是他們的最有價(jià)值客戶、重新制定他們的產(chǎn)品推廣策略(把產(chǎn)品推廣給最需要他們的人),以用最小的花費(fèi)得到最好的銷售。數(shù)據(jù)挖掘是一個(gè)利用各種分析工具在海量數(shù)據(jù)中發(fā)覺(jué)模型和數(shù)據(jù)間關(guān)系的過(guò)程,這些模型和關(guān)系能夠用來(lái)做出預(yù)測(cè)。數(shù)據(jù)挖掘的第一步是描述數(shù)據(jù) 計(jì)算統(tǒng)計(jì)變量(比如平均值、均方差等),再用圖表或圖片直觀的表示出來(lái),進(jìn)而能夠看出一些變量之間的相關(guān)性(比如有一些值經(jīng)常同時(shí)出現(xiàn))。選擇正確的數(shù)據(jù)源對(duì)整個(gè)數(shù)據(jù)挖掘項(xiàng)目的成敗至關(guān)重要,在后面數(shù)據(jù)挖掘的步驟中我們會(huì)著重強(qiáng)調(diào)這一點(diǎn)。單單是數(shù)據(jù)描述并不能為人們制訂行動(dòng)打算提

8、供足夠的依據(jù),你必須用你的這些歷史數(shù)據(jù)建立一個(gè)預(yù)言模型,然后再用另外一些數(shù)據(jù)對(duì)那個(gè)模型進(jìn)行測(cè)試。一個(gè)好的模型沒(méi)必要與數(shù)據(jù)庫(kù)中的數(shù)據(jù)100%的相符(都市交通圖也不是完全的實(shí)際交通線路的等比縮?。?,但他在你做決策時(shí)是一個(gè)專門(mén)好的指南和依據(jù)。最后一步是驗(yàn)證你的模型。比如你用所有對(duì)你的產(chǎn)品推廣打算做出回應(yīng)的人的數(shù)據(jù)庫(kù)做了一個(gè)模型,來(lái)預(yù)測(cè)什么樣的人會(huì)對(duì)你的產(chǎn)品感興趣。你能在得到那個(gè)模型后就直接利用那個(gè)模型做出決策或采取行動(dòng)嗎?依舊更穩(wěn)妥一點(diǎn)先對(duì)一小部分客戶做一個(gè)實(shí)際的測(cè)試,然后再?zèng)Q定?數(shù)據(jù)挖掘:不能干什么數(shù)據(jù)挖掘是一個(gè)工具,而不是有魔力的權(quán)杖。它可不能坐在你的數(shù)據(jù)庫(kù)上一直監(jiān)視著數(shù)據(jù)庫(kù),然后當(dāng)他發(fā)覺(jué)有意義

9、的模型時(shí)給你發(fā)一封電子郵件。他仍然需要了解你的業(yè)務(wù),理解你的數(shù)據(jù),弄清分析方法。數(shù)據(jù)挖掘只是關(guān)心商業(yè)人士更深入、更容易的分析數(shù)據(jù) 他無(wú)法告訴你某個(gè)模型對(duì)你的企業(yè)的實(shí)際價(jià)值。而且數(shù)據(jù)挖掘中得到的模型必須要在現(xiàn)實(shí)生活中進(jìn)行驗(yàn)證。注意數(shù)據(jù)挖掘中得到的預(yù)言模型并可不能告訴你一個(gè)人什么緣故會(huì)做一件事、采取某個(gè)行動(dòng),他只會(huì)告訴你他會(huì)如此做,什么緣故要人去考慮。比如,數(shù)據(jù)挖掘可能會(huì)告訴你,假如那個(gè)人是男的、年收入在5萬(wàn)到6萬(wàn)之間,那么他可能會(huì)買(mǎi)你的商品/服務(wù)。你可能會(huì)利用這條規(guī)則,集中向這類人推銷你的商品而從中獲益,然而數(shù)據(jù)挖掘工具可不能告訴你他們什么緣故會(huì)買(mǎi)你的東西,也不能保證所有符合這條規(guī)則的人都會(huì)買(mǎi)。

10、為了保證數(shù)據(jù)挖掘結(jié)果的價(jià)值,你自己必須了解你的數(shù)據(jù),這一點(diǎn)至關(guān)重要。輸入數(shù)據(jù)庫(kù)中的異常數(shù)據(jù)、不相關(guān)的字段或互相沖突的字段(比如年齡和生日不一致)、數(shù)據(jù)的編碼方式等都會(huì)對(duì)數(shù)據(jù)挖掘輸出結(jié)果的質(zhì)量產(chǎn)生阻礙。盡管一些算法自身會(huì)對(duì)上面提到的這些問(wèn)題做一些考慮,但讓算法自己做所有這些決定是不明智的。數(shù)據(jù)挖掘可不能在缺乏指導(dǎo)的情況下自動(dòng)的發(fā)覺(jué)模型。你不能如此對(duì)數(shù)據(jù)挖掘工具講,“幫我提高直接郵件推銷的響應(yīng)率”,你應(yīng)該讓數(shù)據(jù)挖掘工具找(1)對(duì)你的推銷回應(yīng)的人,或(2)即回應(yīng)又做了大量訂單的人的特征。在數(shù)據(jù)挖掘中查找這兩種模型是專門(mén)不相同的。盡管數(shù)據(jù)挖掘工具使你不必再掌握艱深的統(tǒng)計(jì)分析技術(shù),但你仍然需要明白你所選

11、用的數(shù)據(jù)挖掘工具是如何工作的,他所采納的算法的原理是什么。你所選用的技術(shù)和優(yōu)化方法會(huì)對(duì)你的模型的準(zhǔn)確度和生成速度產(chǎn)生專門(mén)大阻礙。數(shù)據(jù)挖掘永久可不能替代有經(jīng)驗(yàn)的商業(yè)分析師或治理人員所起的作用,他只是提供一個(gè)強(qiáng)大的工具。每個(gè)成熟的、了解市場(chǎng)的公司都差不多具有一些重要的、能產(chǎn)生高回報(bào)的模型,這些模型可能是治理人員花了專門(mén)長(zhǎng)時(shí)刻,作了專門(mén)多調(diào)查,甚至是通過(guò)專門(mén)多失誤之后得來(lái)的。數(shù)據(jù)挖掘工具要做的確實(shí)是使這些模型得到的更容易,更方便,而且有依照。數(shù)據(jù)挖掘和數(shù)據(jù)倉(cāng)庫(kù)大部分情況下,數(shù)據(jù)挖掘都要先把數(shù)據(jù)從數(shù)據(jù)倉(cāng)庫(kù)中拿到數(shù)據(jù)挖掘庫(kù)或數(shù)據(jù)集市中(見(jiàn)圖1)。從數(shù)據(jù)倉(cāng)庫(kù)中直接得到進(jìn)行數(shù)據(jù)挖掘的數(shù)據(jù)有許多好處。就如我們

12、后面會(huì)講到的,數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)清理和數(shù)據(jù)挖掘的數(shù)據(jù)清理差不多,假如數(shù)據(jù)在導(dǎo)入數(shù)據(jù)倉(cāng)庫(kù)時(shí)差不多清理過(guò),那專門(mén)可能在做數(shù)據(jù)挖掘時(shí)就沒(méi)必要在清理一次了,而且所有的數(shù)據(jù)不一致的問(wèn)題都差不多被你解決了。數(shù)據(jù)源數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)源數(shù)據(jù)倉(cāng)庫(kù)各分公司數(shù)據(jù)集市分析數(shù)據(jù)集市數(shù)據(jù)挖掘數(shù)據(jù)集市圖1:數(shù)據(jù)挖掘庫(kù)從數(shù)據(jù)倉(cāng)庫(kù)中得出數(shù)據(jù)挖掘庫(kù)可能是你的數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)邏輯上的子集,而不一定非得是物理上單獨(dú)的數(shù)據(jù)庫(kù)。但假如你的數(shù)據(jù)倉(cāng)庫(kù)的計(jì)算資源差不多專門(mén)緊張,那你最好依舊建立一個(gè)單獨(dú)的數(shù)據(jù)挖掘庫(kù)。因此為了數(shù)據(jù)挖掘你也不必非得建立一個(gè)數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)倉(cāng)庫(kù)不是必需的。建立一個(gè)巨大的數(shù)據(jù)倉(cāng)庫(kù),把各個(gè)不同源的數(shù)據(jù)統(tǒng)一在一起,解決所有的數(shù)據(jù)沖突問(wèn)題

13、,然后把所有的數(shù)據(jù)導(dǎo)到一個(gè)數(shù)據(jù)倉(cāng)庫(kù)內(nèi),是一項(xiàng)巨大的工程,可能要用幾年的時(shí)刻花上百萬(wàn)的鈔票才能完成。只是為了數(shù)據(jù)挖掘,你能夠把一個(gè)或幾個(gè)事務(wù)數(shù)據(jù)庫(kù)導(dǎo)到一個(gè)只讀的數(shù)據(jù)庫(kù)中,就把它當(dāng)作數(shù)據(jù)集市,然后在他上面進(jìn)行數(shù)據(jù)挖掘。數(shù)據(jù)源數(shù)據(jù)挖掘庫(kù)數(shù)據(jù)源數(shù)據(jù)挖掘庫(kù)圖2:數(shù)據(jù)挖掘庫(kù)從事務(wù)數(shù)據(jù)庫(kù)中得出數(shù)據(jù)挖掘和在線分析處理(OLAP)一個(gè)經(jīng)常問(wèn)的問(wèn)題是,數(shù)據(jù)挖掘和OLAP到底有何不同。下面將會(huì)解釋,他們是完全不同的工具,基于的技術(shù)也大相徑庭。OLAP是決策支持領(lǐng)域的一部分。傳統(tǒng)的查詢和報(bào)表工具是告訴你數(shù)據(jù)庫(kù)中都有什么(what happened),OLAP則更進(jìn)一步告訴你下一步會(huì)如何樣(What next)、和假如

14、我采取如此的措施又會(huì)如何樣(What if)。用戶首先建立一個(gè)假設(shè),然后用OLAP檢索數(shù)據(jù)庫(kù)來(lái)驗(yàn)證那個(gè)假設(shè)是否正確。比如,一個(gè)分析師想找到什么緣故導(dǎo)致了貸款拖欠,他可能先做一個(gè)初始的假定,認(rèn)為低收入的人信用度也低,然后用OLAP來(lái)驗(yàn)證他那個(gè)假設(shè)。假如那個(gè)假設(shè)沒(méi)有被證實(shí),他可能去察看那些高負(fù)債的賬戶,假如還不行,他也許要把收入和負(fù)債一起考慮,一直進(jìn)行下去,直到找到他想要的結(jié)果或放棄。也確實(shí)是講,OLAP分析師是建立一系列的假設(shè),然后通過(guò)OLAP來(lái)證實(shí)或推翻這些假設(shè)來(lái)最終得到自己的結(jié)論。OLAP分析過(guò)程在本質(zhì)上是一個(gè)演繹推理的過(guò)程。然而假如分析的變量達(dá)到幾十或上百個(gè),那么再用OLAP手動(dòng)分析驗(yàn)證這

15、些假設(shè)將是一件特不困難和痛苦的情況。數(shù)據(jù)挖掘與OLAP不同的地點(diǎn)是,數(shù)據(jù)挖掘不是用于驗(yàn)證某個(gè)假定的模式(模型)的正確性,而是在數(shù)據(jù)庫(kù)中自己查找模型。他在本質(zhì)上是一個(gè)歸納的過(guò)程。比如,一個(gè)用數(shù)據(jù)挖掘工具的分析師想找到引起貸款拖欠的風(fēng)險(xiǎn)因素。數(shù)據(jù)挖掘工具可能幫他找到高負(fù)債和低收入是引起那個(gè)問(wèn)題的因素,甚至還可能發(fā)覺(jué)一些分析師從來(lái)沒(méi)有想過(guò)或試過(guò)的其他因素,比如年齡。數(shù)據(jù)挖掘和OLAP具有一定的互補(bǔ)性。在利用數(shù)據(jù)挖掘出來(lái)的結(jié)論采取行動(dòng)之前,你也許要驗(yàn)證一下假如采取如此的行動(dòng)會(huì)給公司帶來(lái)什么樣的阻礙,那么OLAP工具能回答你的這些問(wèn)題。而且在知識(shí)發(fā)覺(jué)的早期時(shí)期,OLAP工具還有其他一些用途。能夠幫你探究

16、數(shù)據(jù),找到哪些是對(duì)一個(gè)問(wèn)題比較重要的變量,發(fā)覺(jué)異常數(shù)據(jù)和互相阻礙的變量。這都能幫你更好的理解你的數(shù)據(jù),加快知識(shí)發(fā)覺(jué)的過(guò)程。數(shù)據(jù)挖掘,機(jī)器學(xué)習(xí)和統(tǒng)計(jì)數(shù)據(jù)挖掘利用了人工智能(AI)和統(tǒng)計(jì)分析的進(jìn)步所帶來(lái)的好處。這兩門(mén)學(xué)科都致力于模式發(fā)覺(jué)和預(yù)測(cè)。數(shù)據(jù)挖掘不是為了替代傳統(tǒng)的統(tǒng)計(jì)分析技術(shù)。相反,他是統(tǒng)計(jì)分析方法學(xué)的延伸和擴(kuò)展。大多數(shù)的統(tǒng)計(jì)分析技術(shù)都基于完善的數(shù)學(xué)理論和高超的技巧,預(yù)測(cè)的準(zhǔn)確度依舊令人中意的,但對(duì)使用者的要求專門(mén)高。而隨著計(jì)算機(jī)計(jì)算能力的不斷增強(qiáng),我們有可能利用計(jì)算機(jī)強(qiáng)大的計(jì)算能力只通過(guò)相對(duì)簡(jiǎn)單和固定的方法完成同樣的功能。一些新興的技術(shù)同樣在知識(shí)發(fā)覺(jué)領(lǐng)域取得了專門(mén)好的效果,如神經(jīng)元網(wǎng)絡(luò)和決

17、策樹(shù),在足夠多的數(shù)據(jù)和計(jì)算能力下,他們幾乎不用人的關(guān)照自動(dòng)就能完成許多有價(jià)值的功能。數(shù)據(jù)挖掘確實(shí)是利用了統(tǒng)計(jì)和人工智能技術(shù)的應(yīng)用程序,他把這些高深復(fù)雜的技術(shù)封裝起來(lái),使人們不用自己掌握這些技術(shù)也能完成同樣的功能,同時(shí)更專注于自己所要解決的問(wèn)題。軟硬件進(jìn)展對(duì)數(shù)據(jù)挖掘的阻礙使數(shù)據(jù)挖掘這件情況成為可能的關(guān)鍵一點(diǎn)是計(jì)算機(jī)性能價(jià)格比的巨大進(jìn)步。在過(guò)去的幾年里磁盤(pán)存儲(chǔ)器的價(jià)格幾乎降低了99%,這在專門(mén)大程度上改變了企業(yè)界對(duì)數(shù)據(jù)收集和存儲(chǔ)的態(tài)度。假如每兆的價(jià)格是¥10,那存放1TB的價(jià)格是¥10,000,000,但當(dāng)每兆的價(jià)格降為1毛鈔票時(shí),存儲(chǔ)同樣的數(shù)據(jù)只有¥100,000!計(jì)算機(jī)計(jì)算能力價(jià)格的降低同樣特

18、不顯著。每一代芯片的誕生都會(huì)把CPU的計(jì)算能力提高一大步。內(nèi)存RAM也同樣降價(jià)迅速,幾年之內(nèi)每兆內(nèi)存的價(jià)格由幾百塊鈔票降到現(xiàn)在只要幾塊鈔票。通常PC都有64M內(nèi)存,工作站達(dá)到了256M,擁有上G內(nèi)存的服務(wù)器差不多不是什么新奇事了。在單個(gè)CPU計(jì)算能力大幅提升的同時(shí),基于多個(gè)CPU的并行系統(tǒng)也取得了專門(mén)大的進(jìn)步。目前幾乎所有的服務(wù)器都支持多個(gè)CPU,這些SMP服務(wù)器簇甚至能讓成百上千個(gè)CPU同時(shí)工作?;诓⑿邢到y(tǒng)的數(shù)據(jù)庫(kù)治理系統(tǒng)也給數(shù)據(jù)挖掘技術(shù)的應(yīng)用帶來(lái)了便利。假如你有一個(gè)龐大而復(fù)雜的數(shù)據(jù)挖掘問(wèn)題要求通過(guò)訪問(wèn)數(shù)據(jù)庫(kù)取得數(shù)據(jù),那么效率最高的方法確實(shí)是利用一個(gè)本地的并行數(shù)據(jù)庫(kù)。所有這些都為數(shù)據(jù)挖掘的

19、實(shí)施掃清了道路,隨著時(shí)刻的連續(xù),我們相信這條道路會(huì)越來(lái)越平坦。數(shù)據(jù)挖掘應(yīng)用由于數(shù)據(jù)挖掘帶來(lái)的顯著的經(jīng)濟(jì)效益,使數(shù)據(jù)挖掘越來(lái)越普及。他不僅能用于操縱成本,也能給企業(yè)帶來(lái)效益。專門(mén)多企業(yè)都在利用數(shù)據(jù)挖掘技術(shù)關(guān)心治理客戶生命周期的各個(gè)時(shí)期,包括爭(zhēng)取新的客戶、在已有客戶的身上賺更多的鈔票、和保持住好的客戶。假如能夠確定好的客戶的特點(diǎn),那么就能提供為客戶提供針對(duì)性的服務(wù)。比如,差不多發(fā)覺(jué)了購(gòu)買(mǎi)某一商品的客戶的特征,那么就能夠向那些具有這些特征但還沒(méi)有購(gòu)買(mǎi)此商品的客戶推銷那個(gè)商品;找到流失的客戶的特征就能夠,在那些具有相似特征的客戶還未流失之前進(jìn)行針對(duì)性的彌補(bǔ),因?yàn)楸A粢粋€(gè)客戶要比爭(zhēng)取一個(gè)客戶廉價(jià)的多。數(shù)

20、據(jù)挖掘能夠應(yīng)用在各個(gè)不同的領(lǐng)域。電訊公司和信用卡公司是用數(shù)據(jù)挖掘檢測(cè)欺詐行為的先行者。保險(xiǎn)公司和證券公司也開(kāi)始采納數(shù)據(jù)挖掘來(lái)減少欺詐。醫(yī)療應(yīng)用是另一個(gè)前景寬敞的產(chǎn)業(yè):數(shù)據(jù)挖掘能夠用來(lái)預(yù)測(cè)外科手術(shù)、醫(yī)療試驗(yàn)和藥物治療的效果。零銷商更多的使用數(shù)據(jù)挖掘來(lái)決定每種商品在不同地點(diǎn)的庫(kù)存,通過(guò)數(shù)據(jù)挖掘更靈活的使用促銷和優(yōu)惠卷手段。制藥公司通過(guò)挖掘巨大的化學(xué)物質(zhì)和基因?qū)膊〉淖璧K的數(shù)據(jù)庫(kù)來(lái)推斷哪些物質(zhì)可能對(duì)治療某種疾病產(chǎn)生效果。成功的數(shù)據(jù)挖掘有保證數(shù)據(jù)挖掘成功的兩個(gè)關(guān)鍵要素。一是準(zhǔn)確的定義你所要解決的問(wèn)題,定位準(zhǔn)確的問(wèn)題通常會(huì)帶來(lái)最好的回報(bào)。二是使用正確的數(shù)據(jù),選定了你所能得到的數(shù)據(jù),也許還要從外部購(gòu)買(mǎi)數(shù)據(jù)

21、,你需要對(duì)這些數(shù)據(jù)做有效的數(shù)據(jù)整合和轉(zhuǎn)換。 HYPERLINK /zs18.htm 數(shù)據(jù)挖掘入門(mén) 二 HYPERLINK /zs19.htm 數(shù)據(jù)挖掘入門(mén) 三 數(shù)據(jù)挖掘過(guò)程在實(shí)施數(shù)據(jù)挖掘之前,先制定采取什么樣的步驟,每一步都做什么,達(dá)到什么樣的目標(biāo)是必要的,有了好的打算才能保證數(shù)據(jù)挖掘有條不紊的實(shí)施并取得成功。專門(mén)多軟件供應(yīng)商和數(shù)據(jù)挖掘顧問(wèn)公司投提供了一些數(shù)據(jù)挖掘過(guò)程模型,來(lái)指導(dǎo)他們的用戶一步步的進(jìn)行數(shù)據(jù)挖掘工作。比如SPSS的5A-評(píng)估(Assess),訪問(wèn)(Access),分析(Analyze),行動(dòng)(Act),自動(dòng)化(Automate),和SAS的SEMMA-采樣(Sample),探究(

22、Explore),修正(Modify),建模(Model),評(píng)估(Assess)。最近,一些軟件供應(yīng)商和用戶組織成立了行業(yè)協(xié)會(huì),包括NCR Systems Engineering Copenhagen(丹麥)Daimler-Benz AG(德國(guó))SPSS/Internal Solutions Ltd.(英國(guó)),和OHRA Verzekeringen en Bank Grep B.V(荷蘭)。那個(gè)組織的目的確實(shí)是建立跨行業(yè)數(shù)據(jù)挖掘過(guò)程標(biāo)準(zhǔn)(CRISP-DM),在1999年9月的時(shí)候CRISP-DM仍在建立之中。我們下面詳細(xì)討論Two Crows公司的數(shù)據(jù)挖掘過(guò)程模型,他與正在建立的CRISP-D

23、M有許多相似之處。數(shù)據(jù)挖掘過(guò)程模型盡管我們把各個(gè)步驟按順序排列,但要注意數(shù)據(jù)挖掘過(guò)程并不是線性的要取得好的結(jié)果就要不斷反復(fù)重復(fù)這些步驟。比如在“分析數(shù)據(jù)”時(shí)你可能覺(jué)得在“建立數(shù)據(jù)挖掘數(shù)據(jù)庫(kù)”時(shí)作的不夠好,要往里面添加一些新的數(shù)據(jù)。這些差不多數(shù)據(jù)挖掘步驟包括:1. 定義商業(yè)問(wèn)題2. 建立數(shù)據(jù)挖掘模型3. 分析數(shù)據(jù)4. 預(yù)備數(shù)據(jù)5. 建立模型6. 評(píng)價(jià)模型7. 實(shí)施1. 定義商業(yè)問(wèn)題。在開(kāi)始知識(shí)發(fā)覺(jué)之前最先的同時(shí)也是最重要的要求確實(shí)是了解的你的數(shù)據(jù)和業(yè)務(wù)問(wèn)題。假如事先沒(méi)有這種了解,沒(méi)有任何算法,不管他有多么復(fù)雜玄妙,能夠?yàn)槟闾峁┯袃r(jià)值的結(jié)果,即使有也難以使人信賴他。缺少了這些背景知識(shí),你就沒(méi)方法明

24、確定義要解決的問(wèn)題,不能為挖掘預(yù)備數(shù)據(jù),也專門(mén)難正確的解釋得到的結(jié)果。要想充分發(fā)揮數(shù)據(jù)挖掘的價(jià)值,必須要對(duì)你的目標(biāo)有一個(gè)清晰明確的定義,即決定到底想干什么。比如你講你想提高直接郵件推銷的用戶回應(yīng)時(shí),你想做的可能是“提高用戶響應(yīng)率”,也可能是“提高一次用戶回應(yīng)的價(jià)值”,要解決這兩個(gè)問(wèn)題而建立的模型幾乎是完全不同的,你必須做出決定。有效的問(wèn)題定義還應(yīng)該包含一個(gè)對(duì)你的知識(shí)發(fā)覺(jué)項(xiàng)目得到結(jié)果進(jìn)行衡量的標(biāo)準(zhǔn)。因此還應(yīng)該有整個(gè)項(xiàng)目預(yù)算和理性的解釋。2. 建立數(shù)據(jù)挖掘庫(kù)。連同下面的兩個(gè)步驟,這三步構(gòu)成了數(shù)據(jù)預(yù)處理的核心。這三步和在一起比其他所有的步驟加在一起所花得時(shí)刻和精力還多。一旦你從數(shù)據(jù)挖掘的結(jié)果中學(xué)到一

25、些什么之后,你專門(mén)可能要修改數(shù)據(jù)以得到更好得結(jié)果,因此就需要把數(shù)據(jù)預(yù)備和數(shù)據(jù)挖掘不斷的反復(fù)進(jìn)行。數(shù)據(jù)預(yù)備工作大概要花去整個(gè)數(shù)據(jù)挖掘項(xiàng)目的50%-90%的時(shí)刻和精力。應(yīng)該把要挖掘的數(shù)據(jù)都收集到一個(gè)數(shù)據(jù)庫(kù)中。注意這并不是講一定要使用一個(gè)數(shù)據(jù)庫(kù)治理系統(tǒng)。依照要挖掘的數(shù)據(jù)量的大小、數(shù)據(jù)的復(fù)雜程度、使用方式的不同,有時(shí)一個(gè)簡(jiǎn)單的平面文件或電子表格就足夠了。一般來(lái)講,直接在公司的數(shù)據(jù)倉(cāng)庫(kù)上進(jìn)行數(shù)據(jù)挖掘是不合適的。你最好建立一個(gè)獨(dú)立的數(shù)據(jù)集。數(shù)據(jù)挖掘會(huì)使你成為數(shù)據(jù)倉(cāng)庫(kù)特不活躍的用戶,這可能會(huì)帶來(lái)一些資源申請(qǐng)上的問(wèn)題。你需要經(jīng)常把許多表連接在一起,訪問(wèn)數(shù)據(jù)倉(cāng)庫(kù)的細(xì)節(jié)數(shù)據(jù)。一個(gè)簡(jiǎn)單的試驗(yàn)在數(shù)據(jù)倉(cāng)庫(kù)內(nèi)都要專門(mén)多步

26、才能完成。大部分情況下你確信需要修改要挖掘的數(shù)據(jù)。而且還會(huì)遇到把企業(yè)外部的數(shù)據(jù)拿到數(shù)據(jù)倉(cāng)庫(kù)內(nèi)和在原有的表中增加新的字段的情況。其他的數(shù)據(jù)挖掘用戶可能也要對(duì)數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行與您相似或完全不同的修改。而對(duì)數(shù)據(jù)倉(cāng)庫(kù)治理員來(lái)講,這可能是他最不情愿遇到的情況。需要建立獨(dú)立的數(shù)據(jù)挖掘庫(kù)的另一個(gè)理由是,數(shù)據(jù)倉(cāng)庫(kù)可能不支持你要對(duì)數(shù)據(jù)進(jìn)行各種復(fù)雜分析所需的數(shù)據(jù)結(jié)構(gòu)。這包括對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)查詢,多維分析,和各種復(fù)雜的圖表和可視化。最后,你可能希望把這些要挖掘的數(shù)據(jù)存貯在與公司的數(shù)據(jù)倉(cāng)庫(kù)在物理設(shè)計(jì)上不同的DBMS上。人們?cè)絹?lái)越傾向于使用DBMS本身專門(mén)好的支持?jǐn)?shù)據(jù)挖掘的數(shù)據(jù)庫(kù)程序,如此能使數(shù)據(jù)挖掘工作進(jìn)行的更容易一些。因

27、此假如你的數(shù)據(jù)倉(cāng)庫(kù)同意你建立一個(gè)在邏輯上獨(dú)立的數(shù)據(jù)庫(kù)同時(shí)在計(jì)算資源上也足夠的話,那么在他上面進(jìn)行數(shù)據(jù)挖掘也是能夠的。能夠把建立數(shù)據(jù)挖掘庫(kù)分成下面幾個(gè)部分:a. 數(shù)據(jù)收集b. 數(shù)據(jù)描述c. 選擇d. 數(shù)據(jù)質(zhì)量評(píng)估和數(shù)據(jù)清理e. 合并與整合f. 構(gòu)建元數(shù)據(jù)g. 加載數(shù)據(jù)挖掘庫(kù)h. 維護(hù)數(shù)據(jù)挖掘庫(kù)注意這些步驟并不需要一定要按步驟執(zhí)行,而應(yīng)該按需要進(jìn)行。比如你可能在收集數(shù)據(jù)時(shí)就開(kāi)始構(gòu)建元數(shù)據(jù),并隨著工作的進(jìn)行不斷的對(duì)其進(jìn)行修改。在數(shù)據(jù)整合和數(shù)據(jù)質(zhì)量評(píng)估過(guò)程中了解到得東西也有可能是你修改最初的數(shù)據(jù)選擇。a. 數(shù)據(jù)收集。確定要挖掘的數(shù)據(jù)源??赡芤恍┩獠康臄?shù)據(jù)也是必須的,需要在公共數(shù)據(jù)庫(kù)中獵?。ㄈ丝诮y(tǒng)計(jì)或天

28、氣數(shù)據(jù))或向數(shù)據(jù)擁有者購(gòu)買(mǎi)(比如信用卡使用數(shù)據(jù))。用以一個(gè)數(shù)據(jù)搜集報(bào)告把所需的各種不同的數(shù)據(jù)源的屬性列出來(lái)。此報(bào)告至少應(yīng)包含如下的內(nèi)容: 數(shù)據(jù)源(內(nèi)部數(shù)據(jù)庫(kù)或外部提供者) 擁有者 負(fù)責(zé)維護(hù)此數(shù)據(jù)的人/組織 DBA 費(fèi)用(假如需要購(gòu)買(mǎi)) 存儲(chǔ)方式(如:Oracle數(shù)據(jù)庫(kù)、MSAM文件等) 表、字段、記錄的數(shù)目 字節(jié)數(shù) 物理存儲(chǔ)方式(CD-ROM、磁帶、服務(wù)器等) 安全需求 使用上的限制 隱私上的需求注意一旦應(yīng)用了在安全和隱私上有專門(mén)限制的數(shù)據(jù),那么你的數(shù)據(jù)挖掘庫(kù)在安全和隱私上也就繼承了同樣的限制。比如許多歐洲的數(shù)據(jù)在隱私上的限制要比美國(guó)嚴(yán)格的多。b. 數(shù)據(jù)描述。描述每個(gè)文件和數(shù)據(jù)庫(kù)表的內(nèi)容。數(shù)據(jù)

29、描述報(bào)告中應(yīng)包含如下內(nèi)容: 字段/列的數(shù)目 字段是空(缺值)的數(shù)目/百分比 字段的名字對(duì)每個(gè)字段 數(shù)據(jù)類型 定義 描述 源 計(jì)量單位 所有不同值的個(gè)數(shù) 值的列表 值的范圍 空值的百分比 收集信息(比如:如何得到的,在哪,什么條件下) 時(shí)刻頻度(Timeframe)(每天,每周,依舊每月) 特不時(shí)刻數(shù)據(jù)(比如:每個(gè)周一或每個(gè)周三) 主鍵/外鍵關(guān)系c. 選擇。接下來(lái)就要選擇用于數(shù)據(jù)挖掘的數(shù)據(jù)(源數(shù)據(jù)的子集)。這與對(duì)數(shù)據(jù)進(jìn)行采樣和選擇預(yù)測(cè)變量是不同的,那個(gè)地點(diǎn)只是粗略的把一些冗余或無(wú)關(guān)的數(shù)據(jù)除去,或由于資源的限制、費(fèi)用的限制、數(shù)據(jù)使用的限制、和質(zhì)量問(wèn)題而必須做出的選擇。d. 數(shù)據(jù)質(zhì)量評(píng)估和數(shù)據(jù)清理。

30、“龍生龍,鳳生鳳”對(duì)數(shù)據(jù)挖掘也是特不適用的,要想得到好的模型必須用好的數(shù)據(jù)。數(shù)據(jù)質(zhì)量評(píng)估確實(shí)是要確定數(shù)據(jù)的哪些性質(zhì)會(huì)最終阻礙模型的質(zhì)量。你不僅要保證數(shù)據(jù)值的正確性和一致性,還要保證這些值是按同樣的方法記錄的同一件情況。由各種各樣的數(shù)據(jù)質(zhì)量問(wèn)題。數(shù)據(jù)域中可能包含了不正確的值。比如,身份證號(hào)碼被粗心的數(shù)據(jù)錄入人員錄入了年齡。即使每個(gè)單個(gè)域中包含的數(shù)據(jù)差不多上正確的,但這些域組合起來(lái)時(shí)可能就出現(xiàn)了錯(cuò)誤的記錄,如男性懷孕。有時(shí)域中的值為空。當(dāng)從多個(gè)不同的源整合數(shù)據(jù)時(shí)一定要注意不同源之間數(shù)據(jù)的一致性。缺值是一個(gè)特不有害的問(wèn)題。假如只要有一個(gè)數(shù)據(jù)域缺值就把那個(gè)記錄刪除掉,那么最后可能得到一個(gè)專門(mén)小的數(shù)據(jù)庫(kù)

31、,同時(shí)你得到的那個(gè)數(shù)據(jù)庫(kù)專門(mén)可能差不多丟失了實(shí)際數(shù)據(jù)中蘊(yùn)含的一些信息,因?yàn)槟悴畈欢喔淖兞嗽瓟?shù)據(jù)的組成。缺值這件事本身可能確實(shí)是特不有意義的,比如也許只有富有的顧客才經(jīng)常忽略“收入”這一項(xiàng)。你能夠增加一個(gè)新的變量來(lái)標(biāo)識(shí)這些缺值的記錄,然后用它建立一個(gè)模型,然后與按其他方法建立的模型進(jìn)行比較,看哪個(gè)準(zhǔn)確度更高一些。另一種方法是為缺失的值計(jì)算一個(gè)替代值。計(jì)算替代值的常用方法包括使用形式值(為名詞變量),中間值(為可排序變量),平均值(為連續(xù)變量)。還有一個(gè)不是專門(mén)常用的方法是按照數(shù)據(jù)庫(kù)中值的分布規(guī)律為缺值的字段添值。比如假如數(shù)據(jù)庫(kù)中包含40%男性和60%女性,那么在為那些性不子段缺失的記錄添值時(shí)也按

32、那個(gè)比例隨機(jī)賦值。還有一種方法是為那個(gè)缺值的字段用數(shù)據(jù)挖掘技術(shù)建立一個(gè)預(yù)測(cè)模型,然后按照那個(gè)模型的預(yù)測(cè)結(jié)果添值,這種方法效果應(yīng)該最好,因此也最花時(shí)刻。承認(rèn)生活并不是十全十美是必要的,數(shù)據(jù)挖掘也是一樣,你也不可能解決所有遇到的問(wèn)題,只能做得盡量好一點(diǎn)。檢查和修正數(shù)據(jù)質(zhì)量問(wèn)題是一項(xiàng)特不耗費(fèi)時(shí)刻和金鈔票的工作,對(duì)解決不了的問(wèn)題,通常你只能采取折衷的方法,先用現(xiàn)有的數(shù)據(jù)建立一個(gè)模型,把問(wèn)題放到今后去解決。e. 合并與整合。假如幸運(yùn)的話,你需要的所有數(shù)據(jù)都在同一個(gè)數(shù)據(jù)庫(kù)中(比如數(shù)據(jù)倉(cāng)庫(kù)),但大部分情況下這些數(shù)據(jù)是分布在不同的數(shù)據(jù)庫(kù)中。數(shù)據(jù)可能分布在公司不同的部門(mén)、不同的應(yīng)用中,甚至在公司外(人口數(shù)據(jù))。

33、數(shù)據(jù)合并與整合把來(lái)自不同數(shù)據(jù)源的數(shù)據(jù)合并到同一個(gè)數(shù)據(jù)挖掘庫(kù)中,同時(shí)要使那些本來(lái)存在沖突和不一致的數(shù)據(jù)一致化。不恰當(dāng)?shù)囊恢禄菙?shù)據(jù)質(zhì)量問(wèn)題的一個(gè)要緊來(lái)源。不同的數(shù)據(jù)庫(kù)間在數(shù)據(jù)定義和使用上通常都存在巨大的差異。有些不一致問(wèn)題是容易解決的,如同一客戶的不同住址問(wèn)題。然而有些則特不棘手。例如同一個(gè)客戶有不同的名字甚至更遭的情況多個(gè)不同的客戶標(biāo)識(shí)號(hào)碼。同一個(gè)名字被用在不同的數(shù)據(jù)項(xiàng)上(同名異意),或同一個(gè)數(shù)據(jù)項(xiàng)用了不同的名字(同意不同名)。還有單位上的不統(tǒng)一。比如人民幣和港元之間不能不做換算就直接加減。f. 構(gòu)建元數(shù)據(jù)。數(shù)據(jù)收集報(bào)告和數(shù)據(jù)描述報(bào)告是建立元數(shù)據(jù)的基礎(chǔ)。本質(zhì)上,這是一個(gè)描述數(shù)據(jù)庫(kù)的數(shù)據(jù)庫(kù)。他用

34、于建立實(shí)際的數(shù)據(jù)庫(kù)和為分析數(shù)據(jù)和建立模型提供輔助信息。g. 加載數(shù)據(jù)挖掘庫(kù)。大多數(shù)情況下,用于挖掘的數(shù)據(jù)應(yīng)該放到他自己獨(dú)立的數(shù)據(jù)庫(kù)中。假如數(shù)據(jù)量大同時(shí)復(fù)雜,那么他通常是一個(gè)RDMS,反之只是一個(gè)簡(jiǎn)單的平面文件即可。通過(guò)前面所有的搜集、整理之后,現(xiàn)在開(kāi)始把這些數(shù)據(jù)實(shí)際的加載過(guò)來(lái)了。依靠于所涉及的DBMS和操作系統(tǒng),和數(shù)據(jù)庫(kù)設(shè)計(jì)的復(fù)雜程度,有時(shí)這一步也可能變得專門(mén)復(fù)雜,需要靠專家的關(guān)心來(lái)完成。h. 維護(hù)數(shù)據(jù)挖掘庫(kù)。挖掘庫(kù)一旦建好,就需要對(duì)他進(jìn)行維護(hù)。需要定期備份;監(jiān)視他的性能;不時(shí)的增加存儲(chǔ)空間或提高性能。對(duì)存放在DBMS內(nèi)的復(fù)雜的挖掘庫(kù)來(lái)講,維護(hù)他需要計(jì)算機(jī)專業(yè)人員來(lái)完成。3. 分析數(shù)據(jù)。請(qǐng)察看

35、“描述型數(shù)據(jù)挖掘”以獲得更詳細(xì)的關(guān)于可視化、連結(jié)分析,及其他數(shù)據(jù)分析方法。分析的目的是找到對(duì)預(yù)測(cè)輸出阻礙最大的數(shù)據(jù)字段,和決定是否需要定義導(dǎo)出字段。假如數(shù)據(jù)集包含成百上千的字段,那么掃瞄分析這些數(shù)據(jù)將是一件特不耗時(shí)和累人的情況,這時(shí)你需要選擇一個(gè)具有好的界面和功能強(qiáng)大的工具軟件來(lái)協(xié)助你完成這些情況。4. 預(yù)備數(shù)據(jù)。這是建立模型之前的最后一步數(shù)據(jù)預(yù)備工作。能夠把此步驟劃分成4個(gè)部分:a. 選擇變量b. 選擇記錄c. 創(chuàng)建新變量d. 轉(zhuǎn)換變量a. 選擇變量。理想情況下,你能夠選擇你所有的全部變量,把他們輸入到數(shù)據(jù)挖掘工具中,讓他來(lái)幫你選擇哪些是最好的預(yù)測(cè)變量。實(shí)際上如此做并不是專門(mén)好,一方面是由于

36、隨著變量個(gè)數(shù)的增加,模型的建立時(shí)刻也隨之上升;另一方面盲目的把所有的變量都加到里面去會(huì)導(dǎo)致建立錯(cuò)誤的模型。比如,建立預(yù)測(cè)模型的一個(gè)常見(jiàn)錯(cuò)誤確實(shí)是把一個(gè)依靠于目標(biāo)變量的變量(由目標(biāo)變量導(dǎo)出)作為預(yù)測(cè)變量,像用生日來(lái)“預(yù)測(cè)”年齡。在原理上講,一些數(shù)據(jù)挖掘算法自動(dòng)忽略不相關(guān)的變量、自動(dòng)計(jì)算相關(guān)的(協(xié))變量,在實(shí)際應(yīng)用中完全依靠這些工具是不明智的,怎么講最了解你的數(shù)據(jù)的依舊你自己。利用你的領(lǐng)域知識(shí),你會(huì)做出大部分正確的選擇。例如,用身份證號(hào)或人名做預(yù)測(cè)變量要么可不能有任何用處,要么甚至降低了其他重要變量的阻礙力。b. 選擇記錄。與選擇變量類似,你可能也想用你所有的數(shù)據(jù)行來(lái)建立模型,然而假如你的數(shù)據(jù)量確

37、實(shí)特不巨大的話,要么要花費(fèi)專門(mén)長(zhǎng)的時(shí)刻來(lái)建立那個(gè)模型,要么買(mǎi)一臺(tái)計(jì)算能力特不強(qiáng)大的機(jī)器。因此,假如數(shù)據(jù)量特不大,進(jìn)行抽樣確實(shí)是一個(gè)專門(mén)好的主意。假如做的足夠認(rèn)真,保證抽樣是按真正的隨機(jī)來(lái)進(jìn)行的,采樣對(duì)大部分商業(yè)問(wèn)題來(lái)講都可不能丟失信息。你能夠用所有的數(shù)據(jù)建立一個(gè)模型;你還能夠用采樣的方法依照不同得采樣方法建立幾個(gè)模型,然后評(píng)價(jià)這幾個(gè)模型選擇一個(gè)最好的。我們認(rèn)為后面這種方法得到的方法更準(zhǔn)確、更健壯。你可能選擇數(shù)據(jù)中明顯的異常數(shù)據(jù)刪除掉。然而在某些情況下,這些看來(lái)異常的數(shù)據(jù)可能包含了你要建立模型的重要信息?;谀銓?duì)問(wèn)題的理解方式的不同,通常能夠把這些異常忽略掉。比如能夠把異常認(rèn)為是人為的錄入錯(cuò)誤。

38、有時(shí)也需要向數(shù)據(jù)中添加一些新的數(shù)據(jù)(如,那些沒(méi)有做出購(gòu)買(mǎi)得客戶)。c. 創(chuàng)建新變量。專門(mén)多情況下需要從原始數(shù)據(jù)中衍生一些新的變量作為預(yù)測(cè)變量。比如,用負(fù)債占收入百分比來(lái)預(yù)測(cè)信用風(fēng)險(xiǎn)比直接用負(fù)債和收入做預(yù)測(cè)變量更準(zhǔn)確一些,也更容易理解一些。專門(mén)多變量假如組合起來(lái)(加、減、比率等)會(huì)比這些變量自身阻礙力更大。一些變量假如擴(kuò)大它的范圍也會(huì)成為一個(gè)特不行的預(yù)測(cè)變量,比如用一段時(shí)刻內(nèi)收入變化情況代替一個(gè)單一的收入數(shù)據(jù)。d. 轉(zhuǎn)換變量。你所選擇的算法和工具決定了都要對(duì)數(shù)據(jù)做哪些轉(zhuǎn)換工作。如神經(jīng)網(wǎng)絡(luò)要求所有的變量都在0-1之間,因此在這些數(shù)據(jù)被提交到算法之前就必須先對(duì)不在0,1內(nèi)的變量進(jìn)行映射。同樣一些決策

39、樹(shù)算法不同意數(shù)值型變量作為輸入,在使用他們之前也要把這些數(shù)值映射到“高、中、低”等。因此你的轉(zhuǎn)換方式也在一定程度上阻礙了模型的準(zhǔn)確度。5. 建立模型。對(duì)建立模型來(lái)講要記住的最重要的事是它是一個(gè)反復(fù)的過(guò)程。你需要認(rèn)真考察不同的模型以推斷哪個(gè)模型對(duì)你的商業(yè)問(wèn)題最有用。你在查找好的模型的過(guò)程中學(xué)到的的東西會(huì)啟發(fā)你修改你的數(shù)據(jù),甚至改變最初對(duì)問(wèn)題的定義。一旦決定了預(yù)測(cè)的類型之后(分類依舊回歸),就需要為那個(gè)預(yù)測(cè)選擇模型的類型??赡苁且豢脹Q策樹(shù)、神經(jīng)網(wǎng)絡(luò)、甚至傳統(tǒng)的數(shù)學(xué)統(tǒng)計(jì)。選擇什么樣的模型決定了你需對(duì)數(shù)據(jù)做哪些預(yù)處理工作。如神經(jīng)網(wǎng)絡(luò)需要做數(shù)據(jù)轉(zhuǎn)換,有些數(shù)據(jù)挖掘工具可能對(duì)輸入數(shù)據(jù)的格式有特定的限制,等。

40、一旦所有的數(shù)據(jù)預(yù)備好之后,就能夠開(kāi)始訓(xùn)練你的模型了。為了保證得到的模型具有較好的精確度和健壯性,需要一個(gè)定義完善的訓(xùn)練驗(yàn)證協(xié)議。有時(shí)也稱此協(xié)議為帶指導(dǎo)的學(xué)習(xí)。他的要緊思想確實(shí)是先用一部分?jǐn)?shù)據(jù)建立模型,然后再用剩下的數(shù)據(jù)來(lái)測(cè)試和驗(yàn)證那個(gè)得到的模型。有時(shí)還有第三個(gè)數(shù)據(jù)集,稱為驗(yàn)證集,因?yàn)闇y(cè)試集可能受模型的特性的阻礙,這時(shí)需要一個(gè)獨(dú)立的數(shù)據(jù)集來(lái)驗(yàn)證模型的準(zhǔn)確性。訓(xùn)練和測(cè)試數(shù)據(jù)挖掘模型需要把數(shù)據(jù)至少分成兩個(gè)部分:一個(gè)用于模型訓(xùn)練,另一個(gè)用于模型測(cè)試。假如不使用不同的訓(xùn)練和測(cè)試集,那么模型的準(zhǔn)確度就專門(mén)難使人信服。用訓(xùn)練集把模型建立出來(lái)之后,就能夠先在測(cè)試集數(shù)據(jù)上先試驗(yàn)一把,此模型在測(cè)試集上的預(yù)測(cè)準(zhǔn)確度

41、確實(shí)是一個(gè)專門(mén)好的指導(dǎo)數(shù)字,它講明假現(xiàn)在后與訓(xùn)練集和測(cè)試集類似的數(shù)據(jù)用此模型預(yù)測(cè)時(shí),正確的百分比會(huì)有多大。這并不能保證模型的正確性,他只是講相似的數(shù)據(jù)用此模型會(huì)得出相似的結(jié)果。簡(jiǎn)單驗(yàn)證。最差不多的測(cè)試方法是被稱為簡(jiǎn)單驗(yàn)證的方法。做法是從原始數(shù)據(jù)中拿出一定百分比的數(shù)據(jù)作為測(cè)試數(shù)據(jù),那個(gè)百分比大概在5%到33%之間。注意在把數(shù)據(jù)庫(kù)分成幾部分時(shí),一定要保證選擇的隨機(jī)性,如此才能使分開(kāi)的各部分?jǐn)?shù)據(jù)的性質(zhì)是一致的。先用數(shù)據(jù)庫(kù)的主體把模型建立起來(lái),然后用此模型來(lái)預(yù)測(cè)測(cè)試集中的數(shù)據(jù)。出現(xiàn)錯(cuò)誤的預(yù)測(cè)與預(yù)測(cè)總數(shù)之間的比,稱為錯(cuò)誤率。正確的預(yù)測(cè)與總數(shù)的比,是準(zhǔn)確率(準(zhǔn)確率=1 - 錯(cuò)誤率)。對(duì)回歸模型來(lái)講,能夠用

42、方差來(lái)描述準(zhǔn)確的程度。在一次模型的建立過(guò)程中,即使這種最簡(jiǎn)單的驗(yàn)證就要執(zhí)行幾十次。例如在訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí),有時(shí)每一個(gè)訓(xùn)練周期就要求在測(cè)試集上運(yùn)行一次,不斷的訓(xùn)練測(cè)試,直到在測(cè)試集上的準(zhǔn)確率不再提高為止。交叉驗(yàn)證。假如數(shù)據(jù)不是專門(mén)多(比如只有幾千條),那么你可能承受不了再把一部分?jǐn)?shù)據(jù)拿到一邊不用,單用來(lái)做簡(jiǎn)單驗(yàn)證。交叉驗(yàn)證提供了一種讓你使用全部數(shù)據(jù)的方法。首先把原始數(shù)據(jù)隨機(jī)平分成兩份,然后用一部分做訓(xùn)練集另一部分做測(cè)試集計(jì)算錯(cuò)誤率,做完之后把兩部分?jǐn)?shù)據(jù)交換再計(jì)算一次,得到另一個(gè)錯(cuò)誤率,最后再用所有的數(shù)據(jù)建立一個(gè)模型,把上面得到的兩個(gè)錯(cuò)誤率進(jìn)行平均作為最后用所有數(shù)據(jù)建立的模型的錯(cuò)誤率。更通用的算法是

43、n-維交叉驗(yàn)證。先把數(shù)據(jù)隨機(jī)分成不相交的n份。比如,假如把數(shù)據(jù)分成10份,先把第一份拿出來(lái)放在一邊用作模型測(cè)試,把其他9份合在一起來(lái)建立模型,然后把那個(gè)用90%的數(shù)據(jù)建立起來(lái)的模型用上面放在一邊的第一份數(shù)據(jù)做測(cè)試。那個(gè)過(guò)程對(duì)每一份數(shù)據(jù)都重復(fù)進(jìn)行一次,得到10個(gè)不同的錯(cuò)誤率。最后把所有數(shù)據(jù)放在一起建立一個(gè)模型,模型的錯(cuò)誤率為上面10個(gè)錯(cuò)誤率的平均。自舉法是另一種評(píng)估模型錯(cuò)誤率的技術(shù)。在數(shù)據(jù)量專門(mén)小時(shí)尤其適用。與交叉驗(yàn)證一樣模型是用所有的數(shù)據(jù)建立。依據(jù)所得到的模型和你對(duì)模型的預(yù)期結(jié)果,你可能修改參數(shù)用同樣的算法再建立新的模型,甚至采納其他的算法建立模型。不的方法講不定能提高預(yù)測(cè)的準(zhǔn)確度。因此,沒(méi)有

44、一種算法或工具適應(yīng)所有的數(shù)據(jù),通常也專門(mén)難在開(kāi)始決定那種算法對(duì)你所面臨的問(wèn)題來(lái)講是最好的,因此專門(mén)多情況下,需要建立用不同的方法(參數(shù)或算法)幾個(gè)模型,從中選擇最好的。6. 評(píng)價(jià)和解釋。a. 模型驗(yàn)證。模型建立好之后,必須評(píng)價(jià)他的結(jié)果、解釋他的價(jià)值。記住從測(cè)試集中得到的準(zhǔn)確率只對(duì)用于建立模型的數(shù)據(jù)有意義。在實(shí)際應(yīng)用中,隨著應(yīng)用數(shù)據(jù)的不同,模型的準(zhǔn)確率確信會(huì)變化。更重要的是,準(zhǔn)確度自身并不一定是選擇最好模型的正確評(píng)價(jià)方法。你需要進(jìn)一步了解錯(cuò)誤的類型和由此帶來(lái)的相關(guān)費(fèi)用的多少。無(wú)序矩陣。對(duì)分類問(wèn)題來(lái)講,無(wú)序矩陣是理解結(jié)果的特不行的工具。如圖9所示,無(wú)序矩陣把預(yù)測(cè)的結(jié)果與實(shí)際的情況進(jìn)行對(duì)比。它不僅講

45、明了模型預(yù)測(cè)的準(zhǔn)確情況,也把模型究竟在哪里出了問(wèn)題也展示了出來(lái)。下表是一個(gè)簡(jiǎn)單的無(wú)序矩陣,其中的列代表數(shù)據(jù)的實(shí)際分類情況,行是預(yù)測(cè)的結(jié)果。在這張表值中,能夠看到此模型在總共46個(gè)B類數(shù)據(jù)中成功預(yù)測(cè)了38個(gè),8個(gè)出了問(wèn)題:2個(gè)預(yù)測(cè)成了A,6個(gè)成了C。顯然這比簡(jiǎn)單的講模型總體準(zhǔn)確度是82%要更詳細(xì)的多(123個(gè)成功預(yù)測(cè)除以總共150)。預(yù)測(cè)實(shí)際類不A類不B類不C類不A4523類不B10382類不C4640圖9:無(wú)序矩陣在實(shí)際應(yīng)用中,假如每種不同的預(yù)測(cè)錯(cuò)誤所需付出的代價(jià)(金鈔票)也不同的話,那么代價(jià)最小的模型(而不一定是錯(cuò)誤率最小的模型)確實(shí)是我們所要選擇的。例如,上面的無(wú)序矩陣中,假如每個(gè)準(zhǔn)確的預(yù)

46、測(cè)會(huì)帶來(lái)¥10的收益,錯(cuò)誤的預(yù)測(cè)A要付出¥5的代價(jià),B是¥10,C是¥20,那么整個(gè)模型的純價(jià)值是:(123*¥10)-(5*¥5)-(12*¥10)-(10*¥20)=¥885然而考察下面的無(wú)序矩陣(圖10),盡管準(zhǔn)確度降低到79%(118/150),但純價(jià)值卻升高了:(118*¥10)-(22*¥5)-(7*¥10)-(3*¥20)=¥940預(yù)測(cè)實(shí)際類不A類不B類不C類不A401210類不B6381類不C2140圖10:另一個(gè)無(wú)序矩陣收益表(圖11)也是一種描述模型價(jià)值的方法。它顯示了通過(guò)應(yīng)用模型響應(yīng)(如直接郵件推銷)的變化情況。變化的比率稱為lift。例如,假如用隨機(jī)抽取的方法選擇10%

47、的客戶響應(yīng)率是10%,而通過(guò)模型選取10%的用戶響應(yīng)率是30%,則lift值為3。模型解釋的另一個(gè)重要組成部分是確定模型的價(jià)值。一個(gè)模型可能看起來(lái)專門(mén)有意義,但要實(shí)施它的話專門(mén)有可能花的鈔票比賺的鈔票多。圖12是一個(gè)描述模型投資回報(bào)率(ROI)的圖表(那個(gè)地點(diǎn)定義 ROI為利潤(rùn)與開(kāi)銷的比值)。注意圖中當(dāng)選取比例超過(guò)80%時(shí),ROI變成了負(fù)數(shù),ROI最高是在橫坐標(biāo)為2時(shí)。因此,也能夠直接看利潤(rùn)的變化情況(利潤(rùn)為收入與花費(fèi)的差值),如圖13所示:注意到我們上面的例子中,最大lift在第一個(gè)1/10處(10%),最大ROI在第2個(gè)1/10(20%),而最大利潤(rùn)在第3、4個(gè)1/10處。理想情況下,應(yīng)該

48、按照利潤(rùn)表行事,但專門(mén)多情況下利潤(rùn)表并不能專門(mén)容易的計(jì)算出來(lái)。b. 外部驗(yàn)證。如前面指出的,不管我們用模擬的方法計(jì)算出來(lái)的模型的準(zhǔn)確率有多高,都不能保證此模型在面對(duì)現(xiàn)實(shí)世界中真實(shí)的數(shù)據(jù)時(shí)能取得好的效果。經(jīng)驗(yàn)證有效的模型并不一定是正確的模型。造成這一點(diǎn)的直接緣故確實(shí)是模型建立中隱含的各種假定。例如,在建立用戶購(gòu)買(mǎi)模式的模型時(shí),可能沒(méi)有考慮通貨膨脹的阻礙,但實(shí)施模型時(shí)通貨膨脹率突然由3%增加為17%,這顯然會(huì)對(duì)人們的購(gòu)買(mǎi)意向產(chǎn)生重大阻礙,因此再用原來(lái)的模型來(lái)預(yù)測(cè)客戶購(gòu)買(mǎi)情況必定會(huì)出現(xiàn)重大失誤。因此直接在現(xiàn)實(shí)世界中測(cè)試模型專門(mén)重要。先在小范圍內(nèi)應(yīng)用,取得測(cè)試數(shù)據(jù),覺(jué)得中意之后再向大范圍推廣。7. 實(shí)

49、施。模型建立并經(jīng)驗(yàn)證之后,能夠有兩種要緊的使用方法。第一種是提供給分析人員做參考,由他通過(guò)察看和分析那個(gè)模型之后提出行動(dòng)方案建議。比如能夠把模型檢測(cè)到的聚攏、模型中蘊(yùn)含的規(guī)則、或表明模型效果的ROI圖表拿給分析人員看。另一種是把此模型應(yīng)用到不同的數(shù)據(jù)集上。模型能夠用來(lái)標(biāo)示一個(gè)事例的類不,給一項(xiàng)申請(qǐng)打分等。還能夠用模型在數(shù)據(jù)庫(kù)中選擇符合特定要求的記錄,以用OLAP工具做進(jìn)一步的分析。通常情況下,模型是某個(gè)商業(yè)過(guò)程的組成部分,如風(fēng)險(xiǎn)分析,信用授權(quán),或欺詐檢測(cè)。在這些情況下,模型一般都合并到應(yīng)用程序的內(nèi)部。例如,在抵押貸款應(yīng)用程序內(nèi)部可能集成了一個(gè)預(yù)測(cè)模型,來(lái)向貸款官員提供一項(xiàng)貸款申請(qǐng)風(fēng)險(xiǎn)大小的建議

50、?;蛟诙ㄙ?gòu)系統(tǒng)中,當(dāng)預(yù)測(cè)到庫(kù)存有可能降低到一個(gè)最低限度時(shí)自動(dòng)發(fā)出購(gòu)買(mǎi)訂單。數(shù)據(jù)挖掘模型通常一次只能處理一個(gè)事件或一個(gè)事務(wù)。每個(gè)事務(wù)的處理時(shí)刻和事務(wù)到達(dá)的速度,決定了模型運(yùn)行所需的計(jì)算能力,和是否要用并行技術(shù)來(lái)加快速度。比如,貸款申請(qǐng)程序可能PC機(jī)上就運(yùn)行的專門(mén)好,而用于信用卡欺詐的模型則需要在服務(wù)器上用并行算法才能應(yīng)付每天的大量事務(wù)。當(dāng)提交一個(gè)復(fù)雜的應(yīng)用時(shí),數(shù)據(jù)挖掘可能只是整個(gè)產(chǎn)品的一小部分,盡管可能是最關(guān)鍵的一部分。例如,常常把數(shù)據(jù)挖掘得到的知識(shí)與領(lǐng)域?qū)<业闹R(shí)結(jié)合起來(lái),然后應(yīng)用到數(shù)據(jù)庫(kù)中的數(shù)據(jù)。在欺詐檢測(cè)系統(tǒng)中可能既包含了數(shù)據(jù)挖掘發(fā)覺(jué)的規(guī)律,也有人們?cè)趯?shí)踐中早已總結(jié)出的規(guī)律。模型監(jiān)控。在應(yīng)

51、用了模型之后,因此還要不斷監(jiān)控他的效果。即使你在開(kāi)始使用那個(gè)模型之后覺(jué)得他特不成功,也不能放棄監(jiān)控,因?yàn)槭挛镌诓粩噙M(jìn)展變化,專門(mén)可能過(guò)一段時(shí)刻之后,模型就不再起作用。銷售人員都明白,人們的購(gòu)買(mǎi)方式隨著社會(huì)的進(jìn)展而變化。因此隨著使用時(shí)刻的增加,要不斷的對(duì)模型做重新測(cè)試,有時(shí)甚者需要重新建立模型。 HYPERLINK /zs17.htm 數(shù)據(jù)挖掘入門(mén) 一 HYPERLINK /zs18.htm 數(shù)據(jù)挖掘入門(mén) 二 數(shù)據(jù)挖掘過(guò)程在實(shí)施數(shù)據(jù)挖掘之前,先制定采取什么樣的步驟,每一步都做什么,達(dá)到什么樣的目標(biāo)是必要的,有了好的打算才能保證數(shù)據(jù)挖掘有條不紊的實(shí)施并取得成功。專門(mén)多軟件供應(yīng)商和數(shù)據(jù)挖掘顧問(wèn)公司投

52、提供了一些數(shù)據(jù)挖掘過(guò)程模型,來(lái)指導(dǎo)他們的用戶一步步的進(jìn)行數(shù)據(jù)挖掘工作。比如SPSS的5A-評(píng)估(Assess),訪問(wèn)(Access),分析(Analyze),行動(dòng)(Act),自動(dòng)化(Automate),和SAS的SEMMA-采樣(Sample),探究(Explore),修正(Modify),建模(Model),評(píng)估(Assess)。最近,一些軟件供應(yīng)商和用戶組織成立了行業(yè)協(xié)會(huì),包括NCR Systems Engineering Copenhagen(丹麥)Daimler-Benz AG(德國(guó))SPSS/Internal Solutions Ltd.(英國(guó)),和OHRA Verzekeringe

53、n en Bank Grep B.V(荷蘭)。那個(gè)組織的目的確實(shí)是建立跨行業(yè)數(shù)據(jù)挖掘過(guò)程標(biāo)準(zhǔn)(CRISP-DM),在1999年9月的時(shí)候CRISP-DM仍在建立之中。我們下面詳細(xì)討論Two Crows公司的數(shù)據(jù)挖掘過(guò)程模型,他與正在建立的CRISP-DM有許多相似之處。數(shù)據(jù)挖掘過(guò)程模型盡管我們把各個(gè)步驟按順序排列,但要注意數(shù)據(jù)挖掘過(guò)程并不是線性的要取得好的結(jié)果就要不斷反復(fù)重復(fù)這些步驟。比如在“分析數(shù)據(jù)”時(shí)你可能覺(jué)得在“建立數(shù)據(jù)挖掘數(shù)據(jù)庫(kù)”時(shí)作的不夠好,要往里面添加一些新的數(shù)據(jù)。這些差不多數(shù)據(jù)挖掘步驟包括:1. 定義商業(yè)問(wèn)題2. 建立數(shù)據(jù)挖掘模型3. 分析數(shù)據(jù)4. 預(yù)備數(shù)據(jù)5. 建立模型6. 評(píng)

54、價(jià)模型7. 實(shí)施1. 定義商業(yè)問(wèn)題。在開(kāi)始知識(shí)發(fā)覺(jué)之前最先的同時(shí)也是最重要的要求確實(shí)是了解的你的數(shù)據(jù)和業(yè)務(wù)問(wèn)題。假如事先沒(méi)有這種了解,沒(méi)有任何算法,不管他有多么復(fù)雜玄妙,能夠?yàn)槟闾峁┯袃r(jià)值的結(jié)果,即使有也難以使人信賴他。缺少了這些背景知識(shí),你就沒(méi)方法明確定義要解決的問(wèn)題,不能為挖掘預(yù)備數(shù)據(jù),也專門(mén)難正確的解釋得到的結(jié)果。要想充分發(fā)揮數(shù)據(jù)挖掘的價(jià)值,必須要對(duì)你的目標(biāo)有一個(gè)清晰明確的定義,即決定到底想干什么。比如你講你想提高直接郵件推銷的用戶回應(yīng)時(shí),你想做的可能是“提高用戶響應(yīng)率”,也可能是“提高一次用戶回應(yīng)的價(jià)值”,要解決這兩個(gè)問(wèn)題而建立的模型幾乎是完全不同的,你必須做出決定。有效的問(wèn)題定義還應(yīng)

55、該包含一個(gè)對(duì)你的知識(shí)發(fā)覺(jué)項(xiàng)目得到結(jié)果進(jìn)行衡量的標(biāo)準(zhǔn)。因此還應(yīng)該有整個(gè)項(xiàng)目預(yù)算和理性的解釋。2. 建立數(shù)據(jù)挖掘庫(kù)。連同下面的兩個(gè)步驟,這三步構(gòu)成了數(shù)據(jù)預(yù)處理的核心。這三步和在一起比其他所有的步驟加在一起所花得時(shí)刻和精力還多。一旦你從數(shù)據(jù)挖掘的結(jié)果中學(xué)到一些什么之后,你專門(mén)可能要修改數(shù)據(jù)以得到更好得結(jié)果,因此就需要把數(shù)據(jù)預(yù)備和數(shù)據(jù)挖掘不斷的反復(fù)進(jìn)行。數(shù)據(jù)預(yù)備工作大概要花去整個(gè)數(shù)據(jù)挖掘項(xiàng)目的50%-90%的時(shí)刻和精力。應(yīng)該把要挖掘的數(shù)據(jù)都收集到一個(gè)數(shù)據(jù)庫(kù)中。注意這并不是講一定要使用一個(gè)數(shù)據(jù)庫(kù)治理系統(tǒng)。依照要挖掘的數(shù)據(jù)量的大小、數(shù)據(jù)的復(fù)雜程度、使用方式的不同,有時(shí)一個(gè)簡(jiǎn)單的平面文件或電子表格就足夠了。

56、一般來(lái)講,直接在公司的數(shù)據(jù)倉(cāng)庫(kù)上進(jìn)行數(shù)據(jù)挖掘是不合適的。你最好建立一個(gè)獨(dú)立的數(shù)據(jù)集。數(shù)據(jù)挖掘會(huì)使你成為數(shù)據(jù)倉(cāng)庫(kù)特不活躍的用戶,這可能會(huì)帶來(lái)一些資源申請(qǐng)上的問(wèn)題。你需要經(jīng)常把許多表連接在一起,訪問(wèn)數(shù)據(jù)倉(cāng)庫(kù)的細(xì)節(jié)數(shù)據(jù)。一個(gè)簡(jiǎn)單的試驗(yàn)在數(shù)據(jù)倉(cāng)庫(kù)內(nèi)都要專門(mén)多步才能完成。大部分情況下你確信需要修改要挖掘的數(shù)據(jù)。而且還會(huì)遇到把企業(yè)外部的數(shù)據(jù)拿到數(shù)據(jù)倉(cāng)庫(kù)內(nèi)和在原有的表中增加新的字段的情況。其他的數(shù)據(jù)挖掘用戶可能也要對(duì)數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行與您相似或完全不同的修改。而對(duì)數(shù)據(jù)倉(cāng)庫(kù)治理員來(lái)講,這可能是他最不情愿遇到的情況。需要建立獨(dú)立的數(shù)據(jù)挖掘庫(kù)的另一個(gè)理由是,數(shù)據(jù)倉(cāng)庫(kù)可能不支持你要對(duì)數(shù)據(jù)進(jìn)行各種復(fù)雜分析所需的數(shù)據(jù)結(jié)構(gòu)。這

57、包括對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)查詢,多維分析,和各種復(fù)雜的圖表和可視化。最后,你可能希望把這些要挖掘的數(shù)據(jù)存貯在與公司的數(shù)據(jù)倉(cāng)庫(kù)在物理設(shè)計(jì)上不同的DBMS上。人們?cè)絹?lái)越傾向于使用DBMS本身專門(mén)好的支持?jǐn)?shù)據(jù)挖掘的數(shù)據(jù)庫(kù)程序,如此能使數(shù)據(jù)挖掘工作進(jìn)行的更容易一些。因此假如你的數(shù)據(jù)倉(cāng)庫(kù)同意你建立一個(gè)在邏輯上獨(dú)立的數(shù)據(jù)庫(kù)同時(shí)在計(jì)算資源上也足夠的話,那么在他上面進(jìn)行數(shù)據(jù)挖掘也是能夠的。能夠把建立數(shù)據(jù)挖掘庫(kù)分成下面幾個(gè)部分:a. 數(shù)據(jù)收集b. 數(shù)據(jù)描述c. 選擇d. 數(shù)據(jù)質(zhì)量評(píng)估和數(shù)據(jù)清理e. 合并與整合f. 構(gòu)建元數(shù)據(jù)g. 加載數(shù)據(jù)挖掘庫(kù)h. 維護(hù)數(shù)據(jù)挖掘庫(kù)注意這些步驟并不需要一定要按步驟執(zhí)行,而應(yīng)該按需要進(jìn)行。

58、比如你可能在收集數(shù)據(jù)時(shí)就開(kāi)始構(gòu)建元數(shù)據(jù),并隨著工作的進(jìn)行不斷的對(duì)其進(jìn)行修改。在數(shù)據(jù)整合和數(shù)據(jù)質(zhì)量評(píng)估過(guò)程中了解到得東西也有可能是你修改最初的數(shù)據(jù)選擇。a. 數(shù)據(jù)收集。確定要挖掘的數(shù)據(jù)源??赡芤恍┩獠康臄?shù)據(jù)也是必須的,需要在公共數(shù)據(jù)庫(kù)中獵?。ㄈ丝诮y(tǒng)計(jì)或天氣數(shù)據(jù))或向數(shù)據(jù)擁有者購(gòu)買(mǎi)(比如信用卡使用數(shù)據(jù))。用以一個(gè)數(shù)據(jù)搜集報(bào)告把所需的各種不同的數(shù)據(jù)源的屬性列出來(lái)。此報(bào)告至少應(yīng)包含如下的內(nèi)容: 數(shù)據(jù)源(內(nèi)部數(shù)據(jù)庫(kù)或外部提供者) 擁有者 負(fù)責(zé)維護(hù)此數(shù)據(jù)的人/組織 DBA 費(fèi)用(假如需要購(gòu)買(mǎi)) 存儲(chǔ)方式(如:Oracle數(shù)據(jù)庫(kù)、MSAM文件等) 表、字段、記錄的數(shù)目 字節(jié)數(shù) 物理存儲(chǔ)方式(CD-ROM、磁

59、帶、服務(wù)器等) 安全需求 使用上的限制 隱私上的需求注意一旦應(yīng)用了在安全和隱私上有專門(mén)限制的數(shù)據(jù),那么你的數(shù)據(jù)挖掘庫(kù)在安全和隱私上也就繼承了同樣的限制。比如許多歐洲的數(shù)據(jù)在隱私上的限制要比美國(guó)嚴(yán)格的多。b. 數(shù)據(jù)描述。描述每個(gè)文件和數(shù)據(jù)庫(kù)表的內(nèi)容。數(shù)據(jù)描述報(bào)告中應(yīng)包含如下內(nèi)容: 字段/列的數(shù)目 字段是空(缺值)的數(shù)目/百分比 字段的名字對(duì)每個(gè)字段 數(shù)據(jù)類型 定義 描述 源 計(jì)量單位 所有不同值的個(gè)數(shù) 值的列表 值的范圍 空值的百分比 收集信息(比如:如何得到的,在哪,什么條件下) 時(shí)刻頻度(Timeframe)(每天,每周,依舊每月) 特不時(shí)刻數(shù)據(jù)(比如:每個(gè)周一或每個(gè)周三) 主鍵/外鍵關(guān)系c

60、. 選擇。接下來(lái)就要選擇用于數(shù)據(jù)挖掘的數(shù)據(jù)(源數(shù)據(jù)的子集)。這與對(duì)數(shù)據(jù)進(jìn)行采樣和選擇預(yù)測(cè)變量是不同的,那個(gè)地點(diǎn)只是粗略的把一些冗余或無(wú)關(guān)的數(shù)據(jù)除去,或由于資源的限制、費(fèi)用的限制、數(shù)據(jù)使用的限制、和質(zhì)量問(wèn)題而必須做出的選擇。d. 數(shù)據(jù)質(zhì)量評(píng)估和數(shù)據(jù)清理?!褒埳?,鳳生鳳”對(duì)數(shù)據(jù)挖掘也是特不適用的,要想得到好的模型必須用好的數(shù)據(jù)。數(shù)據(jù)質(zhì)量評(píng)估確實(shí)是要確定數(shù)據(jù)的哪些性質(zhì)會(huì)最終阻礙模型的質(zhì)量。你不僅要保證數(shù)據(jù)值的正確性和一致性,還要保證這些值是按同樣的方法記錄的同一件情況。由各種各樣的數(shù)據(jù)質(zhì)量問(wèn)題。數(shù)據(jù)域中可能包含了不正確的值。比如,身份證號(hào)碼被粗心的數(shù)據(jù)錄入人員錄入了年齡。即使每個(gè)單個(gè)域中包含的數(shù)據(jù)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論