數(shù)據(jù)挖掘概念_第1頁
數(shù)據(jù)挖掘概念_第2頁
數(shù)據(jù)挖掘概念_第3頁
數(shù)據(jù)挖掘概念_第4頁
數(shù)據(jù)挖掘概念_第5頁
已閱讀5頁,還剩11頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、第1章 數(shù)據(jù)挖掘的概念本章目標(biāo) 理解對大型的、復(fù)雜的和信息豐富的數(shù)據(jù)集進(jìn)行分析的必要性。 明確數(shù)據(jù)挖掘過程的目標(biāo)和首要任務(wù)。 描述數(shù)據(jù)挖掘技術(shù)的起源。 認(rèn)識數(shù)據(jù)挖掘過程所具有的迭代特點(diǎn),說明數(shù)據(jù)挖掘的基本步驟。 解釋數(shù)據(jù)的質(zhì)量對數(shù)據(jù)挖掘過程的影響。 建立數(shù)據(jù)倉庫和數(shù)據(jù)挖掘之間的聯(lián)系。1.1 概述現(xiàn)代科學(xué)和工程建立在用“首要原則模型(first-principle models)”來描述物理、生物和社會系統(tǒng)的基礎(chǔ)上。這種方法從基礎(chǔ)的科學(xué)模型入手,如牛頓運(yùn)動定律或麥克斯韋的電磁公式,然后基于模型來建立機(jī)械工程或電子工程方面的各種應(yīng)用。在這種方法中,用實(shí)驗(yàn)數(shù)據(jù)來驗(yàn)證基本的“首要原則模型”,以及對一些

2、難以直接測量或者根本不可能直接測量的參數(shù)進(jìn)行評估。但是在許多領(lǐng)域,基本的“首要原則模型”往往是未知的,或者研究的系統(tǒng)太復(fù)雜而難以進(jìn)行數(shù)學(xué)定型,隨著計(jì)算機(jī)的廣泛應(yīng)用,像這樣的復(fù)雜系統(tǒng)生成了大量的數(shù)據(jù)。在沒有“首要原則模型”時(shí)候,可以利用這些易得的可用數(shù)據(jù),通過對系統(tǒng)變量之間可以利用的關(guān)系(即未知的輸入輸出相關(guān)性)進(jìn)行評估來導(dǎo)出模型。這樣,傳統(tǒng)的建模及基于“首要原則模型”進(jìn)行分析的方法與開發(fā)模型及直接對數(shù)據(jù)進(jìn)行相應(yīng)分析的方法之間普遍存在著范型變換。我們都逐漸習(xí)慣面對這樣的一個(gè)事實(shí)超量的數(shù)據(jù)充斥著我們的電腦、網(wǎng)絡(luò)和生活,政府機(jī)構(gòu)、科研機(jī)構(gòu)和企業(yè)都投入大量的資源去收集和存儲數(shù)據(jù)。實(shí)際上,這些數(shù)據(jù)中只有

3、一小部分將會被用到,因?yàn)樵诤芏嗲闆r下,要么數(shù)據(jù)量簡直太大了,難于管理,要么就是數(shù)據(jù)結(jié)構(gòu)太復(fù)雜,不能進(jìn)行有效的分析。這種情況是怎么發(fā)生的呢?根本的原因是人們創(chuàng)建一個(gè)數(shù)據(jù)集時(shí)往往把精力都集中在如數(shù)據(jù)的存儲效率的問題上,而沒有去考慮數(shù)據(jù)最終是怎樣使用和分析的。對大型的、復(fù)雜的、信息豐富的數(shù)據(jù)集的理解實(shí)際上是所有的商業(yè)、科學(xué)、工程領(lǐng)域的共同需要,在商務(wù)領(lǐng)域,公司和顧客的數(shù)據(jù)逐漸被認(rèn)為是一種戰(zhàn)略資產(chǎn)。在當(dāng)今的競爭世界中,吸取隱藏在這些數(shù)據(jù)后面的有用知識并利用這些知識的能力變得愈加重要。運(yùn)用基于計(jì)算機(jī)的方法,包括新技術(shù),從而在數(shù)據(jù)中獲得有用知識的整個(gè)過程,就叫做數(shù)據(jù)挖掘。數(shù)據(jù)挖掘是一個(gè)反復(fù)迭代的過程,在這

4、個(gè)過程中,所取得的進(jìn)步用“發(fā)現(xiàn)”來定義,而這種發(fā)現(xiàn)是通過自動或手工方法取得的。在對什么將會構(gòu)成一個(gè)“有趣的”結(jié)果沒有預(yù)定概念的初步探測性分析方案中,數(shù)據(jù)挖掘非常重要。它從大量的數(shù)據(jù)中搜尋有價(jià)值的、非同尋常的新信息,是人和計(jì)算機(jī)合力的結(jié)果;它在人類描述問題和目標(biāo)的知識與計(jì)算機(jī)的搜索能力之間尋求平衡,以求獲得最好的效果。在實(shí)踐中,數(shù)據(jù)挖掘的兩個(gè)基本目標(biāo)往往是預(yù)測和描述。預(yù)測涉及到使用數(shù)據(jù)集中的一些變量或域來預(yù)測其他我們所關(guān)心變量的未知或未來的值;另一方面,描述關(guān)注的則是找出描述可由人類解釋的數(shù)據(jù)模式。因此,可以把數(shù)據(jù)挖掘活動分成下述兩類。1) 預(yù)測性數(shù)據(jù)挖掘:生成已知數(shù)據(jù)集所描述的系統(tǒng)模型。2)

5、描述性數(shù)據(jù)挖掘:在可用數(shù)據(jù)集的基礎(chǔ)上生成新的、非同尋常的信息。在預(yù)測領(lǐng)域的后期,數(shù)據(jù)挖掘的目標(biāo)是得出一種模型,以可執(zhí)行碼來表示。這種可執(zhí)行碼可以用于執(zhí)行分類、預(yù)測、評估或者其他相似的任務(wù)。而描述性領(lǐng)域的后期,數(shù)據(jù)挖掘的目標(biāo)是利用大型數(shù)據(jù)集中的未知模式和關(guān)系獲得對所分析系統(tǒng)的理解。對特定的數(shù)據(jù)挖掘的應(yīng)用,預(yù)測和描述的相對意義有相當(dāng)大的變化。預(yù)測和描述的目標(biāo)都是通過數(shù)據(jù)挖掘技術(shù)來實(shí)現(xiàn)的,本書將在后面介紹這些技術(shù)。數(shù)據(jù)挖掘的基本任務(wù)如下:1. 分類預(yù)測學(xué)習(xí)功能的發(fā)現(xiàn),此功能將一個(gè)數(shù)據(jù)項(xiàng)分到幾個(gè)預(yù)定義類中的一類。2. 回歸預(yù)測學(xué)習(xí)功能的發(fā)現(xiàn),此功能將一個(gè)數(shù)據(jù)項(xiàng)映射到一個(gè)真實(shí)值預(yù)測變量。3. 聚類 一種

6、普遍的描述性任務(wù),尋求以確定有限的一組類別或類來描述數(shù)據(jù)。4. 總結(jié)概括 一項(xiàng)附加的描述任務(wù),尋找對數(shù)據(jù)集或子集的簡單描述方法。5. 關(guān)聯(lián)建模發(fā)現(xiàn)描述變量之間或者數(shù)據(jù)集或其一部分的特征值之間的重要的相關(guān)性的本地模型。6. 變化和偏差檢測發(fā)現(xiàn)數(shù)據(jù)集中最重要的變化。針對復(fù)雜的和大型的數(shù)據(jù)集的數(shù)據(jù)挖掘任務(wù),第4章給出了更加正式的帶有圖形化解釋和說明性示例的方法。這里給出了當(dāng)前介紹性的分類和定義,只是讓讀者對可使用數(shù)據(jù)挖掘技術(shù)來解決的問題和任務(wù)的廣闊領(lǐng)域有一個(gè)初步感受。數(shù)據(jù)挖掘成功地達(dá)到預(yù)定目標(biāo),很大程度上依賴于設(shè)計(jì)者投入的精力、知識和創(chuàng)造力。從本質(zhì)上講,數(shù)據(jù)挖掘就像是解題:從問題的個(gè)別方面來看,結(jié)構(gòu)

7、并不復(fù)雜。但把它作為一個(gè)整體時(shí),它們就能組成一個(gè)詳盡的系統(tǒng)。當(dāng)你試著去拆分這個(gè)系統(tǒng)時(shí),你可能會遭遇失敗,開始把各部分組合在一起又往往會為整個(gè)過程而苦惱。但是,一旦你知道怎么從部分著手,你就會發(fā)現(xiàn)其實(shí)問題并沒有開始那么困難。同樣的道理可以類推到數(shù)據(jù)挖掘中,開始的時(shí)候,數(shù)據(jù)挖掘過程的設(shè)計(jì)者可能對數(shù)據(jù)源知道的不多。如果他們知道很多,就很可能對完成數(shù)據(jù)挖掘失去興趣。從個(gè)別來看,數(shù)據(jù)似乎是簡單、完整和可解釋的。但是從整體的角度看時(shí),它們完全是另外一個(gè)面貌具有威脅性、難以理解,就像是一道難題。因此,要想在數(shù)據(jù)挖掘過程中成為一個(gè)分析者和設(shè)計(jì)者,除了要具備非常專業(yè)的知識外,還要有創(chuàng)造性的思維以及從不同角度看問

8、題的主動性。數(shù)據(jù)挖掘是計(jì)算機(jī)行業(yè)中發(fā)展最快的領(lǐng)域之一,以前數(shù)據(jù)挖掘只是結(jié)合了計(jì)算機(jī)科學(xué)和統(tǒng)計(jì)學(xué)而產(chǎn)生的一個(gè)讓人感興趣的小領(lǐng)域,如今,它已經(jīng)迅速擴(kuò)大成為一個(gè)獨(dú)立的領(lǐng)域。數(shù)據(jù)挖掘的強(qiáng)大力量之一在于它具有廣泛的方法和技術(shù),以應(yīng)用于大量的問題集。既然數(shù)據(jù)挖掘是一個(gè)在大型數(shù)據(jù)集上進(jìn)行的自然行為,其最大的目標(biāo)市場應(yīng)該是整個(gè)數(shù)據(jù)倉庫、數(shù)據(jù)集市和決策支持業(yè)界。包括諸如零售、制造、通信、醫(yī)療、保險(xiǎn)、運(yùn)輸?shù)刃袠I(yè)的專業(yè)人士。在商業(yè)界,數(shù)據(jù)挖掘可用于發(fā)現(xiàn)新的購買傾向、設(shè)計(jì)投資戰(zhàn)略和在會計(jì)系統(tǒng)中探測未經(jīng)認(rèn)可的開支,增加銷售業(yè)務(wù)。其結(jié)果可用于向顧客提供更集中的支持和關(guān)注。數(shù)據(jù)挖掘技術(shù)也能應(yīng)用于解決商業(yè)過程重構(gòu)問題,其目標(biāo)

9、是了解商業(yè)操作和組織之間的相互作用和關(guān)系。對一些法律的執(zhí)行部門和專門的調(diào)查機(jī)構(gòu)來說,它們的任務(wù)是識別欺詐行為和發(fā)現(xiàn)犯罪傾向。這些單位也成功地運(yùn)用了數(shù)據(jù)挖掘技術(shù)。例如:這些方法能輔助分析人員識別麻醉品組織的相互交流作用中的犯罪行為模式、洗黑錢活動、內(nèi)部貿(mào)易操作、連環(huán)殺手的行動以及越境走私犯的目標(biāo)。數(shù)據(jù)挖掘技術(shù)也被情報(bào)部門的人員使用,他們把維持大型的數(shù)據(jù)源作為與國家安全問題相關(guān)活動的一部分。本書附錄B對當(dāng)今數(shù)據(jù)挖掘技術(shù)的典型商業(yè)應(yīng)用作了一個(gè)簡潔的縱覽。1.2 數(shù)據(jù)挖掘的起源看看作者們對數(shù)據(jù)挖掘的描述有多大不同!顯然我們在數(shù)據(jù)挖掘的定義上還遠(yuǎn)沒有達(dá)成一致,甚至沒有制定出到底什么是數(shù)據(jù)挖掘,數(shù)據(jù)挖掘是

10、使用學(xué)習(xí)方法將統(tǒng)計(jì)學(xué)強(qiáng)化后的一種形式,它是一個(gè)全新的革命性的概念嗎?從我們的觀點(diǎn)看,大部分?jǐn)?shù)據(jù)挖掘問題和相應(yīng)的解決方法都起源于傳統(tǒng)的數(shù)據(jù)分析。數(shù)據(jù)挖掘起源于多種學(xué)科,其中最重要的兩門是統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí),統(tǒng)計(jì)學(xué)起源于數(shù)學(xué),因此,它強(qiáng)調(diào)數(shù)學(xué)上的精確。在實(shí)踐測試之前,在理論基礎(chǔ)上建立一些東西的要求是明智的,相比之下,機(jī)器學(xué)習(xí)更多地起源于計(jì)算機(jī)實(shí)踐。這就導(dǎo)致了實(shí)踐的傾向,自覺地對一些東西進(jìn)行檢驗(yàn)來查看它表現(xiàn)的好壞,而不是去等待有效性的正式證據(jù)。如果說數(shù)據(jù)挖掘的統(tǒng)計(jì)學(xué)方法與機(jī)器學(xué)習(xí)方法之間的主要區(qū)別之一是數(shù)學(xué)和形式化被給予的地位的話,另一個(gè)區(qū)別就在于模型和算法規(guī)則之間側(cè)重點(diǎn)不同?,F(xiàn)代統(tǒng)計(jì)學(xué)幾乎完全是由模

11、型概念驅(qū)動的,是一個(gè)假定的結(jié)構(gòu),或者說是一個(gè)結(jié)構(gòu)的近似,這個(gè)結(jié)構(gòu)能夠產(chǎn)生數(shù)據(jù)。統(tǒng)計(jì)學(xué)強(qiáng)調(diào)模型,而機(jī)器學(xué)習(xí)傾向于強(qiáng)調(diào)算法。這不會讓人感到吃驚,“學(xué)習(xí)”這個(gè)詞包括了過程的概念,即一種含蓄的算法。數(shù)據(jù)挖掘中的基本模型法則也起源于控制理論,控制理論主要應(yīng)用于工程系統(tǒng)和工業(yè)過程。通過觀察一個(gè)未知系統(tǒng)(也被稱為目標(biāo)系統(tǒng))的輸入輸出信息,以決定其數(shù)學(xué)模型的問題通常被叫做系統(tǒng)識別。系統(tǒng)識別的目標(biāo)是多樣化的,并且是從數(shù)據(jù)挖掘的立場出發(fā)的。最重要的是預(yù)測系統(tǒng)的行為,并解釋系統(tǒng)變量之間的相互作用和關(guān)系。系統(tǒng)識別通常包括兩個(gè)組織嚴(yán)密的步驟:(1) 結(jié)構(gòu)識別在這一步驟中,我們要應(yīng)用到關(guān)于目標(biāo)系統(tǒng)的先驗(yàn)知識來決定一類模型

12、,在這類模型中搜尋將要導(dǎo)出的最適合的模型。通常這類模型都由一個(gè)參數(shù)函數(shù)y=f(u,t)來表示,y表示模型的輸出,u是一個(gè)輸入向量,t是一個(gè)參數(shù)向量,函數(shù)f的測定是依賴于問題的,函數(shù)基于設(shè)計(jì)者的經(jīng)驗(yàn)、直覺和控制目標(biāo)系統(tǒng)的自然法則。(2) 參數(shù)識別在第二步中,當(dāng)模型結(jié)構(gòu)已知時(shí),我們要做的就是應(yīng)用優(yōu)化技術(shù)來測定參數(shù)矢量t以便結(jié)果模型y*=f(u,t*)能恰如其分地描述目標(biāo)系統(tǒng)。一般而言,系統(tǒng)識別不是一個(gè)一次通過的過程,結(jié)構(gòu)和參數(shù)識別都要重復(fù)進(jìn)行直到找到滿意的模型為止,圖1-1圖形化地描述了迭代的過程。每次迭代中的典型步驟如下:數(shù)學(xué)模型識別技術(shù)待識別的目標(biāo)系統(tǒng)圖1-1 參數(shù)識別結(jié)構(gòu)圖(1) 詳細(xì)說明一

13、類公式化(數(shù)學(xué)化)的模型并對它們進(jìn)行參數(shù)化,y* = f(u,t)代表需識別的系統(tǒng)。(2) 選擇最適合可用數(shù)據(jù)集的參數(shù)(差值y - y*最小),完成參數(shù)識別。(3) 導(dǎo)入正確性檢驗(yàn)來檢測識別出來的模型是否能正確響應(yīng)沒見過的數(shù)據(jù)集(通常稱為檢驗(yàn),確認(rèn),或核查數(shù)據(jù)集)。(4) 一旦正確性檢驗(yàn)的結(jié)果滿足要求就停止這一過程。如果我們對目標(biāo)系統(tǒng)一無所知,結(jié)構(gòu)識別就會變得困難,我們必須在通過試驗(yàn)和在有誤差的情況下選擇結(jié)構(gòu)。我們對大多數(shù)工程系統(tǒng)和工業(yè)過程了解較多,而在大多數(shù)應(yīng)用數(shù)據(jù)挖掘技術(shù)的目標(biāo)系統(tǒng)中,這些結(jié)構(gòu)完全是未知的,或者這些結(jié)構(gòu)太復(fù)雜而難以得到一個(gè)適當(dāng)?shù)臄?shù)學(xué)模型。因此,用于參數(shù)識別的新技術(shù)已經(jīng)被開發(fā)

14、出來了,而且這些技術(shù)是當(dāng)今一系列數(shù)據(jù)挖掘技術(shù)的一部分。最后,我們要區(qū)別在數(shù)據(jù)挖掘中“模型”和“模式”是怎么解釋的?“模型”是一個(gè)“大型”的結(jié)構(gòu),或許是對多數(shù)(有時(shí)是全部)案例的關(guān)系的總結(jié)。反之,“模式”是一個(gè)局部結(jié)構(gòu),滿足于少數(shù)的案例或者很小的數(shù)據(jù)空間區(qū)域。值得注意的是,“模式”這個(gè)詞用于模式識別時(shí)的意義和它用于數(shù)據(jù)挖掘時(shí)的意義有很大的區(qū)別。在模式識別中,它是指將一個(gè)特定對象特征化的一個(gè)度量向量,是多維數(shù)據(jù)空間里的一個(gè)點(diǎn)。在數(shù)據(jù)挖掘中,模式僅僅是一個(gè)局部模型。本書把N維數(shù)據(jù)向量作為樣本。1.3 數(shù)據(jù)挖掘過程數(shù)據(jù)挖掘作為一門學(xué)科,我們沒有試圖去涵蓋關(guān)于它的所有可能的方法和所有不同的觀點(diǎn),而是從一

15、個(gè)可能的、十分廣泛的數(shù)據(jù)挖掘的定義開始。定義:數(shù)據(jù)挖掘是一個(gè)從已知數(shù)據(jù)集合中發(fā)現(xiàn)各種模型、概要和導(dǎo)出值的過程。這里,“過程”一詞相當(dāng)重要。即使是在一些專業(yè)環(huán)境中,也有這樣的一種觀點(diǎn):數(shù)據(jù)挖掘只是采摘和應(yīng)用基于計(jì)算機(jī)的工具來匹配出現(xiàn)的問題并自動獲取解決方案。這是一種對世界人為的理想化所形成的誤解,為什么這是錯(cuò)的呢?有幾種原因,一個(gè)原因是:數(shù)據(jù)挖掘不只是一些獨(dú)立工具的一個(gè)集合,它們彼此完全不同,并且等待著去匹配問題。第二個(gè)原因在于把一個(gè)問題和一種技術(shù)視為等同的觀念。在極少數(shù)情況下,研究問題可以充分、精確地陳述出來,使得方法的單獨(dú)和簡單的應(yīng)用將會滿足。實(shí)際上,現(xiàn)實(shí)中所發(fā)生的是:數(shù)據(jù)挖掘變成了一個(gè)反復(fù)

16、的過程。一個(gè)人對數(shù)據(jù)進(jìn)行研究,利用一些分析工具對數(shù)據(jù)進(jìn)行檢查,決定從另外一個(gè)角度來看它,可能會對數(shù)據(jù)進(jìn)行修改,然后又回到開始,應(yīng)用別的數(shù)據(jù)分析工具,得到一個(gè)更好的或不同的結(jié)果。這個(gè)過程可能循環(huán)許多次,每一種技術(shù)都被用到,以便查明數(shù)據(jù)的細(xì)微的不同的方面詢問一個(gè)數(shù)據(jù)的細(xì)微不同的問題。在這里不得不描述的是令現(xiàn)代數(shù)據(jù)挖掘激動人心的發(fā)展史。盡管如此,數(shù)據(jù)挖掘仍然不是統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)以及其他方法和工具的隨意應(yīng)用,它不是在分析技術(shù)空間里面亂闖,而是一個(gè)精心策劃和深思熟慮過的,決定什么才是最有用的、最有前景的和最有啟迪作用的一個(gè)過程。認(rèn)識到這一點(diǎn)很重要:從數(shù)據(jù)中發(fā)現(xiàn)或估計(jì)其相關(guān)性,或從中完整地挖掘出新數(shù)據(jù),只

17、是人們所采用的一般實(shí)驗(yàn)性程序中的一部分,這些人包括科學(xué)家,工程師和其他應(yīng)用標(biāo)準(zhǔn)步驟從數(shù)據(jù)中得出結(jié)論的人。適合數(shù)據(jù)挖掘問題的一般實(shí)驗(yàn)性程序包括以下步驟。1.3.1 陳述問題和闡明假設(shè)大多數(shù)基于數(shù)據(jù)的模型研究都是在一個(gè)特定的應(yīng)用領(lǐng)域里完成的。因此,為了提出一個(gè)有意義的問題的陳述,擁有領(lǐng)域內(nèi)詳盡的知識和經(jīng)驗(yàn)是必不可少的。不幸的是,許多應(yīng)用研究往往以犧牲對問題的清晰描述為代價(jià)而集中在數(shù)據(jù)挖掘技術(shù)上,在這一步中,模型建立者通常會為未知的相關(guān)性指定一組變量,如果可能,還會指定此相關(guān)性的一個(gè)大體形式作為初始假設(shè)。對當(dāng)前問題可能會有幾個(gè)闡明的假設(shè)。這一步要求將應(yīng)用領(lǐng)域的專門技術(shù)和數(shù)據(jù)挖掘模型相結(jié)合,實(shí)際上,這

18、往往意味著數(shù)據(jù)挖掘?qū)<液蛻?yīng)用專家之間密切地相互協(xié)作。在成功的數(shù)據(jù)挖掘應(yīng)用中,這種協(xié)作并沒有停止在初始階段,而是持續(xù)了數(shù)據(jù)挖掘的整個(gè)過程。1.3.2 數(shù)據(jù)收集這一步是關(guān)于數(shù)據(jù)是怎樣產(chǎn)生和收集的。通常有兩種截然不同的可能。第一種是當(dāng)數(shù)據(jù)產(chǎn)生過程在專家(建模者)的控制之下時(shí):這種方法被認(rèn)為是“設(shè)計(jì)實(shí)驗(yàn)”。第二種情況是專家不能影響數(shù)據(jù)產(chǎn)生過程時(shí):這種方法被認(rèn)為是“觀察法”。觀察設(shè)置,也就是數(shù)據(jù)隨機(jī)產(chǎn)生,在大多數(shù)數(shù)據(jù)挖掘應(yīng)用中都被采用。具有代表性的是,數(shù)據(jù)收集完成后取樣的分布也是完全未知的,或者說其分布是在數(shù)據(jù)搜集過程中部分或者不明確地給出的。但是,我們要理解數(shù)據(jù)搜集是怎樣影響它的理論分布的,這一點(diǎn)相當(dāng)

19、重要。這樣的先驗(yàn)知識對以前的建模以及后來的對結(jié)果的最終解釋都是相當(dāng)重要的。同樣,對于用于評估模型的數(shù)據(jù)以及后面用于測試和應(yīng)用于模型的數(shù)據(jù),要確定它們來自同樣的未知的樣本分布也是很重要的。如果分布不同,那么評估的模型就不能在最終的結(jié)果應(yīng)用中成功地使用。1.3.3 數(shù)據(jù)預(yù)處理在觀察設(shè)置中,數(shù)據(jù)常常采集于已存在數(shù)據(jù)庫、數(shù)據(jù)倉庫和數(shù)據(jù)集市中。數(shù)據(jù)預(yù)處理通常包括至少兩個(gè)常見任務(wù):1. 異常點(diǎn)的檢測(和去除)異常點(diǎn)是與眾不同的數(shù)值,這些數(shù)值和大多數(shù)觀察值不一致。一般來講,異常點(diǎn)是由測量誤差、編碼和記錄誤差產(chǎn)生的,有時(shí)也來自于自然的異常值。這種不具備代表性的樣本以后會嚴(yán)重影響模型的產(chǎn)生。對異常點(diǎn)有兩種處理辦

20、法:a) 把檢測并最終去除異常點(diǎn)作為預(yù)處理階段的一部分。b) 尋找不受異常點(diǎn)影響的健壯性建模方法。2. 比例縮放、編碼和選擇特征數(shù)據(jù)預(yù)處理過程包括幾個(gè)步驟,如各種比例縮放和不同類型的編碼。例如,一個(gè)取值范圍為0,1的特征和一個(gè)取值范圍為-100,1000的特征,它們在應(yīng)用技術(shù)中的加權(quán)是不一樣的,對最終的數(shù)據(jù)挖掘結(jié)果的影響也不盡相同。因此,推薦對它們進(jìn)行比例縮放并使它們加權(quán)相同以進(jìn)行進(jìn)一步的分析。同樣,通過為后來的數(shù)據(jù)建模提供較少量資料豐富的特征,詳細(xì)應(yīng)用的編碼方法通??梢酝瓿删S度歸約。這兩類預(yù)處理任務(wù)只是在數(shù)據(jù)挖掘過程中大量預(yù)處理活動的說明性的例證。數(shù)據(jù)預(yù)處理步驟不應(yīng)該與數(shù)據(jù)挖掘的其他階段完全

21、獨(dú)立起來考慮,在數(shù)據(jù)挖掘過程的每一次迭代中,所有的活動加在一起都能為后面的迭代定義新的和改進(jìn)的數(shù)據(jù)集。通常,通過把先驗(yàn)知識合并為具體應(yīng)用比例縮放和編碼的形式,一種好的預(yù)處理方法能為數(shù)據(jù)挖掘技術(shù)提供最佳的陳述。更多關(guān)于這些技術(shù)和預(yù)處理階段的內(nèi)容大體上將會在第2章和第3章中給出。在第2章和第3章中,我們把預(yù)處理和相應(yīng)的技術(shù)功能性地劃分為兩個(gè)子階段:數(shù)據(jù)準(zhǔn)備和數(shù)據(jù)維度歸約。1.3.4 模型評估選擇并實(shí)現(xiàn)適當(dāng)?shù)臄?shù)據(jù)挖掘技術(shù)是這一階段的主要任務(wù)。這個(gè)過程往往并不是直截了當(dāng)?shù)?,?shí)際上,實(shí)現(xiàn)是建立在幾個(gè)模型的基礎(chǔ)上的,從中選擇最好的模型是額外的任務(wù),從數(shù)據(jù)中學(xué)習(xí)和發(fā)掘的基本原則將會在本書的第4章介紹,隨后,

22、第513章解釋和分析一些特殊的技術(shù),應(yīng)用這些技術(shù)可以從數(shù)據(jù)中成功地學(xué)習(xí),也可以應(yīng)用這些技術(shù)找到適當(dāng)?shù)哪P汀?.3.5 解釋模型和得出結(jié)論在大多數(shù)情況下,數(shù)據(jù)挖掘模型應(yīng)該有助于決策。因此,要對這種模型進(jìn)行說明以使模型有用,因?yàn)槿藗儾粫趶?fù)雜的“黑箱模型”的基礎(chǔ)上作決策。注意,模型準(zhǔn)確性的目標(biāo)和模型說明的準(zhǔn)確性的目標(biāo)有點(diǎn)互相矛盾。一般來說,簡單的模型容易說明,但是其準(zhǔn)確性就差一些?,F(xiàn)代的數(shù)據(jù)挖掘方法寄望于使用高維度的模型來獲得高精度的結(jié)果。用特定的技術(shù)驗(yàn)證這些結(jié)果對這些模型進(jìn)行解釋說明被看作是一項(xiàng)獨(dú)立的任務(wù),同時(shí)也是非常重要的。用戶不會想要一個(gè)數(shù)百頁的數(shù)值結(jié)果,這樣的結(jié)果難以理解,不能總結(jié)、解釋,

23、也不能用這樣的結(jié)果來進(jìn)行成功的決策。盡管本書將重點(diǎn)放在數(shù)據(jù)挖掘過程中的第3步和第4步,我們還是必須了解它們只不過是一個(gè)更為復(fù)雜的過程中的兩個(gè)步驟而已,不管是個(gè)別地來看數(shù)據(jù)挖掘的各個(gè)階段,還是整個(gè)的數(shù)據(jù)挖掘過程,都是高度反復(fù)的,如圖1-2所示,對整個(gè)過程的良好理解對任何成功的應(yīng)用都是重要的。如果沒有恰當(dāng)?shù)厥占皖A(yù)處理數(shù)據(jù),或者沒有對問題進(jìn)行有意義的明確表述,不管第4步中所使用的數(shù)據(jù)挖掘方法有多強(qiáng)大,最終模型都將是無效的。陳述問題搜集信息進(jìn)行預(yù)處理解釋模型和得出結(jié)論評估模型(挖掘數(shù)據(jù))圖1-2 數(shù)據(jù)挖掘過程1.4 大型數(shù)據(jù)集隨著我們進(jìn)入數(shù)字信息時(shí)代,數(shù)據(jù)超負(fù)的問題迫在眉睫,我們分析和理解大規(guī)模數(shù)據(jù)

24、集,就是我們稱之為大型數(shù)據(jù)集的能力,遠(yuǎn)遠(yuǎn)落后于我們采集數(shù)據(jù)和存儲數(shù)據(jù)的能力。數(shù)字化信息的大型數(shù)據(jù)庫是普遍存在的,來自于附近商店的結(jié)賬記錄,銀行信用卡授權(quán)機(jī)構(gòu),你的醫(yī)生辦公室,你的電話呼叫模式以及許多應(yīng)用中的數(shù)據(jù)都生成數(shù)字記錄的數(shù)據(jù)流,這些數(shù)據(jù)流都存放在巨大的商業(yè)數(shù)據(jù)庫中??茖W(xué)家們處于當(dāng)今的數(shù)據(jù)收集機(jī)中的更高端,他們使用來源不同的數(shù)據(jù)從遠(yuǎn)程感知平臺到細(xì)胞細(xì)節(jié)的顯微探測。科學(xué)儀器可以很容易地在很短的時(shí)期內(nèi)生成千兆字節(jié)的數(shù)據(jù)并把它們存儲到計(jì)算機(jī)中,伴隨著互聯(lián)網(wǎng)的擴(kuò)展,信息時(shí)代造成了信息資源和信息存儲單元呈指數(shù)級的增長。在圖1-3給出的例子中,我們可以看到,僅僅在最近的3年里,互聯(lián)網(wǎng)上的主機(jī)數(shù)量有顯著

25、增長。這些數(shù)字和存儲在互聯(lián)網(wǎng)上的信息量直接成比例。在數(shù)據(jù)搜集和數(shù)據(jù)的組織能力與分析能力之間存在著的差距正在迅速擴(kuò)大。當(dāng)前的硬件和數(shù)據(jù)庫技術(shù)允許高效的、廉價(jià)的、可靠的數(shù)據(jù)存儲和訪問。但是,不管其內(nèi)容是商業(yè)的、醫(yī)學(xué)的、科學(xué)的或者政治的,數(shù)據(jù)集本身在其原始形式下是沒有什么直接價(jià)值的,有價(jià)值的是從數(shù)據(jù)中推出的并付諸實(shí)用的知識。例如,消費(fèi)品公司的銷售數(shù)據(jù)庫可以得出某種產(chǎn)品的銷售和某個(gè)人口統(tǒng)計(jì)組群之間的相互關(guān)系。這些知識可用于引入新的、有目標(biāo)的銷售業(yè)務(wù)活動,和無目標(biāo)的活動相反,這些活動能夠帶來可預(yù)測的財(cái)政回報(bào)。400,00016,000,0001998 1999 2000年主機(jī)數(shù)量圖1-3 互聯(lián)網(wǎng)上主機(jī)的

26、增長問題的根源是,對于手工分析和解譯來說,或者甚至對半自動的基于計(jì)算機(jī)的分析來說,數(shù)據(jù)的規(guī)模和維數(shù)都太大了。另外,科學(xué)家或者商業(yè)經(jīng)理面對幾百或者上千條記錄有效地工作,對每一個(gè)數(shù)據(jù)點(diǎn)都有幾十條或幾百條特征描述的幾百萬個(gè)數(shù)據(jù)點(diǎn)進(jìn)行有效地挖掘,這也是一個(gè)問題。想象一下對幾千兆字節(jié)的高分辨率的(每張圖像23,04023,040像素)空攝圖像數(shù)據(jù)進(jìn)行分析,或者分析有千百萬個(gè)組成部分的人類基因組數(shù)據(jù)庫吧。從理論上講,“大型數(shù)據(jù)”能得出更有力的結(jié)論。然而在實(shí)踐中會出現(xiàn)許多困難,商業(yè)界很好地意識到了今天的信息超負(fù)。有分析顯示:1. 61%的經(jīng)理相信他們的工作場所中出現(xiàn)了信息超負(fù)。2. 80%的人相信情況會越來

27、越糟。3. 超過50%的經(jīng)理因?yàn)樾畔⒊?fù)而在決策過程中忽略了數(shù)據(jù)。4. 84%的經(jīng)理所存儲信息并不用于當(dāng)前的分析,而是為了以后使用。5. 60%的經(jīng)理相信搜集信息的成本高于信息本身的價(jià)值。解決方法是什么?努力工作?是的,但是你能堅(jiān)持多久呢?因?yàn)橄拗品浅>o。雇用一個(gè)助手,也許行得通,如果你支付得起的話。忽略信息?但是,這樣你將失去市場競爭力。僅有的真正的方法是用新的數(shù)據(jù)挖掘技術(shù)來代替?zhèn)鹘y(tǒng)的數(shù)據(jù)分析和解釋方法(手工的和基于計(jì)算機(jī)的)。理論上,大多數(shù)數(shù)據(jù)挖掘方法都適用于大型數(shù)據(jù)集。大型數(shù)據(jù)集具有產(chǎn)生更有價(jià)值的信息的潛力。如果數(shù)據(jù)挖掘是對可行空間的搜索,那么大型數(shù)據(jù)集提出了更多的列舉和評估的可行性。增

28、長的列舉和搜索的潛能通過實(shí)踐中的限制達(dá)到平衡。除了用于大型數(shù)據(jù)集的數(shù)據(jù)挖掘算法的計(jì)算復(fù)雜性之外,更加徹底的搜索也有可能增加發(fā)現(xiàn)一些低可行性方法的風(fēng)險(xiǎn)。這些方法對所給的數(shù)據(jù)集的評價(jià)很不錯(cuò),但是可能并不適合將來的期望。在當(dāng)今的具備巨大的互聯(lián)網(wǎng)基礎(chǔ)設(shè)施的多媒體環(huán)境下,產(chǎn)生了不同類型的數(shù)據(jù)和數(shù)字化的存儲。要準(zhǔn)備適當(dāng)?shù)臄?shù)據(jù)挖掘方法,我們必須分析數(shù)據(jù)集的基本類型和特征。分析的第一步是關(guān)于它們的計(jì)算機(jī)表述和使用進(jìn)行數(shù)據(jù)分類。數(shù)據(jù)通常是數(shù)據(jù)挖掘過程的原始資料,可以分為結(jié)構(gòu)化數(shù)據(jù),半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。許多包含結(jié)構(gòu)化數(shù)據(jù)的商務(wù)數(shù)據(jù)庫都由定義良好的具有數(shù)字值或者文字?jǐn)?shù)字值的字段組成??茖W(xué)數(shù)據(jù)庫則可能包括所有

29、的3種數(shù)據(jù)。半結(jié)構(gòu)化數(shù)據(jù)的例子是商務(wù)文檔的電子圖像、醫(yī)學(xué)報(bào)告、執(zhí)行概要和修復(fù)手冊。多數(shù)Web文檔也可以歸為此類。非結(jié)構(gòu)化數(shù)據(jù)的例子如商店的監(jiān)視攝像機(jī)所記錄的錄像。硬件成本的下降使得這些可視化的,通常是人們所感興趣的過程或事件的多媒體記錄目前非常普及和流行。這種形式的數(shù)據(jù)往往需要昂貴的處理,以提取和組織蘊(yùn)含在其中的信息。結(jié)構(gòu)化數(shù)據(jù)常常被認(rèn)為是傳統(tǒng)的數(shù)據(jù),半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)合在一起被稱為非傳統(tǒng)數(shù)據(jù)(也叫多媒體數(shù)據(jù)),目前的大多數(shù)數(shù)據(jù)挖掘方法和商業(yè)工具都可應(yīng)用于處理傳統(tǒng)數(shù)據(jù)。但是,針對非傳統(tǒng)數(shù)據(jù)的數(shù)據(jù)挖掘工具和將非傳統(tǒng)數(shù)據(jù)向結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換的接口都在飛速發(fā)展。數(shù)據(jù)挖掘的結(jié)構(gòu)化數(shù)據(jù)的標(biāo)準(zhǔn)模型是案

30、例的集合,對所謂特征的潛在度量進(jìn)行詳細(xì)說明,這些特征一律要在多數(shù)案例中測量。數(shù)據(jù)挖掘問題的結(jié)構(gòu)化數(shù)據(jù)通常都是以表格形式或者單個(gè)的關(guān)系(關(guān)系數(shù)據(jù)庫中的術(shù)語)來表述的,表格的列是存儲在表格中的對象的特征,表格的行則是特殊實(shí)體的特征值。圖1-4是一個(gè)數(shù)據(jù)集及其特征的簡化圖,在數(shù)據(jù)挖掘文獻(xiàn)中,我們常常用樣本或案例這兩個(gè)術(shù)語來代表行。結(jié)構(gòu)化數(shù)據(jù)記錄中有許多不同類型的特征(屬性或變量)例如字段這在數(shù)據(jù)挖掘中非常普遍。并不是所有的數(shù)據(jù)挖掘方法都擅長于處理不同類型的特征。樣本特征所給樣本的特征值圖1-4 數(shù)據(jù)集的表格表示描述特征有幾種方法。一種方法是查看一個(gè)特征,或者變量這個(gè)術(shù)語在形式化過程中更常用。看它是一

31、個(gè)自變量還是一個(gè)因變量。也就是說,看這個(gè)變量的值是否要依賴數(shù)據(jù)集中出現(xiàn)的其他變量的值。這是一種基于模型的分類變量方法。所有的因變量都被認(rèn)為是正在建模的系統(tǒng)的輸出,而自變量則是系統(tǒng)的輸入,如圖1-5所示。還有一些影響系統(tǒng)行為的附加變量,但在建模過程中這些變量所對應(yīng)的值在數(shù)據(jù)集中是不可用的。原因從測量這些特征有高度的復(fù)雜性和高成本,到建模者不理解一些因素在模型中的影響和重要性,不盡相同。通常把這些變量叫做未識別變量,它們是造成模型中的不確定性和要進(jìn)行預(yù)測的主要原因。XZY系 統(tǒng)圖1-5 一個(gè)真實(shí)系統(tǒng),除了輸入(自變量)X和輸出(因 變量)Y之外,往往還有未識別的輸入變量Z今天的計(jì)算機(jī)和相應(yīng)的軟件工

32、具都支持對有幾百萬樣本和幾百個(gè)特征的數(shù)據(jù)集進(jìn)行處理。大型數(shù)據(jù)集,包括帶有混和型數(shù)據(jù)類型的數(shù)據(jù)集,都是數(shù)據(jù)挖掘技術(shù)應(yīng)用的典型初始環(huán)境,當(dāng)一個(gè)大型數(shù)據(jù)集存放在計(jì)算機(jī)中時(shí),不能倉促地運(yùn)用數(shù)據(jù)挖掘技術(shù),因?yàn)槭紫纫鉀Q數(shù)據(jù)質(zhì)量這個(gè)重要問題。同時(shí),在這個(gè)時(shí)期進(jìn)行手工的質(zhì)量分析顯然也是不可能的。因此,有必要在數(shù)據(jù)挖掘過程的早期階段進(jìn)行數(shù)據(jù)質(zhì)量分析準(zhǔn)備,這通常是數(shù)據(jù)預(yù)處理階段所要進(jìn)行的工作。數(shù)據(jù)的質(zhì)量對系統(tǒng)的映像有深遠(yuǎn)的影響,并決定了相應(yīng)的含蓄描述的模型,并決定了相應(yīng)的含蓄描述的模型,同時(shí)也會限制終端用戶作出精明決策的能力。如果數(shù)據(jù)質(zhì)量很差的話,即使使用有效的數(shù)據(jù)挖掘技術(shù),也很難在組織中進(jìn)行主要的性質(zhì)上的改變

33、。同樣,要從低質(zhì)量的科學(xué)數(shù)據(jù)中得出新的、可靠的發(fā)現(xiàn)也幾乎是不可能的。數(shù)據(jù)質(zhì)量有許多指標(biāo): 數(shù)據(jù)應(yīng)當(dāng)準(zhǔn)確。分析者必須檢查名稱的拼寫是否正確,代碼是否在給定的范圍內(nèi),取值是否完整等。 應(yīng)該根據(jù)數(shù)據(jù)類型來存儲數(shù)據(jù)。分析者要確保數(shù)值型的數(shù)據(jù)不要以字符形式出現(xiàn),整型數(shù)據(jù)不要以實(shí)數(shù)形式出現(xiàn)。 數(shù)據(jù)要有完整性。不要因?yàn)椴煌脩糁g的沖突而丟失更新資料,如果資料不是數(shù)據(jù)庫管理系統(tǒng)(DBMS)的一部分的話,應(yīng)當(dāng)執(zhí)行健壯的備份和恢復(fù)程序。 數(shù)據(jù)要有一致性。在對不同來源的大型數(shù)據(jù)集進(jìn)行集成后,數(shù)據(jù)的形式和內(nèi)容也應(yīng)當(dāng)一致。 數(shù)據(jù)不要有冗余。在實(shí)踐中,冗余數(shù)據(jù)要減到最少,論述詳盡的副本要得到控制,去除復(fù)制的記錄。 數(shù)據(jù)

34、應(yīng)當(dāng)及時(shí)。應(yīng)當(dāng)從數(shù)據(jù)中明確地或者從數(shù)據(jù)的構(gòu)成方式中含蓄地識別出數(shù)據(jù)的時(shí)間成分。 數(shù)據(jù)應(yīng)當(dāng)能夠被很好地理解。命名規(guī)格是數(shù)據(jù)能被很好的理解的必要條件,但卻不是惟一條件,用戶應(yīng)當(dāng)明白,數(shù)據(jù)對應(yīng)的是一個(gè)已建立的域。 數(shù)據(jù)集應(yīng)當(dāng)是完整的?,F(xiàn)實(shí)中會發(fā)生數(shù)據(jù)丟失,要把數(shù)據(jù)丟失降到最小。丟失數(shù)據(jù)會降低全局模型的質(zhì)量。另一方面,一些數(shù)據(jù)挖掘技術(shù)相當(dāng)健壯,它們支持對丟失數(shù)據(jù)的數(shù)據(jù)集進(jìn)行分析。在介紹基礎(chǔ)數(shù)據(jù)挖掘預(yù)處理方法的第2章和第3章中,將會更詳細(xì)地闡述怎樣在出現(xiàn)這些數(shù)據(jù)質(zhì)量問題的情況下工作和怎樣解決這些問題。這些處理大多都是利用數(shù)據(jù)倉庫技術(shù)來完成的,1.5節(jié)會作簡單的介紹。1.5 數(shù)據(jù)倉庫雖然數(shù)據(jù)倉庫的存在并不

35、是數(shù)據(jù)挖掘的先決條件,但是實(shí)際上,通過對數(shù)據(jù)倉庫的訪問,數(shù)據(jù)挖掘任務(wù)變得容易多了,對大公司來說更是如此。數(shù)據(jù)倉庫的主要目標(biāo)是增加決策過程的“情報(bào)”和此過程的相關(guān)人員的知識。例如:產(chǎn)品銷售主管看待產(chǎn)品銷售業(yè)績的多維度的能力從地區(qū)、銷售類型、顧客統(tǒng)計(jì)群方面來看可能會取得更好的成就,增加產(chǎn)量,或者對產(chǎn)品庫存和分布作出新的決策。應(yīng)當(dāng)指出,普通公司只能做普通工作。而超級公司是不同的,他們注意細(xì)節(jié)。他們可能需要以不同的方式對數(shù)據(jù)切片和切塊,以獲得對其結(jié)構(gòu)更深刻的理解,并取得可能的進(jìn)步。用戶要進(jìn)行這些處理,就必須了解存在著什么樣的數(shù)據(jù),它存放在什么地方,以及怎樣訪問它。數(shù)據(jù)倉庫對不同的人來說有不同的意義,一

36、些定義限于數(shù)據(jù),一些則涉及人、方法、軟件、工具和數(shù)據(jù)。一個(gè)綜合性的定義是:數(shù)據(jù)倉庫是一個(gè)集成的,面向主題的、設(shè)計(jì)用于決策支持功能(DSF)的數(shù)據(jù)庫的集合,數(shù)據(jù)中的每一個(gè)數(shù)據(jù)單元在時(shí)間上都是和某個(gè)時(shí)刻相關(guān)的。在這個(gè)定義的基礎(chǔ)上,數(shù)據(jù)倉庫也可被看作是某個(gè)組織的數(shù)據(jù)存儲庫,用于支持戰(zhàn)略決策。數(shù)據(jù)倉庫的功能是以集成的方式存儲整個(gè)組織的歷史數(shù)據(jù),這些數(shù)據(jù)會影響到這個(gè)組織和企業(yè)的多個(gè)方面。數(shù)據(jù)倉庫中數(shù)據(jù)僅僅響應(yīng)終端用戶的查詢而決不會更新,這些終端用戶通常都是決策者。一般來講,數(shù)據(jù)倉庫都很巨大,它存儲了幾百萬條記錄。在很多情況下,一個(gè)組織可能有幾個(gè)局部或部門的數(shù)據(jù)倉庫,這常常叫做數(shù)據(jù)集市,數(shù)據(jù)集市是用于滿足

37、一組特殊用戶需要的數(shù)據(jù)倉庫。有大有小,其規(guī)模主要依賴于其主題的范圍。在數(shù)據(jù)倉庫發(fā)展的早期,由于對什么是數(shù)據(jù)倉庫有本質(zhì)上的誤解,一些項(xiàng)目出現(xiàn)波折并不令人驚訝,令人驚訝的是這些項(xiàng)目的大小和規(guī)模。許多公司在確切地定義數(shù)據(jù)倉庫、數(shù)據(jù)倉庫要解決的商業(yè)問題和使用數(shù)據(jù)倉庫做什么的問題上犯了錯(cuò),要更好地理解數(shù)據(jù)倉庫的設(shè)計(jì)過程,兩個(gè)方面是最重要的:第一是數(shù)據(jù)倉庫中存儲的特殊數(shù)據(jù)的類型(分類),第二是為了使數(shù)據(jù)有利于決策而把它準(zhǔn)備成最終形式所要進(jìn)行的轉(zhuǎn)換。數(shù)據(jù)倉庫包括以下的數(shù)據(jù)類別,這個(gè)分類使其適應(yīng)于時(shí)間依賴的數(shù)據(jù)源。(1) 過去細(xì)節(jié)數(shù)據(jù)(2) 當(dāng)前(新)細(xì)節(jié)數(shù)據(jù)(3) 輕度綜合數(shù)據(jù)(4) 高度綜合數(shù)據(jù)(5) 元

38、數(shù)據(jù)(數(shù)據(jù)目錄或向?qū)?在數(shù)據(jù)倉庫中進(jìn)行這5種基本類型或?qū)С鰯?shù)據(jù)的準(zhǔn)備,數(shù)據(jù)基本類型的轉(zhuǎn)換已經(jīng)標(biāo)準(zhǔn)化。有4種主要的轉(zhuǎn)換形式,每一種都有自己的特點(diǎn):1. 簡單轉(zhuǎn)換這種轉(zhuǎn)換是所有其他復(fù)雜轉(zhuǎn)換的基石。這種類型包括數(shù)據(jù)操控,它一次只集中在一個(gè)字段上,而不考慮相關(guān)字段的值。例如改變字段的數(shù)據(jù)類型或把字段的編碼值更換成譯碼值。2. 清潔和凈化這種轉(zhuǎn)換確保一個(gè)字段或相關(guān)組的字段格式和使用的一致性。例如它可能包括地址信息的正確格式化。這類轉(zhuǎn)換也包括對一個(gè)特定字段的值的有效性進(jìn)行檢查,通常檢查取值范圍或從列表中選取。3. 集成這是對有一個(gè)或多個(gè)來源的操作型數(shù)據(jù)進(jìn)行處理,并對它進(jìn)行字段到字段的映射,在數(shù)據(jù)倉庫中得到

39、一個(gè)新的數(shù)據(jù)結(jié)構(gòu)的過程。在構(gòu)建數(shù)據(jù)倉庫時(shí),公有的標(biāo)志符問題是最難的集成問題中的一個(gè)。從本質(zhì)上講,當(dāng)同一個(gè)實(shí)體具有多個(gè)系統(tǒng)源并且無法將這些實(shí)體區(qū)分開來時(shí),就會出現(xiàn)這樣的情況。這是一個(gè)有挑戰(zhàn)性的問題,在很多情況下,這個(gè)問題不能以自動化的方式解決,常常需要用復(fù)雜的算法把可能的匹配進(jìn)行配對。當(dāng)同一個(gè)數(shù)據(jù)元素有多個(gè)來源時(shí),就會出現(xiàn)另一個(gè)復(fù)雜的數(shù)據(jù)集成方案。在現(xiàn)實(shí)中,這些值相互對立,解決它們的沖突并不是一帆風(fēng)順的事情,出現(xiàn)這樣的情況很普通。數(shù)據(jù)倉庫中的數(shù)據(jù)元素沒有值也同樣是個(gè)難題,所有的這些問題和相應(yīng)的自動化或半自動化的解決方法總是依賴于域的。4. 聚合和總結(jié)這是將操作型環(huán)境中的數(shù)據(jù)實(shí)例濃縮成更小的數(shù)據(jù)倉

40、庫環(huán)境中的實(shí)例的方法。雖然聚合和總結(jié)這兩個(gè)術(shù)語在文獻(xiàn)中常常交替使用,我們確信在數(shù)據(jù)倉庫環(huán)境中它們在意義上有細(xì)微的不同??偨Y(jié)是一維或多維數(shù)據(jù)值的簡單相加。例如:合計(jì)日銷量以得出月銷量。聚合指的是不同的商業(yè)元素相加得到共同的一個(gè)總計(jì),它高度依賴于域。例如:聚合是將產(chǎn)品日銷量和咨詢月銷量相加得到一個(gè)綜合性月總計(jì)。這些轉(zhuǎn)換是我們把數(shù)據(jù)倉庫作為數(shù)據(jù)挖掘過程的數(shù)據(jù)來源的主要原因。如果數(shù)據(jù)倉庫可用的話,數(shù)據(jù)挖掘的預(yù)處理階段就可以極大地簡化,甚至有時(shí)可以去掉預(yù)處理階段。不要忘了,數(shù)據(jù)準(zhǔn)備是最耗時(shí)的階段。雖然數(shù)據(jù)倉庫的實(shí)現(xiàn)是一個(gè)復(fù)雜的任務(wù),很多文章都對其進(jìn)行了非常詳盡的描述,本書只給出它的基本特征。通過以下基本

41、步驟,將數(shù)據(jù)倉庫的發(fā)展過程概括為3個(gè)階段。 建模簡單地說,就是要花時(shí)間去了解商業(yè)過程、這些過程中的信息需求以及過程中通常會作出的決策。 構(gòu)建建立適合決策支持類型的工具的需求,這種支持對目標(biāo)商業(yè)過程是必需的,創(chuàng)建一個(gè)有助于進(jìn)一步定義信息需求的數(shù)據(jù)模型,把問題分解為最終形式的數(shù)據(jù)規(guī)格和現(xiàn)行的數(shù)據(jù)存儲,以數(shù)據(jù)集市或更全面的數(shù)據(jù)倉庫來表述。 部署在全部過程中相對早地去實(shí)現(xiàn)存入倉庫的數(shù)據(jù)的屬性以及要采用的不同的商業(yè)智能工具,從培訓(xùn)用戶開始。部署階段顯然包括這樣的一段時(shí)間:用戶研究存儲庫(以了解可用的和應(yīng)當(dāng)可用的數(shù)據(jù))和現(xiàn)行數(shù)據(jù)倉庫的早期版本。這會導(dǎo)致數(shù)據(jù)倉庫出現(xiàn)演化,包括增加更多的數(shù)據(jù),擴(kuò)充歷史周期,或

42、重新回到構(gòu)建階段以便通過數(shù)據(jù)模型來擴(kuò)展數(shù)據(jù)倉庫的規(guī)模。既然數(shù)據(jù)倉庫的唯一功能是向終端用戶提供信息以支持決策,數(shù)據(jù)挖掘體現(xiàn)了數(shù)據(jù)倉庫一個(gè)最主要的應(yīng)用。與其他查詢工具和應(yīng)用系統(tǒng)不同,數(shù)據(jù)挖掘過程向終端用戶提供提取隱藏的、非同等常的信息的能力。這種信息雖然更難提取,但能提供更大的商業(yè)和科學(xué)利益,也能使對“數(shù)據(jù)倉庫和數(shù)據(jù)挖掘”的投資產(chǎn)出更高的利潤。數(shù)據(jù)挖掘與其他典型的數(shù)據(jù)倉庫應(yīng)用,如結(jié)構(gòu)化查詢語言(SQL)和聯(lián)機(jī)分析處理工具(OLAP),它們之間怎么不同呢?這兩種工具也用于數(shù)據(jù)倉庫。SQL是一種標(biāo)準(zhǔn)的關(guān)系數(shù)據(jù)庫語言,善于進(jìn)行這樣的查詢:在數(shù)據(jù)庫數(shù)據(jù)上強(qiáng)加一些約束條件以便于獲取答案。相比之下,數(shù)據(jù)挖掘方

43、法善于進(jìn)行另外一種查詢,這種查詢在本質(zhì)上是探測性的,試圖獲得隱藏的而不是明顯的信息。當(dāng)我們知道我們在尋找什么并能正式地描繪它的時(shí)候,SQL就非常有用。而當(dāng)我們僅僅含糊地知道我們在尋找什么的時(shí)候,我們使用數(shù)據(jù)挖掘方法。因此,這兩種數(shù)據(jù)倉庫應(yīng)用是互補(bǔ)的。OLAP工具和方法在近年來變得非常流行,因?yàn)樗鼈優(yōu)橛脩籼峁┒鄠€(gè)數(shù)據(jù)視圖來對數(shù)據(jù)倉庫的數(shù)據(jù)進(jìn)行分析,這些視圖都有先進(jìn)的圖形表述對它進(jìn)行支持。在這些視圖中,不同的數(shù)據(jù)維度和不同的事務(wù)特征相對應(yīng)。OLAP工具可以容易地從任意角度觀察空間數(shù)據(jù)或?qū)ζ淝衅颓袎K,雖然OLAP工具像數(shù)據(jù)挖據(jù)工具一樣提供由數(shù)據(jù)導(dǎo)出的答案,它們之間的相似性卻僅限于此。在OLAP中從

44、數(shù)據(jù)導(dǎo)出的答案引出類似于電子數(shù)據(jù)表中的計(jì)算,因?yàn)閮烧叨加煤唵味蚁冗M(jìn)的(given-in-advance)計(jì)算。OLAP工具不依賴于數(shù)據(jù),也不創(chuàng)造出新的知識。它們通常都是幫助終端用戶得出他們的結(jié)論和決策的具有專門用途的可視化工具,并基于圖形化濃縮的數(shù)據(jù)。OLAP工具對數(shù)據(jù)挖掘過程也很有用,它是數(shù)據(jù)挖掘的一部分,但不能代替數(shù)據(jù)挖掘。1.6 本書的結(jié)構(gòu)在第1章介紹了數(shù)據(jù)挖掘的基本概念以后,本書余下的部分圍繞著數(shù)據(jù)挖掘過程的基本階段。在第2章和第3章中解釋原始大型數(shù)據(jù)集的一些共同的特性和一些典型數(shù)據(jù)預(yù)處理技術(shù),本章強(qiáng)調(diào)了這些初始階段對整個(gè)數(shù)據(jù)挖掘結(jié)果最終的質(zhì)量和成功的影響和重要性。第2章提出了對原始

45、數(shù)據(jù),包括對具有丟失數(shù)據(jù)和時(shí)間依賴屬性的數(shù)據(jù)集進(jìn)行轉(zhuǎn)換的一些基本技術(shù)。還有異常點(diǎn)分析技術(shù),它是對雜亂數(shù)據(jù)進(jìn)行預(yù)處理的一組重要技術(shù)。第3章則是對大型數(shù)據(jù)集進(jìn)行歸約處理,并介紹了特征歸約、值歸約和案例歸約的有效方法。當(dāng)數(shù)據(jù)集已進(jìn)行了預(yù)處理并為數(shù)據(jù)挖掘作準(zhǔn)備時(shí),有大范圍的數(shù)據(jù)挖掘技術(shù)可利用,選擇一種還是多種數(shù)據(jù)挖掘技術(shù)依賴于應(yīng)用的類型和數(shù)據(jù)的特征。在第4章中,在介紹特殊的數(shù)據(jù)挖掘方法之前,我們介紹了所有數(shù)據(jù)挖掘技術(shù)的全面的理論背景和可應(yīng)用的形式。這些理論的本質(zhì)可以概括為一個(gè)問題:我們怎樣從數(shù)據(jù)中學(xué)習(xí)?第4章重點(diǎn)介紹了統(tǒng)計(jì)學(xué)的學(xué)習(xí)理論和可從此理論中得出的不同的學(xué)習(xí)方法和學(xué)習(xí)任務(wù)。從第512章對普通挖掘

46、技術(shù)作了一個(gè)縱覽。第5章提出了選擇統(tǒng)計(jì)推理方法,包括貝葉斯分類器,預(yù)測性和對數(shù)回歸,方差分析,記錄線性模型。第6章說明聚類問題的復(fù)雜性,介紹了凝聚、劃分和增量聚類技術(shù)。C4.5算法作為針對分類問題的基于邏輯技術(shù)的代表,第7章總結(jié)了它的基本特征。第8章介紹了大型數(shù)據(jù)集中局部建模的各個(gè)方面,以及關(guān)聯(lián)規(guī)則挖掘、Web挖掘和文本挖掘的常見技術(shù)。第9章討論了人工神經(jīng)網(wǎng)絡(luò)的基本構(gòu)成,并介紹了多層感知機(jī)和競爭性網(wǎng)絡(luò)這兩類作為人工神經(jīng)網(wǎng)絡(luò)技術(shù)的范例,遺傳算法和模糊系統(tǒng)沒有直接應(yīng)用于大型數(shù)據(jù)集的數(shù)據(jù)挖掘,關(guān)于它們的大多數(shù)技術(shù)會在第10章和11章章中介紹。作者認(rèn)為這些源于軟計(jì)算并越來越重要的技術(shù)或許不是獨(dú)立的數(shù)據(jù)挖掘技術(shù),而是和其他技術(shù)合成而來的,在表達(dá)和數(shù)據(jù)計(jì)算方面做得更好。第12章討論了可視化數(shù)據(jù)挖掘技術(shù)的重要性,尤其

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論