數(shù)據挖掘系統(tǒng)_第1頁
數(shù)據挖掘系統(tǒng)_第2頁
數(shù)據挖掘系統(tǒng)_第3頁
數(shù)據挖掘系統(tǒng)_第4頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、第一部分數(shù)據挖掘的基礎知識一、數(shù)據、信息、知識與智慧人類的各項活動都是基于人類的智慧和知識,即對外部世界的觀察和了解,做出正確的判斷和決策以及采取正確的行動,而數(shù)據僅僅是人們用各種工具和手段觀察外部世界所得到 的原始材料,它本身沒有任何意義。從數(shù)據到知識再到智慧,需要經過分析加工處理精煉的 過程。(1)數(shù)據是原材料,它只是描述發(fā)生了什么事,并不能構成決策或行動的可靠基礎。(2)通過對數(shù)據進行分析找出其中的關系,賦予數(shù)據以某種意義和關聯(lián),這就形成所謂 信息。信息雖然給出了數(shù)據中一些有一定意義的東西,但它往往和人們需要完成的 任務沒有直接的聯(lián)系,也還不能作為判斷、決策和行動的依據。(3)對信息進行

2、再加工,即進行更深入的歸納分析,方能獲得更有用的信息,即知識。而所謂知識,可定義為“信息塊中的一組邏輯聯(lián)系,其關系是通過上下文或過程的貼近度發(fā)現(xiàn)的”。從信息中理解其模式,即形成知識。在大量知識積累基礎上,總結 出原理和法則,就形成所謂智慧。二、數(shù)據挖掘的定義與流程OLAP ( On Line Analytical processing )是一種進行實時分析和產生相應報表的在線分析 工具,允許用戶以交互方式瀏覽數(shù)據倉庫(data warehousing,它是為了便于分析針對特定主題(subject-oriented)的集成化的、時變的(time-variant)即提供存貯510年或更長時間 的數(shù)

3、據,這些數(shù)據一旦存入就不再發(fā)生變化)內容,并對其中數(shù)據進行多維分析,且能及時地從變化和不太完整的數(shù)據中提取出與企業(yè)經營活動密切相關的信息。OLAP是數(shù)據分析手段的一大進步,以往的分析工具所能得到的報告結果只能回答“什么”(what),而OLAP的分析結果能回答“為什么”(why)。但OLAP分析過程是建立在對用戶深藏在數(shù)據中的某種知識有預感的和假設的前提下,由用戶指導的信息分析與知識發(fā)現(xiàn)過程。對于數(shù)據倉庫中埋藏的豐富的、不為用戶所知的有用信息和知識,就需要有基于計算機與信息技術的智能化自動工具,來幫助挖掘隱藏在數(shù)據中的各類知識。這類工具不應基于用戶假設,而應能自身生成多種假設;再用數(shù)據倉庫(或

4、大型數(shù)據庫)中的數(shù)據進行檢驗或驗證;然后返回用戶最有價值的檢驗結果。此外這類工具還應能適應現(xiàn)實世界中數(shù)據的多種特性(即量大、含噪音、不完整、動態(tài)、稀疏性、異質、非線性等)。數(shù)據挖掘,又稱為數(shù)據庫中知識發(fā)現(xiàn)(Knowledge Discovery from Database,簡稱KDD ),它是一個從大量數(shù)據中抽取挖掘出未知的,有價值的模式或規(guī)律等知識的復雜過程。數(shù)據挖掘的全過程包括:數(shù)據清洗(data clearning),其作用就是清除數(shù)據噪音和與挖掘主題明顯無關的數(shù)據; 數(shù)據集成(dataintegration),其作用就是將來自多數(shù)據源中的相關數(shù)據組合到一起; 數(shù)據轉換(data tra

5、nsformation ),其作用就是將數(shù)據轉換為易于數(shù)據挖掘的數(shù)據存儲形 式;數(shù)據挖掘(data mining ),它是知識挖掘的一個基本步驟,其作用就是利用智能方法挖 掘數(shù)據模式或規(guī)律知識;模式評估(pattern evaluation),其作用就是根據一定評估標準(interesting measures)從 挖掘結果篩選出有意義的模式知識;知識表示(knowledge presentation)其作用就是利用可視化和知識表達技術,向用戶展示所挖掘出的相關知識。三、數(shù)據挖掘與其它計算機工具的區(qū)別KDD和機器學習都是從數(shù)據中提取知識,那么兩者有什么區(qū)別呢?KDD是從現(xiàn)實世界中存在的一些具體

6、數(shù)據中提取知識,這些數(shù)據在KDD出現(xiàn)之前早已存在;而機器學習所使用的數(shù)據是專門為機器學習而特別準備的數(shù)據,這些數(shù)據在現(xiàn)實世界中也許毫無意義。由于KDD使用的數(shù)據來自實際的數(shù)據庫,而且所要處理的數(shù)據量可能很大,因此KDD中的學習算法的效率和可擴充性就顯得尤為重要;此外,KDD所處理的數(shù)據由于來自現(xiàn)實世界,數(shù)據的完整性、一致性和正確性都很難保證,如何將這些數(shù)據加工成學習算法可以接收的數(shù)據?也是數(shù)據挖掘研究與開發(fā)時需要進行深入研究的問題;再者,KDD可以利用目前數(shù)據庫所取得的研究成果來加快學習過程,提高學習效率。最后一 點就是,由于KDD處理的數(shù)據來自于實際的數(shù)據庫,而與這些數(shù)據庫有關的還有其他 一

7、些背景知識,這些背景知識的合理運用也會提高學習算法的效率。KDD與數(shù)據庫報表工具有什么區(qū)別?數(shù)據庫報表制作工具是將數(shù)據庫中的某些數(shù)據抽取出來,經過一些數(shù)學運算,最終以特定的格式呈現(xiàn)給用戶,而KDD則是對數(shù)據背后隱藏的特征和趨勢進行分析,最終給出關于數(shù)據的總體特征和發(fā)展趨勢。報表工具也許能夠給出上學期考試未通過及成績優(yōu)秀的學生的有關情況。但它不能找出那些考試未通過及成績優(yōu)秀的學生在哪些方面有些什么不同的特征,而數(shù)據挖掘通過對相關數(shù)據的分析,以發(fā)現(xiàn)影響學生成績的各種因素,就可以給出兩者之間的差別。數(shù)據挖掘與OLAP有何區(qū)別呢?OLAP是由用戶驅動的,一般是由分析人員預先設定一 些假設,然后使用OL

8、AP工具去幫助驗證這些假設,它提供了可使分析人員很方便地 進行數(shù)據分析的手段;而數(shù)據挖掘則是通過對數(shù)據的分析來自動產生一些假設,人們可以在這些假設的基礎上更有效地進行決策。四、數(shù)據挖掘功能及知識類型概念描述:定性與對比一個概念常常是對一個包含大量數(shù)據的數(shù)據集合總體情況的概述。如對一個商店所售電腦基本情況的概述總結就會獲得所售電腦基本情況的一個整體概念(如:基本上為PIII以上的兼容機)。對含有大量數(shù)據的數(shù)據集合進行概述性(summarized)的總結并獲得簡明(concise)、準確(precise)的描述,這種描述就稱為概念描述(concept description)。獲得 概念描述的方法

9、主要有以下兩種:(1)利用更為廣義的屬性,對所分析數(shù)據進行概要總結(data characterization);其中 被分析的數(shù)據就稱為目標數(shù)據集(target class);(2 )對兩類所分析的數(shù)據特點進行對比并對對比結果給出概要性總結(data discrimination );而其中兩類被分析的數(shù)據集分別被稱為目標數(shù)據集和對比數(shù)據集(contrasting class)。數(shù)據概要總結(data characterization)就是利用數(shù)據描述屬性中更廣義的(屬性)內容 對其進行歸納描述。其中被分析的數(shù)據,常常可以通過簡單的數(shù)據庫查詢來獲得。如:對我校的講師情況進行概要總結(給出概念

10、描述)。數(shù)據概要總結通常都用更廣義的關系表(generalization relations )或特征才苗述規(guī)貝U ( characteristic rules)來加以輸出表示。在數(shù)據集對比概要總結中所使用的挖掘方法與單一數(shù)據集概要總結所使用的方法基本 相同;其結果輸出形式也很類似,只是對比概要總結加入了對比描述因子以幫助區(qū)分目標數(shù) 據集與對比數(shù)據集的對比情況。對比數(shù)據概要總結的輸出結果也常常采用表格形式或對比規(guī)則形式(discriminate rules )來加以描述;關聯(lián)分析關聯(lián)分析(association analysis)就是從給定的數(shù)據集發(fā)現(xiàn)頻繁出現(xiàn)的項集模式知識(又稱為關聯(lián)規(guī)則,a

11、ssociation rules)。關聯(lián)分析廣泛用于市場營銷、事務分析等應用領域。通常關聯(lián)規(guī)則具有:XnY形式,即“A,AAAL八氣-BAB2八L Bn” ;其中A(i w1,K ,m)和Bj(j 1,K ,n)均為屬性一值(屬性=值)形式。關聯(lián)規(guī)則XnY表示數(shù)據庫中的滿足X中條件的記錄(tuples)也一定滿足Y中的條件。分類與預測分類(classification)就是找出一組能夠描述數(shù)據集合典型特征的模型(或函數(shù)) ,以便 能夠分類識別未知數(shù)據的歸屬或類別(class),即將未知事例映射到某種離散類別之一。分類模型(或函數(shù))可以通過分類挖掘算法從一組訓練樣本數(shù)據 得。分類挖掘所獲的分類模

12、型可以采用多種形式加以描述輸出。類規(guī)則(IF-THEN )、決策樹(decision trees)、數(shù)學公式( 絡。分類通常用于預測未知數(shù)據實例的歸屬類別(有限離散值) 級是屬于A級、B級還是C級。但在一些情況下,這樣的分類就被稱為預測(predication)。盡管預測既包括連續(xù)數(shù)值的預測,值的分類;但一般還是使用預測(predication )來表示對連續(xù)數(shù)值的預測;示對有限離散值的預測。聚類分析聚類分析(clustering analysis)與分類預測方法明顯不同之處在于,后者所學習獲取分 類預測模型所使用的數(shù)據是已知類別歸屬(class-labeled data),屬于有教師監(jiān)督學習

13、方法;而聚類分析(無論是在學習還是在歸類預測時)所分析處理的數(shù)據均是無(事先確定) 類別 歸屬,類別歸屬標志在聚類分析處理的數(shù)據集中是不存在的。究其原因很簡單,它們原來就不存在,因此聚類分析屬于無教師監(jiān)督學習方法。聚類分析中,首先需要根據“各聚集(clusters)內部數(shù)據對象間的相似度最大化;而 各聚集(clusters)對象間相似度最小化”的基本聚類分析原則,以及度量數(shù)據對象之間相 似度的計算公式,將聚類分析的數(shù)據對象劃分為若干組(groups)。因此一個組中數(shù)據對象間的相似度要比不同組數(shù)據對象間的相似度要大。每一個聚類分析所獲得的組就可以視為是一個同類別歸屬的數(shù)據對象集合,更進一步從這些

14、同類別數(shù)據集,又可以通過分類學習獲得相應的分類預測模型(規(guī)則)。此外通過反復不斷地對所獲得的聚類組進行聚類分析,還可 獲得初始數(shù)據集合的一個層次結構模型。異類分析一個數(shù)據庫中的數(shù)據一般不可能都符合分類預測或聚類分析所獲得的模型。那些不符合大多數(shù)數(shù)據對象所構成的規(guī)律(模型)的數(shù)據對象就被稱為異類(outlier)。之前許多數(shù)據 挖掘方法都在正式進行數(shù)據挖掘之前就將這些異類作為噪聲或意外而將其排除在數(shù)據挖掘 的分析處理范圍之內。但在一些應用場合,如各種商業(yè)欺詐行為的自動檢測,小概率發(fā)生的事件(數(shù)據)往往比經常發(fā)生的事件(數(shù)據)更有挖掘價值。對異類數(shù)據的分析處理通常就 稱為異類挖掘。數(shù)據中的異類可以

15、利用數(shù)理統(tǒng)計方法分析獲得,即利用已知數(shù)據所獲得的概率統(tǒng)計分布模型,或利用相似度計算所獲得的相似數(shù)據對象分布,分析確認異類數(shù)據。 而偏離檢測就是從數(shù)據已有或期望值中找出某些關鍵測度顯著的變化。演化分析 數(shù)據演化分析(evolution analysis)就是對隨時間變化的數(shù)據對象的變化規(guī)律和趨勢進行建 模(其類別歸屬已知)中學習獲其中主要的表示方法有:分mathematical formulae )和彳申經網,如一個銀行客戶的信用等 需要預測某數(shù)值屬性的值(連續(xù)數(shù)值),也包括有限離散而使用分類來表描述。這一建模手段包括:概念描述、對比概念描述、關聯(lián)分析、分類分析、時間相關數(shù) 據(time-rel

16、ated)分析(這其中又包括:時序數(shù)據分析、序列或周期模式匹配,以及基于相 似性的數(shù)據分析)五、數(shù)據挖掘結果的評估問題一:一個模式有價值的因素是什么? 答:(1)易于用戶理解;(2)對新數(shù)據或測試數(shù)據能夠確定有效程度;(3)具有潛在價值;(4)新奇的。一個有價值的模式就是知識。此外還有一些評價模式價值的客觀標準,這些標準是基于所挖掘出模式的結構或統(tǒng)計特征。例如對于關聯(lián)規(guī)則的一個客觀評價標準就是支持率(support),它表示滿足相應關聯(lián)規(guī)則的事務記錄占總記錄數(shù)的比率;盡管客觀評價方法能夠幫助識別一些有意義的模式知識,但也仍然需要結合一些主觀評價措施方可有效反映用戶的需求和興趣。例如商場主觀對描

17、述常在商場購買商品顧客的特征模型很感興趣;而對商場雇員的表現(xiàn)特征模型卻興趣不大。再者許多根據客觀評價標準是有價值的模式知識卻只是普通的常識知識(實際無價值)。主觀價值評估標準是建立在用戶對數(shù)據的信念基礎上,這些評估標準基于所發(fā)現(xiàn)模式是否是意外的或與用戶信念相左, 或能夠 提供決策支持而確定的。而意料之中模式是有價值的則是指它能夠幫助確認用戶想要認可的 一個假設。 問題二:一個數(shù)據挖掘算法能否產生所有有價值的模式(知識)?即指數(shù)據挖掘算法的完 全性。 答:期望數(shù)據挖掘算法能夠產生所有可能模式是不現(xiàn)實的。實際上一個(模式)搜索方法可以利用有趣性評價標準來幫助縮小模式的搜索范圍。因此通常只需要保證挖

18、掘算法的完全性就可以了。 關聯(lián)規(guī)則的挖掘算法就是這樣的一個例子。問題三: 一個數(shù)據挖掘算法能否只產生有價值的模式 (知識)?這也是數(shù)據挖掘算法的一 個最優(yōu)化問題。一般當然希望數(shù)據挖掘算法僅挖掘有價值的模式(知識),但這是一個較為棘手的最優(yōu)化高效搜索問題,至今尚沒有好的解決方法。評估所挖掘模式的趣味性(interestingness)標準對于有效挖掘出具有應用價值數(shù)據挖掘 的模式知識是十分重要的。這些標準可以直接幫助指導挖掘算法獲取有實際應用價值的模式 知識,以及有效摒棄無意義的模式。更為重要的是這些模式評估標準將積極指導整個知識發(fā) 現(xiàn)過程,通過及時消除無前途的搜索路徑,提高挖掘的有效性。六、數(shù)據挖掘系統(tǒng)分類根據所挖掘的數(shù)據庫進行分類:如果按數(shù)據模型進行分類, 就會有關系類型、事務類型、面向對象類型、對象關系類型和數(shù)據倉庫類型等數(shù)據挖掘系統(tǒng)。 如果按照所處理數(shù)據類 型進行劃分,就會有空間數(shù)據類型、時序數(shù)據類型、文本類型和多媒體類型等數(shù)據挖掘 系統(tǒng),或互聯(lián)網挖掘系統(tǒng)。其他的系統(tǒng)類型還包括:異構數(shù)據挖掘系統(tǒng)和歷史數(shù)據挖掘 系統(tǒng)。根據所挖掘的知識進行分類:可

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論