工智能及專家系統(tǒng)敖志剛第章數(shù)據(jù)挖掘與知識發(fā)現(xiàn)_第1頁
工智能及專家系統(tǒng)敖志剛第章數(shù)據(jù)挖掘與知識發(fā)現(xiàn)_第2頁
工智能及專家系統(tǒng)敖志剛第章數(shù)據(jù)挖掘與知識發(fā)現(xiàn)_第3頁
工智能及專家系統(tǒng)敖志剛第章數(shù)據(jù)挖掘與知識發(fā)現(xiàn)_第4頁
工智能及專家系統(tǒng)敖志剛第章數(shù)據(jù)挖掘與知識發(fā)現(xiàn)_第5頁
已閱讀5頁,還剩58頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

敖志剛

編制第6章數(shù)據(jù)挖掘與知識發(fā)現(xiàn)

敖志剛

編制第6章數(shù)據(jù)挖掘與知識發(fā)現(xiàn)

第6章數(shù)據(jù)挖掘與知識發(fā)現(xiàn)6.1數(shù)據(jù)挖掘的技術(shù)基礎(chǔ)6.1.1數(shù)據(jù)挖掘的概念6.1.2數(shù)據(jù)挖掘的功能和存在的主要問題6.1.3數(shù)據(jù)挖掘成功案例6.2數(shù)據(jù)挖掘的方法步驟和語言工具6.2.1數(shù)據(jù)挖掘的方法6.2.2數(shù)據(jù)挖掘語言6.2.3數(shù)據(jù)挖掘的工具6.2.4數(shù)據(jù)挖掘的流程…第6章數(shù)據(jù)挖掘與知識發(fā)現(xiàn)6.3數(shù)據(jù)挖掘系統(tǒng)的組構(gòu)及管理策略6.3.1數(shù)據(jù)挖掘系統(tǒng)的組成6.3.2數(shù)據(jù)挖掘系統(tǒng)的架構(gòu)6.3.3數(shù)據(jù)挖掘管理系統(tǒng)6.4數(shù)據(jù)挖掘的研究與發(fā)展6.4.1數(shù)據(jù)挖掘系統(tǒng)的開發(fā)進展6.4.2數(shù)據(jù)挖掘未來研究方向

6.1數(shù)據(jù)挖掘的技術(shù)基礎(chǔ)

6.1.1數(shù)據(jù)挖掘的概念1.技術(shù)的產(chǎn)生面對信息社會,人們積累的數(shù)據(jù)越來越多。激增的數(shù)據(jù)背后隱藏著許多重要信息,人們希望能對其進行更高層次的分析。目前的數(shù)據(jù)庫系統(tǒng)可以高效地實現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計等功能,但無法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則,無法根據(jù)現(xiàn)有的數(shù)據(jù)預測未來的發(fā)展趨勢。缺乏挖掘數(shù)據(jù)背后隱藏的知識的手段,導致了“數(shù)據(jù)爆炸但知識貧乏”的現(xiàn)象。2.當前數(shù)據(jù)特點⑴數(shù)據(jù)規(guī)模巨大;⑵數(shù)據(jù)分布存儲;⑶數(shù)據(jù)來源廣;⑷數(shù)據(jù)特性未知;⑸數(shù)據(jù)包含不確定信息;⑹數(shù)據(jù)包含不安全信息;⑺數(shù)據(jù)日益增長。3.數(shù)據(jù)挖掘的定義數(shù)據(jù)挖掘DM(DataMining)也稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn)KDD(KnowledgeDiscoveryinDatabase)。數(shù)據(jù)挖掘就是通過采用自動或半自動的手段,對數(shù)據(jù)進行一定的處理,從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數(shù)據(jù)中,發(fā)現(xiàn)和提取有意義的、隱含在其中的、人們事先不知道的、但又是有效的、新穎的、潛在有用的、最終可被理解的信息和知識的過程。從另外一個方面來說,數(shù)據(jù)挖掘是從數(shù)據(jù)中自動地抽取模式、關(guān)聯(lián)、變化、異常和有意義的結(jié)構(gòu)。與數(shù)據(jù)挖掘相近的同義詞有知識提取、數(shù)據(jù)融合、數(shù)據(jù)/模式分析、數(shù)據(jù)考古學、數(shù)據(jù)捕撈和信息收獲等等。此定義包括好幾層含義:數(shù)據(jù)源必須是真實的、大量的、含噪聲的;發(fā)現(xiàn)的是用戶感興趣的知識;發(fā)現(xiàn)的知識要可接受、可理解、可運用;并不要求發(fā)現(xiàn)放之四海皆準的知識,僅支持特定的發(fā)現(xiàn)問題。4.數(shù)據(jù)挖掘基本概念的區(qū)分

⑴數(shù)據(jù)挖掘與傳統(tǒng)分析方法傳統(tǒng)的數(shù)據(jù)分析——如查詢、報表、聯(lián)機應用分析等數(shù)據(jù)挖掘是在沒有明確假設(shè)的前提下去挖掘信息、發(fā)現(xiàn)知識,所得到的信息應具有先未知,有效和可實用三個特征。即數(shù)據(jù)挖掘是要發(fā)現(xiàn)那些不能靠直覺發(fā)現(xiàn)的信息或知識,甚至是違背直覺的信息或知識,挖掘出的信息越是出乎意料,就可能越有價值。

⑵數(shù)據(jù)挖掘和知識發(fā)現(xiàn)知識發(fā)現(xiàn)被認為是從數(shù)據(jù)中發(fā)現(xiàn)有用知識的整個過程,是用數(shù)據(jù)庫管理系統(tǒng)來存儲數(shù)據(jù),用機器學習的方法來分析數(shù)據(jù),挖掘大量數(shù)據(jù)背后隱藏的知識。知識發(fā)現(xiàn)研究的問題有:①定性知識和定量知識的發(fā)現(xiàn);②知識發(fā)現(xiàn)方法;③知識發(fā)現(xiàn)的應用等。⑶數(shù)據(jù)挖掘和數(shù)據(jù)倉庫數(shù)據(jù)挖掘都要先把數(shù)據(jù)從數(shù)據(jù)倉庫中拿到數(shù)據(jù)挖掘庫或數(shù)據(jù)集市中(見圖6-1)。數(shù)據(jù)挖掘庫是數(shù)據(jù)倉庫的一個邏輯上的子集,而不一定非得是物理上單獨的數(shù)據(jù)庫。建立一個巨大的數(shù)據(jù)倉庫,把各個不同源的數(shù)據(jù)統(tǒng)一在一起,解決所有的數(shù)據(jù)沖突問題,然后把所有的數(shù)據(jù)導到一個數(shù)據(jù)倉庫內(nèi),是一項巨大的工程,可能要用幾年的時間花上百萬的錢才能完成。數(shù)據(jù)源數(shù)據(jù)挖掘庫數(shù)據(jù)源數(shù)據(jù)倉庫各分公司數(shù)據(jù)集市分析數(shù)據(jù)集市數(shù)據(jù)挖掘數(shù)據(jù)集市圖6-1數(shù)據(jù)挖掘庫從數(shù)據(jù)倉庫中得出圖6-2數(shù)據(jù)挖掘庫從事務數(shù)據(jù)庫中得出⑷數(shù)據(jù)挖掘與信息處理信息處理基于查詢,可以發(fā)現(xiàn)有用的信息。但是這種查詢的回答反映的是直接存放在數(shù)據(jù)庫中的信息。它們不反映復雜的模式,或隱藏在數(shù)據(jù)庫中的規(guī)律。⑸數(shù)據(jù)挖掘與聯(lián)機分析(OLAP)OLAP分析過程在本質(zhì)上是一個演繹推理的過程,是決策支持領(lǐng)域的一部分。傳統(tǒng)的查詢和報表工具是告訴你數(shù)據(jù)庫中都有什么,OLAP則更進一步告訴你下一步會怎么樣和如果采取這樣的措施又會怎么樣。用戶首先建立一個假設(shè),然后用OLAP檢索數(shù)據(jù)庫來驗證這個假設(shè)是否正確。數(shù)據(jù)挖掘在本質(zhì)上是一個歸納推理的過程,與OLAP不同的地方是,數(shù)據(jù)挖掘不是用于驗證某個假定的模式(模型)的正確性,而是在數(shù)據(jù)庫中自己尋找模型。數(shù)據(jù)挖掘和OLAP具有一定的互補性。在利用數(shù)據(jù)挖掘出來的結(jié)論采取行動之前,OLAP工具能起輔助決策作用。而且在知識發(fā)現(xiàn)的早期階段,OLAP工具用來探索數(shù)據(jù),找到哪些是對一個問題比較重要的變量,發(fā)現(xiàn)異常數(shù)據(jù)和互相影響的變量。⑹數(shù)據(jù)挖掘與人工智能、統(tǒng)計學

數(shù)據(jù)挖掘是統(tǒng)計分析方法學的延伸和擴展。大多數(shù)的統(tǒng)計分析技術(shù)都基于完善的數(shù)學理論和高超的技巧,預測的準確度還是令人滿意的,但對使用者的要求很高。數(shù)據(jù)挖掘就是充分利用了統(tǒng)計學和人工智能技術(shù)的應用程序,并把這些高深復雜的技術(shù)封裝起來,使人們不用自己掌握這些技術(shù)也能完成同樣的功能,并且更專注于自己所要解決的問題。數(shù)據(jù)挖掘分析海量數(shù)據(jù)。許多數(shù)據(jù)庫都不適合統(tǒng)計學分析需要。

5.數(shù)據(jù)挖掘系統(tǒng)的分類⑴根據(jù)數(shù)據(jù)模型分類,可以分為有關(guān)系的、事務的、面向?qū)ο蟮摹ο?關(guān)系的、或數(shù)據(jù)倉庫的數(shù)據(jù)挖掘系統(tǒng)。⑵根據(jù)所處理的數(shù)據(jù)的特定類型分類,可以分為有空間的、時間序列的、文本的、或多媒體的數(shù)據(jù)挖掘系統(tǒng),或WWW數(shù)據(jù)挖掘系統(tǒng)。⑶根據(jù)數(shù)據(jù)挖掘的功能,可以分為特征、區(qū)分、關(guān)聯(lián)、聚類、局外者、趨勢和演化分析、偏差分析、類似性分析等數(shù)據(jù)挖掘系統(tǒng)。⑷根據(jù)所挖掘的知識的粒度或抽象層進行區(qū)分,包括泛化知識(在高抽象層)、原始層知識(在原始數(shù)據(jù)層)或多層知識(考慮若干抽象層)。一個先進的數(shù)據(jù)挖掘系統(tǒng)應當支持多抽象層的知識發(fā)現(xiàn)。5.數(shù)據(jù)挖掘系統(tǒng)的分類⑸根據(jù)所用的技術(shù)分類:這些技術(shù)可以根據(jù)用戶交互程度(例如,自動系統(tǒng)、交互探查系統(tǒng)、查詢驅(qū)動系統(tǒng)),或所用的數(shù)據(jù)分析方法(例如,面向數(shù)據(jù)庫或數(shù)據(jù)倉庫的技術(shù),機器學習、統(tǒng)計、可視化、模式識別、神經(jīng)網(wǎng)絡等等)描述。⑹根據(jù)挖掘任務可以分為:分類或預測模型發(fā)現(xiàn)、數(shù)據(jù)總結(jié)與聚類發(fā)現(xiàn)、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、序列模式發(fā)現(xiàn)、相似模式發(fā)現(xiàn)、混沌模式發(fā)現(xiàn)、依賴關(guān)系或依賴模型發(fā)現(xiàn)、異常和趨勢發(fā)現(xiàn)等。⑺根據(jù)挖掘?qū)ο罂梢苑譃椋宏P(guān)系型數(shù)據(jù)庫挖掘、面向?qū)ο髷?shù)據(jù)庫挖掘、空間數(shù)據(jù)庫挖掘、時態(tài)數(shù)據(jù)庫挖掘、文本數(shù)據(jù)源挖掘、多媒體數(shù)據(jù)庫挖掘、異質(zhì)數(shù)據(jù)庫挖掘、遺產(chǎn)數(shù)據(jù)庫挖掘、Web數(shù)據(jù)庫挖掘。6.數(shù)據(jù)薦挖掘鏟的來行源一般很情況辯下,屈數(shù)據(jù)繭挖掘訊在關(guān)詳系數(shù)景據(jù)庫贊、數(shù)猜?lián)}啄庫、挨事務額數(shù)據(jù)路庫、茫高級米數(shù)據(jù)竄庫系竿統(tǒng)和諒信息還庫四紋種數(shù)由據(jù)庫冰上進群行。⑴抬關(guān)系平數(shù)據(jù)某庫關(guān)系寇數(shù)據(jù)登庫是織表的芝集合家,每妻個表蓋都賦取予一貍個唯伏一的澡名字界。每搬個表望包含站一組迎屬性金(列柿或字勇段)議,并著通常資存放權(quán)大量植元組饑(記顏錄或箱行)距。語支義數(shù)寸據(jù)模稅型,活如實慕體-聯(lián)系臘(ER)數(shù)何據(jù)模黨型,硬將數(shù)蛛據(jù)庫常作為迅一組故實體怒和它挺們之守間的尸聯(lián)系木進行顛建模幕。通巾常為霉關(guān)系胡數(shù)據(jù)綱庫構(gòu)膏造ER模型磁。⑵縣數(shù)據(jù)資倉庫數(shù)據(jù)羅倉庫是一文個集碎成的島、面洋向主淋題的住、設(shè)編計用窄于決法策支竭持功禾能的扛數(shù)據(jù)盆庫的繪集合晨,數(shù)鹿據(jù)中肝的每懲一個襪數(shù)據(jù)止單元散在時屠間上壯都是臣和某奔個時認刻相想關(guān)的例。一般退來講咸,數(shù)碑據(jù)倉回庫都苦很巨稈大,鋤它存肅儲了化幾百序萬條磚記錄戀。在菊很多撲情況愁下,槽一個警組織甜可能躁有幾創(chuàng)個局逐部或托部門什的數(shù)墳據(jù)倉矛庫,掉這常扭常叫肝做數(shù)據(jù)恰集市啄。數(shù)據(jù)你倉庫柄包括堆以下嚇的數(shù)箱據(jù)類籃別:循①過勉去細息節(jié)數(shù)星據(jù);轎②當生前(新)細節(jié)易數(shù)據(jù)耍;③駁輕度場綜合哥數(shù)據(jù)雀;④來高度屑綜合精數(shù)據(jù)關(guān);⑤稈元數(shù)啟據(jù)(數(shù)據(jù)菌目錄幻玉或向司導)。⑶螞事務懶數(shù)據(jù)遮庫事務私數(shù)據(jù)薪庫由一季個文潛件組谷成,點其中姨每個康記錄訪代表士一個悄事務默。通擊常,菠一個西事務團包含錢一個辭唯一傲的事育務標趙識號(tr茫an王s_菌ID),和行一個范組成匯事務母的項噸的列采表(濃如,慘在商伶店購秀買的皺商品迎)。魯事務戀數(shù)據(jù)本庫可丟能有朗一些績與之繁相關(guān)達聯(lián)的吼附加鳥表,始包含真關(guān)于需銷售壓的其顛它信更息,獅如事貨務的毛日期籍、顧略客的ID號、益銷售彼者的ID號、隙銷售達分店等等等鴉。⑷謙高級引數(shù)據(jù)遷庫系該統(tǒng)和姜信息責庫高級伸數(shù)據(jù)眨庫系秧統(tǒng)和申信息誦庫包鴉含以騙下6個方蹤蝶面:①格空間室數(shù)據(jù)畫庫;②幫時間曲數(shù)據(jù)惱庫和吉時間多序列涂數(shù)據(jù)沫庫;③醒流數(shù)嘩據(jù);④口多媒咬體數(shù)拐據(jù)庫饅;⑤鄰面向惰對象廁數(shù)據(jù)遇庫和素對象-關(guān)系霧數(shù)據(jù)沖庫;⑥幼異種輩數(shù)據(jù)姓庫和私歷史現(xiàn)(le兆ga羅cy)數(shù)點據(jù)庫吐;⑦耕文本董數(shù)據(jù)撫庫和粱萬維榆網(wǎng)(WW餡W)。7.數(shù)據(jù)定挖掘糧研究能內(nèi)容懼和知奴識類蘭型主要田研究災內(nèi)容——基礎(chǔ)熄理論窯、各犬種挖哥掘算腹法和榴挖掘過語言吸、數(shù)筒據(jù)倉留庫、田可視踐化技堆術(shù)、侮定性資定量直互換仍模型活、智元能計篇算和林軟計唉算在望數(shù)據(jù)秩挖掘表中的森應用縣、知抵識表矮示方己法、喚發(fā)現(xiàn)累知識苗的維門護和派再利霞用、路半結(jié)太構(gòu)化駕和非蒜結(jié)構(gòu)螞化數(shù)遮據(jù)中虹的知阻識發(fā)計現(xiàn)、嚷網(wǎng)絡漿數(shù)據(jù)過挖掘旦以及綢對已族有知伏識的癥維護他和再激利用茅等。所發(fā)勞現(xiàn)的疼類型綢:即廣價義知暗識、廈概括米性描聰述知儲識、智關(guān)聯(lián)嬌知識變、分黨類知狼識、甚預測蹲型知狗識、特偏差蛙型知呼識。8.數(shù)據(jù)徑挖掘威的應妹用⑴芝電信寫:客戶丸群體制劃分盡、客忙戶流俘失性堵分析常、客夸戶信腦用記甚分、寨篩選干因特慨網(wǎng)上夸的新令聞;⑵稀銀行棵:聚類剪(細寨分)握、交元叉銷曲售、踩數(shù)據(jù)扇庫營聰銷、輛背景齒分析環(huán);⑶朝百貨惹公司/超市洽:購物榜籃分懷析關(guān)(關(guān)擦聯(lián)規(guī)社則)詳、預反測準盼客戶正的需盼要;⑷丹保險川:細分呼,交杰叉銷釘售,在流失喂(原懸因分礎(chǔ)析)膝、欺暈詐發(fā)住現(xiàn);⑸孕信用調(diào)卡:欺詐劍探測發(fā),細遺分;⑹燒電子負商務:網(wǎng)蠻站日鋼志分烈析;⑺絨稅務屯部門屢:偷漏笛稅行省為探類測;⑻的警察搭機關(guān)碰:犯罪滾行為峽分析螞;⑼忌醫(yī)學側(cè):醫(yī)療狡保健左。6.葡1.旺2數(shù)據(jù)怕挖掘綿的功羊能和暢主要句問題1.數(shù)據(jù)仔挖掘顧的功宰能⑴壩自動恰預測屢趨勢婆和行梳為。如市脖場預烏測、迅預報禾破產(chǎn)徹等。⑵頸關(guān)聯(lián)蜓分析專。若兩冒個或狂多個埋變量鹿的取池值之鉆間存純在某走種規(guī)他律性遞,就蛋稱為暑關(guān)聯(lián)伶。關(guān)役聯(lián)可捎分為識簡單唇關(guān)聯(lián)秘、時孔序關(guān)馳聯(lián)、南因果恥關(guān)聯(lián)短。關(guān)錫聯(lián)分沉析的睜目的毒是找者出數(shù)領(lǐng)據(jù)庫份中隱益藏的談關(guān)聯(lián)貝網(wǎng)。⑶解聚類幕。數(shù)據(jù)兼庫中泊的記察錄可灑被化績分為邊一系飽列有莊意義址的子柱集,什即聚對類。龍聚類逼技術(shù)作主要境包括足傳統(tǒng)薦的模乎式識格別方準法和株數(shù)學泰分類置學。⑷書概念協(xié)描述豎。就是很對某案類對塔象的也內(nèi)涵糧進行蔬描述伶,并膚概括碰這類斬對象布的有學關(guān)特嘗征。箱概念愛描述謝分為再特征乏性描仙述和濟區(qū)別蛛性描墳述,寄前者叼描述務某類只對象未的共強同特籌征,課后者即描述緣瑞不同割類對捐象之栽間的徒區(qū)別如。生馬成區(qū)致別性爪描述各的方效法很孫多,段如決贏策樹笨方法魔、遺矛傳算緩法等帝。⑸汪偏差傭檢測酒。偏差辰包括奇很多插潛在尼的知快識,再如分個類中誰的反躲常實哭例、鄉(xiāng)豐不滿友足規(guī)稍則的撥特例呈、觀避測結(jié)芽果與豈模型拜預測寨值的口偏差似、量燃值隨富時間專的變書化等管。偏蠶差檢方測的搶基本碼方法千是,襖尋找脾觀測澆結(jié)果喊與參若照值秤之間勇有意漁義的踐差別慣。2.實施肢數(shù)據(jù)針挖掘梁項目填要考耍慮的騙問題⑴州超大煙規(guī)模挪數(shù)據(jù)聯(lián)庫和松高維山數(shù)據(jù)我問題丘;⑵臭數(shù)據(jù)瀉丟失分問題蘇;⑶沸變化雀的數(shù)晉據(jù)和圍知識蒸問題占;⑷慢模式字的易鴨懂性沉問題簽;⑸已非標鏡準格推式的驗數(shù)據(jù)玻、多廊媒體勢數(shù)據(jù)視、面怪向?qū)κ┫髷?shù)吸據(jù)處寶理問郵題;⑹錫與其兵他系獨統(tǒng)的血集成娃問題耕;⑺耍網(wǎng)絡板與分居布式佛環(huán)境刃下的KD下D問題紀;⑻鈔個人襯隱私需問題付。3.數(shù)據(jù)各挖掘厭存在禽的主居要問公題⑴懷數(shù)據(jù)域挖掘濱技術(shù)鋸和用鄭戶界香面問案題。①尖在數(shù)冰據(jù)庫粱中挖爹掘不昆同類禮型的女知識披。②合多個敵抽象泉層的煙交互挎知識金挖掘澡。③竊結(jié)合竄背景墾知識漢。④桌數(shù)據(jù)棉挖掘想查詢勉語言惱和特鍛定的打數(shù)據(jù)東挖掘險。⑤鏟數(shù)據(jù)老挖掘壺結(jié)果駕的表漏示和糠顯示示。⑥攤處理壘噪音碗和不幣完全做數(shù)據(jù)喘。⑦負模式震評估——興趣雹度問石題。3.數(shù)據(jù)糟挖掘判存在教的主啊要問鏡題⑵呀性能隔問題序。①聞數(shù)據(jù)火挖掘?qū)惴ㄏ5挠写倚郧嗪涂擅艘?guī)模旨性。礎(chǔ)即對陽于大蠢型數(shù)遍據(jù)庫塊,數(shù)證據(jù)挖柳掘算爐法的廁運行慕時間比必須贊是可鈴預計累的和妨可接長受的典。②貌并行震、分恥布和尤增量花挖掘辜算法隱:許興多數(shù)蜂據(jù)庫贊的大觸容量并、數(shù)威據(jù)的廈廣泛亂分布賄和一敲些數(shù)開據(jù)挖養(yǎng)掘算飾法的瞞計算獲復雜爬性是晉促使勿開發(fā)毫并行詢和分懶布式屆數(shù)據(jù)玻挖掘律算法箏的因芽素。嘴這些階算法舒將數(shù)輩據(jù)劃益分成厚部分于,這舅些部攻分可啦以并丈行處艇理,摧然后朵合并戒每部才分的拿結(jié)果器。此輩外,把有些喚數(shù)據(jù)醋挖掘到過程換的高躁花費辨導致種了對幟增量欺數(shù)據(jù)斑挖掘拾算法顯的需舊要。踏增量鐘算法礎(chǔ)與數(shù)終據(jù)庫筑更新汽結(jié)合壘在一差起,須而不著必重愚新挖憑掘全隆部數(shù)列據(jù)。3.數(shù)據(jù)閑挖掘破存在稍的主悔要問稈題⑶字關(guān)于雪數(shù)據(jù)港庫類且型的集多樣錦性問狹題:①冊關(guān)系寶的和途復雜孕的數(shù)洽據(jù)類沒型的哄處理半:數(shù)飾據(jù)庫渡可能幟包含喇復雜獅的數(shù)薦據(jù)對蝕象、翻超文期本和藍多媒榮體數(shù)西據(jù)、漿空間給數(shù)據(jù)豎、時剛間數(shù)規(guī)據(jù)、作或事檔務數(shù)史據(jù)。慣對于立不同貢類型惹的數(shù)蒜據(jù),陜應該章有不宰同的諷數(shù)據(jù)趨挖掘贈系統(tǒng)刻。②觀由異做種數(shù)籠據(jù)庫額和全襲球信械息系豎統(tǒng)挖躍掘信妙息:眨從具糕有不屠同數(shù)趴據(jù)語擇義的妖結(jié)構(gòu)義的、揉半結(jié)續(xù)構(gòu)的望、和魄無結(jié)未構(gòu)的載不同捕數(shù)據(jù)遙源發(fā)次現(xiàn)知換識,華對數(shù)厚據(jù)挖治掘提融出了文巨大鴨挑戰(zhàn)冶。We商b挖掘泛發(fā)現(xiàn)拔關(guān)于We院b連接然、We倉b使用晃和We哥b動態(tài)致情況漫的有講趣知冤識,怎已經(jīng)庭成為險數(shù)據(jù)茅挖掘息的一蓮個非衣常具末有挑膊戰(zhàn)性妖的領(lǐng)誘域。此外崖,超武大規(guī)妥模數(shù)滔據(jù)庫嚇和高努維數(shù)趴據(jù)問客題;輕數(shù)據(jù)仆丟失握問題表;變言化的件數(shù)據(jù)恢和知劈燕識問宮題;棵模式萄的易撞懂性第問題杠;非武標準瞇格式鵲的數(shù)肉據(jù)、霧多媒感體數(shù)皆據(jù)、搏面向丘對象有數(shù)據(jù)全處理紙問題附;與爭其他授系統(tǒng)丟的集凡成問農(nóng)題;呀網(wǎng)絡克與分御布式奸環(huán)境攝下的KD高D問題社;個社人隱弄私問音題也漠是數(shù)功據(jù)挖陪掘項記目應石該考稠慮的唱問題逢。6.1.3數(shù)據(jù)裁挖掘睛成功衛(wèi)案例1.雅虎港數(shù)據(jù)弟挖掘悄成功華案例⑴奮閱讀題郵件寒和閱淡讀新渠聞的第相關(guān)診性一個忍例子壓雅虎推電子鉗郵箱打。通海過對炊用戶著使用篩行為炊的意拿外模油式分裙析,腿發(fā)現(xiàn)蹤蝶在每仗次會匪話中羅,人思們閱影讀郵胃件和根閱讀次新聞曬的行珍為之章間存稼在很驕強的減相關(guān)廁關(guān)系朗。研視究人棚員把哭這個洽發(fā)現(xiàn)債傳達予給雅民虎電杏子郵匹箱產(chǎn)剛品小醉組,星他們蓮首先荷想到鍵的就曬是驗哀證這悟種關(guān)教系的需影響魂。⑵倡即時安通信對雅庭虎通花的使加用情侮況進撿行了司分析隨,結(jié)兼果發(fā)快現(xiàn),朝最重沈要的核因素狗是讓踏用戶白擴大發(fā)他們脅的“使好友形列表玩”,靜至少拐增加5個新劣的好如友。獄據(jù)此夫雅虎西精心根設(shè)計伍了相遍應的挑營銷牽活動演,鼓陪勵用趣戶增棕加好夕友列較表中尾的好仔友數(shù)套。⑶朝雅虎號首頁旱的搜宿索框一個著簡單園的例凈子就展是發(fā)垃現(xiàn),近在雅犧虎的食首頁蠅上,鬧把搜物索框糊放在度居中揚的位滋置(嫂而不圓是以離前的惹左側(cè)愉)將劑提高傲用戶嚇的用烘量。胸這個程結(jié)果津是首董先發(fā)塞現(xiàn)Ne盟ts憑ca拉pe瀏覽壇器的歲用戶森比IE的用場戶更死多地營使用縮慧了搜儀索功踐能。2.必N羅BA數(shù)據(jù)蛛挖掘摘成功六案例今天爸,NB賢A的教筒練有爬了他璃們的循新式慎武器灰:數(shù)椅據(jù)挖圍掘。矩大約20個NB揚A球隊削使用夾了IB暫M公司筆開發(fā)艘的數(shù)命據(jù)挖守掘應層用軟志件Ad較va制nc環(huán)ed奪S侄co泄ut系統(tǒng)襯來優(yōu)爹化他居們的鞏戰(zhàn)術(shù)也組合串。例疊如Sc到ou您t就因侍為研揮究了億魔術(shù)斥隊隊瘋員不經(jīng)同的攝布陣支安排旱,在咸與邁恥阿密絲式熱隊沫的比制賽中聯(lián)找到刊了獲界勝的殊機會酷。Ad味va牽nc修ed腿S膊co集ut是一蒸個數(shù)層據(jù)分惡析工儉具,糊教練翁可以象用便岡攜式幣電腦嶄在家喂里或融在路宿上挖銜掘存蘇儲在NB狗A中心催的服訓務器次上的凳數(shù)據(jù)飛。每遭一場藍比賽逝的事醫(yī)件都闊被統(tǒng)遵計分脅類,尤按得那分、慌助攻廳、失獄誤等雨等。執(zhí)時間哪標記悶讓教新練非柱常容險易地堡通過句搜索NB拿A比賽仔的錄匆像來根理解腳統(tǒng)計怪發(fā)現(xiàn)貼的含燭義。戰(zhàn)例如湊:教洽練通處過Ad惜va模nc接ed朵S購co弓ut發(fā)現(xiàn)興本隊臨的球乞員在筆與對昌方一軋個球棟星對演抗時康有犯限規(guī)紀假錄,盲他可漆以在可對方虧球星愛與這朝個隊漠員“陡頭碰今頭”凱的瞬毫間分斥解雙樣方接雪觸的叨動作睛,進統(tǒng)而設(shè)榆計合拋理的啄防守抱策略所。3.商業(yè)慌銀行綿數(shù)據(jù)宴挖掘蜂成功裹案例例如庫,美蔑國Fi榮rs授ta齒r銀行邁等使燥用的Ma世rk貴sm邀an數(shù)據(jù)喪挖掘踢工具羽,能害讀取80逆0到10晚00個變象量并茫且給足它們問賦值硬,可足以根披據(jù)消碼費者攜的家烘庭貸矩款、萌賒帳感卡、委儲蓄叉、投耐資產(chǎn)滔品等奇,將愧客戶可分類韻,進戒而預閃測何你時向第哪類示客戶推提供趨哪種舟產(chǎn)品堪。Me貿(mào)ll羊on銀行陪使用兆智能雄代理歸數(shù)據(jù)申挖掘角軟件姐提高姐銷售龜和定上價金亡融產(chǎn)搞品的乒精確詞度,叫如家裁庭普買通貸監(jiān)款。Me估ll怎on銀行齡銷售攏部在逮先期誕數(shù)據(jù)遇挖掘絮項目貸上使芽用智耐能代灘理尋繪找信城息,鹿主要簽目的奶是確唉定現(xiàn)寧有Me歪ll遺on用戶頸購買仙特定比附加括產(chǎn)品慈:家螞庭普求通信先貸限階額的理傾向猛,利混用該急工具梯可生具成用霞于檢兄測的康模型偶。智母能代側(cè)理可洽幫助櫻用戶博增強戰(zhàn)其商迷業(yè)智穗能,過如交副往、扁分類減或回耍歸分洪析,館依賴長這些棒能力按,可欣對那算些有呈較高肢傾向鳴購買所銀行顛產(chǎn)品哭、服爽務產(chǎn)撞品和頭服務昌的客中戶進牲行有鈴目的盾的推沫銷。4.沃爾冷瑪?shù)闹{經(jīng)典穩(wěn)案例一般贏看來創(chuàng),啤肚酒和垃尿布歉是顧故客群弟完全粒不同鑰的商他品。孫但是績沃爾當瑪一撤年內(nèi)孕數(shù)據(jù)機挖掘纖的結(jié)屯果顯劑示,鼠在居鴨民區(qū)搞中尿此布賣咽得好說的店初面啤志酒也議賣得畜很好紅。原位因其顆實很念簡單合,一礦般太俯太讓若先生促下樓物買尿漿布的顫時候漢,先挎生們伴一般訊都會秒犒勞樣自己侵兩瓶蹲啤酒尿。因懼此啤遺酒和毀尿布閥一起惰購買有的機巨會是雁最多期的。剖這是材一個莊現(xiàn)代犯商場燦智能童化信條息分質(zhì)析系贈統(tǒng)發(fā)錢現(xiàn)的重秘密景。這瞇個故案事被續(xù)公認腿是商貸業(yè)領(lǐng)視域數(shù)跪據(jù)挖使掘的戶誕生略。6.2數(shù)據(jù)演挖掘征的方漆法步雨驟和匠語言撥工具6.2.1數(shù)據(jù)婚挖掘講的方每法⑴育分析靈和預植測方利法。數(shù)據(jù)劑挖掘扶中大頂量采楚用統(tǒng)兇計分坊析方夠法,戰(zhàn)如描籃述統(tǒng)飲計、性概率輸論、脆回歸屋分析鋒(線儲性回裕歸、廁非線向性回億歸、垃多元板回歸監(jiān)、泊贊松回瘦歸、沾對數(shù)當回歸粥)、蘆時間足序列獲分析抹、多六元分繁析等鑰。⑵陡粗糙州集。把那捎些無姑法確難認的桌個體忘都歸偉屬于嚇邊界福線區(qū)脾域,菜而這若種邊島界線班區(qū)域惡被定伶義為嶄上近母似集腦和下陣近似哨集之誦差集伐。粗吸糙集手理論族主要欣特點標在于私它恰谷好反山映了情人們塘用粗招糙集濟方法節(jié)處理漿不分裙明問冶題的虎常規(guī)飼性,景即以現(xiàn)不完貫全信護息或圍知識莖去處鞠理一恩些不給分明濱現(xiàn)象臺的能齒力,唐或依眾據(jù)觀康察、性度量應到的疲某些鵲不精慎確的盛結(jié)果催而進疼行分牌類數(shù)譜據(jù)的眨能力撐。6.2.1數(shù)據(jù)經(jīng)挖掘東的方失法⑶妥模糊冰集。模糊乎集合震論用渠隸屬仙程度浩來描拍述差具異的服中間靈過渡灑,是染一種墓用精逮確的悶數(shù)學南語言憑對模跡糊性站進行柴描述輩的方轟法。定義幕:論就域X=木{x素}上的磚模糊幅集合A由隸母屬函夜數(shù)A(磚x)來表杯征。伴其中A(補x)在實皺軸的荒閉區(qū)謝間[0,1]中取風值,A(銜x)的大泡小反倡映x對于仔模糊袖集合A的隸認屬程泰度。A(稈x)的值濫接近1,表鋼示x隸屬露于A的程濕度很運高。A(派x)的值鴉接近0,表憂示x隸屬爬于A的程林度很基低。特例裝,當A的值備域取[0,1]閉區(qū)候間的傘兩個裂端點刑,亦啦即0和1兩個擠值時脫,A便退楊化為研一個匠普通網(wǎng)的邏鼻輯子浴集。府隸屬炒函數(shù)布也就該退化顛為普案通邏價輯值戚。6.2.1數(shù)據(jù)秋挖掘渴的方醋法⑷祥聚類待分析邪。聚類密是對計物理自的或留抽象向的對哪象集瘦合分禁組的屋過程奧。聚初類生灶成的旅組為顫簇,寺簇是坊數(shù)據(jù)耕對象造的集枝合。烏簇內(nèi)玻部任梢意兩匹個對跟象之年間具澡有較換高的帆相似雙度,嚇而屬賠于不橋同簇匯的兩蟲個對掉象間棍具有東較高敗的相織異度這。主要徐方法隱有:確劃分錦的方吩法、使層次磁的方扶法、押基于漂密度宴的方升法、瓣基于海網(wǎng)格拖的方厲法、樣基于盯模型糖的方尋法。⑸援關(guān)聯(lián)煮規(guī)則蟲。它反滅映一胸個事針物與狂其它納事物俘之間弦的相融互依膛存性渠和關(guān)移聯(lián)性肚,如縱果兩靈個事堤物或支者多奏個事篩物之竭間存浴在一買定的棗關(guān)聯(lián)對關(guān)系關(guān),那飲么其貼中一烈個事里物就硬能夠則通過堪其他頃事物澡預測的到。發(fā)現(xiàn)掀關(guān)聯(lián)共規(guī)則搜需經(jīng)浙如下勢兩步唐:①晉找氏出所援有頻條繁項忌;②木由歇頻繁冷項集痰生成肺滿足丈最小持信任完度閾析值的壯規(guī)則蕩。6.2.1數(shù)據(jù)凝挖掘受的方元法⑹垮決策妖樹。它靈首先吐通過笑一批搭已知鞠的訓窩練數(shù)抬據(jù)建隱立一贊棵決史策樹標,然笑后采淋用建威好的約決策牛樹對汪數(shù)據(jù)編進行挑預測秋。常潑用的之方法卻有分耗類及疲回歸鍋樹法懷、卡欠方自垮動交指互探掀測法綿等。⑺葛人工舌神經(jīng)惜網(wǎng)絡剛。一種翼模仿獻人腦百思考淡結(jié)構(gòu)恰的數(shù)消據(jù)分環(huán)析模毒式,遼由輸勸入變雨量或范數(shù)值介中自天我學性習并番根據(jù)寶學習勞經(jīng)驗并所得諷的知延識不警斷調(diào)墓整參糠數(shù),頁以期夾得到羽資料唐的模擊式。司它可紀以對郊大量揚復雜民的數(shù)盛據(jù)進路行分著析,排并能遠完成理對人澆腦或蛙計算祥機來乎說極泡為復集雜的竟模式痛抽取平及趨完勢分友析。謠比較粘典型折的學臣習方嚷法是才回溯劣法。秧通過券將輸茶出結(jié)屑果同版一些士已知搬值進凳行一進系列遮比較頂,加濟權(quán)值央不斷湊調(diào)整井,得盾到一家個新固的輸招出值搭,再真經(jīng)過現(xiàn)不斷鬧的學版習過盞程,摟最后叮該神鳴經(jīng)網(wǎng)浪絡得嫁到一燃個穩(wěn)堂定的盟結(jié)果慮。⑻粥多媒肉體數(shù)蜘據(jù)挖柄掘。就是跑通過缺綜合董分析妨多媒垂體數(shù)訊據(jù)的陸內(nèi)容搬和語猶義,粘從大買量多憤媒體啦數(shù)據(jù)粒中發(fā)處現(xiàn)隱暮含的信、有約效的悄、有殲價值鍬的、關(guān)可理鞠解的午模式怪,得轉(zhuǎn)出事偵件的盞發(fā)展仗趨向鼓和關(guān)笛聯(lián)關(guān)口系。6.2.1數(shù)據(jù)脹挖掘類的方遵法⑼樂數(shù)據(jù)艷可視糟化??梢暸示呖尚桃酝ㄇf過適刑當?shù)奈虉D形寧來表革示數(shù)守據(jù),硬并支蠻持多漠維數(shù)結(jié)據(jù)的亭可視鎮(zhèn)化,洪為數(shù)醉據(jù)分室析人固員提促供很陪好的腦幫助割。有煙些工城具甚誓至提強供動糞畫功律能。⑽在遺傳俘算法賤。它應乳用算握法的咳適應卵函數(shù)樂來決徑定搜辜索的戲方向久,運倒用一奇些擬洋生物繼化的畜人工路運算育過程得進行清一代筆一代敬的周拾而復吩始的恩演化靈,求平得一吼個最懸佳結(jié)霞果。⑾佩近鄰脾算法兄。依據(jù)呈“Do榜a篩s籍yo豎ur售n滋ei橫gh裂bo渾rs納d枝o”的原腿則,夕相鄰陪數(shù)據(jù)們必然育有相粒同的免屬性就或行吩為。K—處ne額ar假es笛t鄰居獻方法拋的含腐義為剛:K表示尼某個斃特定治數(shù)據(jù)熱的K個鄰診居,巾可以斷通過K個鄰話居的厘平均牧數(shù)據(jù)沙來預鳥測該估特定共數(shù)據(jù)寨的某遞個屬奮性或倘行為健。6.2.1數(shù)據(jù)層挖掘摧的方然法⑿錢連機沫分析覆處理級。簡稱OL汁AP,是迫基于蓬大型須數(shù)據(jù)蒙庫或比數(shù)據(jù)央倉庫腫的信茶息分闊析過脂程和手用戶腿接口鑼部分館,其控目的棄是滿亭足決矮策支斬持或瞞多維教環(huán)境懶特定俘的查淡詢和監(jiān)報表呆要求叔。OL廚AP主要重是對哥用戶例當前呼及歷越史數(shù)澡據(jù)進醒行分捕析,仗輔助恩決策境。其興典型甘的應任用有撇對銀磚行信耽用卡臥風險漠的分撲析與泥預測嬸等,可主要熟是進毅行大禍量的免查詢掃操作父,對映時間貪的要即求不歸太嚴貨格。⒀薦多層鈔次數(shù)賞據(jù)概撲化歸全納:數(shù)據(jù)朗庫中餓的數(shù)輕據(jù)和劍對象杜經(jīng)常腐包含炒原始樓概念末層上躁的詳催細信略息,招將一牢個數(shù)讀據(jù)集嶼合歸柿納成連高概閣念層甘次信遭息的慮數(shù)據(jù)撕挖掘扁技術(shù)哨被稱惕為數(shù)霉據(jù)概盡化。興概念戲匯總拒將數(shù)小據(jù)庫漏中的渡相關(guān)蒜數(shù)據(jù)允由低私概念馳層抽孟象到狀高概公念層健,主貓要有古數(shù)據(jù)庫立方恰體和按面向和屬性鳴兩種冷方法草。6.2.2數(shù)據(jù)煩挖掘甲語言數(shù)據(jù)點挖掘焰語言森的研皮究經(jīng)初歷了閥兩個痛階段呀,第賀一個怎階段踏成果宣包括DM蘭QL、MS納QL和MI籮NE陰R陣UL嶼E操作凱器等蝴。第斥二階淡段主午要包轎括數(shù)飾據(jù)挖盜掘組怒織協(xié)吹會(DM本G)提趣出的拴預言隔模型駛標記帳語言PM師ML,以輛及微邊軟公誓司提偽出的OL壩E瓦DB桿f軋or渴D夢at答a協(xié)Mi漢ni跳ng規(guī)范完。根據(jù)賢功能繭和側(cè)有重點鐘不同界,可誕將數(shù)緊據(jù)挖辰掘分答為三團種類街型:理數(shù)據(jù)紙挖掘密查詢緣瑞語言升、數(shù)拉據(jù)挖狡掘建橫模語顯言、靈通用崇數(shù)據(jù)霜挖掘祖語言棋。第魂一階烘段的救數(shù)據(jù)擔挖掘謙語言攤一般濟屬于償查詢篇語言壯;PM蛙ML屬于早建模噴語言榨;OL畢E撫DB里f耽or館D流M屬于臟通用屆數(shù)據(jù)獅挖掘丟語言限。下隙面我逮們分圾別介勾紹其目特點改和功松能。1.數(shù)據(jù)捧挖掘挽查詢錦語言數(shù)據(jù)從挖掘荒查詢倦語言DM解QL(Da她ta及M逗in決in昆g險Qu鏈er鼻y竹La閉ng溝ua趙ge)由灑數(shù)據(jù)滲挖掘炊原語障組成頑,該錄原語續(xù)用來驅(qū)定義診一個梯數(shù)據(jù)索挖掘壇任務槐。這北些原圈語有發(fā)以下伐幾個績種類恰:數(shù)乞據(jù)庫天一部辭分的鴿規(guī)范距以及獲用戶腰感興她趣的氧數(shù)據(jù)負集(閃包括茄感興遇趣的框數(shù)據(jù)拖庫屬躬性或駝數(shù)據(jù)辭倉庫派的維持度)癥;挖化掘知理識的仰種類巖;在的指導轉(zhuǎn)挖掘再過程蜘中有職用的忌背景酸知識你;模折式估抓值的根興趣粉度測扎量;械以及披挖掘娘出的抖知識朱如何夸可視導化表販示。雁數(shù)據(jù)頌挖掘語原語榮允許這用戶克在挖艦掘過勢程中濫從不摩同的礦角度得或深凱度與直數(shù)據(jù)楊挖掘續(xù)系統(tǒng)系進行愿交互輸式地閉通信左。1.數(shù)據(jù)喂挖掘容查詢制語言五種歉基本筋的數(shù)然據(jù)挖客掘原持語定紋義:⑴淘任務盛相關(guān)刑數(shù)據(jù)沾原語敘。用戶默感興寺趣的籮數(shù)據(jù)漸集,增及表否中感怠興趣嫩的屬幫性。禾包括值:數(shù)訪據(jù)庫訊或數(shù)瘡據(jù)倉釋庫的蹤蝶名稱勺;數(shù)斯據(jù)庫躁表或論數(shù)據(jù)臺倉庫躍的立成方體豪;數(shù)記據(jù)選雜擇的瓦條件情;相傍關(guān)屬喂性或去維;達數(shù)據(jù)含分組李定義狐。⑵包被挖魔掘知么識的塞種類揉原語化。該原逢語指丹定被層執(zhí)行淚的數(shù)叫據(jù)挖譯掘的腹功能測,分泳為五洪類:奏特征椒規(guī)則快、辨劫別規(guī)助則、血關(guān)聯(lián)聰規(guī)則濃、分敬類/預言罩、聚知集。⑶毀背景慘知識寧原語挺。用戶龍能夠潔指定避的背號景知顏識。釣包括你:概喂念層地次、學對數(shù)鍬據(jù)關(guān)咬系的櫻用戶武信任早度。⑷勺興趣歇度測岔量原維語。這個倉功能畜是將甚不感割興趣靜的模假式從義知識稍中排顯除出縣去??绲陀讵{用戶菊指定搖的支刻持度羽和可著信度陣閾值當?shù)囊?guī)貞則被趙認為告是不才感興巖趣的豎。興判趣度由測量議原語胡包括紹:簡重單性零、確樓定性滅(比夫如:挎可信際度)森、效毛用、挨新穎幟性等淋。⑸潑被發(fā)歉現(xiàn)模柏式的脹表示保和可鋸視化肺原語鐵。這個螺原語罪定義固被發(fā)爐現(xiàn)的依模式檔顯示勻的方魚式,惕用戶錢能夠仿選擇堆不同重的知淡識表愛示形者式。紙包括投:規(guī)鈔則、株表格鈴、報秩告、猶圖表撒、圖賢形、遺決策瓣樹和缺立方孤體、咐向下則鉆入迷和向冬上累估積。1.數(shù)據(jù)粗挖掘珠查詢崖語言除了DM日QL以外鳳,還村有一偽些其廉它數(shù)井據(jù)挖叛掘查卵詢語鞏言。洽比如廢基于SQ辛L的多桶媒體賣查詢觀語言遞(MS機QL)使疏用了竊類似SQ兵L的語竭法和SQ鏟L原語政(包雕括排框序、喘分組娃、和竹其它爛原語斯),唱能在貍數(shù)據(jù)舌挖掘捏中可病能產(chǎn)振生大奪量的才規(guī)則兔。MS石QL提供艱了一希個稱悅作Ge細tR坑ul配e和Se趴le績ct信Ru討le的原咳語,臂用于陰規(guī)則歡產(chǎn)生凱和規(guī)方則選演擇。胖它統(tǒng)液一地杜對待牛數(shù)據(jù)謙和規(guī)拉則,昂因此岡,能抽夠在銷執(zhí)行算數(shù)據(jù)丈選擇洗,以工及基瞞于查視詢的真規(guī)則宋產(chǎn)生持時進碧行優(yōu)測化工煎作,沙同時茂也能村在操蘇縱或缺者查族詢產(chǎn)窩生規(guī)截則的估集合稈時進爬行優(yōu)澡化。仰其它象在數(shù)剃據(jù)挖砍掘語伯言設(shè)竿計方偽面的消研究侄工作楊包括MI抵NE腹R忌UL際E操作帝器。闊它同員樣遵泳循類蜻似SQ自L的語醬法,后是為障挖掘桐關(guān)聯(lián)跌規(guī)則耐設(shè)計研的規(guī)慨則產(chǎn)公生查耐詢語勤言。2.數(shù)據(jù)侵挖掘臥建模駁語言預言聾模型鼠標記匆語言PM烤ML(Pr痛ed乳ic霜ti守ve園M布od銀el裳M池ar地ku花p童La朱ng烏ua洪ge)PM鏟ML主要營目的門是允士許應薯用程堡序和響聯(lián)機爆分析尿處理稼(OL侮AP)工騰具能雪從數(shù)搜據(jù)挖被掘系斷統(tǒng)獲展得模豈型,沖而不薦用獨向自開嚼發(fā)數(shù)諸據(jù)挖固掘模鈴塊。田另一集個目南的是渡能夠旨收集參使用寬大量裳潛在份的模蹤蝶型,費并且北統(tǒng)一摧管理俊各種員模型佛的集寧合。PM寺ML是一鞭種基員于擴答展性詳標識四語言奮(XM罪L)的鴉語言鴨,用憲來定糕義預遞言模蛙型。蕩通過芒使用XM怕L解析管器,挎應用落程序陳能夠令決定撈模型醋輸入鈔和輸喂出的羊數(shù)據(jù)摧類型筑、模崖型詳皂細的桿格式航,并儲且按齒照標艱準的揭數(shù)據(jù)拐挖掘拐術(shù)語芝來解偽釋模藝型的肌結(jié)果徐。PM糕ML對于雞那些改需要撿全部吃學習念、部曠分學恰習和沒分布耽式學色習的煎應用徹程序霧,這爪種語需言被剃證明攤是非羊常有獵用的翅。特膠別地輔,PM捉ML非常勸適合船部分銹學習煎、元吃學習望、分陡布式碑學習測、以灘及相額關(guān)領(lǐng)融域。使用PM縱ML進行尺模型欠定義竟由以女下幾訪部分鑼組成凍:①暴頭丹文件嫩;②賺數(shù)據(jù)慈模式帆;③政數(shù)據(jù)避挖掘魔模式朋;④雜預言蔽模型要模式肉;⑤餡預言茄模型椅定義阻;⑥斃全體于模型篇定義字;⑦在選擇怎和聯(lián)艷合模常型和鞋全體閘模型孕的規(guī)寸則;吃⑧異盾常處康理的兆規(guī)則楚。3.通用乒數(shù)據(jù)財挖掘伏語言通用續(xù)數(shù)據(jù)目挖掘桐語言難合并縫了上愚述兩篇種語蕩言的舌特點鏈,既膝具有盼定義趣模型銷的功騎能,披又能型作為論查詢鄰語言頑與數(shù)榜據(jù)挖敞掘系疼統(tǒng)通座信,次進行親交互收和特伏殊的駐挖掘剝。OL娛E甘DB堵f達or辣D心M歸類哥成通判用數(shù)章?lián)诟妇蛘Z握言。OL蛇E譽DB槳f瓜or通D軋M的規(guī)漁范包疼括創(chuàng)源建原仔語以辛及許駝多重墾要數(shù)毫據(jù)挖恐掘模約型的歲定義霜和使構(gòu)用。鄰它是亦一個酸基于SQ饞L預言倆的協(xié)甘議,潑為軟碧件商檢和應叨用開巨發(fā)人游員提岔供了徹一個祖開放授的接調(diào)口。OL擺E盯DB稱f傅or杏D轟M擴充翠了SQ岔L語言偏語法栽,使軌得商玩業(yè)分服析和補開發(fā)搶人員關(guān)只是塌調(diào)用墨單一刃確定碧的AP綢I(應找用程妻序接澤口)肝函數(shù)渣即可嬸實現(xiàn)爪數(shù)據(jù)吵挖掘炮功能賣,而垃不需尸要特嗽殊的渡數(shù)據(jù)敞挖掘浙技能條。OL低E景DB羊f般or永D慰M定義閥了重飄要的嶼新的飄概念漂和特武點,糖包括們?nèi)缦聲駧c齒:⑴帥數(shù)據(jù)鎖挖掘衰模型DM觀M(Da繡ta估M老in享in焰g體Mo祝de咸l)。⑵曠預言汗聯(lián)接澤操作候。⑶OL應E揉DB允f梢or冠D積M模式少行集瓜合。6.2.3數(shù)據(jù)辮挖掘蜜的工最具1.數(shù)據(jù)上挖掘爪工具舉分類數(shù)據(jù)恒挖掘沒工具蹦根據(jù)狀其適嶺用的盟范圍璃分為掙兩類姜:專用站數(shù)據(jù)準挖掘聾工具敘和通追用數(shù)厭據(jù)挖禾掘工敬具。專用界數(shù)據(jù)毯挖掘程工具漁是針律對某喇個特推定領(lǐng)勉域的能問題廟提供龜解決洗方案愈,采些用的效是特宰殊的季算法泡,可武以處掛理特航殊的那數(shù)據(jù)老,實粘現(xiàn)特蝴殊的繡目的拐,并窯作了雁優(yōu)化每;而滑通用餡數(shù)據(jù)贏挖掘方工具后不區(qū)猴分具舅體數(shù)隱據(jù)的籍含義枝,采炎用通龜用的裳挖掘評算法宅,處演理常岔見的叼數(shù)據(jù)惰類型餡,可厚以做培多種燦模式壺的挖袋掘,悶挖掘職什么厲和用惑什么猾來挖蝦掘都貌由用偶戶根該據(jù)自繞己的恰應用冠來選溉擇。2.數(shù)據(jù)欄挖掘傻工具跳的選拉擇根據(jù)倒以下同幾點垮選擇福數(shù)據(jù)耳挖掘繪工具推:⑴風數(shù)據(jù)斷挖掘宣的功寧能性脖。。⑵造數(shù)據(jù)于挖掘劑工具份的可播伸縮林性。蔥。⑶動操作銷的簡廉易性鞠。。⑷撐數(shù)據(jù)床挖掘究工具土的可喜視化系。。⑸炎數(shù)據(jù)狗挖掘碑工具對的開憶放性浩。。另外寫對數(shù)來據(jù)挖伯掘工刃具還笨應考磚慮是韻否有訓多種盜模式佩、多芬種算恨法、居多種冠校驗簡方法孟,是簡否有笛較好臭的數(shù)貼據(jù)選搞擇和寒轉(zhuǎn)換講、較鎮(zhèn)好的敢操作湯性能芳和數(shù)家據(jù)存魄取能呀力、膊接口舒功能請的好斑壞等君。3.數(shù)據(jù)禍挖掘尿工具誓介紹⑴QU南ES聾TQU姿ES庸T是IB趟M公司Al貓ma模de鋸n研究厚中心厘開發(fā)穗的一口個多各任務熊數(shù)據(jù)液挖掘掠系統(tǒng)丈,系本統(tǒng)具因有如爺下特紗點:公①桿提憂供了鼻專門悲在大規(guī)型數(shù)理據(jù)庫饑上進計行各煎種開鼠采的訴功能淘:關(guān)漠聯(lián)規(guī)平則發(fā)嶺現(xiàn)、贏序列檢模式錄發(fā)現(xiàn)咱、時此間序興列聚徹類、取決策濃樹分吃類、伯遞增綱式主鳴動開細采等嶼。②宜各種握開采塘算法允具有油近似堂線性掀計算題復雜血度,枕可適物用于宗任意饅大小植的數(shù)箏據(jù)庫最。③種算法肝具有憑找全臟性,序即能渾將所嚼有滿鍵足指駝定類扇型的耍模式脈全部服尋找仿出來濕。④偽為各田種發(fā)采現(xiàn)功靈能設(shè)滿計了研相應范的并頃行算覺法。3.數(shù)據(jù)牙挖掘國工具語介紹⑵Mi幸ne瓣Se召tMi正ne貿(mào)Se點t是由SG菠I公司錦和美械國St增an渠df湯or裳d大學燦聯(lián)合偽開發(fā)合的多撤任務聞數(shù)據(jù)裁挖掘叢系統(tǒng)薯。Mi訊ne雞Se院t集成薦多種拼數(shù)據(jù)沸挖掘誦算法徐和可餃視化惹工具用,幫渡助用往戶直房誠觀地種、實敗時地鳥發(fā)掘億、理駁解大軌量數(shù)秒據(jù)背款后的品知識革。Mi庭ne揭Se哪t有如菌下特勺點:①Mi盛ne可Se罰t以先灣進的響可視界化顯體示方撕法聞飼名于扁世。②階支持鵝多種慚關(guān)系燭數(shù)據(jù)株庫。物可以刊直接值從Or看ac農(nóng)le、In按fo陣rm清ix、Sy腫ba毯se的表輪讀取翼數(shù)據(jù)昨,也省可以附通過SQ金L命令棒執(zhí)行劈燕查詢培。③惱多種丈數(shù)據(jù)泰轉(zhuǎn)換端功能不。④扶操作律簡單森、支承持國賤際字判符、慢可以底直接杰發(fā)布預到We乞b。3.數(shù)據(jù)價挖掘殘工具污介紹⑶DB侄Mi顫ne屢rDB獸Mi衣ne孔r是加史拿大Si章mo票nF舟ra倘se促r大學胸開發(fā)莖的一郊個多翻任務久數(shù)據(jù)盒挖掘政系統(tǒng)怒。設(shè)笛計目樓的是智把關(guān)漲系數(shù)抓據(jù)庫尖和數(shù)雕據(jù)開寇采集熱成在取一起高,以饑面向乓屬性掩的多掃級概描念為鎮(zhèn)基礎(chǔ)繡發(fā)現(xiàn)壞各種坊知識脹。DB銀Mi艷ne侍r系統(tǒng)幅具有門如下李特色和:①劑能完它成多婦種知法識的占發(fā)現(xiàn)蹄:泛康化規(guī)講則、擔特性鍛規(guī)則艷、關(guān)傾聯(lián)規(guī)特則、毛分類傭規(guī)則姻、演嘆化知貼識、哄偏離犁知識割等。②垂綜合響了多紛種數(shù)迅據(jù)開陶采技配術(shù):約面向規(guī)屬性湊的歸餃納、披統(tǒng)計哲分析桐、逐位級深剪化發(fā)畏現(xiàn)多靜級規(guī)敞則、籮元規(guī)踢則引攪導發(fā)隨現(xiàn)等經(jīng)方法孝。③乎提出洞了一般種交諸互式懶的類SQ塊L語言——數(shù)據(jù)掘開采災查詢率語言DM帳QL。④暫能與旦關(guān)系敲數(shù)據(jù)短庫平銅滑集栽成。⑤駱實現(xiàn)役了基博于客伶戶/服務推器體襲系結(jié)禾構(gòu)的Un互ix和PC(Wi雨nd托ow艷s/光NT)版賤本的饞系統(tǒng)督。3.數(shù)據(jù)慕挖掘碑工具屋介紹⑷In喜te陶ll時ig樂en掙t卸Mi螞ne譽r由美替國IB今M公司運開發(fā)躍的數(shù)駕據(jù)挖利掘軟丟件In絲式te撓ll意ig風en恒t球Mi屢ne悼r是一紛種分北別面徐向數(shù)仇據(jù)庫仙和文膚本信畜息進鳥行數(shù)淋據(jù)挖潤掘的劣軟件軟系列討,它序包括In拼te鎖ll販ig角en乞t甚Mi初ne觀r酒fo紛r疤Da芝ta和In害te顯ll尊ig平en匪t戰(zhàn)Mi錄ne傷r努fo未r絨Te屠xt。前抗者可描以挖碌掘包甚含在帶數(shù)據(jù)講庫、艇數(shù)據(jù)虎倉庫冠和數(shù)絮據(jù)中持心中儉的隱蓋含信杠息,睛幫助封用戶懶利用財傳統(tǒng)摘數(shù)據(jù)甘庫或配普通乳文件疑中的險結(jié)構(gòu)頁化數(shù)禁據(jù)進悼行數(shù)蚊據(jù)挖耐掘。宮它已爐經(jīng)成致功應睜用于繳市場嘆分析受、詐勒騙行納為監(jiān)尖測及顯客戶掘聯(lián)系另管理敘等;絮后者寬允許今企業(yè)除從文繼本信魔息進貌行數(shù)屋據(jù)挖墻掘,踩文本烘數(shù)據(jù)索源可游以是情文本攏文件現(xiàn)、We韻b頁面忍、電佩子郵球件、Lo執(zhí)tu逼s武No完te毅s數(shù)據(jù)幫庫等疾等。3.數(shù)據(jù)作挖掘田工具蕉介紹⑸SA遭S某En亡te組rp渾ri眼se糖M緊in往er這是隱一種騰在我撲國的堵企業(yè)敲中得史到采藥用的默數(shù)據(jù)稍挖掘古工具疤,比獅較典源型的障包括然上?;顚氫摶榕涞V碧系統(tǒng)庸應用透和鐵燦路部貝門在鍬春運績客運菜研究概中的難應用偽。SA牢S賣En英te錄rp膚ri快se糧M培in托er是一條種通尋用的換數(shù)據(jù)瘋挖掘校工具倆,按率照"抽樣--探索--轉(zhuǎn)換--建模--評估"的方方法進規(guī)行數(shù)擾據(jù)挖含掘。怕可以果與SA局S數(shù)據(jù)捧倉庫爐和OL調(diào)AP集成柏,實踩現(xiàn)從因提出觸數(shù)據(jù)斜、抓燙住數(shù)紐奉據(jù)到謹?shù)玫教鸾獯鸨椎?端到證端"知識隔發(fā)現(xiàn)勒。3.數(shù)據(jù)股挖掘斤工具彎介紹⑹SP芽SS嚇C答le壯me姥nt擇in必eSP今SS縱C痰le羨me擇nt企in陽e是一乏個開父放式常數(shù)據(jù)撈挖掘診工具唐,不魄但支碌持整怠個數(shù)婚據(jù)挖漢掘流汽程,述從數(shù)題據(jù)獲政取、揭轉(zhuǎn)化賴、建悅模、順評估敬到最槽終部賠署的菊全部越過程腰,還爐支持惱數(shù)據(jù)飼挖掘懲的行撐業(yè)標奴準--里CR館IS辜P-駕DM。Cl堵em瞎en我ti舒ne提供狀了多矩種圖壺形化臥技術(shù)鄰,有開助理友解數(shù)些據(jù)間佳的關(guān)修鍵性功聯(lián)系倡,指業(yè)導用檔戶以士最便撒捷的左途徑絞找到撕問題堆的最死終解摩決辦股法。其它駁常用匯的數(shù)串據(jù)挖遭掘工跡具還誤有LE窮VE迫L5輪Q之ue浸st、Mi絞ne寇Se元t(S隔GI坡)、Pa具rt良ek、SE錫-L臺ea趨rn、SP趴SS的數(shù)逢據(jù)挖挎掘軟女件Sn殖ob、As舟hr柱afAz寬my的Su御pe裹rQ輪ue桐ry、WI宰NR師OS紗A、Xm循dv鋒To類ol等。6.2.4數(shù)據(jù)顧挖掘則的流呼程1.數(shù)據(jù)汽挖掘估環(huán)境人們參可以擦對大弱型數(shù)酒據(jù)庫占中先學前未浪知的斧數(shù)據(jù)話進行貪分析街、研成究、阿變換追、篩播選、敲過濾燭、綜孟合和抬預處毛理。念可以別通過構(gòu)可視科化的蹄工具圾對挖皆掘出富的規(guī)沾律和攝模式持進行運解釋彎、評省價和嫌驗證群,用新戶可濱能要晝使用配各類盯可視化化工碰具來愚顯示灣有關(guān)員數(shù)據(jù)。數(shù)據(jù)庫數(shù)據(jù)挖掘工具可視化工具圖6-3數(shù)據(jù)挖掘環(huán)境示意圖2.數(shù)據(jù)州挖掘帝的過槽程圖6-4數(shù)據(jù)挖掘的基本過程和主要步驟3.數(shù)據(jù)叮挖掘洽需要紹的人包員數(shù)據(jù)惹挖掘識在不僻同的哄階段販需要裝有不山同專成長的劈燕人員沾,他案們大襪體可囑以分趙為以膨下三壩類:⑴箭業(yè)務川分析蠟人員:要求瀉精通島業(yè)務損,能騙夠解尼釋業(yè)那務對踩象,蝦并根霉據(jù)各舉業(yè)務圈對象慢確定慶出用鋤于數(shù)府據(jù)定嚼義和嫩挖掘賓算法像的業(yè)糞務需他求。⑵墊數(shù)據(jù)測分析禮人員:精通浪數(shù)據(jù)短分析樓技術(shù)鼓,并禾對統(tǒng)妻計學扣有較朝熟練瓶的掌藝握,棄有能亞力把除業(yè)務狗需求禾轉(zhuǎn)化戰(zhàn)為數(shù)哈據(jù)挖賠掘的逝各步究操作棟,并范為每滔步操脖作選雜擇合靈適的騎技術(shù)忙。⑶秤數(shù)據(jù)恢管理字人員:精通眠數(shù)據(jù)萄管理掘技術(shù)朋,并窯從數(shù)盤據(jù)庫覆或數(shù)撓據(jù)倉米庫中鋪收集捆數(shù)據(jù)掠。6.3數(shù)據(jù)鬧挖掘草系統(tǒng)壩的組華構(gòu)及評管理鄉(xiāng)豐策略數(shù)據(jù)無挖掘嬸系統(tǒng)去的組獲成數(shù)據(jù)清理數(shù)據(jù)集成數(shù)據(jù)倉庫數(shù)據(jù)庫數(shù)據(jù)庫或數(shù)據(jù)倉庫服務器數(shù)據(jù)挖掘引擎模式評估圖形用戶界面知識庫過濾圖6-5數(shù)據(jù)挖掘的系統(tǒng)組成數(shù)據(jù)槳挖掘猶邏輯立模型挖掘系統(tǒng)管理器DB接口數(shù)據(jù)選擇

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論