



下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、數(shù)據(jù)挖掘的模式類型及其應(yīng)用領(lǐng)域發(fā)表時間:2009-11-25薛向陽 來源:萬方數(shù)據(jù)關(guān)鍵字:數(shù)據(jù)挖掘模式類型BI信息化應(yīng)用調(diào)查我要找茬在線投稿加入收藏發(fā)表評論好文推薦打印文本本文闡述了數(shù)據(jù)挖掘的概念、模式類型及其應(yīng)用領(lǐng)域目的在于使人能夠根據(jù)其所在領(lǐng)域的挖掘任務(wù)選擇具體的挖掘模式。一、引言隨著數(shù)據(jù)庫技術(shù)的成熟和數(shù)據(jù)庫管理系統(tǒng)的廣泛應(yīng)用,人們已經(jīng)在商業(yè)、政府和科學(xué)等領(lǐng)域的數(shù)據(jù)庫內(nèi)積累r大量歷史數(shù)據(jù),激增的數(shù)據(jù)背后隱藏著許多重要的信息,然而過去由于缺乏挖掘數(shù)據(jù)背后隱藏知識的手段,導(dǎo)致r數(shù)據(jù)豐富,但信息貧乏”的現(xiàn)象,即所渭 數(shù)據(jù)爆炸”面對浩森 無際的數(shù)據(jù)海洋.人們希望能夠?qū)?shù)據(jù)進(jìn)行更高層次的分析,以便更
2、好地 理解和利用這些數(shù)據(jù)背后所包含的信息,數(shù)據(jù)挖掘(Data Mining,DM)便應(yīng)運(yùn)而生了,這里所指的 知識”就是數(shù)據(jù)中隱含的信息。數(shù)據(jù)挖掘就是從大 量的、不完全的、有噪聲的、模糊的和隨機(jī)的數(shù)據(jù)中。 提取隱含在其中的、 人們事先不知道的,但又是潛在有用的信息和知識的過程。近年來,國內(nèi) 的數(shù)據(jù)挖掘研究也正逐漸掀起高潮,在算法和應(yīng)用方而取得了一些具有擴(kuò) 展性或突破性的研究成果。二、數(shù)據(jù)挖掘的模式類型由于每種數(shù)據(jù)挖掘技術(shù)都有其自身的特點(diǎn)和實(shí)現(xiàn)的步驟,對數(shù)據(jù)的形式有具體的要求,岡此,成功的應(yīng)用數(shù)據(jù)挖掘技術(shù)以達(dá)到日標(biāo),這個過程奉 身就是一件很復(fù)雜的事情,下面主要從挖掘任務(wù)這個角度來討論對具體挖 掘模
3、式的選擇。根據(jù)挖掘任務(wù),數(shù)據(jù)挖掘可分為概念/類描述;挖掘頻繁 模式、關(guān)聯(lián)和相關(guān);分類和顱測;聚類分析;離群點(diǎn)分析和演變分析等。在選擇使用某種數(shù)據(jù)挖掘技術(shù)之前,首先要將待解決的商業(yè)IJ題轉(zhuǎn)化成 止確的數(shù)據(jù)挖掘任務(wù),然后根據(jù)挖掘任務(wù)來選擇具體使用某一種或幾種挖 掘模式。 F 面具體地分析每一種挖掘任務(wù)應(yīng)使用哪些挖掘模式:1概念類描述用匯總的、 簡潔的和精確的方式描述各個類和概念可能是有用的。 這種 類或概念的描述稱為概念類描述。這種描述可以通過下述方法得到: (1) 數(shù)據(jù)特征化,一般地匯總所研究類的數(shù)據(jù); (2)數(shù)據(jù)區(qū)分,將日標(biāo)類與一個 或多個可比較類進(jìn)行比較; (3) 數(shù)據(jù)特征化和比較。2挖掘頻
4、繁模式、關(guān)聯(lián)和相關(guān)頻繁模式足在數(shù)據(jù)中頻繁出現(xiàn)的模式。 存在多種類型的頻繁模式, 包括 項(xiàng)集、子序列和 f 結(jié)構(gòu)。頻繁項(xiàng)集是指頻繁地在事物數(shù)據(jù)集中一起出現(xiàn)的 項(xiàng)的集合,如牛奶和面包。頻繁 m 現(xiàn)的子序列如顧客傾向于先購買 PC 再購艾數(shù)碼相機(jī)然后再購買內(nèi)存卡這樣的模式是一個(頻繁 )序列模式。子結(jié)構(gòu)可能涉及不同的結(jié)構(gòu)形式,如圖、樹或格,可以與項(xiàng)集或子序列結(jié)合 在一起。如果一個子結(jié)構(gòu)頻繁地出現(xiàn),則稱它為(頻繁 )結(jié)構(gòu)模式。關(guān)聯(lián)分析是尋找在同一個事件中出現(xiàn)的不同項(xiàng)的相關(guān)性,比如在一次購 父活動所買不同商品的相天性。 以購物籃這個典型例子分析關(guān)聯(lián)規(guī)則, “在 購買面包和黃油的顧客中,有 90的人同時也
5、買了牛奶 ”。即 (面包+黃油) 牛奶。還可以做其他分析,發(fā)現(xiàn)相關(guān)聯(lián)的屬性 值對之間的有趣的統(tǒng)計 相關(guān)3分類和預(yù)測分類是這樣的過程,它找出描述和區(qū)分?jǐn)?shù)據(jù)類或概念的模型,以便能夠使用模型預(yù)測類標(biāo)號未知的對象類。導(dǎo)出模型是基J:對訓(xùn)練數(shù)據(jù)集的分析。預(yù)測足建立連續(xù)值函數(shù)模型。也就是說,它用來預(yù)測空缺的或不知道 數(shù)值數(shù)據(jù)值,而不是類標(biāo)號。4聚類分析聚類分析數(shù)據(jù)對象不考慮已知的類標(biāo)號。 一般情況下, 訓(xùn)練數(shù)據(jù)中不提 供類標(biāo)號,岡為開始并不知道類標(biāo)號??梢允褂镁垲惍a(chǎn)生這種標(biāo)號。對象 根據(jù)最大化類內(nèi)部的相似性、最小化類之問的相似性原則進(jìn)行聚類或分 組。也就是說,對象的簇這樣形成,使得相比之卜在一個簇中的對象
6、具 有很高的相似性,而與其它簇中的對象很不相似。所以形成的每個簇口 r 以看作一個對象的類,由它可以導(dǎo)出規(guī)則。5離群點(diǎn)分析數(shù)據(jù)庫中町能包含一些數(shù)據(jù)對象,它們與數(shù)據(jù)的一般行為或模型不一 致。這些數(shù)據(jù)對象是離群點(diǎn)。大部分?jǐn)?shù)據(jù)挖掘方法將離群點(diǎn)視為噪聲或異 常而丟棄。然而,在一些應(yīng)用中 (如欺騙檢測 ),罕見的事件比正常出現(xiàn)的 事什更令人感興趣。離群點(diǎn)數(shù)據(jù)分析稱作離群點(diǎn)挖掘:可以假定一個數(shù)據(jù) 分布或概率模型使崩統(tǒng)計檢驗(yàn)檢測離群點(diǎn);或者使用距離度量,將遠(yuǎn)離 任何簇的對象視為離群點(diǎn)。6演變分析數(shù)據(jù)演變分析描述行為隨時間變化的對象的規(guī)律或趨勢。并對其建模。盡管這可能包括時間相天數(shù)據(jù)的特自 E 化、區(qū)分,關(guān)聯(lián)
7、和相關(guān)分析、 分類、 預(yù)測或聚類。這類分析的不同特點(diǎn)包括時間序列數(shù)據(jù)分析、序列或周期模 式匹配和基于相似性的數(shù)據(jù)分析。三、數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域目前擻據(jù)挖掘的應(yīng)用領(lǐng)域包括以下八個方面, 而每個領(lǐng)域又都有自己的 應(yīng)用領(lǐng)域和庇用背景。(1) 金融。金融事務(wù)需要收集和處理大量的數(shù)據(jù), 通過對這些數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)其數(shù)據(jù)模式及特亂 E,然后可能發(fā)現(xiàn)某個客戶、消費(fèi)群體或組織 的金融和商業(yè)興趣,也可觀察金融 fH 場的變化趨勢。數(shù)據(jù)挖掘在金融領(lǐng) 域的應(yīng)用廣泛,包括數(shù)據(jù)清理、金融市場分析預(yù)測、帳戶分類、信用評估 等。(2) 醫(yī)療保健。 醫(yī)療保健業(yè)有大鼉的數(shù)據(jù)需要處理 但這個行業(yè)的數(shù)據(jù)不 同的信息管理系統(tǒng)管理,數(shù)
8、據(jù)以不同的格式保存,從總體看,數(shù)據(jù)是無組 織的。在這個行業(yè)中,數(shù)據(jù)挖掘的關(guān)鍵任務(wù)是進(jìn)行數(shù)據(jù)清理、預(yù)測醫(yī)療保 健的費(fèi)崩。例如 GTE 實(shí)驗(yàn)室開發(fā),它能進(jìn)行多維分析,用了:分析 GTE 的醫(yī)療保健數(shù)據(jù),對比數(shù)據(jù)和預(yù)測數(shù)據(jù),在定量范圍內(nèi)解釋偏差,生成超 文本報表。(3) 市場業(yè)。 市場業(yè)應(yīng)用數(shù)據(jù)挖掘技術(shù)進(jìn)行市場定位、消費(fèi)者分析、 輔助 制定市場營銷策略等。(4) 零售業(yè)。零售業(yè)是最早運(yùn)用數(shù)據(jù)挖掘技術(shù)的行業(yè)。 目前, 主要運(yùn)用于 銷售預(yù)測、庫存需求、零售點(diǎn)的選擇、價格分析等。(5) 制造業(yè)。制造業(yè)應(yīng)用數(shù)據(jù)挖掘技術(shù)進(jìn)行零部件故障診斷、資源優(yōu)化、 生產(chǎn)過程分析等。(6) 司法。數(shù)據(jù)挖掘也可應(yīng)用于案件調(diào)杏、
9、 詐騙檢測、 犯罪行為分析等方 面,這些都可以給司法 T.作帶來巨大的利益。(7) 工程和科學(xué)。存信息量極為龐大的天文、氣象、生物技術(shù)等領(lǐng)域中, 所獲得的大量實(shí)驗(yàn)和觀察數(shù)據(jù)靠傳統(tǒng)的數(shù)據(jù)分析 t 具難以應(yīng)付,因此, x 寸功能強(qiáng)大的智能化自動分析上具要求迫切,這種需求推動 r DM 技術(shù)在 科學(xué)研究領(lǐng)域的應(yīng)用發(fā)展,目前 L 三獲得了一些重要的研究成果,例如: Jetpr opulsion 實(shí)驗(yàn)室利用決策樹方法對上百萬天體數(shù)據(jù)進(jìn)行分析,幫助天 文學(xué)家發(fā)現(xiàn) 16 個星的星體,效果要比人丁更快,更準(zhǔn)確。(8) 保險業(yè)。 對受險人員的分類將有助于確定適當(dāng)?shù)谋kU金額度。通過數(shù)據(jù)挖掘町以得到塒不同行業(yè)、不同年齡段、不問社會層次的人,他們的險 金應(yīng)該如何確定。另外,還可進(jìn)行險種關(guān)聯(lián)分析
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 軟件設(shè)計師人際溝通能力試題及答案
- 數(shù)據(jù)傳輸優(yōu)化策略分析試題及答案
- 新能源汽車充電樁建設(shè)資金申請報告:2025年充電樁行業(yè)政策影響深度解讀
- 西方政體特征與影響因素試題及答案
- 新能源微電網(wǎng)穩(wěn)定性控制與分布式能源協(xié)同運(yùn)行報告
- 項(xiàng)目管理中的時間預(yù)算技巧研究試題及答案
- 西方國家的青年政治動員研究試題及答案
- 高效備考的輔助工具2025年信息系統(tǒng)項(xiàng)目管理師試題及答案
- 2025年金融行業(yè)數(shù)據(jù)治理與隱私保護(hù)技術(shù)市場競爭力分析報告
- 2025年音樂流媒體平臺版權(quán)運(yùn)營與用戶付費(fèi)模式創(chuàng)新趨勢報告
- 2025年小學(xué)語文畢業(yè)升學(xué)全真模擬試卷(古詩詞背誦默寫)歷年真題回顧
- 東莞濱海灣新區(qū)管理委員會下屬事業(yè)單位招聘筆試真題2024
- 安徽宣城郎溪開創(chuàng)控股集團(tuán)有限公司下屬子公司招聘筆試題庫2025
- 2025屆江蘇省高三高考科研卷語文試題及參考答案
- 統(tǒng)編版語文六年級下冊古詩詞誦讀考點(diǎn)鞏固 期末復(fù)習(xí)專用課件
- 中小學(xué)期末考試總動員主題班會
- 核聚變:人類終極能源的鑰匙646mb
- 糖尿病急性并發(fā)癥的識別及處理課件
- 國家公職人員應(yīng)知應(yīng)會法律知識300題(單選)含答案
- 2025江西中考:化學(xué)高頻考點(diǎn)
- 2024年中考語文記敘文閱讀之新聞閱讀(解析版)
評論
0/150
提交評論