



下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、數(shù)據(jù)倉(cāng)庫(kù)與決策支持系統(tǒng)2015.10.12- 2 -一、數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù):面向主題的、集成的、穩(wěn)定的、隨時(shí)間變化的數(shù)據(jù)集合面向主題指數(shù)據(jù)倉(cāng)庫(kù)的建立有一個(gè)主體的對(duì)象,而非單一的事務(wù)集成表示數(shù)據(jù)倉(cāng)庫(kù)是將圍繞該主題的各類數(shù)據(jù)集成在一起而形成穩(wěn)定意味著不可更新隨時(shí)間變化指對(duì)應(yīng)不同時(shí)間點(diǎn),有不同批次的數(shù)據(jù)- 3 -一、數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)VS數(shù)據(jù)庫(kù)比較內(nèi)容數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)目標(biāo)Online Analytical Processing Online Transaction Processing 作用面向主題面向過程活動(dòng)分析事務(wù)處理構(gòu)成集成分散內(nèi)容不可更改可更改系統(tǒng)需求事先可以不知道事先已知數(shù)據(jù)量一次操作數(shù)據(jù)量大一
2、次操作數(shù)據(jù)量小時(shí)間性時(shí)序性當(dāng)前基礎(chǔ)結(jié)構(gòu)多維型關(guān)系型關(guān)系結(jié)構(gòu)星型、雪花3NF終端用戶管理者、決策者事務(wù)操作人員- 4 -一、數(shù)據(jù)倉(cāng)庫(kù)分析型處理VS事務(wù)型處理比較內(nèi)容分析型處理事務(wù)型處理性能特性運(yùn)行時(shí)間較長(zhǎng)、消耗大量系統(tǒng)資源數(shù)據(jù)存取頻率高、處理時(shí)間短數(shù)據(jù)集成問題需要大量的、集成的數(shù)據(jù)作為分析基礎(chǔ)大多數(shù)應(yīng)用數(shù)據(jù)是分散的、不一致的動(dòng)態(tài)集成需要集成數(shù)據(jù)的周期性更新僅在開始階段對(duì)數(shù)據(jù)進(jìn)行靜態(tài)集成歷史數(shù)據(jù)問題許多分析方法要以大量的歷史數(shù)據(jù)為依據(jù)一般只需要當(dāng)前或短期數(shù)據(jù)數(shù)據(jù)綜合問題主要關(guān)注綜合性數(shù)據(jù)積累了大量的細(xì)節(jié)數(shù)據(jù)- 5 -一、數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)- 6 -一、數(shù)據(jù)倉(cāng)庫(kù)元數(shù)據(jù)(Metadata):關(guān)于
3、數(shù)據(jù)的數(shù)據(jù)。在數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中,元數(shù)據(jù)可以幫助數(shù)據(jù)倉(cāng)庫(kù)管理員和數(shù)據(jù)倉(cāng)庫(kù)的開發(fā)人員非常方便地找到他們 所關(guān)心的數(shù)據(jù);元數(shù)據(jù)是描述數(shù)據(jù)倉(cāng)庫(kù)內(nèi)數(shù)據(jù)的結(jié)構(gòu)和建立方法的數(shù)據(jù),可將其按用途的不同分為兩類:技術(shù)元數(shù)據(jù)(Technical Metadata)和業(yè)務(wù)元數(shù)據(jù)(Business Metadata)。技術(shù)元數(shù)據(jù)是存儲(chǔ)關(guān)于數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)技術(shù)細(xì)節(jié)的數(shù)據(jù),是用于開發(fā)和管理數(shù)據(jù)倉(cāng)庫(kù)使用的數(shù)據(jù),它主要包括以下信息:數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)的描述,包括倉(cāng)庫(kù)模式、視圖、維、層次結(jié)構(gòu)和導(dǎo)出數(shù)據(jù)的定義,以及數(shù)據(jù)集市的位置和內(nèi)容;業(yè)務(wù)系統(tǒng)、數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)集市的體系結(jié)構(gòu)和模式;匯總用的算法,包括度量和維定義算法,數(shù)據(jù)粒度、主題領(lǐng)域、聚集、
4、匯總、預(yù)定義的查詢與報(bào)告;由操作環(huán)境到數(shù)據(jù)倉(cāng)庫(kù)環(huán)境的映射,包括源數(shù)據(jù)和它們的內(nèi)容、數(shù)據(jù)分割、數(shù)據(jù)提取、清理、轉(zhuǎn)換規(guī)則和數(shù)據(jù)刷新規(guī)則、安全(用戶授權(quán)和存取控制)。- 7 -一、數(shù)據(jù)倉(cāng)庫(kù)業(yè)務(wù)元數(shù)據(jù)從業(yè)務(wù)角度描述了數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù),它提供了介于使用者和實(shí)際系統(tǒng)之間的語義層,使得不懂計(jì)算機(jī)技術(shù)的業(yè)務(wù)人員也能夠“讀懂”數(shù)據(jù)倉(cāng)庫(kù)中的 數(shù)據(jù)。業(yè)務(wù)元數(shù)據(jù)主要包括以下信息:使用者的業(yè)務(wù)術(shù)語所表達(dá)的數(shù)據(jù)模型、對(duì)象名和屬性名;訪問數(shù)據(jù)的原則和數(shù)據(jù)的來源;系統(tǒng)所提供的分析方法以及公式和報(bào) 表的信息;具體包括以下信息:企業(yè)概念模型:這是業(yè)務(wù)元數(shù)據(jù)所應(yīng)提供的重要的信息,它表示企業(yè)數(shù)據(jù)模型的高層信息、整個(gè)企業(yè)的業(yè)務(wù)概念和相
5、互關(guān)系。以這個(gè)企業(yè)模型為基礎(chǔ),不懂?dāng)?shù)據(jù)庫(kù)技術(shù)和SQL語句的業(yè)務(wù)人員對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)也能做到心中有數(shù)。多維數(shù)據(jù)模型:這是企業(yè)概念模型的重要組成部分,它告訴業(yè)務(wù)分析人員在數(shù)據(jù)集市當(dāng)中有哪些維、維的類別、數(shù)據(jù)立方體以及數(shù)據(jù)集市中的聚合規(guī)則。這里的數(shù)據(jù)立方體表示某主題領(lǐng)域業(yè)務(wù)事實(shí)表和維表的多維組織形式。- 8 -一、數(shù)據(jù)倉(cāng)庫(kù)元數(shù)據(jù)的作用在數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中,元數(shù)據(jù)機(jī)制主要支持以下五類系統(tǒng)管理功能:描述哪些數(shù)據(jù)在數(shù)據(jù)倉(cāng)庫(kù)中;定義要進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)和從數(shù)據(jù)倉(cāng)庫(kù)中產(chǎn)生 的數(shù)據(jù);記錄根據(jù)業(yè)務(wù)事件發(fā)生而隨之進(jìn)行的數(shù)據(jù)抽取工作時(shí)間安排;記錄并檢測(cè)系統(tǒng)數(shù)據(jù)一致性的要求和執(zhí)行情況;衡量數(shù)據(jù)質(zhì)量。- 9 -二、數(shù)據(jù)倉(cāng)
6、庫(kù)在決策支持系統(tǒng)中的應(yīng)用- 10 -二、數(shù)據(jù)倉(cāng)庫(kù)在決策支持系統(tǒng)中的應(yīng)用決策支持系統(tǒng)中的模型庫(kù)可以為決策者提供推理、比較、選擇和分析的工具。模型庫(kù)中一般包含兩類模型:數(shù)學(xué)模型圖形與報(bào)表模型由上述兩者可以集成為規(guī)劃模型、推理模型、分析模型、預(yù)測(cè)模型、優(yōu)化模型與評(píng)價(jià)模型而這些模型的建立、仿真與訓(xùn)練都需要大量的數(shù)據(jù)來解析與驗(yàn)證。- 11 -二、數(shù)據(jù)倉(cāng)庫(kù)在決策支持系統(tǒng)中的應(yīng)用決策支持系統(tǒng)中使用的大量數(shù)據(jù)通常為多維數(shù)據(jù),需要利用切片,切塊,鉆取等操作從多個(gè)角度進(jìn)行觀察,并把結(jié)果用直觀的表格或圖形展現(xiàn)出來,以支持決策。故需要引入數(shù)據(jù)挖掘的相關(guān)算法(之一)關(guān)聯(lián)規(guī)則- 12 -三、關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則是數(shù)據(jù)一種簡(jiǎn)單
7、實(shí)用的規(guī)則,而關(guān)聯(lián)規(guī)則挖掘就是從大量的數(shù)據(jù)中挖掘出有價(jià)值的描述數(shù)據(jù)項(xiàng)之間相互聯(lián)系的信息以下是關(guān)聯(lián)規(guī)則相關(guān)的一些概念關(guān)聯(lián)規(guī)則:設(shè)I=I1,I2,I3,Im為數(shù)據(jù)項(xiàng)集合;設(shè)D為與任務(wù)相關(guān)的數(shù)據(jù)集合,也就是一個(gè)交易數(shù)據(jù)庫(kù);其中每個(gè)交易T是一個(gè)數(shù)據(jù)項(xiàng)子集,即T包含于I;每個(gè)交易均包含一個(gè)識(shí)別編號(hào)TID。設(shè)A為另一個(gè)數(shù)據(jù)項(xiàng)集合,當(dāng)且僅當(dāng)A包含于T時(shí)稱交易T包含A。一個(gè)關(guān)聯(lián)規(guī)則就是具有“A=B”的蘊(yùn)含式;其中有A包含于I,B包含于I且A與B交集非空。規(guī)則A=B在交易數(shù)據(jù)集D中成立,且具有S支持度與C信任度,也就意味著交易數(shù)據(jù)集D中有S比例的交易T包含A或B的數(shù)據(jù)項(xiàng),且D中有C比例的交易T滿足“若包含A就包
8、含B(B|A)”滿足最小支持度閾值和最小信任度閾值的關(guān)聯(lián)規(guī)則稱為強(qiáng)規(guī)則- 13 -三、關(guān)聯(lián)規(guī)則可信度:設(shè)事務(wù)集D中支持物品集X的事務(wù)中,有C%的事務(wù)同時(shí)支持物品集Y,則C%稱為關(guān)聯(lián)規(guī)則X、Y的可信度,簡(jiǎn)單來說,可信度是指在出現(xiàn)了項(xiàng)集X的事務(wù)T中,項(xiàng)集Y也同時(shí)出現(xiàn)的概率- 14 -三、關(guān)聯(lián)規(guī)則支持度:事務(wù)集D中有S%的事務(wù)同時(shí)支持物品集X,Y,則稱S%為關(guān)聯(lián)規(guī)則的支持度,即支持度描述了X與Y的并集在所有事務(wù)中出現(xiàn)的頻率- 15 -三、關(guān)聯(lián)規(guī)則頻繁項(xiàng)集:一個(gè)數(shù)據(jù)項(xiàng)的集合就稱為項(xiàng)集,包含K個(gè)數(shù)據(jù)項(xiàng)的項(xiàng)集稱為K-項(xiàng)集。 一個(gè)項(xiàng)集的出現(xiàn)頻度就是整個(gè)交易數(shù)據(jù)集D中包含該項(xiàng)集的交易記錄數(shù),也稱為該項(xiàng)集的支持
9、度。 若一個(gè)項(xiàng)集的出現(xiàn)頻度大于最小支持度閾值乘以交易記錄集D中的記錄數(shù),那么就稱該項(xiàng)集滿足最小支持度閾值; 而滿足最小支持度閾值所對(duì)應(yīng)的交易記錄數(shù)稱為最小支持頻度; 滿足最小閾值的項(xiàng)集稱為頻繁項(xiàng)集- 16 -三、關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則挖掘的步驟: 發(fā)現(xiàn)所有事務(wù)中支持度大于最小支持度的項(xiàng)集,即頻繁項(xiàng)集 根據(jù)所獲得的頻繁項(xiàng)集,產(chǎn)生相應(yīng)的強(qiáng)關(guān)聯(lián)規(guī)則(對(duì)于兩個(gè)頻繁項(xiàng)集,由于本事具有大于最小支持度的支持度,故所組成的關(guān)聯(lián)規(guī)則的支持度必然大于最小支持度)可以看出,如果找到頻繁項(xiàng)集,那么很容易得出關(guān)聯(lián)規(guī)則,因此第一步是關(guān)聯(lián)規(guī)則挖掘的關(guān)鍵。對(duì)于第二步,只需要在已經(jīng)挖掘出的頻繁項(xiàng)集上列出所有可能的關(guān)聯(lián)規(guī)則,然后用最小
10、支持度閾值和最小可信度閾值來衡量這些關(guān)聯(lián)規(guī)則,并取出我們感興趣的關(guān)聯(lián)規(guī)則即可。對(duì)于第一步,介紹一下經(jīng)典的頻繁項(xiàng)集挖掘算法Apriori算法- 17 -四、Apriori算法Apriori算法首先計(jì)算所有1-項(xiàng)集C1,找出所有頻繁1-項(xiàng)集L1,然后根據(jù)頻繁1-項(xiàng)集確定候選2-項(xiàng)集C2,從C2中找出所有頻繁2-項(xiàng)集L2,在L2中選出C3,以此類推,直到不再有候選項(xiàng)集為止。其過程如下: Lk:所有頻繁k項(xiàng)集的集合;Ck:所有候選k項(xiàng)集的集合 通過單趟遍歷數(shù)據(jù)庫(kù)D,計(jì)算出各個(gè)1-項(xiàng)集的支持度,構(gòu)成L1 在Lk中,用聯(lián)合(join)運(yùn)算生成候選項(xiàng)集Ck+1 聯(lián)合運(yùn)算:若p,q包含于Lk,p=p1,p2,.,pk-1,q=q1,q2,qk-1,且當(dāng)1ik-1時(shí)有pi=qi,當(dāng)i=k-1時(shí)有pk-1qk-1,則p與q的并集是候選項(xiàng)集Ck+1中的一個(gè)項(xiàng)集。 計(jì)算Ck中的支持度,將小于最小支持度的候選集刪除,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 航空航天復(fù)合材料 課件第1章 知識(shí)點(diǎn)6 微珠、納米碳管、石墨烯、有機(jī)纖維
- 2025醫(yī)院消防培訓(xùn)
- 護(hù)理查房:下肢骨折透析患者管理
- 長(zhǎng)度計(jì)量基礎(chǔ)培訓(xùn)
- 創(chuàng)傷處理培訓(xùn)
- 超聲圖解及報(bào)告標(biāo)準(zhǔn)化流程
- 地球日環(huán)保教育
- 2025年中國(guó)排毒面膜行業(yè)市場(chǎng)全景分析及前景機(jī)遇研判報(bào)告
- 急性闌尾炎及術(shù)后護(hù)理常規(guī)
- 2025年中國(guó)木工油漆刷行業(yè)市場(chǎng)全景分析及前景機(jī)遇研判報(bào)告
- 成都東方廣益投資有限公司下屬企業(yè)招聘筆試真題2024
- 2024年湖南省公安廳招聘警務(wù)輔助人員筆試真題
- 中國(guó)鄉(xiāng)村建設(shè)運(yùn)動(dòng)課件
- 弘揚(yáng)中國(guó)精神的課件
- 2025年高考英語全國(guó)二卷試題含答案
- SL631水利水電工程單元工程施工質(zhì)量驗(yàn)收標(biāo)準(zhǔn)第1部分:土石方工程
- 江岸區(qū)2023-2024學(xué)年下學(xué)期期末七年級(jí)數(shù)學(xué)試卷(含答案)
- 《國(guó)土空間規(guī)劃》-課程教學(xué)大綱
- (正式版)HGT 22820-2024 化工安全儀表系統(tǒng)工程設(shè)計(jì)規(guī)范
- 2024年海關(guān)事務(wù)培訓(xùn)資料
- 冀教版七年級(jí)英語下冊(cè)期末試題-附答案
評(píng)論
0/150
提交評(píng)論