




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、數(shù)據(jù)倉庫第一章決策支持系統(tǒng)的發(fā)展演化管理信息系統(tǒng)(MIS)為信息處理提供強(qiáng)大的數(shù)據(jù)處理和存儲(chǔ)能力。早期信息系統(tǒng)主要是為實(shí)現(xiàn)業(yè)務(wù)而建立的,根據(jù)業(yè)務(wù)的需要建立大量獨(dú)立的系統(tǒng)。多個(gè)獨(dú)立的系統(tǒng)間要交互數(shù)據(jù)很困難,出現(xiàn)了“抽取”的模式。其特點(diǎn)是與信息系統(tǒng)無關(guān),直接對(duì)信息系統(tǒng)的數(shù)據(jù)源進(jìn)行“抽取”?!俺槿 碑a(chǎn)生的問題是產(chǎn)生的蜘蛛網(wǎng)狀“抽取”,即在“抽取”的基礎(chǔ)上再“抽取”。產(chǎn)生數(shù)據(jù)倉庫技術(shù)理論來規(guī)范。自然演化體系結(jié)構(gòu)出現(xiàn)的問題數(shù)據(jù)可信性:如來自不同部門的報(bào)表,無法統(tǒng)一生產(chǎn)率問題:產(chǎn)生一個(gè)分析需要很長時(shí)間無法將數(shù)據(jù)轉(zhuǎn)化成信息:達(dá)到一個(gè)分析結(jié)果非常困難方法變遷:在體系結(jié)構(gòu)化環(huán)境的核心,存在下面2種數(shù)據(jù):原始數(shù)據(jù)
2、和導(dǎo)出數(shù)據(jù)原始數(shù)據(jù)是:維持企業(yè)日常運(yùn)行所需的細(xì)節(jié)性數(shù)據(jù);導(dǎo)出數(shù)據(jù)是:要經(jīng)過匯總或計(jì)算來滿足公司管理者需要的數(shù)據(jù)。原始數(shù)據(jù)/操作型數(shù)據(jù)面向應(yīng)用詳細(xì)的在存取瞬間是準(zhǔn)確的導(dǎo)出數(shù)據(jù)/DSS數(shù)據(jù)面向主題綜合的,或提煉的代表過去的數(shù)據(jù)為日常工作服務(wù)可更新重復(fù)運(yùn)行處理需求事先可知生命周期符合SDLC對(duì)性能要求高一個(gè)時(shí)刻存取一個(gè)單元事務(wù)處理驅(qū)動(dòng)更新控制主要涉及所有權(quán)高可用性整體管理非冗余性靜態(tài)結(jié)構(gòu);可變的內(nèi)容一次處理數(shù)據(jù)量小支持日常操作訪問的高可能性為管理者服務(wù)不更新啟發(fā)式運(yùn)行處理需求事先不知道完全不同的生命周期對(duì)性能要求寬松一個(gè)時(shí)刻存取一個(gè)集合分析處理驅(qū)動(dòng)無更新控制問題松弛的可用性以子集管理時(shí)常有冗余結(jié)構(gòu)靈
3、活一次處理數(shù)據(jù)量大支持管理需求訪問的低可能性或適度可能性原始數(shù)據(jù)和導(dǎo)出數(shù)據(jù)的區(qū)別操作型環(huán)境數(shù)據(jù)倉庫原子級(jí)部門級(jí)個(gè)體數(shù)據(jù)集市1.3體系結(jié)構(gòu)化環(huán)境第二章數(shù)據(jù)倉庫環(huán)境2.1數(shù)據(jù)倉庫概述數(shù)據(jù)倉庫是體系結(jié)構(gòu)化環(huán)境的核心數(shù)據(jù)倉庫是決策支持系統(tǒng)(DSS)處理的基礎(chǔ)數(shù)據(jù)倉庫是面向主題的、集成的、非易失的,且隨時(shí)間變化的數(shù)據(jù)集合操作型環(huán)境是:面向業(yè)務(wù)應(yīng)用的、松散的、易失的,反應(yīng)當(dāng)前時(shí)間點(diǎn)的數(shù)據(jù)集合。2.1.1面向主題傳統(tǒng)操作型系統(tǒng)是圍繞公司的功能性應(yīng)用進(jìn)行組織的;面向主題是針對(duì)某一類數(shù)據(jù)主體(如產(chǎn)量、合格量等)。注:對(duì)于一個(gè)保險(xiǎn)公司來說:應(yīng)用問題可能是汽車保險(xiǎn)、健康保險(xiǎn)、人壽保險(xiǎn)與意外傷亡保險(xiǎn);公司的主要主題域
4、可能是顧客、保險(xiǎn)單、保險(xiǎn)費(fèi)與索賠。2.1.2集成性在數(shù)據(jù)倉庫的所有特性之中,集成是最重要的。數(shù)據(jù)倉庫中的數(shù)據(jù)從多個(gè)不同的數(shù)據(jù)源傳送過來,這些數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫,就進(jìn)行轉(zhuǎn)換重新格式化、重新排列以及匯總等操作。集成問題:編碼、屬性度量單位、多個(gè)數(shù)據(jù)源、沖突關(guān)鍵字2.1.3非易失性數(shù)據(jù)倉庫中的數(shù)據(jù)載入后,保存時(shí)間長、不存在傳統(tǒng)意義上的更新操作數(shù)據(jù)倉庫保留了數(shù)據(jù)的歷史狀況2.1.4隨時(shí)間變化數(shù)據(jù)倉庫中的每個(gè)數(shù)據(jù)只是在某一時(shí)間是準(zhǔn)確的。反映歷史變化的數(shù)據(jù)集合數(shù)據(jù)倉庫按時(shí)間將操作型數(shù)據(jù)抽取裝載(所以表的主鍵一般都包含時(shí)間)2.2數(shù)據(jù)倉庫的結(jié)構(gòu)2.2.1面向主題數(shù)據(jù)倉庫面向在高層企業(yè)數(shù)據(jù)模型中已定義好的企業(yè)主
5、題域;典型的主題域有:顧客產(chǎn)品交易或活動(dòng)政策索賠賬目數(shù)據(jù)倉庫中,每個(gè)主題域都是以一組相關(guān)的表來具體實(shí)現(xiàn)的。一個(gè)主題域可能由10個(gè)、100個(gè)或更多的相互關(guān)聯(lián)的物理表構(gòu)成。每個(gè)表設(shè)計(jì)來實(shí)現(xiàn)主要主題域的一部分222第1天到第n天的現(xiàn)象數(shù)據(jù)倉庫不是一蹴而就的。相反,數(shù)據(jù)倉庫只能一步一步第進(jìn)行設(shè)計(jì)并載入數(shù)據(jù),它是進(jìn)化的,而非革命性的。2.2.3粒度與分割粒度:指的是數(shù)據(jù)倉庫中數(shù)據(jù)單元的細(xì)節(jié)程度或綜合程度的級(jí)別分割是針對(duì)當(dāng)前細(xì)節(jié)級(jí)的數(shù)據(jù)進(jìn)行分割,使大塊的數(shù)據(jù)使用分類變成小塊數(shù)據(jù)。有多種數(shù)據(jù)可以用來分割數(shù)據(jù):時(shí)間、分類、地理位置、組織單位等。粒度與分割是在數(shù)據(jù)倉庫中分層次存儲(chǔ)數(shù)據(jù)的方法,針對(duì)不同的主題和性能
6、需求進(jìn)行數(shù)據(jù)的集成處理和存儲(chǔ)。主要的目的是為了使不需要的數(shù)據(jù)不出現(xiàn)的分析中,也就是使數(shù)據(jù)量變小。粒度與細(xì)節(jié)級(jí)有關(guān),如“每月通話詳細(xì)清單”與“每月通話綜合”,前細(xì)后粗,則粒度前低后高。分割與數(shù)據(jù)分類有關(guān),可將同一主題數(shù)據(jù)按多維度分割產(chǎn)生子集,使分析性能提高。m多維度分割邏輯分割:程序?qū)崿F(xiàn)物理分割:數(shù)據(jù)庫實(shí)現(xiàn)細(xì)節(jié)粒度設(shè)計(jì)數(shù)據(jù)的細(xì)節(jié)級(jí)與粒度:2.2.4活樣本數(shù)據(jù)庫樣本數(shù)據(jù)庫是在數(shù)據(jù)庫中隨機(jī)抽取1/100或1/1000的數(shù)據(jù),拿來做樣本分析。樣本數(shù)據(jù)庫也是為了提高分析效率,使數(shù)據(jù)量變小。2.2.5數(shù)據(jù)組織數(shù)據(jù)倉庫中所建立的數(shù)據(jù)結(jié)構(gòu)是怎樣的:簡單堆積結(jié)構(gòu)輪轉(zhuǎn)綜合數(shù)據(jù)存儲(chǔ):簡單堆積結(jié)構(gòu)的變種簡單直接文件:
7、數(shù)據(jù)僅僅是從操作性環(huán)境被拖入數(shù)據(jù)倉庫環(huán)境中連續(xù)文件:依據(jù)兩個(gè)或更多直接文件能生成一個(gè)連續(xù)文件第三章設(shè)計(jì)數(shù)據(jù)倉庫設(shè)計(jì)的范圍和方式建造數(shù)據(jù)倉庫的兩個(gè)重要方面:/與操作型系統(tǒng)接口的設(shè)計(jì)/數(shù)據(jù)庫倉庫本身的設(shè)計(jì)解決獲得什么數(shù)據(jù),及如何獲得解決如何倉儲(chǔ)數(shù)據(jù),及如何展現(xiàn)3.2數(shù)據(jù)倉庫構(gòu)建步驟收集和分析業(yè)務(wù)需求;建立數(shù)據(jù)模型和數(shù)據(jù)倉庫的物理設(shè)計(jì);定義數(shù)據(jù)源;選擇數(shù)據(jù)倉庫技術(shù)和平臺(tái);從操作型數(shù)據(jù)庫中提取、轉(zhuǎn)換和凈化數(shù)據(jù)到數(shù)據(jù)倉庫選擇訪問和報(bào)表工具;選擇數(shù)據(jù)庫連接軟件;選擇數(shù)據(jù)分析和數(shù)據(jù)展示軟件;更新數(shù)據(jù)倉庫;總休分析設(shè)計(jì)數(shù)據(jù)建模應(yīng)用與維護(hù)|OLAF應(yīng)用|完善維護(hù)系統(tǒng)規(guī)劃分析階段設(shè)計(jì)實(shí)縄階段便用縮護(hù)階段幵發(fā)概念模
8、型勲寤倉庫應(yīng)用數(shù)據(jù)倉庫開潢過程埴充與圖試數(shù)據(jù)位庫開捱中間件數(shù)老倉虞誰護(hù)救據(jù)倉庫評(píng)價(jià)規(guī)劃與確設(shè)計(jì)體系結(jié)構(gòu)數(shù)眶繡取轉(zhuǎn)換與贓數(shù)據(jù)倉庫系統(tǒng)結(jié)構(gòu)數(shù)抿倉庫分析工具nRDBMSDW管理工具綜合數(shù)據(jù)查詢工具抽取轉(zhuǎn)換歸出前數(shù)據(jù)OLAPT#匚)源數(shù)據(jù)庫I1歷史數(shù)據(jù)DM工具(其也(3數(shù)據(jù)建模工具元數(shù)抿報(bào)表工具數(shù)抿源|麗數(shù)據(jù)倉庫建立的基本框架運(yùn)行維護(hù)項(xiàng)目管理3.5數(shù)據(jù)的獲取數(shù)據(jù)倉庫所需要的數(shù)據(jù)不像業(yè)務(wù)處理系統(tǒng)那樣直接從業(yè)務(wù)發(fā)生地獲取,而是從與業(yè)務(wù)處理發(fā)生直接聯(lián)系的業(yè)務(wù)處理系統(tǒng)那里獲取,如傳統(tǒng)的基于C/S結(jié)構(gòu)的在線事物處理系統(tǒng)OLTP。這些業(yè)務(wù)處理系統(tǒng)中的數(shù)據(jù)往往與業(yè)務(wù)處理聯(lián)系在一起,只為業(yè)務(wù)的日常處理服務(wù),而不為決策
9、分析服務(wù)。所以DW從業(yè)務(wù)處理系統(tǒng)那里獲取數(shù)據(jù)時(shí),并不能將原數(shù)據(jù)庫中的數(shù)據(jù)直接加載到DW中,而是要進(jìn)行一系列的處理。數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫的基本過程操作數(shù)據(jù)向數(shù)據(jù)倉庫的移動(dòng)包括以下五個(gè)過程:提廉是叢操作生數(shù)括庫二選擇并提廉出芍需薑旳變快是為所苛來目數(shù)摘漏的數(shù)捋捲罡常用的梏式席化是盡量地足王旨誦的蕊加載是把凈北過的數(shù)聒載入到數(shù)捐倉庫數(shù)J8里已匯總是提前計(jì)韋呂任何期待的孵倉莊轄的匚三快以wnrrwvHHr3.6數(shù)據(jù)倉庫中的數(shù)據(jù)模型高層模型(實(shí)體關(guān)系圖)中間層模型底層模型(物理模型)第四章數(shù)據(jù)倉庫中的粒度粗略估算估計(jì)數(shù)據(jù)倉庫環(huán)境中的行數(shù)/空間大小對(duì)每一個(gè)已知的表:計(jì)算一行所占字節(jié)數(shù)的最大估計(jì)值最小估計(jì)值對(duì)一
10、年內(nèi):最大行數(shù)可能是多少?最小行數(shù)可能是多少?對(duì)五年內(nèi):最大行數(shù)可能是多少?最小行數(shù)可能是多少?對(duì)表的每個(gè)鍵碼:該鍵碼的大小(按字節(jié))是多少?一年總的最大空間=最大行大小X年內(nèi)最大行數(shù)一年總的最小空間=最小行大小X年內(nèi)最小行數(shù)累加索引空間對(duì)所有已知的表重復(fù)第1步。圖4-1空間/行數(shù)計(jì)算第五章數(shù)據(jù)倉庫和技術(shù)數(shù)據(jù)倉庫比其操作性前身(數(shù)據(jù)庫)需要的一些技術(shù)特性更簡單一些。數(shù)據(jù)倉庫中沒有聯(lián)機(jī)的數(shù)據(jù)更新;鎖定和完整性需要也非常少;而且對(duì)于遠(yuǎn)程處理接口的需要也只是最基本的。但是仍需要一些技術(shù)上的需求:5.1技術(shù)上的需求管理大量數(shù)據(jù)能夠管理大量數(shù)據(jù)的能力能夠管理好的能力管理多介質(zhì)(層次)主存、擴(kuò)展內(nèi)存、高速
11、緩存、DASD、光盤、縮微膠片索引和監(jiān)控?cái)?shù)據(jù)監(jiān)控?cái)?shù)據(jù)能確定許多因素:決定是否應(yīng)數(shù)據(jù)重組決定索引是否建立得不恰當(dāng)決定是否有太多數(shù)據(jù)溢出決定剩余的可用空間多種技術(shù)的接口利用多種技術(shù)獲得和傳送數(shù)據(jù):批模式,聯(lián)機(jī)模式并不非常有用程序員/設(shè)計(jì)者對(duì)數(shù)據(jù)存放位置的控制(塊/頁)數(shù)據(jù)的并行存儲(chǔ)/管理元數(shù)據(jù)管理數(shù)據(jù)倉庫語言接口能夠一次訪問一組數(shù)據(jù)能夠一次訪問一條記錄支持一個(gè)或多個(gè)索引有SQL接口數(shù)據(jù)的高效裝入高效索引的利用用位映像的方法、多級(jí)索引等數(shù)據(jù)壓縮I/O資源比CPU資源少得多,因此數(shù)據(jù)解壓縮不是主要問題12)復(fù)合鍵碼(因?yàn)閿?shù)據(jù)隨時(shí)間變化)13)變長數(shù)據(jù)14)加鎖管理(程序員能顯式控制鎖管理程序)15)單
12、獨(dú)索引處理(查看索引就能提供某些服務(wù))16)快速恢復(fù)17)其他技術(shù)特征,傳統(tǒng)技術(shù)起很小作用事務(wù)集成性、高速緩存、行/頁級(jí)鎖定、參照完整性、數(shù)據(jù)視圖18)傳統(tǒng)DBMS與數(shù)據(jù)倉庫DBMS區(qū)別為數(shù)據(jù)倉庫和決策支持優(yōu)化設(shè)計(jì)管理更多數(shù)據(jù):10GB/100GB/TB傳統(tǒng)DBMS適合記錄級(jí)更新,提供:鎖定Lock、提交Commit、檢測點(diǎn)Checkpoint、日志處理Log、死鎖處理DeadLock、回退Roolback.基本數(shù)據(jù)管理,如:塊管理,傳統(tǒng)DBMS需要預(yù)留空間索引區(qū)別:傳統(tǒng)DBMS限制索引數(shù)量,數(shù)據(jù)倉庫DBMS沒有限制通用DBMS物理上優(yōu)化便于事務(wù)訪問處理,而數(shù)據(jù)倉庫便于DSS訪問分析19)改變
13、DBMS技術(shù)20)多維DBMS和數(shù)據(jù)倉庫多維DBMS作為數(shù)據(jù)倉庫的數(shù)據(jù)庫技術(shù),這種想法是不正確的多維DBMS(OLAP)是一種技術(shù),數(shù)據(jù)倉庫是一種體系結(jié)構(gòu)的基礎(chǔ)21)雙重粒度級(jí)別(DASD/磁帶)22)數(shù)據(jù)倉庫環(huán)境中的元數(shù)據(jù)DSS分析人員和IT專業(yè)人員不同,需要元數(shù)據(jù)的幫助操作型環(huán)境和數(shù)據(jù)倉庫環(huán)境之間的映射需要元數(shù)據(jù)數(shù)據(jù)倉庫包含很長時(shí)間的數(shù)據(jù),必須有元數(shù)據(jù)標(biāo)記數(shù)據(jù)結(jié)構(gòu)/定義23)上下文和內(nèi)容(上下文維)簡單上下文信息(數(shù)據(jù)結(jié)構(gòu)/編碼/命名約定/度量)復(fù)雜上下文信息(產(chǎn)品定義/市場領(lǐng)域/定價(jià)/包裝/組織結(jié)構(gòu))外部上下文信息(經(jīng)濟(jì)預(yù)測:通貨膨脹、金融、稅收/政治信息/競爭信息/技術(shù)進(jìn)展)24)刷新
14、數(shù)據(jù)倉庫數(shù)據(jù)復(fù)制(觸發(fā)器)變化數(shù)據(jù)捕獲(CDC)(日志)第六章分布式數(shù)據(jù)倉庫集中式數(shù)據(jù)倉庫與分布式數(shù)據(jù)倉庫集中式數(shù)據(jù)倉庫大部分企業(yè)采用的集中式數(shù)據(jù)倉庫1)數(shù)據(jù)倉庫中的數(shù)據(jù)是全企業(yè)范圍內(nèi)集成的,而且只有企業(yè)總部才會(huì)使用集成的數(shù)據(jù)2)企業(yè)是以集中式商務(wù)模式運(yùn)作的3)數(shù)據(jù)倉庫中的數(shù)據(jù)量非常大,將數(shù)據(jù)集中存儲(chǔ)在一個(gè)地方是較為妥當(dāng)?shù)?)如果將邏輯上集成的數(shù)據(jù)分布于多個(gè)局部站點(diǎn),那么存取這些數(shù)據(jù)將是很麻煩的。分布式數(shù)據(jù)倉庫1)某些特定場合條件(下頁分布式數(shù)據(jù)倉庫類型所示)下,需要建立分布式數(shù)據(jù)倉庫環(huán)境分布式數(shù)據(jù)倉庫的類型1)業(yè)務(wù)在不同的地域或不同的生產(chǎn)線上進(jìn)行2)環(huán)境中包括大量的數(shù)據(jù),他們分布在多個(gè)處理器
15、上3)數(shù)據(jù)倉庫環(huán)境是以一種不協(xié)調(diào)的方式建立起來的:首先建立一個(gè)數(shù)據(jù)倉庫、然后再建立另一個(gè)第七章主管信息系統(tǒng)(EIS)和數(shù)據(jù)倉庫7.1概述如今EIS又重新以許多新的形式出現(xiàn):OLAP處理和像客戶關(guān)系管理(CRM)的DSS應(yīng)用EIS處理是處于幫助主管指定決策而設(shè)計(jì)的。EIS的典型用途:(1)趨勢(shì)分析和發(fā)現(xiàn)(2)關(guān)鍵比例指標(biāo)度量和跟蹤(3)向下鉆取分析(4)問題監(jiān)控(5)競爭分析(6)關(guān)鍵性能指標(biāo)監(jiān)控7.2向下鉆取分析為了切片和分塊,有必要向下鉆取數(shù)據(jù)向下鉆取數(shù)據(jù)是指:從一個(gè)匯總數(shù)據(jù)開始,將該匯總數(shù)據(jù)分解成一組更細(xì)致的匯總數(shù)據(jù)數(shù)據(jù)72主管信息系統(tǒng)(EIS)和數(shù)據(jù)倉庫的關(guān)系1)數(shù)據(jù)倉庫支持EIS分析員
16、的所有需求2)有了數(shù)據(jù)倉庫,EIS分析員就不再處于被動(dòng)的地位,而是處于主動(dòng)地位了。3)數(shù)據(jù)倉庫為EIS分析員提供了數(shù)據(jù)基礎(chǔ)第八章外部數(shù)據(jù)和數(shù)據(jù)倉庫8.1外部數(shù)據(jù)分類外部數(shù)據(jù)分為兩類:(1)通過數(shù)據(jù)源收集到的外部數(shù)據(jù)記錄,注意并不是通過正式的在線的操作性系統(tǒng)進(jìn)入企業(yè)的,而是通過非正式系統(tǒng)進(jìn)入企業(yè)的(2)來自于行業(yè)報(bào)告、文章及其他數(shù)據(jù)源的外部數(shù)據(jù),比如行業(yè)新聞,非企業(yè)內(nèi)部的市場比較分析報(bào)告,企業(yè)內(nèi)部的年度報(bào)告、審計(jì)季報(bào),以及購買的一些用戶數(shù)據(jù)等。第九章遷移到體系結(jié)構(gòu)化環(huán)境9.1一種遷移方案遷移的步驟:1)建立企業(yè)數(shù)據(jù)模型起點(diǎn)是一個(gè)企業(yè)數(shù)據(jù)模型,該數(shù)據(jù)模型描述了企業(yè)的信息需求。企業(yè)數(shù)據(jù)模型至少要能表
17、示出如下內(nèi)容:企業(yè)的主要主題,企業(yè)的各個(gè)主要主題的定義,各個(gè)主要主題之間的關(guān)系,各個(gè)主要主題的各個(gè)關(guān)鍵字和屬性分組,主要主題的屬性集,主要主體的關(guān)鍵字集,關(guān)鍵字集和屬性集的重復(fù)組,各個(gè)主要主體域之間的連接,子類關(guān)系。建立中間層模型從企業(yè)數(shù)據(jù)模型建立中間層模型,但要每次只建立一個(gè)主題域。導(dǎo)出數(shù)據(jù)和DSS數(shù)據(jù)被排除在企業(yè)數(shù)據(jù)模型和中間層模型之外。建立記錄系統(tǒng)建立一個(gè)衡量數(shù)據(jù)質(zhì)量的標(biāo)準(zhǔn)來選擇數(shù)據(jù)的來源,以此做成記錄系統(tǒng)。這樣記錄系統(tǒng)就成為數(shù)據(jù)倉庫模型的數(shù)據(jù)源的定義。衡量數(shù)據(jù)質(zhì)量的標(biāo)準(zhǔn):完備、試試、準(zhǔn)確、與現(xiàn)有系統(tǒng)環(huán)境數(shù)據(jù)源最接近、是否遵循數(shù)據(jù)模型的數(shù)據(jù)結(jié)構(gòu)。將記錄系統(tǒng)中的數(shù)據(jù)遷移到數(shù)據(jù)倉庫面臨的技術(shù)
18、挑戰(zhàn):記錄系統(tǒng)和數(shù)據(jù)倉庫不在同一個(gè)DBMS記錄系統(tǒng)和數(shù)據(jù)倉庫不在同一個(gè)操作系統(tǒng)中需要將多個(gè)DBMS和操作系統(tǒng)的數(shù)據(jù)以有意義的方式合并起來在web日志中獲取基于web的數(shù)據(jù)基本數(shù)據(jù)格式的變化數(shù)據(jù)量:對(duì)于比如web日志的數(shù)據(jù)需要進(jìn)行預(yù)處理,并運(yùn)用特別的技術(shù)轉(zhuǎn)移到數(shù)據(jù)倉庫中。其他:有些情況下,遷移之前需要對(duì)數(shù)據(jù)進(jìn)行清理、匯總。設(shè)計(jì)數(shù)據(jù)倉庫只需對(duì)企業(yè)數(shù)據(jù)模型和中間層數(shù)據(jù)模型的少數(shù)幾個(gè)方面進(jìn)行修改即可。要做的工作主要有:需要加入時(shí)間元素到關(guān)鍵字結(jié)構(gòu)中、必須清除所有的操作性數(shù)據(jù)、將參照完整性關(guān)系轉(zhuǎn)換成人工關(guān)系、將經(jīng)常需要的導(dǎo)出數(shù)據(jù)加入到設(shè)計(jì)中。人一些具體實(shí)現(xiàn)方式:增加數(shù)據(jù)陣列(?)、增加數(shù)據(jù)冗余、合適的情
19、況下進(jìn)一步分離數(shù)據(jù)、合適的時(shí)候合并書目表。對(duì)實(shí)現(xiàn)上述要求,需要做數(shù)據(jù)的穩(wěn)定性分析,以便將時(shí)常變動(dòng)的數(shù)目和十分穩(wěn)定的數(shù)據(jù)分開,合適的時(shí)候需要存放于不同的物理位置。設(shè)計(jì)數(shù)據(jù)倉庫必須按主題域進(jìn)行組織。在主題域內(nèi),許多獨(dú)立的數(shù)據(jù)表都需要通過這個(gè)主題相關(guān)的公用關(guān)鍵字連接。設(shè)計(jì)和建立記錄系統(tǒng)和數(shù)據(jù)倉庫之間的接口。這些接口有規(guī)律地將數(shù)據(jù)裝載到數(shù)據(jù)倉庫,數(shù)據(jù)抽取即是在這個(gè)步驟進(jìn)行。除了數(shù)據(jù)抽取,這個(gè)接口還包括的工作有:來自操作熊環(huán)境的數(shù)目的繼承、數(shù)據(jù)時(shí)間基準(zhǔn)的變更、數(shù)據(jù)壓縮、對(duì)現(xiàn)有系統(tǒng)環(huán)境的有效掃描。(這些工作需要查看本書的其他部分)另外對(duì)接口需要進(jìn)行日常的維護(hù),ETL軟件即是用來建立和維護(hù)這種接口的。載入主
20、題域載入主題域:抽取數(shù)據(jù)到數(shù)據(jù)倉庫中,并修改記錄條目,創(chuàng)建元數(shù)據(jù),建立相應(yīng)索引。8)最終用戶進(jìn)行反饋第十章數(shù)據(jù)倉庫和WEB10.1兩者之間的關(guān)系數(shù)據(jù)從web環(huán)境流向數(shù)據(jù)倉庫轉(zhuǎn)移接口是相當(dāng)簡單的:通過日志來獲取數(shù)據(jù)從數(shù)據(jù)倉庫流向web環(huán)境轉(zhuǎn)移接口是復(fù)雜的:數(shù)據(jù)從數(shù)據(jù)倉庫進(jìn)入ODS,在ODS中生成概要記錄。第11章非結(jié)構(gòu)化數(shù)據(jù)和數(shù)據(jù)倉庫第12章大型數(shù)據(jù)倉庫第13章關(guān)系模型和多維模型數(shù)據(jù)庫設(shè)計(jì)基礎(chǔ)數(shù)據(jù)倉庫的設(shè)計(jì)方法有關(guān)系模型(inmon)和多維模型(kimball)。關(guān)系模型特點(diǎn):靈活多維模型包括事實(shí)表和維表,維表用來描述事實(shí)表的某個(gè)重要方面。雪花結(jié)構(gòu)雪花結(jié)構(gòu)中,不同的事實(shí)表通過共享一個(gè)或多個(gè)公共維表連接起來。稱這些共享維表為一致維表。多維模型設(shè)計(jì)的有點(diǎn)在于訪問的高效性。13.4兩種模型的區(qū)別區(qū)別關(guān)系模型高靈活性,性能方面不太理想。多維模型在滿足用戶需求方面是非常高效的,但是靈活性不好。關(guān)系模型適合于大范圍數(shù)據(jù),多
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- T/CECS 10170-2022陶瓷透水磚
- T/CECS 10074-2019綠色建材評(píng)價(jià)太陽能光伏發(fā)電系統(tǒng)
- T/CECS 10036-2019綠色建材評(píng)價(jià)建筑陶瓷
- T/CCSAS 031-2023蒸餾、蒸發(fā)單元操作機(jī)械化、自動(dòng)化設(shè)計(jì)方案指南
- T/CCS 064-2023煤礦智能化通風(fēng)系統(tǒng)運(yùn)維管理規(guī)范
- T/CCS 059-2023智能化煤礦運(yùn)維技術(shù)架構(gòu)與流程
- T/CCMA 0160-2023非公路灑水車
- T/CCMA 0146-2023隧道施工電機(jī)車鋰電池系統(tǒng)技術(shù)規(guī)范
- T/CCMA 0112-2021全斷面隧道掘進(jìn)機(jī)用盾尾密封刷
- T/CCIAS 019-2023蒜蓉辣醬
- 2021譯林版高中英語選擇性必修四課文翻譯
- 測量儀器自檢記錄表(全站儀)
- 投標(biāo)咨詢服務(wù)協(xié)議(新修訂)
- 2022年虹口區(qū)事業(yè)單位公開招聘面試考官練習(xí)試題附答案
- Java程序設(shè)計(jì)項(xiàng)目教程(第二版)教學(xué)課件匯總完整版電子教案
- 訪談提綱格式4篇
- 能源經(jīng)濟(jì)學(xué)第10章-能源投融資
- 鋼結(jié)構(gòu)監(jiān)理實(shí)施細(xì)則(全)
- 世界各個(gè)國家二字代碼表
- 附件_景觀工作面移交表
- TZ 324-2010 鐵路預(yù)應(yīng)力混凝土連續(xù)梁(剛構(gòu))懸臂澆筑施工技術(shù)指南
評(píng)論
0/150
提交評(píng)論