




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
數(shù)據(jù)倉庫設計胡正耀09105015一、數(shù)據(jù)據(jù)倉庫系系統(tǒng)結構構RDBMS數(shù)據(jù)文件件其他綜合數(shù)據(jù)據(jù)當前數(shù)據(jù)據(jù)歷史數(shù)據(jù)據(jù)元數(shù)據(jù)抽取、轉(zhuǎn)轉(zhuǎn)換、裝裝載數(shù)據(jù)倉庫庫OLAP工具DM工具具查詢工具具分析工具具報表工具具抽取.轉(zhuǎn)轉(zhuǎn)換.裝裝載源數(shù)據(jù)庫庫DW管理理工具數(shù)據(jù)建模模工具數(shù)據(jù)源二、建立立DW的的兩種方方式1.自頂頂向下型型“自頂向向下”的的開發(fā)策策略是指指對原來來分散存存儲在企企業(yè)各處處的OLTP數(shù)數(shù)據(jù)庫中中的有用用數(shù)據(jù)通通過提取取、清潔潔、轉(zhuǎn)換換、聚集集等處理理步驟建建立一個個全局性性數(shù)據(jù)倉倉庫。這這個全局局的數(shù)據(jù)據(jù)倉庫將將提供給給用戶一一個一致致的數(shù)據(jù)據(jù)格式,,一致的的軟件環(huán)環(huán)境。從從理論上上說,決決策支持持所需的的數(shù)據(jù)都都應該包包含在這這個全局局數(shù)據(jù)倉倉庫中。。數(shù)據(jù)集集市中存存儲的數(shù)數(shù)據(jù)是為為某個部部門的DSS應應用而專專門從全全局數(shù)據(jù)據(jù)倉庫中中提取的的,它是是全局數(shù)數(shù)據(jù)倉庫庫中數(shù)據(jù)據(jù)的一個個子集。。在“自自頂向下下”的模模式中,,數(shù)據(jù)集集市和數(shù)數(shù)據(jù)倉庫庫的關系系是單方方向的,,即數(shù)據(jù)據(jù)從數(shù)據(jù)據(jù)倉庫流流向數(shù)據(jù)據(jù)集市。。原有數(shù)據(jù)據(jù)和應用用源抽取、轉(zhuǎn)轉(zhuǎn)換、遷遷移數(shù)據(jù)倉庫庫數(shù)據(jù)倉庫庫/數(shù)據(jù)據(jù)集市元數(shù)據(jù)數(shù)據(jù)集市自頂向下下的數(shù)據(jù)據(jù)倉庫結結構二、建立立DW的的兩種方方式2.自下下向上型型“自底向向上”模模式是從從建立各各個部門門或特定定的商業(yè)業(yè)問題的的數(shù)據(jù)集集市開始始,全局局性數(shù)據(jù)據(jù)倉庫建建立在這這些數(shù)據(jù)據(jù)集市的的基礎上上?!白宰缘紫蛏仙稀蹦J绞降奶攸c點是初期期投資少少,見效效快,因因為它在在建立部部門數(shù)據(jù)據(jù)集市時時只需要要較少的的人做決決策,解解決的是是較小的的商業(yè)問問題。““自底向向上”的的開發(fā)模模式可以以使一個個單位在在數(shù)據(jù)倉倉庫發(fā)展展初期盡盡可能少少地花費費資金,,也可以以在做出出有效的的投入之之前評估估技術的的收益情情況。原有數(shù)據(jù)據(jù)和應用用源抽取、轉(zhuǎn)轉(zhuǎn)換、遷遷移數(shù)據(jù)倉庫庫數(shù)據(jù)倉庫庫/數(shù)據(jù)據(jù)集市元數(shù)據(jù)數(shù)據(jù)集市市自下向上上的數(shù)據(jù)據(jù)倉庫結結構“平行開開發(fā)”模模式是指指在一個個全局性性數(shù)據(jù)倉倉庫的數(shù)數(shù)據(jù)模型型的指導導下,數(shù)數(shù)據(jù)集市市的建立立和全局局性數(shù)據(jù)據(jù)倉庫的的建立同同時進行行。在““平行開開發(fā)”模模式中由由于數(shù)據(jù)據(jù)集市的的建立是是在一個個統(tǒng)一的的全局數(shù)數(shù)據(jù)模型型的指導導下進行行的,可可避免各各部門在在開發(fā)各各自的數(shù)數(shù)據(jù)集市市時的盲盲目性,,減少各各數(shù)據(jù)集集市之間間的數(shù)據(jù)據(jù)冗余和和不一致致。在““平行開開發(fā)”模模式中數(shù)數(shù)據(jù)集市市的這種種相對獨獨立性有有利于全全局性數(shù)數(shù)據(jù)庫的的建設。。一旦全全局性數(shù)數(shù)據(jù)倉庫庫建立好好后,各各部門的的數(shù)據(jù)集集市將成成為全局局數(shù)據(jù)倉倉庫的一一個子集集#全局局數(shù)據(jù)倉倉庫將負負責為各各部門已已建成和和即將要要建的數(shù)數(shù)據(jù)集市市提供數(shù)數(shù)據(jù)。二、建立立DW的的兩種方方式兩種方式式的比較較:‘自頂向向下’的的方法法是在單單個項目目階段中中實現(xiàn)數(shù)數(shù)據(jù)倉庫庫,需要要在項目目開始時時完成更更多計劃劃和設計計工作。。這就需需要涉及及參與數(shù)數(shù)據(jù)倉庫庫實現(xiàn)的的每個工工作組、、部門門或業(yè)務務線中的的人員。。要使用用的數(shù)據(jù)據(jù)源、安安全性、、數(shù)據(jù)結結構、數(shù)數(shù)據(jù)質(zhì)量量、數(shù)據(jù)據(jù)標準和和整個數(shù)數(shù)據(jù)模型型的有關關決策一一般需要要在真正正的實現(xiàn)現(xiàn)開始之之前就完完成,建設規(guī)模模往往較較大,建建設周期期長,投投資大。。二、建立立DW的的兩種方方式兩種方式式的比較較:‘自下向向上’的的實現(xiàn)包包含數(shù)據(jù)據(jù)倉庫的的計劃和和設計,,無需等等待安置置好更大大業(yè)務范范圍的數(shù)數(shù)據(jù)倉庫庫設計。。這并不不意味著著不會開開發(fā)更大大業(yè)務范范圍的數(shù)數(shù)據(jù)倉庫庫設計;;隨著初初始數(shù)據(jù)據(jù)倉庫庫實現(xiàn)的的擴展,,將逐漸漸增加對對它的構構建。現(xiàn)現(xiàn)在,該該方法得得到了比比自頂向向下方法法更廣泛泛的接受受,因為為數(shù)據(jù)倉倉庫的直直接結果果可以實實現(xiàn),并并可以用用作擴展展更大業(yè)業(yè)務范圍圍實現(xiàn)的的證明。。二、建立立DW的的兩種方方式兩種方式式的比較較:一種折中中方案::每種實現(xiàn)現(xiàn)方法都都有利弊弊。在許許多情況況下,最最好的方方法可能能是某兩兩種的組組合。該該方法的的關鍵之之一就是是確定業(yè)業(yè)務范圍圍的架構構需要用用于支持持集成的的計劃和和設計的的程度,,因為數(shù)數(shù)據(jù)倉庫庫是用自自底向上上的方法法進行構構建。在在使用自自底向上上或階段段性數(shù)據(jù)據(jù)倉庫項項目模型型來構建建業(yè)務范范圍架構構中的一一系列數(shù)數(shù)據(jù)集市市時,您您可以一一個接一一個地集集成不同同業(yè)務主主題領領域中的的數(shù)據(jù)集集市,從從而形成成設計良良好的業(yè)業(yè)務數(shù)據(jù)據(jù)倉庫。。這樣的的方法可可以極好好地適用用于業(yè)務務。在這這種方法法中,可可以把數(shù)數(shù)據(jù)集市市理解為為整個數(shù)數(shù)據(jù)倉庫庫系統(tǒng)的的邏輯子子集,,換句話話說數(shù)據(jù)據(jù)倉庫就就是一致致化了的的數(shù)據(jù)集集市的集集合。這這種方案案的實施施步驟通通常分如如下幾步步:(1)從從整個個企業(yè)的的角度定定義計劃劃和需求求(2)構構建完完整的倉倉庫體系系結構(3)使使數(shù)據(jù)據(jù)內(nèi)容一一致而且且標準化化(4)將將數(shù)據(jù)據(jù)倉庫作作為一種種超級數(shù)數(shù)據(jù)集市市來實施施隨著數(shù)據(jù)據(jù)倉庫技技術的發(fā)發(fā)展,,數(shù)據(jù)據(jù)倉庫的的實現(xiàn)策策略已從從原先的的“自頂頂向下””一種模模式發(fā)展展到了六六種模式式。1、““自頂向向下”模模式2、““自底向向上”模模式3、““平行開開發(fā)”模模式為了解決決用戶需需求變化化的問題題,在在業(yè)界界引入了了三種模模式。4、““有反饋饋的自頂頂向下””模式5、““有反饋饋的自底底向上””模式6、““有反饋饋的平行行開發(fā)””模式三、數(shù)據(jù)據(jù)倉庫構構建步驟驟數(shù)據(jù)建模模概念模型型設計邏輯模型型設計物理模型型設計OLAP應用完善維護護系統(tǒng)應用與維維護確定系統(tǒng)統(tǒng)邊界確定主題題域總體分析析設計技術環(huán)境境設備三、數(shù)據(jù)據(jù)倉庫構構建步驟驟1)收集集和分析析業(yè)務需需求;2)建立立數(shù)據(jù)模模型和數(shù)數(shù)據(jù)倉庫庫的物理理設計;;3)定義義數(shù)據(jù)源源;4)選擇擇數(shù)據(jù)倉倉庫技術術和平臺臺;5)從操操作型數(shù)數(shù)據(jù)庫中中提取、、轉(zhuǎn)換和和凈化數(shù)數(shù)據(jù)到數(shù)數(shù)據(jù)倉庫庫;6)選擇擇訪問和和報表工工具;7)選擇擇數(shù)據(jù)庫庫連接軟軟件;8)選擇擇數(shù)據(jù)分分析和數(shù)數(shù)據(jù)展示示軟件;;9)更新新數(shù)據(jù)倉倉庫;三、數(shù)據(jù)據(jù)倉庫建建立的基基本框架架需求分析析運行維護護模型設計計物理設計計技術選擇擇數(shù)據(jù)處理理應用設計計應用開發(fā)發(fā)產(chǎn)品選擇擇項目管理四、數(shù)據(jù)據(jù)的獲取取數(shù)據(jù)倉庫庫所需要要的數(shù)據(jù)據(jù)不像業(yè)業(yè)務處理理系統(tǒng)那那樣直接接從業(yè)務務發(fā)生地地獲取,,而是從從與業(yè)務務處理發(fā)發(fā)生直接接聯(lián)系的的業(yè)務處處理系統(tǒng)統(tǒng)那里獲獲取,如如傳統(tǒng)的的基于C/S結結構的在在線事物物處理系系統(tǒng)OLTP。。這些業(yè)業(yè)務處理理系統(tǒng)中中的數(shù)據(jù)據(jù)往往與與業(yè)務處處理聯(lián)系系在一起起,只為為業(yè)務的的日常處處理服務務,而不不為決策策分析服服務。所所以DW從業(yè)務務處理系系統(tǒng)那里里獲取數(shù)數(shù)據(jù)時,,并不能能將原數(shù)數(shù)據(jù)庫中中的數(shù)據(jù)據(jù)直接加加載到DW中,,而是要要進行一一系列的的處理。。四、數(shù)據(jù)據(jù)的獲取取數(shù)據(jù)進入入數(shù)據(jù)倉倉庫的基基本過程程操作作數(shù)據(jù)向向數(shù)據(jù)倉倉庫的移移動包括括以下五五個過程程:五、設計計模型的的選擇數(shù)據(jù)倉庫庫是多維維數(shù)據(jù)庫庫,它擴擴展了關關系數(shù)據(jù)據(jù)庫模型型,以星星形架構構為主要要結構方方式的,,并在它它的基礎礎上,擴擴展出理理論雪花花形架構構和數(shù)據(jù)據(jù)星座等等方式,,但不管管是哪一一種架構構,維度度表、事事實表和和事實表表中的量量度都是是必不可可少的組組成要素素。邏輯模型型指數(shù)據(jù)據(jù)倉庫數(shù)數(shù)據(jù)的邏邏輯表現(xiàn)現(xiàn)形式。。從最終終應用的的功能和和性能的的角度來來看,數(shù)數(shù)據(jù)倉庫庫的數(shù)據(jù)據(jù)邏輯模模型也許許是整個個項目最最重要的的方面,,需要領領域?qū)<壹业膮⑴c與。從內(nèi)內(nèi)容上看看,涉及及的方面面有確立立主題域域,粒度度層次的的劃分,,確定數(shù)數(shù)據(jù)分割割策略,,關系模模式的確確定。數(shù)據(jù)倉庫庫的邏輯輯設計模模型有::第三范范式,星星型模式式,雪花花模式,,混合模模式五、設計計模型的的選擇大多數(shù)人人在設計計中央數(shù)數(shù)據(jù)倉庫庫的邏輯輯模型時時,都按按照第三三范式來來設計;;而在進進行物理理實施時時,則由由于數(shù)據(jù)據(jù)庫引擎擎的限制制,不得得不對邏邏輯模型型進行不不規(guī)范處處理((De--Normalize),以以提高高系統(tǒng)的的響應速速度,這這當然是是以增加加系統(tǒng)的的復雜度度、維護護工作量量、磁盤盤使用比比率((指原始始數(shù)據(jù)與與磁盤大大小的比比率)并并降低系系統(tǒng)執(zhí)行行動態(tài)查查詢能力力為代價價的。在數(shù)據(jù)倉倉庫的應應用環(huán)境境中,主主要有兩兩種負載載:一種種是回答答重復性性的問題題;另一一種是回回答交互互性的問問題。動態(tài)查詢詢具有較較明顯的的交互性性特征,,即在一一個問題題答案的的基礎上上進行進進一步的的探索,,這種交交互過程程常稱為為數(shù)據(jù)挖挖掘或者者知識探探索,對對于以第第一種負負載為主主的部門門數(shù)據(jù)集集市,當當數(shù)據(jù)量量不大、、報表較較固定時時可以采采用星型型模式;;對于中央央數(shù)據(jù)倉倉庫,考考慮到系系統(tǒng)的可可擴展能能力、投投資成本本和易于于管理等等多種因因素,最最好采用用第三范范式。標準的關關系數(shù)據(jù)據(jù)表不能能滿足數(shù)數(shù)據(jù)的分分析能力力,所以以對表進進行非標標準化處處理以形形成數(shù)據(jù)據(jù)倉庫中中特有的的星形架架構方式式,但這這樣一來來,如果果所有的的分析維維度都作作為事實實表的一一個直接接維度,,數(shù)據(jù)的的冗余是是相當大大的。在在星形架架構的基基礎上擴擴展出雪雪花形架架構,實實質(zhì)上是是在分析析查詢的的性能和和數(shù)據(jù)倉倉庫的存存儲容量量兩個方方面進行行權衡的的結果。。下表比較較了兩種種類型的的架構差差異。只只有明確確了這些些差異,,才能在在設計數(shù)數(shù)據(jù)倉庫庫時選擇擇最合適適的架構構方式。。星
形雪
花
形行數(shù)多少可讀性易難表格數(shù)量少多搜索維的時間快慢五、設計計模型的的選擇總結:對于部門門數(shù)據(jù)集集市,當當數(shù)據(jù)量量不大、、報表較較固定時時可以采采用星型型模式;;對于企業(yè)業(yè)級數(shù)據(jù)據(jù)倉庫,,考慮到到系統(tǒng)的的可擴展展能力、、投資成成本和易易于管理理等多種種因素,,最好采采用第三三范式。。五、設計計模型的的選擇數(shù)據(jù)倉庫庫系統(tǒng)的的建設作作為一個個漸進、、迭代的的過程,,其發(fā)展展趨勢是是從現(xiàn)有有的初步步應用如如報表分分析、數(shù)數(shù)據(jù)集市市,向深深度和廣廣度復雜雜分析和和數(shù)據(jù)挖挖掘技術術應用發(fā)發(fā)展,其其依賴的的數(shù)據(jù)存存儲模型型,包括括邏輯模模型和物物理模型型,也是是一個不不斷發(fā)展展,不斷斷豐富完完善的過過程。六、粒度度的設計計在數(shù)據(jù)倉倉庫中的的數(shù)據(jù)分分為4個個級別::早期細細節(jié)級、、當前細細節(jié)級、、輕度綜綜合級和和高度綜綜合級。。源數(shù)據(jù)據(jù)經(jīng)過綜綜合后,,首先進進入當前前細節(jié)級級,并根根據(jù)具體體需要進進行進一一步綜合合,從而而進入輕輕度綜合合級乃至至高度綜綜合級,,老化的的數(shù)據(jù)將將進入早早期細節(jié)節(jié)級。從從中可以以看出,,數(shù)據(jù)倉倉庫中存存在著不不同的綜綜合級別別,這就就是““粒度””的直觀觀表現(xiàn)。。粒度模型型是數(shù)據(jù)據(jù)倉庫設設計中需需要解決決的十分分重要的的問題之之一。所所謂粒度度是指數(shù)數(shù)據(jù)倉庫庫中數(shù)據(jù)據(jù)單元的的詳細程程度和級級別。數(shù)數(shù)據(jù)越詳詳細,粒粒度就越越小,級級別也就就越低;;數(shù)據(jù)綜綜合度越越高,粒粒度就越越大,級級別也就就越高。。數(shù)據(jù)倉庫庫中的數(shù)數(shù)據(jù)細節(jié)節(jié)級別六、粒度度的設計計設計步驟驟粗略估算算,確定定合適的的粒度級級的起點點,可以以粗略估估算數(shù)據(jù)據(jù)倉庫中中將來的的數(shù)據(jù)行行數(shù)和所所需的直直接存取取存儲空空間。確定雙重重或單一一的粒度度。確定粒度度的級別別六、粒度度的設計計設計原則則粒度在數(shù)數(shù)據(jù)倉庫庫生命周周期中是是重要的的考慮因因素。它它由業(yè)務務問題所所驅(qū)動,,受技術術的制約約。如果果粒度太太大,就就會丟失失個別細細節(jié),就就要花更更多的處處理時間間來解開開聚合;;而若粒粒度太小小,就會會由于一一葉障目目而不見見森林,,許多寶寶貴的處處理時間間都浪費費在建立立聚合上上。因此此粒度設設計主要要是權衡衡粒度級級別,對對于業(yè)務務量大,,分析要要求比較較高的情情況下,,最佳解解決辦法法則是采采用多重重粒度的的形式。。而針對具具體的某某個事實實的粒度度而言,,應當采采用“最最小粒度度原則””,即將將量度的的粒度設設置到最最小。假設目前前的數(shù)據(jù)據(jù)最小記記錄到秒秒,即數(shù)數(shù)據(jù)庫中中記錄了了每秒的的交易額額。那么么,如果果可以確確認,在在將來的的分析需需求中,,時間只只需要精精確到天天就可以以的話,,就可以以在ETL處理理過程中中,按天天來匯總總數(shù)據(jù),,此時,,數(shù)據(jù)倉倉庫中量量度的粒粒度就是是“天””;反過過來,如如果不能能確認將將來的分分析需求求在時間間上是否否需要精精確到秒秒,那么么,就需需要遵循循“最小小粒度原原則”,,精確到到“秒””以滿足足查詢的的可能需需求。七、數(shù)據(jù)倉庫庫物理模模型設計計數(shù)據(jù)倉庫庫的物理理模型就就是數(shù)據(jù)據(jù)倉庫邏邏輯模型型在物理理系統(tǒng)中中的實現(xiàn)現(xiàn)模式。。其中包包括了邏邏輯模型型中各種種實體表表的具體體化,例例如表的的數(shù)據(jù)結結構類型型、索引引策略、、數(shù)據(jù)存存放位置置和數(shù)據(jù)據(jù)存儲分分配等。。在進行行物理模模型的設設計實現(xiàn)現(xiàn)時,所所考慮的的因素有有:I//O存取取時間、、空間利利用率及及維護的的代價。。設計存儲儲結構設計索
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年中國郵政集團有限公司青海省分公司人員招聘筆試模擬試題及答案詳解一套
- 現(xiàn)場調(diào)試安全管理制度
- 玻璃生產(chǎn)倉庫管理制度
- 瓦斯礦井瓦斯管理制度
- 甘肅企業(yè)工傷管理制度
- 生產(chǎn)員工考勤管理制度
- (高清版)DB22∕T 5174-2024 城鎮(zhèn)老舊小區(qū)改造評價標準
- 生產(chǎn)車間黨員管理制度
- 公園繪畫活動方案
- 公園門票活動方案
- Windows操作系統(tǒng)及應用期末測試試題及答案
- 《交通事故車輛及財物損失價格鑒證評估技術規(guī)范》
- 北師大版二年級數(shù)學下冊各單元測試卷
- 【MOOC】外國文學經(jīng)典導讀-西北大學 中國大學慕課MOOC答案
- 醫(yī)院供電合同
- 2023水電工程費用構成及概(估)算費用標準
- Unit2 Bridging Cultures Discovering useful structures 課件英語人教版(2019)選擇性必修第二冊
- 《土地復墾介紹》課件
- 天然氣管道安裝施工組織方案
- 《能源培訓講義》課件
- GB/T 12996-2024電動輪椅車
評論
0/150
提交評論