商務(wù)智能原理與方法(第三版) 課件 ch04 數(shù)據(jù)平臺(tái)_第1頁(yè)
商務(wù)智能原理與方法(第三版) 課件 ch04 數(shù)據(jù)平臺(tái)_第2頁(yè)
商務(wù)智能原理與方法(第三版) 課件 ch04 數(shù)據(jù)平臺(tái)_第3頁(yè)
商務(wù)智能原理與方法(第三版) 課件 ch04 數(shù)據(jù)平臺(tái)_第4頁(yè)
商務(wù)智能原理與方法(第三版) 課件 ch04 數(shù)據(jù)平臺(tái)_第5頁(yè)
已閱讀5頁(yè),還剩35頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)平臺(tái)普通高等教育“十一五”國(guó)家級(jí)規(guī)劃教材商務(wù)智能原理與方法(第三版)第四章01數(shù)據(jù)處理技術(shù)演進(jìn)隨著信息管理系統(tǒng)的廣泛應(yīng)用和數(shù)據(jù)量激增,人們?cè)桨l(fā)希望能夠提供更高層次的數(shù)據(jù)分析功能,從而更好地為決策或科研工作提供支持。數(shù)據(jù)挖掘?qū)嶋H上是信息處理技術(shù)逐漸發(fā)展和演進(jìn)到一定程度而涌現(xiàn)出的新技術(shù)和方法。在電子數(shù)據(jù)處理的初期,人們就試圖通過(guò)某些方法來(lái)實(shí)現(xiàn)自動(dòng)決策支持,當(dāng)時(shí)機(jī)器學(xué)習(xí)是關(guān)注的焦點(diǎn)。同時(shí),海量數(shù)據(jù)存儲(chǔ)、多處理器計(jì)算機(jī)基礎(chǔ)技術(shù)的發(fā)展成熟及智能化的決策支持技術(shù)的發(fā)展,也推動(dòng)著數(shù)據(jù)挖掘方法發(fā)展成為成熟、穩(wěn)定且易于理解和操作的技術(shù),使得數(shù)據(jù)挖掘技術(shù)的商業(yè)實(shí)踐成為可能。數(shù)據(jù)處理技術(shù)演進(jìn)數(shù)據(jù)處理技術(shù)演進(jìn)從20世紀(jì)五六十年代數(shù)據(jù)庫(kù)技術(shù)嶄露頭角開始,原始的文件存儲(chǔ)系統(tǒng)開始向強(qiáng)大的數(shù)據(jù)庫(kù)系統(tǒng)演變。70年代以來(lái),隨著關(guān)系型數(shù)據(jù)庫(kù)系統(tǒng)的出現(xiàn),OLTP在關(guān)系型數(shù)據(jù)庫(kù)技術(shù)的發(fā)展歷程中發(fā)揮了重要作用。80年代中期后,對(duì)更新和更高級(jí)的數(shù)據(jù)庫(kù)系統(tǒng)的研究和應(yīng)用也如火如荼,包括擴(kuò)展關(guān)系型數(shù)據(jù)庫(kù)、面向?qū)ο笫綌?shù)據(jù)庫(kù)、產(chǎn)生式數(shù)據(jù)庫(kù)和一些面向應(yīng)用的數(shù)據(jù)庫(kù),如空間數(shù)據(jù)庫(kù)、時(shí)態(tài)數(shù)據(jù)庫(kù)、多媒體數(shù)據(jù)庫(kù)、主動(dòng)式數(shù)據(jù)庫(kù)、科研數(shù)據(jù)庫(kù)和知識(shí)庫(kù)等。80年代末期有了數(shù)據(jù)倉(cāng)庫(kù)技術(shù)和數(shù)據(jù)挖掘的興起。數(shù)據(jù)處理技術(shù)演進(jìn)數(shù)據(jù)處理技術(shù)演進(jìn)自20世紀(jì)90年代特別是進(jìn)入21世紀(jì)以來(lái),對(duì)數(shù)據(jù)挖掘技術(shù)的研究和應(yīng)用已廣泛展開,出現(xiàn)了很多新的數(shù)據(jù)挖掘方法和工具。01020304(1)超大規(guī)模數(shù)據(jù)庫(kù)的出現(xiàn),如商業(yè)數(shù)據(jù)倉(cāng)庫(kù)和計(jì)算機(jī)自動(dòng)收集的數(shù)據(jù)記錄。(3)對(duì)巨大量數(shù)據(jù)的快速訪問(wèn)。(2)先進(jìn)的計(jì)算機(jī)技術(shù),如更快和更大的計(jì)算能力和并行體系結(jié)構(gòu)。(4)對(duì)數(shù)據(jù)應(yīng)用精深統(tǒng)計(jì)方法計(jì)算的能力。數(shù)據(jù)處理技術(shù)演進(jìn)有四個(gè)主要的技術(shù)原因激發(fā)了數(shù)據(jù)挖掘的開發(fā)、應(yīng)用和研究的興趣。02數(shù)據(jù)倉(cāng)庫(kù)過(guò)程與體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)是計(jì)算機(jī)和數(shù)據(jù)應(yīng)用發(fā)展到一定階段的必然產(chǎn)物。數(shù)據(jù)倉(cāng)庫(kù)中存在兩種主要數(shù)據(jù):原始數(shù)據(jù)和由原始數(shù)據(jù)導(dǎo)出的、適合分析的導(dǎo)出型數(shù)據(jù)。數(shù)據(jù)倉(cāng)庫(kù)通常采用三層體系結(jié)構(gòu):操作環(huán)境層、數(shù)據(jù)倉(cāng)庫(kù)層和業(yè)務(wù)操作層。數(shù)據(jù)倉(cāng)庫(kù)過(guò)程與體系結(jié)構(gòu)而數(shù)據(jù)倉(cāng)庫(kù)技術(shù)具有分析處理等特點(diǎn),從不同數(shù)據(jù)源提取出數(shù)據(jù)和信息,轉(zhuǎn)換成公共的數(shù)據(jù)模型并和數(shù)據(jù)倉(cāng)庫(kù)中已有的數(shù)據(jù)集成在一起,發(fā)展為體系化環(huán)境。在這個(gè)體系化環(huán)境中,數(shù)據(jù)沖突和表達(dá)不一致的問(wèn)題已經(jīng)得到解決,從而彌補(bǔ)了原有操作型數(shù)據(jù)庫(kù)的缺點(diǎn)。數(shù)據(jù)倉(cāng)庫(kù)過(guò)程與體系結(jié)構(gòu)2.數(shù)據(jù)集成數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)來(lái)自不同的系統(tǒng),這些系統(tǒng)的硬件環(huán)境和軟件環(huán)境可能各不相同,使得數(shù)據(jù)結(jié)構(gòu)各異。4.數(shù)據(jù)分析和展示OLAP是一項(xiàng)分析處理技術(shù),從企業(yè)的數(shù)據(jù)集合中收集信息,并運(yùn)用數(shù)學(xué)運(yùn)算和數(shù)據(jù)處理技術(shù),靈活、交互式地提供統(tǒng)計(jì)、趨勢(shì)分析和預(yù)測(cè)報(bào)告。1.數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)與建模數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)包括與操作性系統(tǒng)的接口設(shè)計(jì)和數(shù)據(jù)倉(cāng)庫(kù)本身的設(shè)計(jì)。數(shù)據(jù)模型是能夠采用迭代方式建立數(shù)據(jù)倉(cāng)庫(kù)的關(guān)鍵。3.數(shù)據(jù)存儲(chǔ)和管理數(shù)據(jù)倉(cāng)庫(kù)的存儲(chǔ)可以選用多維數(shù)據(jù)庫(kù),也可以選用關(guān)系型數(shù)據(jù)庫(kù)或其他的特殊存儲(chǔ)方式,要保證數(shù)據(jù)的安全性、完整性及一致性,還要具有復(fù)雜的分析查詢的高效性。數(shù)據(jù)倉(cāng)庫(kù)過(guò)程與體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)過(guò)程與體系結(jié)構(gòu)03數(shù)據(jù)集成、提取與轉(zhuǎn)換數(shù)據(jù)提取用于獲取商務(wù)智能系統(tǒng)所需的數(shù)據(jù),它們通常是源數(shù)據(jù)的子集。數(shù)據(jù)提取是在對(duì)數(shù)據(jù)倉(cāng)庫(kù)的主題和數(shù)據(jù)本身內(nèi)容理解的基礎(chǔ)上,選擇主題涉及的相關(guān)數(shù)據(jù)。數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)源主要是在線事務(wù)處理數(shù)據(jù),數(shù)據(jù)源中的數(shù)據(jù)存在大量的數(shù)據(jù)更新,因此存在如何將數(shù)據(jù)源中的數(shù)據(jù)變化反映到數(shù)據(jù)倉(cāng)庫(kù)的問(wèn)題。數(shù)據(jù)集成、提取與轉(zhuǎn)換數(shù)據(jù)提取1.數(shù)據(jù)更新方式數(shù)據(jù)更新主要的考慮因素有增量更新還是批量更新、實(shí)時(shí)更新還是周期更新兩種。在數(shù)據(jù)源中的數(shù)據(jù)發(fā)生變化時(shí),隨之改變數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù),稱為實(shí)時(shí)更新;但通常的做法是按固定周期間隔,將數(shù)據(jù)源中的數(shù)據(jù)更新反映到數(shù)據(jù)倉(cāng)庫(kù)中,即周期更新,這樣的開銷更小,并且由于數(shù)據(jù)倉(cāng)庫(kù)中通常保存的是歷史數(shù)據(jù),不會(huì)影響分析結(jié)果。數(shù)據(jù)集成、提取與轉(zhuǎn)換數(shù)據(jù)提取01020304(1)提取策略(3)提取時(shí)期(2)提取周期(4)抽取的目標(biāo)數(shù)據(jù)數(shù)據(jù)集成、提取與轉(zhuǎn)換2.數(shù)據(jù)傳輸模式通常考慮如下因素。(1)數(shù)據(jù)離散化:將屬性(如數(shù)量型數(shù)據(jù))離散化成若干區(qū)間。(2)新建變量:根據(jù)原始數(shù)據(jù)生成一些新的變量作為預(yù)測(cè)變量。(3)轉(zhuǎn)換變量:將原始數(shù)據(jù)進(jìn)行轉(zhuǎn)換,如取值域、格式方面的轉(zhuǎn)換。(4)拆分?jǐn)?shù)據(jù):依據(jù)業(yè)務(wù)需求對(duì)數(shù)據(jù)項(xiàng)進(jìn)行分解,如地址信息拆分為城市、街道和郵編等。(5)格式變換:規(guī)范化數(shù)據(jù)格式,如定義時(shí)間、數(shù)值和字符等數(shù)據(jù)加載格式。數(shù)據(jù)集成、提取與轉(zhuǎn)換1.數(shù)據(jù)變換(2)維度歸約:數(shù)據(jù)選擇中的屬性選擇,主要是根據(jù)一定的評(píng)價(jià)標(biāo)準(zhǔn)在屬性集上選擇區(qū)分能力強(qiáng)的屬性子集,或者說(shuō)發(fā)現(xiàn)和分析目標(biāo)相關(guān)的屬性集,刪除冗余屬性和不相關(guān)屬性。(4)數(shù)據(jù)壓縮:使用數(shù)據(jù)編碼或變換得到原數(shù)據(jù)的歸約或壓縮表示。(1)數(shù)據(jù)聚集:采用切換、旋轉(zhuǎn)和投影技術(shù)等對(duì)原始數(shù)據(jù)進(jìn)行抽象和聚集,可聚集現(xiàn)有字段中的數(shù)值或?qū)?shù)據(jù)項(xiàng)進(jìn)行統(tǒng)計(jì)。(3)屬性值歸約:包括連續(xù)值屬性的離散化和符號(hào)型屬性的合并。(5)數(shù)據(jù)抽樣:主要利用統(tǒng)計(jì)學(xué)中的抽樣方法,如簡(jiǎn)單隨機(jī)抽樣、等距抽樣和分層抽樣等,用數(shù)據(jù)較小的樣本表示大的數(shù)據(jù)集。數(shù)據(jù)倉(cāng)庫(kù)與在線分析處理2.數(shù)據(jù)歸納每次加載時(shí)將數(shù)據(jù)追加到目標(biāo)表中。(1)直接追加對(duì)提取數(shù)據(jù)本身已包括了當(dāng)前的數(shù)據(jù)和所有歷史數(shù)據(jù)的,采用全面覆蓋方式。(2)全面覆蓋對(duì)于需要連續(xù)記錄業(yè)務(wù)的狀態(tài)變換,根據(jù)當(dāng)前的最新狀態(tài)與歷史狀態(tài)數(shù)據(jù)進(jìn)行對(duì)比的情況,采用更新追加。(3)更新追加數(shù)據(jù)加載數(shù)據(jù)倉(cāng)庫(kù)與在線分析處理01020304(1)設(shè)計(jì)數(shù)據(jù)準(zhǔn)備區(qū)的數(shù)據(jù)結(jié)構(gòu)(3)定義數(shù)據(jù)清洗轉(zhuǎn)換規(guī)則(2)定義數(shù)據(jù)提取規(guī)則(4)ETL流程設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)與在線分析處理ETL設(shè)計(jì)與開發(fā)(ETL設(shè)計(jì)的主要內(nèi)容如下)(2)對(duì)ETL過(guò)程進(jìn)行整合測(cè)試或回歸測(cè)試。(4)對(duì)ETL過(guò)程進(jìn)行質(zhì)量保障測(cè)試。(1)建立ETL過(guò)程并對(duì)每個(gè)單位進(jìn)行測(cè)試。(3)對(duì)ETL過(guò)程進(jìn)行效能測(cè)試。(5)對(duì)ETL過(guò)程進(jìn)行接受度測(cè)試。數(shù)據(jù)倉(cāng)庫(kù)與在線分析處理ETL設(shè)計(jì)與開發(fā)(ETL的開發(fā)主要包括5個(gè)步驟)04數(shù)據(jù)倉(cāng)庫(kù)開發(fā)、管理與安全1.自上而下模式自上而下模式是將原來(lái)分散存儲(chǔ)在企業(yè)各處的OLTP數(shù)據(jù)庫(kù)中的有用數(shù)據(jù),通過(guò)篩選、提取和轉(zhuǎn)換等處理后建立整體性數(shù)據(jù)倉(cāng)庫(kù)。2.自下而上模式自下而上模式是從構(gòu)造各部門或特定的企業(yè)問(wèn)題的數(shù)據(jù)集市開始的,整體性數(shù)據(jù)倉(cāng)庫(kù)是建立在這些數(shù)據(jù)集市的基礎(chǔ)之上的。3.平行開發(fā)模式平行開發(fā)是在一個(gè)整體性數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)模型的指導(dǎo)下,將數(shù)據(jù)集市和整體性數(shù)據(jù)倉(cāng)庫(kù)的建立同步進(jìn)行。數(shù)據(jù)倉(cāng)庫(kù)開發(fā)、管理與安全數(shù)據(jù)倉(cāng)庫(kù)開發(fā)模式5.有反饋的自下而上模式有反饋的自下而上模式先構(gòu)造部門數(shù)據(jù)集市,再在此基礎(chǔ)上構(gòu)造整體性數(shù)據(jù)倉(cāng)庫(kù),因此數(shù)據(jù)集市能較好地滿足用戶的需求,在整體性數(shù)據(jù)倉(cāng)庫(kù)建立后,需求變化將主要體現(xiàn)在數(shù)據(jù)集市與數(shù)據(jù)倉(cāng)庫(kù)之間。6.有反饋的平行開發(fā)模式在有反饋的平行開發(fā)初期,開發(fā)人員主要在整體性數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)模型的指導(dǎo)下建立部門數(shù)據(jù)集市,并把建立過(guò)程中所遇到的問(wèn)題、解決方案及用戶意見等信息反饋給整體性數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)模型。4.有反饋的自上而下模式新需求反饋分為兩個(gè)階段:在第一階段,用戶的新需求不斷被反饋給部門的數(shù)據(jù)集市,部門數(shù)據(jù)集市根據(jù)用戶的新需求產(chǎn)生自身的需求變化;在第二階段,部門數(shù)據(jù)集市把自身的需求變化反饋給整體性數(shù)據(jù)倉(cāng)庫(kù),整體性數(shù)據(jù)倉(cāng)庫(kù)會(huì)相應(yīng)變化數(shù)據(jù)倉(cāng)庫(kù)開發(fā)、管理與安全數(shù)據(jù)倉(cāng)庫(kù)開發(fā)模式數(shù)據(jù)庫(kù)的建模任務(wù)通?;诟拍钅P汀⑦壿嬆P秃臀锢砟P腿N視角,數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)也不例外。在數(shù)據(jù)倉(cāng)庫(kù)的三級(jí)數(shù)據(jù)模型中,概念模型表示現(xiàn)實(shí)世界的業(yè)務(wù)信息構(gòu)成關(guān)系,用數(shù)據(jù)庫(kù)設(shè)計(jì)中的實(shí)體關(guān)系模型(ER)進(jìn)行設(shè)計(jì),但需要用分析主題代替?zhèn)鹘y(tǒng)ER模型中的實(shí)體。數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)的步驟如圖所示。數(shù)據(jù)倉(cāng)庫(kù)開發(fā)、管理與安全數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)的用戶一般是企業(yè)管理者,分析需求和業(yè)務(wù)需求有很大差異,因此不能把數(shù)據(jù)庫(kù)設(shè)計(jì)階段的用戶業(yè)務(wù)需求直接用在數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)中。在設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)之初把用戶的分析需求納入考慮范圍是很有必要的。同時(shí),數(shù)據(jù)倉(cāng)庫(kù)的構(gòu)建必須基于業(yè)務(wù)數(shù)據(jù)庫(kù),業(yè)務(wù)數(shù)據(jù)源的結(jié)構(gòu)也是不得不考慮的問(wèn)題。圖4-9顯示了這兩種方法相結(jié)合獲取數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)真正需求的過(guò)程。數(shù)據(jù)倉(cāng)庫(kù)開發(fā)、管理與安全數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)不同于數(shù)據(jù)庫(kù),數(shù)據(jù)倉(cāng)庫(kù)的邏輯數(shù)據(jù)模型是多維結(jié)構(gòu)的數(shù)據(jù)視圖,也稱多維數(shù)據(jù)模型。多維結(jié)構(gòu)還能夠?qū)σ粋€(gè)或多個(gè)維的集合運(yùn)算,如對(duì)總銷售量按城市進(jìn)行計(jì)算和排序(如圖4-10所示)。數(shù)據(jù)倉(cāng)庫(kù)開發(fā)、管理與安全數(shù)據(jù)倉(cāng)庫(kù)的邏輯數(shù)據(jù)模型大多數(shù)數(shù)據(jù)倉(cāng)庫(kù)采用星型模型。星型模型是由事實(shí)表和多個(gè)維表組成的。1.星型模型將星型模型的維表進(jìn)一步層次化,原來(lái)的各維度表可能被擴(kuò)展為小的事實(shí)表,形成一些局部的層次區(qū)域。2.雪花模型范式是傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)設(shè)計(jì)理論中的概念。一個(gè)規(guī)范化的關(guān)系模式應(yīng)該準(zhǔn)確地反映所描述的數(shù)據(jù)實(shí)體,避免冗余和異常等問(wèn)題。3.第三范式目前使用的多維數(shù)據(jù)模型數(shù)據(jù)倉(cāng)庫(kù)開發(fā)、管理與安全元數(shù)據(jù)(MetaData)是關(guān)于數(shù)據(jù)的數(shù)據(jù),是以概念、主題、集團(tuán)或?qū)哟蔚刃问浇⒌男畔⒔Y(jié)構(gòu),并且記錄數(shù)據(jù)對(duì)象的位置。元數(shù)據(jù)是整個(gè)數(shù)據(jù)倉(cāng)庫(kù)的核心。元數(shù)據(jù)可以分為四類,分別是:關(guān)于數(shù)據(jù)源的元數(shù)據(jù)關(guān)于數(shù)據(jù)模型的元數(shù)據(jù)關(guān)于數(shù)據(jù)倉(cāng)庫(kù)映射的元數(shù)據(jù)關(guān)于數(shù)據(jù)倉(cāng)庫(kù)使用的元數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)開發(fā)、管理與安全元數(shù)據(jù)(2)所有數(shù)據(jù)項(xiàng)的業(yè)務(wù)定義。(4)每個(gè)數(shù)據(jù)項(xiàng)的有效值。(1)數(shù)據(jù)源中所有物理數(shù)據(jù)結(jié)構(gòu),包括所有的數(shù)據(jù)項(xiàng)及數(shù)據(jù)類型。(3)每個(gè)數(shù)據(jù)項(xiàng)更新的頻率,以及由誰(shuí)或哪個(gè)過(guò)程更新的說(shuō)明。(5)其他系統(tǒng)中具有相同業(yè)務(wù)含義的數(shù)據(jù)項(xiàng)的清單。數(shù)據(jù)倉(cāng)庫(kù)開發(fā)、管理與安全1.關(guān)于數(shù)據(jù)源的元數(shù)據(jù)01020304(1)I/O對(duì)象:支持?jǐn)?shù)據(jù)倉(cāng)庫(kù)I/O操作的各種對(duì)象,元數(shù)據(jù)要描述該對(duì)象的定義、類型、狀態(tài)和存檔(刷新)周期。((3)關(guān)系成員:描述每個(gè)關(guān)系中兩個(gè)I/O對(duì)象的具體角色(在一對(duì)多中是父親還是兒子)、關(guān)系度(一對(duì)一或一對(duì)多)和約束條件(必須或可選)(2)關(guān)系:兩個(gè)I/O對(duì)象之間的關(guān)聯(lián),包括一對(duì)一、一對(duì)多或多對(duì)多關(guān)系。(4)關(guān)系關(guān)鍵字:描述兩個(gè)I/O對(duì)象是如何建立關(guān)系的,即指明每個(gè)關(guān)系的相應(yīng)對(duì)象的關(guān)鍵字。數(shù)據(jù)倉(cāng)庫(kù)開發(fā)、管理與安全2.關(guān)于數(shù)據(jù)模型的元數(shù)據(jù)(1)ETL任務(wù),即描述每個(gè)ETL任務(wù),并為它標(biāo)識(shí)源系統(tǒng),明確其刷新周期。(2)ETL步驟,即定義ETL的步驟,說(shuō)明每一步的類型(如過(guò)濾、驗(yàn)證等)。(3)表映射,即為每個(gè)步驟建立輸入文件(或表)與輸出文件(或表)的關(guān)聯(lián)。(4)屬性映射,即為每個(gè)步驟建立輸入文件(或表)的屬性與輸出文件(或表)的屬性之間的關(guān)聯(lián)。(5)記錄篩選規(guī)則,即在每個(gè)步驟中進(jìn)行的篩選的規(guī)則。數(shù)據(jù)倉(cāng)庫(kù)開發(fā)、管理與安全3.關(guān)于數(shù)據(jù)倉(cāng)庫(kù)映射的元數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)的用戶最關(guān)心的是兩類元數(shù)據(jù):一是數(shù)據(jù)倉(cāng)庫(kù)中有什么元數(shù)據(jù),即按主題查看數(shù)據(jù)倉(cāng)庫(kù)的內(nèi)容;二是已有的可重復(fù)利用的查詢語(yǔ)言信息,以方便用戶的使用而不必重新編程。更高級(jí)的形式是用戶通過(guò)選擇要提出的業(yè)務(wù)問(wèn)題的類型來(lái)訪問(wèn)現(xiàn)有的查詢,得到相似查詢的元數(shù)據(jù)。數(shù)據(jù)倉(cāng)庫(kù)開發(fā)、管理與安全4.關(guān)于數(shù)據(jù)倉(cāng)庫(kù)使用的元數(shù)據(jù)01020304(1)實(shí)體安全:指系統(tǒng)設(shè)備及相關(guān)設(shè)施運(yùn)行正常,服務(wù)適時(shí),包括環(huán)境、設(shè)備、機(jī)房、電磁輻射和數(shù)據(jù)介質(zhì)等的安全。(3)軟件安全:數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)工作的主要平臺(tái),它的安全是數(shù)據(jù)倉(cāng)庫(kù)安全的重要內(nèi)容,是研究的重點(diǎn)。(2)數(shù)據(jù)安全:指系統(tǒng)擁有的和產(chǎn)生的數(shù)據(jù)或信息安全。(4)運(yùn)行安全:指系統(tǒng)資源使用合法,包括電源、數(shù)據(jù)與介質(zhì)管理、機(jī)房管理、運(yùn)行管理和維護(hù)。數(shù)據(jù)倉(cāng)庫(kù)開發(fā)、管理與安全1.數(shù)據(jù)倉(cāng)庫(kù)的安全問(wèn)題數(shù)據(jù)倉(cāng)庫(kù)的安全措施有技術(shù)性安全措施和非技術(shù)性安全措施兩大類。從數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的結(jié)構(gòu)層次來(lái)分,技術(shù)性安全措施包括:網(wǎng)絡(luò)系統(tǒng)的安全措施服務(wù)器的安全措施應(yīng)用系統(tǒng)的安全措施信息傳輸?shù)陌踩胧?shù)據(jù)倉(cāng)庫(kù)開發(fā)、管理與安全2.數(shù)據(jù)倉(cāng)庫(kù)的安全措施05分布式數(shù)據(jù)平臺(tái)越來(lái)越多的商業(yè)實(shí)踐場(chǎng)景需要依賴分布式數(shù)據(jù)平臺(tái)(DistributedDataPlatform)實(shí)現(xiàn)海量數(shù)據(jù)處理和可擴(kuò)展計(jì)算。分布式數(shù)據(jù)平臺(tái)可以把存儲(chǔ)、計(jì)算任務(wù)分散到多個(gè)普通節(jié)點(diǎn)上,通過(guò)節(jié)點(diǎn)的動(dòng)態(tài)增加來(lái)應(yīng)對(duì)數(shù)據(jù)量和計(jì)算量的增長(zhǎng)。分布式數(shù)據(jù)平臺(tái)的核心是一組面向域的數(shù)據(jù)或產(chǎn)品,其解決方案往往會(huì)帶來(lái)在多個(gè)節(jié)點(diǎn)的管理調(diào)度挑戰(zhàn)。相較于傳統(tǒng)的單體式數(shù)據(jù)平臺(tái),分布式數(shù)據(jù)平臺(tái)雖然在邏輯上呈現(xiàn)為統(tǒng)一的整體,但實(shí)際是通過(guò)不同的物理節(jié)點(diǎn)進(jìn)行存儲(chǔ)和數(shù)據(jù)處理。分布式數(shù)據(jù)平臺(tái)分布式數(shù)據(jù)平臺(tái)概念如今業(yè)界廣泛使用的框架主要基于Hadoop系統(tǒng)。Hadoop系統(tǒng)是一個(gè)由Apache基金會(huì)用Java語(yǔ)言實(shí)現(xiàn)的開源分布式系統(tǒng)架構(gòu)?;贖adoop平臺(tái)架構(gòu),用戶可以進(jìn)行跨平臺(tái)應(yīng)用開發(fā)并提供服務(wù)。Hadoop架構(gòu)具較高的容錯(cuò)率,并且可被部署在硬件價(jià)格較低的計(jì)算機(jī)集群中

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論