元數據及數據質量介紹.ppt_第1頁
元數據及數據質量介紹.ppt_第2頁
元數據及數據質量介紹.ppt_第3頁
元數據及數據質量介紹.ppt_第4頁
元數據及數據質量介紹.ppt_第5頁
已閱讀5頁,還剩34頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

元數據及數據質量介紹,20160303,議程內容,數據管控元數據數據質量問題與討論,26/13/2020,Confidential,隨著數據倉庫的不斷成長,你能回答下面的問題嗎?,36/13/2020,源系統(tǒng)發(fā)生變化后數據倉庫到底需要修改多少程序?發(fā)生了多少次變化?從年初到現在哪些系統(tǒng)變化最頻繁?某個ETL加工程序到底經過多少開發(fā)人員的修改?每次改動的內容是什么?哪個源系統(tǒng)的數據質量最好?哪個小組開發(fā)質量最高?哪些字段采用了公共代碼?代碼映射規(guī)則是什么?哪些字段是需要做變形的敏感字段?在不同環(huán)境下同步的變形策略是什么?,企業(yè)級信息管控體系,企業(yè)級信息管控戰(zhàn)略性和策略性管理,項目所有權和優(yōu)先次序設定數據管理界定日常持續(xù)創(chuàng)建、使用和廢止數據的職責元數據管理用來描述如何、何時和由誰來負責數據的接收、創(chuàng)建、訪問、修改和格式的數據數據標準數據的業(yè)務、技術規(guī)范性文檔數據質量數據滿足特定使用的適用度,包括完整性和業(yè)務規(guī)則遵從性數據整合對各主題進行數據清理、轉換、整合和豐富的流程數據安全與隱私各業(yè)務主題對安全性和保密性的要求,包括審計能力主數據管理數據資產以及定義企業(yè)運營的關系,人員、流程和技術,企業(yè)級信息管控,數據管理,主數據管理,數據質量,元數據管理,數據模型&業(yè)務視圖,數據安全與隱私,數據整合,數據標準,46/13/2020,數據管控實施的三個方向,56/13/2020,Confidential,平臺:數據管控團隊的工作必須建立在自動化的高效的信息平臺。接口:企業(yè)的信息系統(tǒng)之間應按照數據管控接口規(guī)范進行交互。模板:信息系統(tǒng)向數據管控平臺提交數據可以通過標準模板。,技術,流程:根據管控要求建立可執(zhí)行工作流程,并嚴格執(zhí)行工作流程。規(guī)范:企業(yè)的各工作崗位有數據管控團隊制訂的工作規(guī)范。制度:企業(yè)須建立數據管控的制度。,流程,組織:建立企業(yè)級的數據管控團隊是數據管控的基礎。角色:團隊中按照管控的內容進行崗位的設置,即角色。職責:不同的角色擁有詳細的工作職責。,組織,數據管控特點,企業(yè)的分析型應用發(fā)展到一定的成熟度,就能發(fā)現數據管控的價值。數據管控是跨系統(tǒng)、跨部門的管理。數據管控必須有先進的管理方法論支持。數據管控是需要長期的、漸進式的工作。數據倉庫是執(zhí)行數據管控理想的平臺。,66/13/2020,Confidential,企業(yè)數據管控成熟度,76/13/2020,Confidential,成熟度1:未知級,成熟度2:被動級,成熟度3:主動級,成熟度4:預測級,數據管控成熟度模型,我們建立了企業(yè)數據管控成熟度模型,該模型能夠使企業(yè)識別和量化數據管控的成熟度,為企業(yè)的下一步數據管控提供指導。你的企業(yè)處在哪一級?Unaware:未知的Reactive:被動的Proactive:能動的Predictive:預測的,86/13/2020,Confidential,回報,人員、流程、技術的整合程度,風險,數據管控平臺架構,Database,數據管控知識庫,Metadata,DQ,DS,ETL,數據管控平臺B/S應用,DDL,Excel,XML,SourceData,SQL,登錄,瀏覽,搜索,管理,下載,分析,管理,安全,Mart,PDM,Stage,DBA,Admin,ApplicationPlatform(TAP),業(yè)務單元,MVC,獨立單元,系統(tǒng)管理,數據標準,元數據,數據質量,需求管理,數據安全,靈活查詢,數據管控平臺C/S應用,ETL,DBC,Perl,開發(fā),應用,需求開發(fā),SDM,信息調研,版本控制,測試,ETL開發(fā),工作模板,控制,批量,加工,數據管控平臺應用,106/13/2020,Confidential,議程內容,數據管控元數據數據質量問題與討論,116/13/2020,Confidential,什么是元數據,定義官方定義(CWM):描述數據的信息。Metadataisstructuredinformationthatdescribesthecharacteristics/attributesofadataelement.數據分析界定義:分散在企業(yè)中的關鍵數據描述。Metadatadescribescriticalelementsofdatascatteredacrosstheorganization.通俗的說:如果數據倉庫是一座城市的話,元數據就是城市的地圖。,126/13/2020,Confidential,數據倉庫,元數據,元數據的國際標準CWM,公共倉庫元模型(CWM:CommonWarehouseMetamodel)是為數據倉庫及商業(yè)智能環(huán)境間方便地交換元數據而制定的一個標準,其主要目的是在異構環(huán)境下,幫助不同的數據倉庫工具、平臺和元數據知識庫進行元數據交換。CWM模型為數據倉庫和商業(yè)智能(BI)工具之間共享元數據,制定了一整套關于語法和語義的規(guī)范。它主要包含以下四個方面的規(guī)范:CWM元模型(Metamodel):描述數據倉庫系統(tǒng)的模型;CWMXML:CWM元模型的XML表示;CWMDTD:DW/BI共享元數據的交換格式;CWMIDL:DW/BI共享元數據的應用程序訪問接口(API)。,136/13/2020,Confidential,CWM標準涉及到的元數據模型結構,數據倉庫為什么需要元數據管理,普通應用系統(tǒng)為什么不需要元數據管理?表的數量少數據加工簡單數據來源單一訪問方式單一交鑰匙的應用數據倉庫為什么必須元數據管理?上下游系統(tǒng)多,變更頻繁數據加工復雜用戶訪問方式復雜維護周期長某銀行的DW數據舉例:上游系統(tǒng)60個,下游系統(tǒng)20多個,倉庫內部的表12000多個,運行的ETL任務6000多個,每個月都有新版本上線,146/13/2020,Confidential,元數據架構,功能清單元數據,166/13/2020,Confidential,元數據,瀏覽,元數據地圖瀏覽元數據統(tǒng)計信息瀏覽全局版本比對DW來源系統(tǒng)元數據DW集市元數據DW/PDM元數據LDM元數據ETL、映射信息元數據數據文件元數據用戶查詢樣例元數據對象版本查看與比對影響分析血緣分析元數據質量分析孤立對象分析全局檢索用戶注釋元數據下載,批量元數據加載元數據緩沖區(qū)管理元數據版本回滾業(yè)務元數據管理源系統(tǒng)元數據管理DW集市元數據管理DW/PDM元數據管理LDM元數據管理ETL元數據管理數據文件元數據管理查詢樣例管理元數據上傳元數據模板管理元數據橋接器管理版本管理,管理,執(zhí)行,元數據自動更新模塊ETL相關數據同步SQL解析處理模塊,元數據瀏覽的靈活性,元數據對象關系呈立體網狀看本體查看對象本身定義,例如表的名稱、注釋等信息。向上看查看對象所屬對象的定義,例如表所歸屬的數據庫。向下看查看對象包含的對象的定義,例如表所包含的字段、索引等。向前看查看對象的上游信息對象,例如該表的數據的來源表。向后看查看對象的下游信息對象,例如該表的數據的目標表??礆v史查看對象的歷史變更信息。例如該表在上一個版本中的內容??从燕彶榭磁c對象有關系的其他對象,例如涉及該表的腳本等信息。,176/13/2020,Confidential,歷史對象,所屬對象,包含對象,目標對象,來源對象,本體對象,核心價值:元數據分析功能,186/13/2020,Confidential,影響分析向下分析一個元數據對象對下游對象的影響。血緣分析與影響分析的方向相反,向上追溯一個對象的數據來源。全鏈分析從某對象出發(fā),向上下游雙方向進行分析?;盍Ψ治龇治鲆粋€數據庫對象被訪問的頻度。孤立對象分析分析數據準備區(qū)(SData)、物理模型區(qū)(PData)中的孤立元數據對象。一致性分析定期分析元模型中的元數據是否與實際情況一致。版本比對選擇任意兩個時點的版本進行比對。質量分析分析數據倉庫中的元數據的質量。,徹底解決影響/血緣分析放大的問題,由于DW的LDM大多采用三范式建模,因此LDM的核心表會有大量的來源與目標,一旦做影響分析,結果就會擴散放大。最終導致分析結果無法使用。采用智能SQL解析器模塊,能分析數據的真實來源與目標。此項技術是業(yè)界領先的。,196/13/2020,Confidential,非精細化解析結果,精細化解析結果,系統(tǒng)簡要介紹元數據,206/13/2020,Confidential,選擇的元數據管理的10個理由,完美結合數據庫的產品,充分利用數據庫性能。完美結合的數據倉庫實施方法論,貼合項目實際。是CWM規(guī)范制定者之一,符合業(yè)界標準的元數據產品。能快速動態(tài)生成全域元數據地圖,DW信息一目了然。徹底解決影響/血緣分析放大的問題。能夠直接導入LDM,并以圖形化顯示。是企業(yè)級數據管控架構的基礎。元數據驅動數據倉庫開發(fā)過程,支持模型設計、ETL開發(fā)??蓴U展性好,能夠無縫實現企業(yè)級元數據管理。功能強大,性能卓越,性價比高。,216/13/2020,Confidential,議程內容,數據管控元數據數據質量問題與討論,226/13/2020,Confidential,中國金融行業(yè)數據質量管理的發(fā)展歷程,236/13/2020,Confidential,2003,2006,2008,2010,1.簡單的檢查腳本。2.少量的技術和業(yè)務檢查規(guī)則。3.沒有專門的數據質量檢查團隊,包含在ETL工作中。4.被動式檢查,救火隊式工作。,1.第一次開發(fā)出數據質量檢查管理系統(tǒng),并且在建行DW部署。2.大量的技術檢查,少量的業(yè)務檢查。3.有了專門的質量小組。,1.數據管理平臺開發(fā)完成,數據質量與元數據、數據標準等集成在一起,并在建行、工行部署。2.大量的技術和業(yè)務檢查規(guī)則。3.主動的技術檢查;被動的業(yè)務檢查。,1.完善數據管理平臺。2.抽象出規(guī)范化的金融行業(yè)的業(yè)務檢查規(guī)則。3:推動質量檢查的閉環(huán)工作。4:實現主動式的業(yè)務檢查。,數據質量管理的指標,我們需要什么樣的數據完整的所需求的數據是否都已經獲得一致的從不同應用獲得數據能否保持一致有效的數據是否容易理解而不被曲解準確的數據是否在任何時間點都反應了數據的真實情況相關的有關聯(lián)的數據之間的關系是否準確有效及時的從信息產生到數據可用需要多長時間,246/13/2020,Confidential,數據質量問題成因魚骨圖分析,數據質量問題來源廣泛、復雜,256/13/2020,Confidential,數據質量問題,技術,人,流程,信息,培訓,管理,激勵,上崗培訓,進修,目標,責任心,優(yōu)先級,反饋,獎勵,元數據,模型,定義,加工,完整性,精確性,度量,有效性,數據傳遞,及時性,漏傳,基礎設施,OS,網絡,硬件,實施,復查,產品,性能,缺陷,測試,配置,覆蓋率,數據,變化頻度,流程,設計,優(yōu)化,架構,設計,工具,數據質量問題氣泡圖分析,266/13/2020,Confidential,項目組,數據管理團隊,企業(yè),客戶,可控范圍不可控,技術質量性質業(yè)務,唯一性,完整性,管理,客戶信息,源系統(tǒng),系統(tǒng)調研,樣本數據,開發(fā),測試,外鍵,主鍵,架構,值域,業(yè)務規(guī)則,模型,有效性,相關性,溝通,及時性,數據質量改進流程PDCA,PDCA環(huán)簡稱DemingCycle,由質量大師戴明發(fā)明P計劃D執(zhí)行C檢查A行動沒有形成這個閉環(huán),就不會有質量的改進根據PDCA原理,設計出適合企業(yè)的質量提升流程,276/13/2020,Confidential,計劃,PDCA環(huán),執(zhí)行,檢查,行動,PDCA例子P:在眾多的質量問題中選擇某一個問題準備改進。D:在部分分支機構執(zhí)行質量改進方案。C:通過DW反饋評估質量改進效果。A:制定數據質量改進指引,下發(fā)全部機構,并監(jiān)督改進情況。,戴明名言:質量無須驚人之舉。每個人都有客戶,如果他不知道自己的客戶是誰,也不知道客戶需要的是什么,那么他還沒有了解自己的工作。質量提高不是來自于檢驗而是來源于過程的改進。企業(yè)買不到高質量的方法。,質量以滿足客戶的需求為原則,數據流轉概述:核心系統(tǒng)的數據文件通過文件傳輸平臺傳輸到數據倉庫,數據倉庫加工數據后傳送給數據集市。問題:數據集市報告數據倉庫傳送的數據有錯誤,但是據數據倉庫的技術人員反饋,以前出過類似情況,這可能是核心系統(tǒng)下數錯誤,也不排除文件傳輸平臺漏數的情況,因此,數據集市應該就這個質量問題找誰?,286/13/2020,Confidential,核心系統(tǒng),文件傳輸平臺,數據倉庫,數據集市,A:找數據倉庫B:找文件傳輸平臺C:找核心系統(tǒng)D:按順序全找,正確答案:A企業(yè)要建立起下游即用戶,用戶永遠是第一的原則,任何系統(tǒng)都要接受下游投訴并妥善處理的原則。,完善開發(fā)管理流程,DW相關應用開發(fā)遵守軟件開發(fā)管理流程建立三套隔離環(huán)境:開發(fā)及SIT測試、UAT測試、生產,296/13/2020,Confidential,數據管控的數據質量組織角色與職責,數據質量組組長(1)數據質量組個人工作計劃收集,制定中長期工作計劃定期向項目經理匯報數據質量治理情況協(xié)調本組與數據倉庫各小組之間的工作數據質量專家顧問(1)為數據質量工作制定中長期的建設規(guī)劃熟悉模型建設,應用開發(fā),為數據質量組工作提供指導審核數據質量組組間的工作聯(lián)系單和檢核腳本質量問題外部聯(lián)絡與追蹤人員(1)數據質量組與源系統(tǒng)工作聯(lián)系單的收集與跟蹤數據倉庫運維過程中事故記錄與日常問題的整理數據質量知識庫的維護日常檢查人員(1-2)每日數據記錄,代碼檢查,主鍵重復等日常檢查的結果查看與報告數據質量運行平臺系統(tǒng)的維護專項檢查人員(1-2)處理臨時性的協(xié)同工單數據質量問題檢查專項的數據質量問題治理檢查數據倉庫的數據治理與改進,306/13/2020,Confidential,數據管控的數據質量問題治理流程,316/13/2020,Confidential,數據管理平臺數據質量管理子系統(tǒng)架構,326/13/2020,Confidential,數據質量管理的手段與工具,數據質量手段分類數據收集手段數據分析手段文檔技術手段結果展現手段問題與改進手段QA控制手段,336/13/2020,Confidential,數據質量技術與工具數據質量指標積分卡數據質量管理平臺(含元數據、數據標準)用戶調查表、溝通成本分析、問題起源分析、時間行動分析評估與選擇、頭腦風暴、優(yōu)先級技術過程文檔、項目管理圖表(清單、柱圖、原因效果矩陣圖、帕累托圖、數據流程圖)質量回顧、質量循環(huán)知識庫、論壇培訓,數據質量指標積分卡,346/13/2020,Confidential,-SummaryScorecardExample-,功能清單數據

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論