數(shù)據(jù)質(zhì)量和數(shù)據(jù)清理在電信數(shù)據(jù)倉庫中的應(yīng)用.doc_第1頁
數(shù)據(jù)質(zhì)量和數(shù)據(jù)清理在電信數(shù)據(jù)倉庫中的應(yīng)用.doc_第2頁
數(shù)據(jù)質(zhì)量和數(shù)據(jù)清理在電信數(shù)據(jù)倉庫中的應(yīng)用.doc_第3頁
數(shù)據(jù)質(zhì)量和數(shù)據(jù)清理在電信數(shù)據(jù)倉庫中的應(yīng)用.doc_第4頁
數(shù)據(jù)質(zhì)量和數(shù)據(jù)清理在電信數(shù)據(jù)倉庫中的應(yīng)用.doc_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)質(zhì)量和數(shù)據(jù)清理在電信數(shù)據(jù)倉庫中的應(yīng)用Data Quality, Data Cleaning and Applying to Telecom Data Warehouse關(guān)鍵詞:數(shù)據(jù)倉庫;數(shù)據(jù)質(zhì)量;數(shù)據(jù)清理;ETL;構(gòu)件Keywords: Data Warehouse; Data Quality; Data Cleaning; ETL; Component摘要:在研究數(shù)據(jù)質(zhì)量問題相關(guān)理論的基礎(chǔ)上,面對(duì)電信企業(yè)高質(zhì)量數(shù)據(jù)需求,設(shè)計(jì)了面向電信應(yīng)用的數(shù)據(jù)質(zhì)量控制體系,接著,詳細(xì)介紹了包含概念定義層、邏輯規(guī)范層和物理實(shí)現(xiàn)層三層的數(shù)據(jù)清理框架,最后描述了采用基于構(gòu)件的設(shè)計(jì)模式,實(shí)現(xiàn)的以數(shù)據(jù)清理為主要功能的數(shù)據(jù)加載(ETL)系統(tǒng)。目前該系統(tǒng)已經(jīng)應(yīng)用于某電信運(yùn)營企業(yè)數(shù)據(jù)倉庫項(xiàng)目中,效果顯著。Abstract: Based on the research of the theories related to data quality problems, and for the requirements of high level data quality to telecom enterprises, a data quality control architecture oriented telecom applications is designed. A data cleaning framework with three tiers, such as notion defined tier, logic normalized tier and physical implemented tier, is discussed. An ETL system for the purpose of data cleaning is implemented by using design pattern based on component. The system is in used by a telecom enterprise, and worked well now.1 引言當(dāng)今企業(yè)已建設(shè)或正在建設(shè)數(shù)據(jù)倉庫系統(tǒng)以輔助決策,提高其核心競爭力,這需要將長期積累的大量反映各種業(yè)務(wù)環(huán)境的數(shù)據(jù),按照相應(yīng)主題從同構(gòu)或異構(gòu)平臺(tái),通過一定的ETL方法和過程將它們進(jìn)行抽取、過濾、清洗、轉(zhuǎn)換,然后加載到中央數(shù)據(jù)倉庫中進(jìn)行整合,形成完整的企業(yè)業(yè)務(wù)視圖。數(shù)據(jù)倉庫是一個(gè)面向主題的、集成的、時(shí)變的、非易失的數(shù)據(jù)集合,支持管理部門的決策過程1。數(shù)據(jù)倉庫也被看作是一種過程,即對(duì)企業(yè)中同(異)種數(shù)據(jù)源中的數(shù)據(jù)進(jìn)行整合、加工和分析的過程。ETL(Extraction, Transformation, Loading)即數(shù)據(jù)抽取、轉(zhuǎn)換和加載,是數(shù)據(jù)倉庫實(shí)現(xiàn)過程中,將數(shù)據(jù)由數(shù)據(jù)源系統(tǒng)向數(shù)據(jù)倉庫加載的主要過程?,F(xiàn)實(shí)世界中的數(shù)據(jù)源極易受空缺、不一致和噪聲數(shù)據(jù)的侵?jǐn)_。根據(jù)GIGO(garbage in ,garbage out)原理,沒有良好的數(shù)據(jù)質(zhì)量作后盾,再先進(jìn)的數(shù)據(jù)處理技術(shù)和分析工具也不能發(fā)揮作用,要想數(shù)據(jù)倉庫真正發(fā)揮作用,就必須提高業(yè)務(wù)系統(tǒng)的數(shù)據(jù)質(zhì)量。由此看來,數(shù)據(jù)質(zhì)量的控制成為數(shù)據(jù)倉庫建設(shè)發(fā)展過程中越來越引起重視的突出問題,而解決這些問題的過程稱為數(shù)據(jù)清理。數(shù)據(jù)清理(data cleaning,data cleansing或者data scrubbing)在文獻(xiàn)2中被定義為:發(fā)現(xiàn)和清除數(shù)據(jù)中的錯(cuò)誤和不一致來提高數(shù)據(jù)的質(zhì)量。在數(shù)據(jù)倉庫環(huán)境下,數(shù)據(jù)清理是ETL 過程的一個(gè)重要部分,要考慮數(shù)據(jù)倉庫的集成性與面向主題的需要。數(shù)據(jù)清理目的是檢測數(shù)據(jù)中存在的錯(cuò)誤和不一致,剔除或者改正它們,這樣就提高了數(shù)據(jù)的質(zhì)量2。業(yè)務(wù)系統(tǒng)數(shù)據(jù)清理是提升業(yè)務(wù)系統(tǒng)數(shù)據(jù)質(zhì)量的有效手段,是數(shù)據(jù)倉庫實(shí)施過程中數(shù)據(jù)質(zhì)量管控的源頭,是整個(gè)數(shù)據(jù)倉庫項(xiàng)目成功的關(guān)鍵。業(yè)務(wù)系統(tǒng)數(shù)據(jù)清理工作一方面能有效提升業(yè)務(wù)系統(tǒng)的數(shù)據(jù)質(zhì)量和系統(tǒng)可用性,另一方面也能有效降低整個(gè)數(shù)據(jù)倉庫ETL的復(fù)雜度和工作量,保證數(shù)據(jù)倉庫中的數(shù)據(jù)質(zhì)量。2數(shù)據(jù)質(zhì)量問題數(shù)據(jù)清理主要是針對(duì)源數(shù)據(jù)庫,對(duì)其中出現(xiàn)二義性、重復(fù)、不完整、違反業(yè)務(wù)或邏輯規(guī)則等問題的數(shù)據(jù)進(jìn)行相應(yīng)的清洗操作,在清洗之前需要進(jìn)行數(shù)據(jù)質(zhì)量分析,以找出存在問題的數(shù)據(jù),否則數(shù)據(jù)清洗將無從談起。21數(shù)據(jù)質(zhì)量定義文獻(xiàn)3 中數(shù)據(jù)質(zhì)量定義為:數(shù)據(jù)的一致性(consistency)、正確性(correctness)、完整性(completeness)和最小性(minimality)在信息系統(tǒng)中得到滿足的程度。文獻(xiàn)4認(rèn)為:存在數(shù)據(jù)質(zhì)量指示器和數(shù)據(jù)質(zhì)量參數(shù)兩類數(shù)據(jù)質(zhì)量衡量指標(biāo),用戶應(yīng)根據(jù)應(yīng)用的需求選擇其中一部分,在此基礎(chǔ)上提出了數(shù)據(jù)工程中數(shù)據(jù)質(zhì)量的需求分析和模型。依據(jù)文獻(xiàn),結(jié)合電信運(yùn)營企業(yè)的特點(diǎn),對(duì)于數(shù)據(jù)質(zhì)量,可以從以下四個(gè)方面來定義:l 完整性(Completeness),數(shù)據(jù)是否按規(guī)則填寫完整;l 正確性(Correctness),數(shù)據(jù)是否滿足域定義和業(yè)務(wù)邏輯要求;l 一致性(Consistency),不同系統(tǒng)之間關(guān)聯(lián)的數(shù)據(jù)在定義、含義、取值及操作等方面是否一致;l 當(dāng)前性(Currency),數(shù)據(jù)是否能夠反應(yīng)當(dāng)前狀態(tài)。以上四個(gè)方面,我們稱之為4C。高質(zhì)量的數(shù)據(jù)應(yīng)該是完整的、正確的、一致的、當(dāng)前的。22 數(shù)據(jù)質(zhì)量問題的分類文獻(xiàn)2 根據(jù)處理的是單數(shù)據(jù)源還是多數(shù)據(jù)源以及問題出在模式層還是實(shí)例層,將數(shù)據(jù)質(zhì)量問題分為4類:單數(shù)據(jù)源模式層問題、單數(shù)據(jù)源實(shí)例層問題、多數(shù)據(jù)源模式層問題和多數(shù)據(jù)源實(shí)例層問題。文獻(xiàn)5根據(jù)用戶角色的不同將數(shù)據(jù)倉庫質(zhì)量分為四類:設(shè)計(jì)與管理質(zhì)量、軟件實(shí)現(xiàn)質(zhì)量、數(shù)據(jù)使用質(zhì)量以及數(shù)據(jù)質(zhì)量。其中每一類又定義了包括正確性、完整性、可靠性等指標(biāo)。電信數(shù)據(jù)倉庫數(shù)據(jù)源具有多樣性,在實(shí)際工作中,以參與人為主題,對(duì)幾個(gè)生產(chǎn)系統(tǒng)進(jìn)行了信息探索,對(duì)數(shù)據(jù)質(zhì)量問題在正確性、完整性和一致性基礎(chǔ)上做了進(jìn)一步細(xì)分,根據(jù)業(yè)務(wù)專家的經(jīng)驗(yàn),采用了60個(gè)規(guī)則對(duì)數(shù)據(jù)質(zhì)量進(jìn)行檢查。這些規(guī)則的分布如下表所示:表 1 分類應(yīng)用及錯(cuò)誤實(shí)例大類細(xì)類規(guī)則出錯(cuò)實(shí)例完整性記錄中的關(guān)鍵字段值缺失108身份證字段為空或不全 系統(tǒng)設(shè)計(jì)時(shí)缺少必要的字段88無婚姻狀況字段正確性數(shù)據(jù)格式錯(cuò)誤22日期格式錯(cuò)誤(20001210.00)內(nèi)容錯(cuò)誤86用戶類型應(yīng)為“城市用戶”的系統(tǒng)數(shù)據(jù)被定義為“農(nóng)村用戶”;數(shù)據(jù)不符合業(yè)務(wù)邏輯158出現(xiàn)安裝時(shí)間為 “2077-12-10”一致性不同的業(yè)務(wù)系統(tǒng)之間信息不一致108地域碼在不同系統(tǒng)中定義不同,如長沙市定義為:“CSS”、“CS”、“1351”業(yè)務(wù)系統(tǒng)內(nèi)部不同的表之間信息不一致77某表按照num_id與主用戶表進(jìn)行關(guān)聯(lián),有部分num_id在公共用戶表中不存在對(duì)本次信息探索中遇到的數(shù)據(jù)質(zhì)量問題,對(duì)其中代表性問題歸納如下:(1) 在數(shù)據(jù)模型上,實(shí)體語義定義、屬性定義、命名規(guī)則、編碼規(guī)則自成體系,難于與其他系統(tǒng)做匹配;(2) 系統(tǒng)間存在同一實(shí)體數(shù)據(jù)記錄數(shù)不一致的現(xiàn)象;(3) 存在信息殘缺現(xiàn)象,缺乏分析所用的部分?jǐn)?shù)據(jù);(4) 系統(tǒng)中存在非結(jié)構(gòu)化數(shù)據(jù);(5) 歷史數(shù)據(jù)的準(zhǔn)確性完全沒有保證。由此可見數(shù)據(jù)質(zhì)量的改進(jìn)存在若干難點(diǎn),比如:數(shù)據(jù)量大,數(shù)據(jù)格式不統(tǒng)一;數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)不容易制定;數(shù)據(jù)清理的邊界不容易定義;生產(chǎn)系統(tǒng)不斷升級(jí)改造、人員崗位調(diào)整等因素容易造成前清后亂等等。23 數(shù)據(jù)質(zhì)量控制方法及實(shí)現(xiàn)從對(duì)數(shù)據(jù)倉庫自身數(shù)據(jù)的監(jiān)控到對(duì)數(shù)據(jù)形成過程的管理,數(shù)據(jù)倉庫中用于數(shù)據(jù)質(zhì)量控制的方法有很多,但不論何種方法,面向數(shù)據(jù)倉庫的長期建設(shè),必須建立有效的數(shù)據(jù)質(zhì)量評(píng)估體系。文獻(xiàn)6提出:數(shù)據(jù)質(zhì)量將逐漸與企業(yè)業(yè)績和價(jià)值掛鉤,企業(yè)應(yīng)當(dāng)開始采用方法來評(píng)估他們的數(shù)據(jù)質(zhì)量能力和成熟度,就此提出了數(shù)據(jù)質(zhì)量成熟度模型的評(píng)估理論。文獻(xiàn)7 針對(duì)專門的數(shù)據(jù)質(zhì)量模型進(jìn)行計(jì)算的質(zhì)量評(píng)估軟件不能適應(yīng)這種動(dòng)態(tài)性的需求,將質(zhì)量模型的描述作為元數(shù)據(jù)進(jìn)行定義,在一個(gè)質(zhì)量元模型下,可以定義多個(gè)質(zhì)量模型。在此基礎(chǔ)上提出了一個(gè)可擴(kuò)展的數(shù)據(jù)質(zhì)量控制元模型,該元模型是對(duì)企業(yè)數(shù)據(jù)質(zhì)量模型的抽象,由三層組成:核心層、初始層以及擴(kuò)展層,目的是為企業(yè)的數(shù)據(jù)質(zhì)量體系定義提供一個(gè)完整的框架。電信運(yùn)營企業(yè)的業(yè)務(wù)需求是非常嚴(yán)格的,在領(lǐng)域?qū)<业膮f(xié)助下,并采用了元模型定義的方法,設(shè)計(jì)了以下呈螺旋上升趨勢的數(shù)據(jù)質(zhì)量控制方法模型。如圖 1 所示,首先明確清理主題,以及主題域定義的數(shù)據(jù)源及數(shù)據(jù)模型;接著對(duì)數(shù)據(jù)源進(jìn)行抽樣分析,對(duì)數(shù)據(jù)問題進(jìn)行分類;第三步,在業(yè)務(wù)專家協(xié)助下,提出并驗(yàn)證商務(wù)規(guī)則和清理尺度來確保數(shù)據(jù)質(zhì)量;最后,通過對(duì)業(yè)務(wù)規(guī)則的鞏固和進(jìn)一步核實(shí),確認(rèn)數(shù)據(jù)質(zhì)量需求。整個(gè)過程通過有限循環(huán),最終產(chǎn)生了較完善的業(yè)務(wù)規(guī)則和數(shù)據(jù)質(zhì)量分析報(bào)告。圖 1 電信運(yùn)營企業(yè)數(shù)據(jù)質(zhì)量控制方法3 數(shù)據(jù)清理3. 1 數(shù)據(jù)清理原理存在不完整的、含噪聲的和不一致的數(shù)據(jù)是現(xiàn)實(shí)世界數(shù)據(jù)庫或數(shù)據(jù)倉庫的共同特點(diǎn)。數(shù)據(jù)清理原理就是利用有關(guān)技術(shù)如數(shù)理統(tǒng)計(jì)、數(shù)據(jù)挖掘或預(yù)定義的清理規(guī)則將臟數(shù)據(jù)轉(zhuǎn)化為滿足數(shù)據(jù)質(zhì)量要求的數(shù)據(jù)8。數(shù)據(jù)清理的原理如圖29 所示。圖 2 數(shù)據(jù)清理原理3. 2 數(shù)據(jù)清理框架數(shù)據(jù)清理過程必須滿足如下幾個(gè)條件:不論是單數(shù)據(jù)源還是多數(shù)據(jù)源,都要檢測并且除去數(shù)據(jù)中所有明顯錯(cuò)誤和不一致;盡可能地減小人工干預(yù)和用戶的編程工作量,而且要容易擴(kuò)展到其他數(shù)據(jù)源;應(yīng)該和數(shù)據(jù)轉(zhuǎn)化結(jié)合;要有相應(yīng)的描述語言來指定數(shù)據(jù)轉(zhuǎn)化和數(shù)據(jù)清理操作,所有這些操作應(yīng)該在一個(gè)統(tǒng)一的框架下完成10。文獻(xiàn)11設(shè)計(jì)了數(shù)據(jù)ETL工具的整體框架,使用通用數(shù)據(jù)訪問接口來屏蔽各種數(shù)據(jù)源之間的差異,并以數(shù)據(jù)清理為主要目的,為消除多數(shù)據(jù)源的模式?jīng)_突和數(shù)據(jù)沖突提供了通用而有效的解決方案。文獻(xiàn)12提出了一個(gè)數(shù)據(jù)清理框架,試圖清晰地分離邏輯規(guī)范層和物理實(shí)現(xiàn)層。用戶在邏輯層設(shè)計(jì)數(shù)據(jù)處理流程,確定清理過程需要執(zhí)行的數(shù)據(jù)轉(zhuǎn)化步驟;物理層實(shí)現(xiàn)這些數(shù)據(jù)轉(zhuǎn)化操作,并對(duì)它們進(jìn)行優(yōu)化;同時(shí)文獻(xiàn)12提出了一種描述性語言。該描述性語言可以在邏輯層上指定數(shù)據(jù)清理過程所需采取的數(shù)據(jù)轉(zhuǎn)化操作,并指定何時(shí)可以拋出異常,要求用戶的交互。該描述性語言還可以指定一些數(shù)據(jù)轉(zhuǎn)化操作的參數(shù),比如記錄匹配操作所使用的距離函數(shù)等。文獻(xiàn)13提出了一種交互式的數(shù)據(jù)清理框架,它由主要的四個(gè)部分構(gòu)成:數(shù)據(jù)源,數(shù)據(jù)轉(zhuǎn)換引擎,在線記錄器以及自動(dòng)差異監(jiān)測器。用戶利用系統(tǒng)提供的基本的數(shù)據(jù)轉(zhuǎn)化操作,無須書寫復(fù)雜的程序就能夠完成數(shù)據(jù)清洗任務(wù),而且用戶能夠隨時(shí)看到每一步轉(zhuǎn)化操作后的結(jié)果,沒有很長的延遲。不論采用何種清理方法,數(shù)據(jù)清理過程一般由四個(gè)階段構(gòu)成:清理主題定義;數(shù)據(jù)(質(zhì)量)分析、定義錯(cuò)誤類型;針對(duì)分析結(jié)果,定義清理技術(shù);實(shí)現(xiàn)程序,搜索識(shí)別、修正錯(cuò)誤。結(jié)合文獻(xiàn)12的思想和電信運(yùn)營企業(yè)的具體環(huán)境,設(shè)計(jì)了一個(gè)三層的數(shù)據(jù)清理框架,分別為:概念定義層、邏輯規(guī)范層和物理實(shí)現(xiàn)層。如圖3所示。圖 3 電信運(yùn)營企業(yè)數(shù)據(jù)清理框架圖圖3數(shù)據(jù)清理框架包含以下四個(gè)方面的內(nèi)容:(1)概念定義層。主要定義了數(shù)據(jù)清理的主題和數(shù)據(jù)質(zhì)量需求。以電信為背景,根據(jù)數(shù)據(jù)倉庫項(xiàng)目的需求,定義了:客戶資料清理,用戶資料清理,定單數(shù)據(jù)清理,產(chǎn)品和服務(wù)清理,套餐和協(xié)議數(shù)據(jù)清理,賬單數(shù)據(jù)清理,話單數(shù)據(jù)清理,客戶服務(wù)數(shù)據(jù)清理和結(jié)算數(shù)據(jù)清理等九大清理主題及其相應(yīng)數(shù)據(jù)質(zhì)量需求。(2)邏輯規(guī)范層。主要是將概念轉(zhuǎn)換為業(yè)務(wù)邏輯,描述數(shù)據(jù)流,并且實(shí)現(xiàn)業(yè)務(wù)邏輯向處理邏輯的轉(zhuǎn)換。例如,客戶資料清理可以劃分為:核對(duì)有效客戶數(shù),數(shù)據(jù)源間客戶資料對(duì)比及核實(shí),補(bǔ)充缺失的客戶關(guān)鍵字段,進(jìn)行客戶屬性編碼的統(tǒng)一和客戶歸并與切割等五個(gè)步驟,根據(jù)每個(gè)步驟對(duì)質(zhì)量的需求,將業(yè)務(wù)需求轉(zhuǎn)換為相應(yīng)的處理邏輯,例如,客戶歸并與切割可映射到重復(fù)記錄查找,數(shù)據(jù)備份/恢復(fù)/刪除,聚類/孤立點(diǎn)檢測等處理邏輯。(3)物理實(shí)現(xiàn)層。實(shí)現(xiàn)具體的清理程序以及算法,進(jìn)行數(shù)據(jù)錯(cuò)誤的修正和遷移,以及異常后人為干預(yù)是物理實(shí)現(xiàn)層的主要功能。(4)層的映射關(guān)系。文獻(xiàn)14給出了一種采用XML描述網(wǎng)絡(luò)映射的模式。在電信數(shù)據(jù)倉庫應(yīng)用中,采用了類似的描述形式,代碼片段如圖4: 圖 4 層級(jí)映射代碼片段 圖4相關(guān)結(jié)點(diǎn)的功能:節(jié)點(diǎn)Subject描述清理主題;節(jié)點(diǎn)Processes描述清理步驟;節(jié)點(diǎn)LMethods描述邏輯方法;節(jié)點(diǎn)CProcessList描述清理算法構(gòu)件列表;節(jié)點(diǎn)CProcess描述具體清理算法構(gòu)件。3.3 數(shù)據(jù)清理例程的設(shè)計(jì)和實(shí)現(xiàn)3.3.1 基于構(gòu)件的設(shè)計(jì)思想數(shù)據(jù)清理例程的設(shè)計(jì)采用了基于構(gòu)件的模式。構(gòu)件是可以被復(fù)用的軟件實(shí)體,是系統(tǒng)中可以明確辨析的構(gòu)成成分。在可復(fù)用構(gòu)件的設(shè)計(jì)時(shí),必須明確:構(gòu)件的描述對(duì)構(gòu)件的成功復(fù)用至關(guān)重要。一個(gè)好的描述是有效檢索與理解的基礎(chǔ)14。在當(dāng)今面向網(wǎng)絡(luò)的應(yīng)用中,普遍采用了基于XML的構(gòu)件刻面分類描述模式。圖5給出了清理算法構(gòu)件的刻面樹結(jié)構(gòu)和XML描述實(shí)例。圖5(a) 構(gòu)件刻面樹結(jié)構(gòu)中,構(gòu)件頭信息(CHeader),描述構(gòu)件創(chuàng)建的一些具歷史信息開發(fā)、維護(hù)信息;構(gòu)件標(biāo)識(shí)(CID),用于惟一標(biāo)識(shí)某一構(gòu)件,描述算法、程序等文件;構(gòu)件類別(CClass),用于標(biāo)識(shí)該構(gòu)件所屬的領(lǐng)域功能,操作對(duì)象等;構(gòu)件實(shí)現(xiàn)(CImplement),描述構(gòu)件的功能及與實(shí)現(xiàn)有關(guān)的一些信息,如方法名和輸入、輸出參數(shù)。圖5(b)給出了貝葉斯構(gòu)件XML描述模型。(a) 構(gòu)件刻面樹 (b) 貝葉斯構(gòu)件XML描述圖 5算法構(gòu)件刻面樹結(jié)構(gòu)和XML描述實(shí)例3.3.2 數(shù)據(jù)清理系統(tǒng)的實(shí)現(xiàn)在數(shù)據(jù)倉庫應(yīng)用中,數(shù)據(jù)清理并不是一個(gè)單獨(dú)的部分,需要和ETL過程統(tǒng)一使用,在數(shù)據(jù)質(zhì)量控制下,進(jìn)行循環(huán)處理。數(shù)據(jù)清理系統(tǒng)采用了基于構(gòu)件的設(shè)計(jì)思路,實(shí)現(xiàn)了以數(shù)據(jù)清理為主的ETL工具。主要功能及流程包括:通用數(shù)據(jù)訪問接口,該接口能夠跨平臺(tái)(網(wǎng)絡(luò))訪問數(shù)據(jù),支持在異構(gòu)數(shù)據(jù)源間建立連接,可選多種數(shù)據(jù)訪問接口方式,如JDBC、0DBC、OLEDB等;數(shù)據(jù)抽取,包括模式數(shù)據(jù)和實(shí)例數(shù)據(jù)抽取,此過程需要處理噪聲數(shù)據(jù),補(bǔ)充部分特殊空缺值,并建議使用增量的抽取方法;數(shù)據(jù)集成和變換,經(jīng)過數(shù)據(jù)抽取后可以得到多個(gè)模式和多個(gè)實(shí)例數(shù)據(jù)集,在此過程中,需要進(jìn)行數(shù)據(jù)規(guī)范化和一致性校驗(yàn);數(shù)據(jù)規(guī)約,經(jīng)過數(shù)據(jù)集成后的數(shù)據(jù)集中還包含許多相似重復(fù)記錄,此過程要完成重復(fù)數(shù)據(jù)查找,進(jìn)行數(shù)據(jù)的歸并或切割;數(shù)據(jù)裝載,此過程需要自動(dòng)或異常后在人工干預(yù)下將清理后數(shù)據(jù)裝載至目標(biāo)數(shù)據(jù)模型,支持?jǐn)?shù)據(jù)備份和恢復(fù)功能;元數(shù)據(jù)管理,元數(shù)據(jù)是描述數(shù)據(jù)的數(shù)據(jù),系統(tǒng)使用元數(shù)據(jù)來描述數(shù)據(jù)質(zhì)量對(duì)象及其屬性7,描述數(shù)據(jù)清理構(gòu)件對(duì)象及屬性和構(gòu)件的檢索方法等屬性,此過程伴隨系統(tǒng)運(yùn)行的始終。4 結(jié)束語數(shù)據(jù)是數(shù)據(jù)倉庫系統(tǒng)的血液,數(shù)據(jù)倉庫能否為決策提供有效支持的關(guān)鍵就在數(shù)據(jù)質(zhì)量,數(shù)據(jù)質(zhì)量建設(shè)的成功與否直接決定著數(shù)據(jù)倉庫的應(yīng)用質(zhì)量。數(shù)據(jù)清理就是為了解決數(shù)據(jù)質(zhì)量問題,而采取的手動(dòng)或人工智能的方法進(jìn)行的清理操作。文章以某電信運(yùn)營企業(yè)數(shù)據(jù)倉庫項(xiàng)目為例,探討了數(shù)據(jù)質(zhì)量問題的相關(guān)理論,設(shè)計(jì)了面向電信服務(wù)的質(zhì)量控制體系,然后針對(duì)提出的數(shù)據(jù)質(zhì)量問題,設(shè)計(jì)了數(shù)據(jù)清理框架三層模式,并采用軟件構(gòu)件的思想,實(shí)現(xiàn)了以數(shù)據(jù)清理為主的ETL工具。參考文獻(xiàn)1 W.H.Inmon. Building the Data Warehouse. New York:John Wiley&Sons,1996.2 Rahm, E., Do, H.H. Data cleaning: problems and current approaches. IEEE Data Engineering Bulletin, 2000,23(4):313.3 Aebi, D., Perrochon, L. Towards improving data quality. In: Sarda, N.L., ed. Proceedings of the International Conference on Information Systems and Management of Data. Delhi, 1993. 273281. 4 Wang, R.Y., Kon, H.B., Madnick, S.E. Data quality requirements analysis and modeling. In: Proceedings of the 9th International Conference on Data Engineering. Vienna: IEEE Computer Society, 1993. 670677.5 Jarke M., Jeusfeld M., Quix C. Architecture and Quality in Data Warehouse: An Extended Repository Approach. Information Systems. 1999, 24(3):229253.6 方幼林, 楊冬青, 唐世渭等. 數(shù)據(jù)倉庫中數(shù)據(jù)質(zhì)量控制研究. 計(jì)算機(jī)工程與應(yīng)用,2003,13:14.7 管尊友, 馮建華. 一個(gè)可擴(kuò)展的數(shù)據(jù)質(zhì)量元模型. 計(jì)算機(jī)工程,2005,31(8):7476, 226.8 M Hernandez. A Generation of Band Joins and the Merge/Purge ProblemR. Technical Report CUCS200521995, Department of Computer Science, Columbia University,1995.9 LEE M L, LING T W, LOW W L. IntelliClean: A knowledge-based intelligent data clea

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論