政務(wù)數(shù)據(jù)平臺  第2部分:數(shù)據(jù)歸集規(guī)范_第1頁
政務(wù)數(shù)據(jù)平臺  第2部分:數(shù)據(jù)歸集規(guī)范_第2頁
政務(wù)數(shù)據(jù)平臺  第2部分:數(shù)據(jù)歸集規(guī)范_第3頁
政務(wù)數(shù)據(jù)平臺  第2部分:數(shù)據(jù)歸集規(guī)范_第4頁
政務(wù)數(shù)據(jù)平臺  第2部分:數(shù)據(jù)歸集規(guī)范_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

ICS35.020

CCSL70

DB52

貴州省地方標(biāo)準(zhǔn)

DB52/T1541.2—2020

政務(wù)數(shù)據(jù)平臺第2部分:數(shù)據(jù)歸集規(guī)范

Governmentdataplatform—Part2:dataingestionspecification

2020-11-20發(fā)布2020-12-20實(shí)施

貴州省市場監(jiān)督管理局發(fā)布

DB52/T1541.2—2020

政務(wù)數(shù)據(jù)平臺第2部分:數(shù)據(jù)歸集規(guī)范

1范圍

本文件規(guī)定了政務(wù)數(shù)據(jù)平臺數(shù)據(jù)歸集的術(shù)語和定義、縮略語、總體要求、網(wǎng)絡(luò)環(huán)境、歸集流程、數(shù)

據(jù)采集、數(shù)據(jù)清洗加工、數(shù)據(jù)整合及數(shù)據(jù)更新。

本文件適用于政務(wù)數(shù)據(jù)平臺可共享政務(wù)數(shù)據(jù)和可開放公共數(shù)據(jù)的歸集。

2規(guī)范性引用文件

下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,

僅該日期對應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本

文件。

GB/T38664.2-2020信息技術(shù)大數(shù)據(jù)政務(wù)數(shù)據(jù)開放共享第2部分:基本要求

DB52/T1540.3-2020政務(wù)數(shù)據(jù)第3部分:數(shù)據(jù)清洗加工規(guī)范

DB52/T1541.3-2020政務(wù)數(shù)據(jù)平臺第3部分:數(shù)據(jù)存儲規(guī)范

3術(shù)語和定義

下列術(shù)語和定義適用于本文件。

3.1

數(shù)據(jù)歸集dataingestion

面向特定場景或領(lǐng)域?qū)?shù)據(jù)進(jìn)行采集、清洗加工和整合的活動。

3.2

貼源層operationaldatastore

存儲由源系統(tǒng)采集而來、未經(jīng)處理的原始數(shù)據(jù)。

3.3

公共層commondatamodel

存儲經(jīng)過清洗加工后符合質(zhì)量要求的可復(fù)用的公共數(shù)據(jù)。

3.4

主題層datamart

存儲整合后面向業(yè)務(wù)、應(yīng)用的數(shù)據(jù)集合。

1

DB52/T1541.2—2020

3.5

(國家電子政務(wù)網(wǎng))政務(wù)外網(wǎng)NEGNextranet

滿足各級政務(wù)部門面向社會提供服務(wù)和管理的業(yè)務(wù)網(wǎng)絡(luò),簡稱政務(wù)外網(wǎng)。

[來源:GB/T25647—2010,3.4.3]

3.6

政務(wù)數(shù)據(jù)governmentdata

各級政務(wù)部門及其技術(shù)支撐單位在履行職責(zé)過程中依法采集、生成、存儲、管理的各類數(shù)據(jù)資源。

注:根據(jù)可傳播范圍,政務(wù)數(shù)據(jù)一般包括可共享政務(wù)數(shù)據(jù)、可開放公共數(shù)據(jù)及不宜開放共享政務(wù)數(shù)據(jù)。

[來源:GB/T38664.1—2020,3.1]

3.7

結(jié)構(gòu)化數(shù)據(jù)structureddata

一種數(shù)據(jù)表示形式,按此種形式,由數(shù)據(jù)元素匯集而成的每個記錄的結(jié)構(gòu)都是一致的并且可以使用

關(guān)系模型予以有效描述。

[來源:GB/T35295—2017,2.2.13]

3.8

半結(jié)構(gòu)化數(shù)據(jù)semi-structureddata

具有結(jié)構(gòu)性,但結(jié)構(gòu)變化大,且難以用結(jié)構(gòu)化數(shù)據(jù)的處理方法將其放進(jìn)二維表的數(shù)據(jù)。

示例:XML文檔內(nèi)容,每項(xiàng)都被一對標(biāo)記封起來,如<title></title>,表面上看是結(jié)構(gòu)化數(shù)據(jù),但<title></title>

之間的數(shù)據(jù)卻是千變?nèi)f化,這是典型的半結(jié)構(gòu)化數(shù)據(jù)。

[來源:DA/T82—2019,2.8]

3.9

非結(jié)構(gòu)化數(shù)據(jù)unstructureddata

不具有預(yù)定義模型或未以預(yù)定義方式組織的數(shù)據(jù)。

[來源:GB/T35295—2017,2.1.25]

3.10

數(shù)據(jù)剖析dataprofiling

對數(shù)據(jù)的結(jié)構(gòu)、內(nèi)容、關(guān)系和來源進(jìn)行調(diào)研,以達(dá)到認(rèn)識數(shù)據(jù)的目的。

3.11

數(shù)據(jù)采集定義datacollectiondefinition

基于數(shù)據(jù)剖析結(jié)果,明確待采集數(shù)據(jù)的存儲結(jié)構(gòu)、存儲位置和采集策略。

2

DB52/T1541.2—2020

3.12

數(shù)據(jù)讀取dataextraction

將待采集數(shù)據(jù)從其原始存儲區(qū)域讀到臨時存儲區(qū)域的過程。

3.13

數(shù)據(jù)寫入dataloading

將數(shù)據(jù)讀取過程中臨時存儲的數(shù)據(jù)最終持久化存儲的過程。

3.14

全量更新fullupdate

使用新的數(shù)據(jù)對歷史數(shù)據(jù)進(jìn)行完全覆蓋。

3.15

增量更新incrementalupdate

將兩次更新間隔發(fā)生變更的數(shù)據(jù)同步到存儲區(qū)域。

4縮略語

下列縮略語適用于本文件。

ACID:數(shù)據(jù)庫事務(wù)特征原子性、一致性、隔離型和持久性(AtomicityConsistencyIsolation

Durability)

CSV:逗號分隔文件格式(Comma-SeparatedValues)

JSON:對象標(biāo)記(JavaScriptObjectNotation)

XML:可擴(kuò)展標(biāo)記語言(eXtensibleMarkupLanguage)

5總體要求

5.1數(shù)據(jù)歸集安全應(yīng)符合GB/T38664.2-2020的要求。

5.2應(yīng)記錄并保留歸集過程中歷史數(shù)據(jù)的變化和移動情況,確保數(shù)據(jù)歸集的可追溯性。

5.3數(shù)據(jù)歸集過程中不應(yīng)造成數(shù)據(jù)的缺失和遺漏,確保數(shù)據(jù)的完整性。

5.4應(yīng)如實(shí)準(zhǔn)確地處理數(shù)據(jù),不應(yīng)虛構(gòu)或篡改數(shù)據(jù);應(yīng)準(zhǔn)確記錄數(shù)據(jù),不應(yīng)存在異?;蝈e誤數(shù)據(jù),確

保數(shù)據(jù)的準(zhǔn)確性。

6網(wǎng)絡(luò)環(huán)境

來源于不同網(wǎng)絡(luò)環(huán)境的原始數(shù)據(jù)應(yīng)根據(jù)以下要求進(jìn)行歸集:

a)原始數(shù)據(jù)位于政務(wù)外網(wǎng)環(huán)境的,對數(shù)據(jù)直接歸集;

b)原始數(shù)據(jù)位于專網(wǎng)環(huán)境的,應(yīng)建立與政務(wù)外網(wǎng)之間的安全傳輸通道,采取必要的安全措施保障

數(shù)據(jù)傳輸安全性,對專網(wǎng)環(huán)境數(shù)據(jù)的歸集;

3

DB52/T1541.2—2020

c)原始數(shù)據(jù)位于互聯(lián)網(wǎng)環(huán)境的,應(yīng)建立與政務(wù)外網(wǎng)之間的安全傳輸通道,采取必要的安全措施保

障數(shù)據(jù)傳輸安全性,對互聯(lián)網(wǎng)環(huán)境數(shù)據(jù)的歸集。

7歸集流程

數(shù)據(jù)歸集總體流程見圖1,流程包含以下內(nèi)容:

a)將原始數(shù)據(jù)不進(jìn)行處理地采集存放在政務(wù)數(shù)據(jù)平臺的貼源層中;

b)對貼源層中的數(shù)據(jù)進(jìn)行清洗加工使其滿足政務(wù)數(shù)據(jù)平臺使用的質(zhì)量要求,清洗加工后的數(shù)據(jù)存

放在政務(wù)數(shù)據(jù)平臺的公共層中;

c)對公共層中的數(shù)據(jù)進(jìn)行個性化面向應(yīng)用、業(yè)務(wù)的整合,最終數(shù)據(jù)存放在政務(wù)數(shù)據(jù)平臺的主題層

中;

d)當(dāng)原始數(shù)據(jù)發(fā)生更新時,應(yīng)依照采集、清洗加工、整合的步驟對更新數(shù)據(jù)進(jìn)行歸集。

圖1數(shù)據(jù)歸集總體流程

8數(shù)據(jù)采集

8.1采集數(shù)據(jù)類型

采集數(shù)據(jù)包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù),接入形式包括數(shù)據(jù)庫、文件、接口、消

息隊(duì)列。

8.2采集流程

8.2.1數(shù)據(jù)剖析

數(shù)據(jù)剖析應(yīng)包括以下內(nèi)容:

a)業(yè)務(wù)分析:對數(shù)據(jù)來源業(yè)務(wù)進(jìn)行探查分析;

b)接入方式分析:對源數(shù)據(jù)存儲位置、提供方式進(jìn)行分析;

c)結(jié)構(gòu)分析:對數(shù)據(jù)的含義、類型、長度、結(jié)構(gòu)進(jìn)行分析;

4

DB52/T1541.2—2020

d)內(nèi)容分析:對數(shù)據(jù)內(nèi)容進(jìn)行分析,包括如數(shù)據(jù)總數(shù)、分布情況、平均值、中位數(shù)、最大值、最

小值等數(shù)據(jù)統(tǒng)計(jì)分析;

e)關(guān)聯(lián)分析:對數(shù)據(jù)之間存在的依賴關(guān)系、主外鍵關(guān)系進(jìn)行分析。

8.2.2數(shù)據(jù)采集定義

8.2.2.1存儲結(jié)構(gòu)

應(yīng)根據(jù)源數(shù)據(jù)選擇合適的類型、長度、精度對數(shù)據(jù)進(jìn)行存儲。

8.2.2.2存儲邏輯介質(zhì)

8.2.2.2.1結(jié)構(gòu)化數(shù)據(jù)應(yīng)選擇結(jié)構(gòu)化數(shù)據(jù)庫存儲。

8.2.2.2.2半結(jié)構(gòu)化數(shù)據(jù)應(yīng)轉(zhuǎn)為結(jié)構(gòu)化數(shù)據(jù)后選擇結(jié)構(gòu)化存儲。

8.2.2.2.3非結(jié)構(gòu)化數(shù)據(jù)應(yīng)根據(jù)存儲量選擇合適的文件系統(tǒng)進(jìn)行存儲。

8.2.2.3存儲物理介質(zhì)

8.2.2.3.1應(yīng)根據(jù)數(shù)據(jù)訪問頻率的高低選擇讀寫性能不同的存儲介質(zhì)。

8.2.2.3.2訪問頻率較低的歸檔型數(shù)據(jù),宜將數(shù)據(jù)壓縮后存儲。

8.2.2.4采集策略

應(yīng)根據(jù)數(shù)據(jù)更新快慢和實(shí)時性要求制定不同的采集策略。

8.2.3數(shù)據(jù)讀取

8.2.3.1不應(yīng)在待采集數(shù)據(jù)的源系統(tǒng)業(yè)務(wù)繁忙時進(jìn)行,避免讀取動作影響源系統(tǒng)正常運(yùn)行。

8.2.3.2宜使用源系統(tǒng)的備份庫作為采集對象,使用備份庫時應(yīng)保證數(shù)據(jù)一致性和可用性。

8.2.3.3對于海量數(shù)據(jù),宜支持分批或增量讀取,宜采用分布式方式對數(shù)據(jù)源進(jìn)行讀取。

8.2.4數(shù)據(jù)寫入

8.2.4.1應(yīng)保證寫入數(shù)據(jù)與讀取數(shù)據(jù)數(shù)量一致。

8.2.4.2應(yīng)具備異常回滾機(jī)制,保證寫入事務(wù)的ACID特性。

8.3采集方法

8.3.1數(shù)據(jù)庫類型應(yīng)建立源數(shù)據(jù)庫結(jié)構(gòu)與目標(biāo)數(shù)據(jù)庫之間的存儲結(jié)構(gòu)映射,通過數(shù)據(jù)庫同步進(jìn)行采集。

8.3.2返回數(shù)據(jù)為結(jié)構(gòu)化或半結(jié)構(gòu)化的接口類型,應(yīng)建立源接口返回數(shù)據(jù)結(jié)構(gòu)與目標(biāo)數(shù)據(jù)庫之間存儲

結(jié)構(gòu)映射,可通過搜索進(jìn)行接口數(shù)據(jù)采集,也可直接存儲接口的基本信息;返回數(shù)據(jù)為非結(jié)構(gòu)化的接口

類型,可將接口基本信息直接存儲。

8.3.3結(jié)構(gòu)化的二維表和半結(jié)構(gòu)化文件,應(yīng)建立源文件結(jié)構(gòu)與目標(biāo)數(shù)據(jù)庫之間存儲結(jié)構(gòu)映射,通過文

件導(dǎo)入進(jìn)行采集;非結(jié)構(gòu)化文件數(shù)據(jù),可將文件整體上傳至文件服務(wù)器后建立存儲路徑表。

8.3.4實(shí)時性要求低的數(shù)據(jù)可使用批量采集,實(shí)時性要求高的數(shù)據(jù)應(yīng)使用實(shí)時采集。

8.3.5數(shù)據(jù)量較大、單批量采集可能會造成系統(tǒng)故障的,應(yīng)使用分批采集。

9數(shù)據(jù)清洗加工

應(yīng)按DB52/T1540.3-2020的規(guī)定進(jìn)行。

5

DB52/T1541.2—2020

10數(shù)據(jù)整合

10.1整合目的

針對某一特定場景或領(lǐng)域,從貼源層或公共層中將符合質(zhì)量要求的數(shù)據(jù)按需求進(jìn)行整合,形成面向

主題的、集成的、非易失的且隨時間變化的數(shù)據(jù)集合。

10.2整合要求

10.2.1命名應(yīng)符合DB52/T1541.3-2020的要求。

10.2.2相同和相似字段應(yīng)使用相同的字段類型。

10.2.3公共代碼及代碼值應(yīng)保持統(tǒng)一,應(yīng)采用國家、行業(yè)規(guī)定的公共代碼。

10.3整合方式

10.3.1水平整合

10.3.1.1宜采用水平整合方式擴(kuò)大數(shù)據(jù)覆蓋范圍。

10.3.1.2同一實(shí)體相同維度的數(shù)據(jù)應(yīng)使用水平整合,如整合政府、事業(yè)單位、企業(yè)、社會團(tuán)體和其他

組織的法人單位數(shù)據(jù)。

10.3.1.3數(shù)據(jù)間存在的結(jié)構(gòu)差異應(yīng)在整合過程中統(tǒng)一。

10.3.1.4不同來源的重復(fù)數(shù)據(jù)應(yīng)進(jìn)行去重,沖突數(shù)據(jù)應(yīng)進(jìn)行如下處理:

a)能判別數(shù)據(jù)有效性、正確性的可保留;

b)增加數(shù)據(jù)來源標(biāo)識后均予以保留。

10.3.2垂直整合

10.3.2.1宜采用垂直整合方式豐富數(shù)據(jù)維度。

10.3.2.2垂直整合的范圍可包含同一實(shí)體不同維度的數(shù)據(jù)。

10.3.2.3應(yīng)識別并提取有效的業(yè)務(wù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論