




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
ICS35.020
CCSL70
DB52
貴州省地方標(biāo)準(zhǔn)
DB52/T1541.2—2020
政務(wù)數(shù)據(jù)平臺第2部分:數(shù)據(jù)歸集規(guī)范
Governmentdataplatform—Part2:dataingestionspecification
2020-11-20發(fā)布2020-12-20實(shí)施
貴州省市場監(jiān)督管理局發(fā)布
DB52/T1541.2—2020
政務(wù)數(shù)據(jù)平臺第2部分:數(shù)據(jù)歸集規(guī)范
1范圍
本文件規(guī)定了政務(wù)數(shù)據(jù)平臺數(shù)據(jù)歸集的術(shù)語和定義、縮略語、總體要求、網(wǎng)絡(luò)環(huán)境、歸集流程、數(shù)
據(jù)采集、數(shù)據(jù)清洗加工、數(shù)據(jù)整合及數(shù)據(jù)更新。
本文件適用于政務(wù)數(shù)據(jù)平臺可共享政務(wù)數(shù)據(jù)和可開放公共數(shù)據(jù)的歸集。
2規(guī)范性引用文件
下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,
僅該日期對應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本
文件。
GB/T38664.2-2020信息技術(shù)大數(shù)據(jù)政務(wù)數(shù)據(jù)開放共享第2部分:基本要求
DB52/T1540.3-2020政務(wù)數(shù)據(jù)第3部分:數(shù)據(jù)清洗加工規(guī)范
DB52/T1541.3-2020政務(wù)數(shù)據(jù)平臺第3部分:數(shù)據(jù)存儲規(guī)范
3術(shù)語和定義
下列術(shù)語和定義適用于本文件。
3.1
數(shù)據(jù)歸集dataingestion
面向特定場景或領(lǐng)域?qū)?shù)據(jù)進(jìn)行采集、清洗加工和整合的活動。
3.2
貼源層operationaldatastore
存儲由源系統(tǒng)采集而來、未經(jīng)處理的原始數(shù)據(jù)。
3.3
公共層commondatamodel
存儲經(jīng)過清洗加工后符合質(zhì)量要求的可復(fù)用的公共數(shù)據(jù)。
3.4
主題層datamart
存儲整合后面向業(yè)務(wù)、應(yīng)用的數(shù)據(jù)集合。
1
DB52/T1541.2—2020
3.5
(國家電子政務(wù)網(wǎng))政務(wù)外網(wǎng)NEGNextranet
滿足各級政務(wù)部門面向社會提供服務(wù)和管理的業(yè)務(wù)網(wǎng)絡(luò),簡稱政務(wù)外網(wǎng)。
[來源:GB/T25647—2010,3.4.3]
3.6
政務(wù)數(shù)據(jù)governmentdata
各級政務(wù)部門及其技術(shù)支撐單位在履行職責(zé)過程中依法采集、生成、存儲、管理的各類數(shù)據(jù)資源。
注:根據(jù)可傳播范圍,政務(wù)數(shù)據(jù)一般包括可共享政務(wù)數(shù)據(jù)、可開放公共數(shù)據(jù)及不宜開放共享政務(wù)數(shù)據(jù)。
[來源:GB/T38664.1—2020,3.1]
3.7
結(jié)構(gòu)化數(shù)據(jù)structureddata
一種數(shù)據(jù)表示形式,按此種形式,由數(shù)據(jù)元素匯集而成的每個記錄的結(jié)構(gòu)都是一致的并且可以使用
關(guān)系模型予以有效描述。
[來源:GB/T35295—2017,2.2.13]
3.8
半結(jié)構(gòu)化數(shù)據(jù)semi-structureddata
具有結(jié)構(gòu)性,但結(jié)構(gòu)變化大,且難以用結(jié)構(gòu)化數(shù)據(jù)的處理方法將其放進(jìn)二維表的數(shù)據(jù)。
示例:XML文檔內(nèi)容,每項(xiàng)都被一對標(biāo)記封起來,如<title></title>,表面上看是結(jié)構(gòu)化數(shù)據(jù),但<title></title>
之間的數(shù)據(jù)卻是千變?nèi)f化,這是典型的半結(jié)構(gòu)化數(shù)據(jù)。
[來源:DA/T82—2019,2.8]
3.9
非結(jié)構(gòu)化數(shù)據(jù)unstructureddata
不具有預(yù)定義模型或未以預(yù)定義方式組織的數(shù)據(jù)。
[來源:GB/T35295—2017,2.1.25]
3.10
數(shù)據(jù)剖析dataprofiling
對數(shù)據(jù)的結(jié)構(gòu)、內(nèi)容、關(guān)系和來源進(jìn)行調(diào)研,以達(dá)到認(rèn)識數(shù)據(jù)的目的。
3.11
數(shù)據(jù)采集定義datacollectiondefinition
基于數(shù)據(jù)剖析結(jié)果,明確待采集數(shù)據(jù)的存儲結(jié)構(gòu)、存儲位置和采集策略。
2
DB52/T1541.2—2020
3.12
數(shù)據(jù)讀取dataextraction
將待采集數(shù)據(jù)從其原始存儲區(qū)域讀到臨時存儲區(qū)域的過程。
3.13
數(shù)據(jù)寫入dataloading
將數(shù)據(jù)讀取過程中臨時存儲的數(shù)據(jù)最終持久化存儲的過程。
3.14
全量更新fullupdate
使用新的數(shù)據(jù)對歷史數(shù)據(jù)進(jìn)行完全覆蓋。
3.15
增量更新incrementalupdate
將兩次更新間隔發(fā)生變更的數(shù)據(jù)同步到存儲區(qū)域。
4縮略語
下列縮略語適用于本文件。
ACID:數(shù)據(jù)庫事務(wù)特征原子性、一致性、隔離型和持久性(AtomicityConsistencyIsolation
Durability)
CSV:逗號分隔文件格式(Comma-SeparatedValues)
JSON:對象標(biāo)記(JavaScriptObjectNotation)
XML:可擴(kuò)展標(biāo)記語言(eXtensibleMarkupLanguage)
5總體要求
5.1數(shù)據(jù)歸集安全應(yīng)符合GB/T38664.2-2020的要求。
5.2應(yīng)記錄并保留歸集過程中歷史數(shù)據(jù)的變化和移動情況,確保數(shù)據(jù)歸集的可追溯性。
5.3數(shù)據(jù)歸集過程中不應(yīng)造成數(shù)據(jù)的缺失和遺漏,確保數(shù)據(jù)的完整性。
5.4應(yīng)如實(shí)準(zhǔn)確地處理數(shù)據(jù),不應(yīng)虛構(gòu)或篡改數(shù)據(jù);應(yīng)準(zhǔn)確記錄數(shù)據(jù),不應(yīng)存在異?;蝈e誤數(shù)據(jù),確
保數(shù)據(jù)的準(zhǔn)確性。
6網(wǎng)絡(luò)環(huán)境
來源于不同網(wǎng)絡(luò)環(huán)境的原始數(shù)據(jù)應(yīng)根據(jù)以下要求進(jìn)行歸集:
a)原始數(shù)據(jù)位于政務(wù)外網(wǎng)環(huán)境的,對數(shù)據(jù)直接歸集;
b)原始數(shù)據(jù)位于專網(wǎng)環(huán)境的,應(yīng)建立與政務(wù)外網(wǎng)之間的安全傳輸通道,采取必要的安全措施保障
數(shù)據(jù)傳輸安全性,對專網(wǎng)環(huán)境數(shù)據(jù)的歸集;
3
DB52/T1541.2—2020
c)原始數(shù)據(jù)位于互聯(lián)網(wǎng)環(huán)境的,應(yīng)建立與政務(wù)外網(wǎng)之間的安全傳輸通道,采取必要的安全措施保
障數(shù)據(jù)傳輸安全性,對互聯(lián)網(wǎng)環(huán)境數(shù)據(jù)的歸集。
7歸集流程
數(shù)據(jù)歸集總體流程見圖1,流程包含以下內(nèi)容:
a)將原始數(shù)據(jù)不進(jìn)行處理地采集存放在政務(wù)數(shù)據(jù)平臺的貼源層中;
b)對貼源層中的數(shù)據(jù)進(jìn)行清洗加工使其滿足政務(wù)數(shù)據(jù)平臺使用的質(zhì)量要求,清洗加工后的數(shù)據(jù)存
放在政務(wù)數(shù)據(jù)平臺的公共層中;
c)對公共層中的數(shù)據(jù)進(jìn)行個性化面向應(yīng)用、業(yè)務(wù)的整合,最終數(shù)據(jù)存放在政務(wù)數(shù)據(jù)平臺的主題層
中;
d)當(dāng)原始數(shù)據(jù)發(fā)生更新時,應(yīng)依照采集、清洗加工、整合的步驟對更新數(shù)據(jù)進(jìn)行歸集。
圖1數(shù)據(jù)歸集總體流程
8數(shù)據(jù)采集
8.1采集數(shù)據(jù)類型
采集數(shù)據(jù)包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù),接入形式包括數(shù)據(jù)庫、文件、接口、消
息隊(duì)列。
8.2采集流程
8.2.1數(shù)據(jù)剖析
數(shù)據(jù)剖析應(yīng)包括以下內(nèi)容:
a)業(yè)務(wù)分析:對數(shù)據(jù)來源業(yè)務(wù)進(jìn)行探查分析;
b)接入方式分析:對源數(shù)據(jù)存儲位置、提供方式進(jìn)行分析;
c)結(jié)構(gòu)分析:對數(shù)據(jù)的含義、類型、長度、結(jié)構(gòu)進(jìn)行分析;
4
DB52/T1541.2—2020
d)內(nèi)容分析:對數(shù)據(jù)內(nèi)容進(jìn)行分析,包括如數(shù)據(jù)總數(shù)、分布情況、平均值、中位數(shù)、最大值、最
小值等數(shù)據(jù)統(tǒng)計(jì)分析;
e)關(guān)聯(lián)分析:對數(shù)據(jù)之間存在的依賴關(guān)系、主外鍵關(guān)系進(jìn)行分析。
8.2.2數(shù)據(jù)采集定義
8.2.2.1存儲結(jié)構(gòu)
應(yīng)根據(jù)源數(shù)據(jù)選擇合適的類型、長度、精度對數(shù)據(jù)進(jìn)行存儲。
8.2.2.2存儲邏輯介質(zhì)
8.2.2.2.1結(jié)構(gòu)化數(shù)據(jù)應(yīng)選擇結(jié)構(gòu)化數(shù)據(jù)庫存儲。
8.2.2.2.2半結(jié)構(gòu)化數(shù)據(jù)應(yīng)轉(zhuǎn)為結(jié)構(gòu)化數(shù)據(jù)后選擇結(jié)構(gòu)化存儲。
8.2.2.2.3非結(jié)構(gòu)化數(shù)據(jù)應(yīng)根據(jù)存儲量選擇合適的文件系統(tǒng)進(jìn)行存儲。
8.2.2.3存儲物理介質(zhì)
8.2.2.3.1應(yīng)根據(jù)數(shù)據(jù)訪問頻率的高低選擇讀寫性能不同的存儲介質(zhì)。
8.2.2.3.2訪問頻率較低的歸檔型數(shù)據(jù),宜將數(shù)據(jù)壓縮后存儲。
8.2.2.4采集策略
應(yīng)根據(jù)數(shù)據(jù)更新快慢和實(shí)時性要求制定不同的采集策略。
8.2.3數(shù)據(jù)讀取
8.2.3.1不應(yīng)在待采集數(shù)據(jù)的源系統(tǒng)業(yè)務(wù)繁忙時進(jìn)行,避免讀取動作影響源系統(tǒng)正常運(yùn)行。
8.2.3.2宜使用源系統(tǒng)的備份庫作為采集對象,使用備份庫時應(yīng)保證數(shù)據(jù)一致性和可用性。
8.2.3.3對于海量數(shù)據(jù),宜支持分批或增量讀取,宜采用分布式方式對數(shù)據(jù)源進(jìn)行讀取。
8.2.4數(shù)據(jù)寫入
8.2.4.1應(yīng)保證寫入數(shù)據(jù)與讀取數(shù)據(jù)數(shù)量一致。
8.2.4.2應(yīng)具備異常回滾機(jī)制,保證寫入事務(wù)的ACID特性。
8.3采集方法
8.3.1數(shù)據(jù)庫類型應(yīng)建立源數(shù)據(jù)庫結(jié)構(gòu)與目標(biāo)數(shù)據(jù)庫之間的存儲結(jié)構(gòu)映射,通過數(shù)據(jù)庫同步進(jìn)行采集。
8.3.2返回數(shù)據(jù)為結(jié)構(gòu)化或半結(jié)構(gòu)化的接口類型,應(yīng)建立源接口返回數(shù)據(jù)結(jié)構(gòu)與目標(biāo)數(shù)據(jù)庫之間存儲
結(jié)構(gòu)映射,可通過搜索進(jìn)行接口數(shù)據(jù)采集,也可直接存儲接口的基本信息;返回數(shù)據(jù)為非結(jié)構(gòu)化的接口
類型,可將接口基本信息直接存儲。
8.3.3結(jié)構(gòu)化的二維表和半結(jié)構(gòu)化文件,應(yīng)建立源文件結(jié)構(gòu)與目標(biāo)數(shù)據(jù)庫之間存儲結(jié)構(gòu)映射,通過文
件導(dǎo)入進(jìn)行采集;非結(jié)構(gòu)化文件數(shù)據(jù),可將文件整體上傳至文件服務(wù)器后建立存儲路徑表。
8.3.4實(shí)時性要求低的數(shù)據(jù)可使用批量采集,實(shí)時性要求高的數(shù)據(jù)應(yīng)使用實(shí)時采集。
8.3.5數(shù)據(jù)量較大、單批量采集可能會造成系統(tǒng)故障的,應(yīng)使用分批采集。
9數(shù)據(jù)清洗加工
應(yīng)按DB52/T1540.3-2020的規(guī)定進(jìn)行。
5
DB52/T1541.2—2020
10數(shù)據(jù)整合
10.1整合目的
針對某一特定場景或領(lǐng)域,從貼源層或公共層中將符合質(zhì)量要求的數(shù)據(jù)按需求進(jìn)行整合,形成面向
主題的、集成的、非易失的且隨時間變化的數(shù)據(jù)集合。
10.2整合要求
10.2.1命名應(yīng)符合DB52/T1541.3-2020的要求。
10.2.2相同和相似字段應(yīng)使用相同的字段類型。
10.2.3公共代碼及代碼值應(yīng)保持統(tǒng)一,應(yīng)采用國家、行業(yè)規(guī)定的公共代碼。
10.3整合方式
10.3.1水平整合
10.3.1.1宜采用水平整合方式擴(kuò)大數(shù)據(jù)覆蓋范圍。
10.3.1.2同一實(shí)體相同維度的數(shù)據(jù)應(yīng)使用水平整合,如整合政府、事業(yè)單位、企業(yè)、社會團(tuán)體和其他
組織的法人單位數(shù)據(jù)。
10.3.1.3數(shù)據(jù)間存在的結(jié)構(gòu)差異應(yīng)在整合過程中統(tǒng)一。
10.3.1.4不同來源的重復(fù)數(shù)據(jù)應(yīng)進(jìn)行去重,沖突數(shù)據(jù)應(yīng)進(jìn)行如下處理:
a)能判別數(shù)據(jù)有效性、正確性的可保留;
b)增加數(shù)據(jù)來源標(biāo)識后均予以保留。
10.3.2垂直整合
10.3.2.1宜采用垂直整合方式豐富數(shù)據(jù)維度。
10.3.2.2垂直整合的范圍可包含同一實(shí)體不同維度的數(shù)據(jù)。
10.3.2.3應(yīng)識別并提取有效的業(yè)務(wù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- DB32/T 3134-2016瀝青路面就地?zé)嵩偕┕ぜ夹g(shù)規(guī)范
- DB32/T 1261-2020壽眉茶加工技術(shù)規(guī)程
- DB31/T 948-2015地下空間安全使用管理基本要求
- 【正版授權(quán)】 ISO/IEC 18584-1:2025 EN Information technology - Test methods for on-card biometric comparison applications - Part 1: General principles and specifications
- DB31/T 841-2014用人單位職業(yè)病危害現(xiàn)狀評價技術(shù)導(dǎo)則
- DB31/T 790-2014家用和類似用途電器安裝維修服務(wù)規(guī)范
- DB31/T 685-2019養(yǎng)老機(jī)構(gòu)設(shè)施與服務(wù)要求
- DB31/T 319-2013活禽市場交易規(guī)范
- DB31/T 1181-2019天然飾面石材加工單位產(chǎn)品能源消耗限額
- DB31/ 283-2015戶外廣告設(shè)施設(shè)置技術(shù)規(guī)范
- 腦卒中后遺癥康復(fù)護(hù)理查房課件
- 無人機(jī)駕駛員培訓(xùn)計(jì)劃及大綱
- 圓錐破碎機(jī)技術(shù)協(xié)議
- 年產(chǎn)4億片阿奇霉素片的精烘包及車間設(shè)計(jì)
- 模具工裝檢具加工申請單
- TB10092-2017 鐵路橋涵混凝土結(jié)構(gòu)設(shè)計(jì)規(guī)范
- 計(jì)算機(jī)聯(lián)鎖控制系統(tǒng)軟件可靠性與安全性技術(shù)保障
- 水利水電工程施工導(dǎo)流設(shè)計(jì)規(guī)范
- 每日工作流程物業(yè)保安主管經(jīng)理
- 供應(yīng)商應(yīng)付賬款管理表
- STEM教學(xué)設(shè)計(jì)與實(shí)施PPT完整全套教學(xué)課件
評論
0/150
提交評論