




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
金融級(jí)數(shù)據(jù)研發(fā)
Data
Ops實(shí)踐平安銀行數(shù)據(jù)及AI平臺(tái)團(tuán)隊(duì)負(fù)責(zé)人/
廖曉格目錄一
、
數(shù)據(jù)研發(fā)問題及挑戰(zhàn)二
、
數(shù)據(jù)研發(fā)Data
Ops實(shí)踐三
、
未來展望
平臺(tái)數(shù)據(jù)事故引起客戶投訴
、
資損甚至監(jiān)管報(bào)送。
在數(shù)字化轉(zhuǎn)型過程中,
高質(zhì)量的數(shù)據(jù)保證越發(fā)重要
必須有數(shù)據(jù)研發(fā)工程師+后端開發(fā)工程師參與完整的業(yè)務(wù)需求
作業(yè)上線流程嚴(yán),
即使不接入生產(chǎn)應(yīng)用/最小權(quán)限的分析任務(wù),
審
批流程也要小時(shí)到天不等,
影響一些分析場景的效能;
指標(biāo)口徑不統(tǒng)一,
存在煙囪式開發(fā)。
缺少實(shí)時(shí)數(shù)據(jù)分析能力
重復(fù)作業(yè),
數(shù)據(jù)冗余度高。
數(shù)據(jù)未進(jìn)行冷熱分析,
存在垃圾數(shù)據(jù)。
數(shù)據(jù)價(jià)值難以評(píng)估,
需求價(jià)值的度量標(biāo)準(zhǔn)。
敏感數(shù)據(jù)外泄
如何既能實(shí)現(xiàn)共享又能符合各項(xiàng)法規(guī)數(shù)據(jù)研發(fā)平臺(tái)問題和挑戰(zhàn)
問題和挑戰(zhàn)
》》
問題舉例
》》
方向
如何提高數(shù)據(jù)交付
效率和批量數(shù)據(jù)時(shí)
效?如何有效賦能業(yè)
務(wù),
同時(shí)控制好平臺(tái)成本?重質(zhì)量升時(shí)效降成本保安全如何減少數(shù)據(jù)事
故,
保證數(shù)據(jù)交付質(zhì)量?如何保證數(shù)據(jù)共享
安全?
計(jì)算負(fù)載極高存儲(chǔ)成本劇增數(shù)據(jù)安全隱患ulu不可靠決策…
…
數(shù)據(jù)治理急需一套工程體系支撐數(shù)據(jù)研發(fā),Data
Ops是一種面向數(shù)據(jù)全生命周期,
以價(jià)值最大化為目標(biāo)的最佳實(shí)踐
。
聚焦于協(xié)同從數(shù)據(jù)需求輸入到交付物輸出的全過程
。
構(gòu)建集開發(fā)
、
治理
、運(yùn)營于一體的自動(dòng)化數(shù)據(jù)流水線,
不斷提高數(shù)據(jù)產(chǎn)品交付
效率與質(zhì)量,
實(shí)現(xiàn)高質(zhì)量數(shù)字化發(fā)展。數(shù)據(jù)治理價(jià)值數(shù)據(jù)成本越來越高,
價(jià)值難以評(píng)估控制數(shù)據(jù)風(fēng)險(xiǎn)改善數(shù)據(jù)質(zhì)量賦能管理決策降低成本提升數(shù)據(jù)加工效率資產(chǎn)!包袱?數(shù)據(jù)
治
理據(jù)治理BAC數(shù)數(shù)據(jù)研發(fā)平臺(tái)Data
Ops目標(biāo)?統(tǒng)一數(shù)據(jù)研發(fā)平臺(tái)核心目標(biāo)將Data
Ops的數(shù)據(jù)管理方法論融入數(shù)據(jù)開發(fā),
以及一些自動(dòng)化測試,
部署等技術(shù),構(gòu)建標(biāo)準(zhǔn)數(shù)據(jù)研發(fā)生產(chǎn)流水線
。
支
撐數(shù)據(jù)資產(chǎn)中心的數(shù)據(jù)全民化,
安心計(jì)劃,
破壁計(jì)劃。精細(xì)化數(shù)據(jù)
運(yùn)營保障數(shù)據(jù)研發(fā)質(zhì)量;提高數(shù)據(jù)研發(fā)效率;
降低數(shù)據(jù)使用門檻;
低代碼,自動(dòng)化數(shù)據(jù)安全保
護(hù)傘提升數(shù)據(jù)時(shí)效
夯實(shí)平臺(tái)穩(wěn)定研發(fā)流程標(biāo)
準(zhǔn)化治理工具化數(shù)據(jù)ROI,
控IT成本;價(jià)值最大化;加強(qiáng)平臺(tái)規(guī)范運(yùn)營符合各項(xiàng)法規(guī);事前制度建設(shè);事中技術(shù)管控;事后監(jiān)控審計(jì);深入湖倉一體架構(gòu)擴(kuò)大實(shí)時(shí)數(shù)據(jù)使用場
景。目錄一
、
數(shù)據(jù)研發(fā)問題及挑戰(zhàn)二
、
數(shù)據(jù)研發(fā)Data
Ops實(shí)踐三
、
未來展望事前治理項(xiàng)事故復(fù)盤管理字段相似度流批
、
湖倉血緣作業(yè)成本價(jià)值ROI數(shù)據(jù)對(duì)象指標(biāo)
標(biāo)簽/特征服務(wù)APICI數(shù)據(jù)加工建立以價(jià)值最大化為目標(biāo)的數(shù)據(jù)全生命周期管理最佳實(shí)踐重質(zhì)量降成本升時(shí)效保安全數(shù)據(jù)研發(fā)平臺(tái)Data
Ops邏輯框架CT測試發(fā)布推動(dòng)數(shù)據(jù)
運(yùn)營數(shù)據(jù)
開發(fā)基礎(chǔ)底
座時(shí)效檢查
相似作業(yè)識(shí)別
相似加工鏈路統(tǒng)一權(quán)限統(tǒng)一調(diào)度生成測試一體化數(shù)據(jù)安全保護(hù)傘業(yè)務(wù)系統(tǒng)表數(shù)據(jù)源CD運(yùn)維監(jiān)控支撐》》目標(biāo)湖/倉表字段數(shù)據(jù)集成數(shù)據(jù)模型數(shù)據(jù)服務(wù)質(zhì)量運(yùn)營異常診斷指標(biāo)加工資產(chǎn)盤點(diǎn)湖/倉表事后治理數(shù)據(jù)源數(shù)據(jù)研發(fā)平臺(tái)Data
Ops-全流程開發(fā)流程標(biāo)準(zhǔn)化?基于《數(shù)據(jù)研發(fā)流程基線細(xì)則》
和《大數(shù)據(jù)平臺(tái)管理細(xì)則》
,
統(tǒng)一數(shù)據(jù)研發(fā)全周期流程(包括數(shù)據(jù)源
、
數(shù)據(jù)集成
、
數(shù)據(jù)加工
、
指標(biāo)定義
、
數(shù)據(jù)服
務(wù)等),
引入CI/CT/CD方法融入并標(biāo)準(zhǔn)化數(shù)據(jù)研發(fā)流程,
降低模型研發(fā)過程中的人為風(fēng)險(xiǎn)同時(shí),
提升整個(gè)數(shù)據(jù)研發(fā)效率。核心能力n
Dataops全研發(fā)流程:
融合數(shù)
據(jù)集成
、
數(shù)據(jù)加工
、
業(yè)務(wù)資
產(chǎn)定義開發(fā)
、
Oneservice數(shù)據(jù)
服務(wù)配置全流程;n
數(shù)據(jù)治理嵌入研發(fā):
改變以
往先產(chǎn)生后治理的流程邏輯,
將治理規(guī)范融入數(shù)據(jù)研發(fā)流程;n
先設(shè)計(jì)再開發(fā)服務(wù):
以數(shù)據(jù)
服務(wù)和數(shù)據(jù)指標(biāo)驅(qū)動(dòng)數(shù)據(jù)研
發(fā)過程,
遵循先設(shè)計(jì)再研發(fā)
的治理設(shè)計(jì)理念n
核心開發(fā)工具:
面向數(shù)據(jù)自
動(dòng)校驗(yàn)端,
提供數(shù)據(jù)質(zhì)量/數(shù)
據(jù)血緣/元數(shù)據(jù)管理/規(guī)范檢
查/開發(fā)測試一體/能力服務(wù),實(shí)現(xiàn)線上數(shù)據(jù)的自動(dòng)檢核數(shù)據(jù)服務(wù)應(yīng)用管理數(shù)據(jù)準(zhǔn)備項(xiàng)目注冊(cè)服務(wù)配置
并發(fā)布服務(wù)交付數(shù)據(jù)加工作業(yè)建模作業(yè)發(fā)布自動(dòng)發(fā)布數(shù)據(jù)
測試數(shù)據(jù)源數(shù)據(jù)源數(shù)據(jù)源
注冊(cè)數(shù)據(jù)源
管理統(tǒng)一數(shù)據(jù)研發(fā)平臺(tái)數(shù)據(jù)研發(fā)的全生命周期流程數(shù)據(jù)集定義數(shù)據(jù)研發(fā)流程規(guī)范數(shù)據(jù)架構(gòu)規(guī)范數(shù)據(jù)安全規(guī)范數(shù)據(jù)運(yùn)營規(guī)范異構(gòu)
采集方式
數(shù)據(jù)源
設(shè)定加解密配置采集頻率
設(shè)定數(shù)據(jù)
測試數(shù)據(jù)
運(yùn)營語法
校驗(yàn)UAT
驗(yàn)證指標(biāo)定義
指標(biāo)發(fā)布One
service數(shù)據(jù)集成指標(biāo)定義研發(fā)流程數(shù)據(jù)
采集數(shù)據(jù)
加密指標(biāo)
定義數(shù)據(jù)
定義數(shù)據(jù)
上線數(shù)據(jù)
開發(fā)模型
映射合規(guī)
檢查維度
定義模型管理表注冊(cè)數(shù)據(jù)資產(chǎn)經(jīng)分營銷風(fēng)險(xiǎn)監(jiān)管報(bào)送AI建模運(yùn)營需求管理
(starlink)需求
登記需求
評(píng)審需求
分發(fā)數(shù)據(jù)研發(fā)平臺(tái)Data
Ops-總體功能架構(gòu)?建設(shè)目標(biāo):研發(fā)層面,
基于湖倉一體存儲(chǔ),
面向全行提供流批數(shù)據(jù)一體化的研發(fā)平臺(tái),
覆蓋從需求階段-研發(fā)階段-運(yùn)行階段-運(yùn)營階段,
支持業(yè)
務(wù)BU模型開發(fā);
管理層面,
集成架構(gòu)治理規(guī)范
、
運(yùn)行規(guī)范
、
跑批規(guī)范,
實(shí)現(xiàn)數(shù)據(jù)和架構(gòu)治理工具的平臺(tái)化落地。數(shù)據(jù)研發(fā)平臺(tái)DI
Cloud指標(biāo)研發(fā)統(tǒng)一SQL語義層引擎
研發(fā)階段安全規(guī)范(包括權(quán)限)基礎(chǔ)
設(shè)施指標(biāo)加工數(shù)據(jù)建模維度/
指標(biāo)定義設(shè)計(jì)即研發(fā)指標(biāo)物化指標(biāo)上下架
規(guī)范數(shù)據(jù)集成實(shí)時(shí)采集
Flinkcdc離線采集
waterdrop流批采集Flinkcdc->Spark測試/發(fā)布測試用例自動(dòng)化測試自動(dòng)化發(fā)布自動(dòng)化部署數(shù)據(jù)加工批任務(wù)Spark流任務(wù)Flink流轉(zhuǎn)批
Flink->SparkAPI開發(fā)某省市場資源隔離服務(wù)計(jì)量服務(wù)編排資產(chǎn)全景數(shù)據(jù)血緣數(shù)據(jù)質(zhì)量業(yè)務(wù)圖譜風(fēng)險(xiǎn)審計(jì)安全標(biāo)準(zhǔn)權(quán)限審批流程管理外部數(shù)據(jù)源數(shù)據(jù)源注冊(cè)數(shù)據(jù)源管理File數(shù)據(jù)源DB數(shù)據(jù)源分布式文件系統(tǒng)生產(chǎn)環(huán)境流批一體數(shù)據(jù)研發(fā)任務(wù)成本運(yùn)
營中心實(shí)時(shí)計(jì)算引
擎Flink統(tǒng)一智能調(diào)
度作業(yè)血緣鏈
路治理數(shù)據(jù)服務(wù)化
規(guī)范數(shù)據(jù)質(zhì)量檢
測統(tǒng)一資源管
理Yarn全鏈路
監(jiān)控診斷指標(biāo)盤點(diǎn)
(精品/kpi)數(shù)據(jù)服務(wù)OneService跑批規(guī)范運(yùn)行規(guī)范架構(gòu)治理
規(guī)范前端業(yè)務(wù)運(yùn)營階段沙箱環(huán)境需求階段運(yùn)行階段Nosql存儲(chǔ)湖倉一體Mpp存儲(chǔ)流程規(guī)范設(shè)計(jì)規(guī)范質(zhì)量規(guī)范治理全景監(jiān)控運(yùn)營健康排名缺陷作業(yè)識(shí)別治理離線數(shù)據(jù)研發(fā)元數(shù)據(jù)管理架構(gòu)治理檢查數(shù)據(jù)脫敏數(shù)據(jù)發(fā)布管理
組件管理
組件Spark/Hive
Sqoop
Da
tax
Es-spark
Jdbc?全行統(tǒng)一大數(shù)據(jù)作業(yè)調(diào)度平臺(tái),
支持離線數(shù)據(jù)研發(fā),
血緣自動(dòng)計(jì)算,
生產(chǎn)測試一體,
作業(yè)線上發(fā)布,
作業(yè)運(yùn)營等數(shù)據(jù)研發(fā)的生命周期過程,
標(biāo)準(zhǔn)
化全行數(shù)據(jù)研發(fā)服務(wù)過程,目標(biāo)提升全行數(shù)據(jù)治理與數(shù)據(jù)質(zhì)量成果,
融合研發(fā)和治理的一體化平臺(tái)體系;數(shù)據(jù)研發(fā)平臺(tái)Data
Ops-數(shù)據(jù)調(diào)度統(tǒng)一研發(fā)IDE作業(yè)
運(yùn)營作業(yè)
研發(fā)調(diào)度
服務(wù)作業(yè)/數(shù)據(jù)生命周期運(yùn)營重跑調(diào)度(級(jí)聯(lián)/批量重跑)權(quán)限管理日志管理在線診斷關(guān)聯(lián)服務(wù)風(fēng)險(xiǎn)管控經(jīng)營分析在線分析業(yè)務(wù)營銷自動(dòng)調(diào)度服務(wù)編排Hive執(zhí)行器Spark執(zhí)行器數(shù)據(jù)出倉
執(zhí)行器多源異構(gòu)
數(shù)據(jù)集成防重復(fù)調(diào)度多租戶
資源隔離執(zhí)行加速自動(dòng)監(jiān)控優(yōu)先級(jí)管控生命周期運(yùn)營發(fā)布作業(yè)監(jiān)控SLA運(yùn)營作業(yè)成本治理技術(shù)
組件層服務(wù)
場景執(zhí)行
服務(wù)實(shí)時(shí)質(zhì)量異常阻斷(依據(jù)血緣依賴阻斷下游自動(dòng)調(diào)度)通過數(shù)據(jù)血緣關(guān)系,
實(shí)
時(shí)呈現(xiàn)數(shù)據(jù)調(diào)度進(jìn)度數(shù)據(jù)研發(fā)平臺(tái)Data
Ops-質(zhì)量治理能力?數(shù)據(jù)質(zhì)量已經(jīng)成為銀行數(shù)據(jù)治理的核心組成部分,
從治理視角而言,
建立完整全流程的數(shù)據(jù)質(zhì)量體系,
及時(shí)發(fā)現(xiàn)質(zhì)量問題->實(shí)時(shí)預(yù)警屬主修復(fù)->
事后復(fù)盤增強(qiáng)測試發(fā)布環(huán)節(jié)檢測
、
提升銀行數(shù)據(jù)整體質(zhì)量,
提供更精準(zhǔn)的決策分析數(shù)據(jù);1)
表粒度規(guī)則監(jiān)控2)
字段粒度規(guī)則監(jiān)控3)
自定義規(guī)則監(jiān)控事后-異常質(zhì)量問題追蹤復(fù)盤事前-質(zhì)量核驗(yàn)規(guī)則事中-質(zhì)量核驗(yàn)基于過程質(zhì)量問題,
工單追蹤異常整改數(shù)據(jù)研發(fā)平臺(tái)Data
Ops-開發(fā)測試一體化?為解決大數(shù)據(jù)數(shù)據(jù)質(zhì)量測試痛點(diǎn),
在測試環(huán)境無法完全復(fù)現(xiàn)生產(chǎn)問題,
生產(chǎn)數(shù)據(jù)脫敏到測試環(huán)境仍有安全隱患,
因此需要構(gòu)建數(shù)據(jù)研發(fā)測試一體
化平臺(tái),
完善數(shù)據(jù)研發(fā)流程,
滿足監(jiān)控合規(guī)的評(píng)審需求,
數(shù)據(jù)需求閉環(huán)管理,
數(shù)據(jù)開發(fā)
、
測試
、
變更流程統(tǒng)一管理,
并和數(shù)據(jù)監(jiān)控規(guī)則打通,
保
證全流程質(zhì)量閉環(huán)心能單/雙表、
字段級(jí)基礎(chǔ)數(shù)據(jù)規(guī)則自定義資損模型場景建模場景自適應(yīng)數(shù)據(jù)模型
(待建)日期型類型數(shù)值型類型枚舉型類型字符型類型監(jiān)管模型風(fēng)控模型營銷模型機(jī)器學(xué)習(xí)自適應(yīng)
算法場景模擬精準(zhǔn)測試效率優(yōu)化作業(yè)調(diào)度/用例執(zhí)行質(zhì)量門檻UAT/業(yè)務(wù)驗(yàn)收數(shù)據(jù)研發(fā)平臺(tái)脫敏系統(tǒng)ROUTER權(quán)限系統(tǒng)Jira需求管理DQM數(shù)據(jù)監(jiān)控對(duì)接系統(tǒng)用戶&權(quán)限一鍵UM登錄數(shù)據(jù)權(quán)限自動(dòng)識(shí)別數(shù)據(jù)
準(zhǔn)備聚合報(bào)告分析結(jié)果大盤流程
管理消金缺陷標(biāo)注測試自動(dòng)
執(zhí)行風(fēng)險(xiǎn)某省市私行某省市…分級(jí)別
流程定制信某省市需求評(píng)審測試驗(yàn)收數(shù)據(jù)研發(fā)平臺(tái)Data
Ops-數(shù)據(jù)安全治理?從事前
、
事中
、
事后分別管控?cái)?shù)據(jù)安全
。
以“事中數(shù)據(jù)脫敏”為例,
是通過在SQL/作業(yè)埋點(diǎn)用戶帳號(hào),
分析SQL/Job對(duì)應(yīng)的元數(shù)據(jù)字段,
判斷用戶
權(quán)限,
返回用戶對(duì)應(yīng)的脫敏數(shù)據(jù)。統(tǒng)一SQL引擎Router血緣分析
元數(shù)據(jù)管理
權(quán)限管理
脫敏引擎
安全決策引擎事中技術(shù)管控:
采用“數(shù)據(jù)加密”、“數(shù)據(jù)脫
敏”、“敏感客群保護(hù)”、”智能阻斷”、“數(shù)據(jù)
外發(fā)”等手段構(gòu)筑強(qiáng)固的數(shù)據(jù)安全保護(hù)傘;事后監(jiān)控審計(jì):
基于規(guī)則引擎建立數(shù)據(jù)訪
問審計(jì)平臺(tái)——實(shí)時(shí)的\自動(dòng)+人工的識(shí)別
可能的異常訪問;事前制度建設(shè):
數(shù)據(jù)安全“制度”先行,
為
此我行修改制定了“平安銀行數(shù)據(jù)安全管理
辦法(
2.0版,
2019年)”;大數(shù)據(jù)
平臺(tái)事中事后事前大數(shù)據(jù)SQL計(jì)算引擎Spark
SQL
Presto調(diào)度平臺(tái).
SQL
/
JobKyligenceHIVE客戶端AI算法平臺(tái)Jupyter數(shù)據(jù)研發(fā)平臺(tái)Data
Ops-數(shù)倉分層加密處理過程?ODS
貼源層(raw):
敏感字段識(shí)別,
利用
正則+算法+人工,
識(shí)別出貼源數(shù)據(jù)表的敏感字段。?ODS
加密層(mid):
高敏感字段加密,
將銀行卡號(hào),
手機(jī)號(hào),
證件號(hào)進(jìn)行加密儲(chǔ)存。?數(shù)倉
某省市等層:
利用字段級(jí)血緣關(guān)系,
標(biāo)識(shí)出每感字段。?數(shù)據(jù)查詢?cè)L問:
應(yīng)用端查詢數(shù)據(jù)時(shí),
對(duì)統(tǒng)一查詢中心(router),
根據(jù)訪問的敏感字段及敏感脫敏類型進(jìn)行脫敏處理。數(shù)據(jù)產(chǎn)出流轉(zhuǎn)過程加密層數(shù)據(jù)建設(shè)組織過程對(duì)公MID風(fēng)險(xiǎn)DM個(gè)消金DM消金DW公共庫一致性維度DIM接口(對(duì)外服務(wù))私庫
(基本法)報(bào)表指標(biāo)
庫(
BU)貼源層
RAW財(cái)務(wù)DM個(gè)標(biāo)簽
指標(biāo)對(duì)公DW對(duì)公DM數(shù)據(jù)研發(fā)平臺(tái)Data
Ops-敏感數(shù)據(jù)發(fā)現(xiàn)?源生產(chǎn)系統(tǒng)數(shù)據(jù)集成過程中,
無論實(shí)時(shí)或者離線采集,
開發(fā)治理一體化平臺(tái)基于數(shù)據(jù)規(guī)則自動(dòng)實(shí)現(xiàn)敏感數(shù)據(jù)發(fā)現(xiàn);識(shí)別環(huán)節(jié)1,
數(shù)據(jù)識(shí)別:
依據(jù)預(yù)定義規(guī)則庫+命名實(shí)體算法服務(wù)自動(dòng)識(shí)別敏感信息;
識(shí)別環(huán)節(jié)2,
血緣分析:
依據(jù)上游字段的安全標(biāo)記,
下游字段自動(dòng)繼承;識(shí)別環(huán)節(jié)3,
人工復(fù)核:
開放白名單數(shù)據(jù)環(huán)境,
數(shù)據(jù)標(biāo)準(zhǔn)由人工進(jìn)行復(fù)核確認(rèn);4身份證規(guī)則:([1-9]\d{5}(18|19|([23]\d))\d{2}((0
[1-
9])|(10|11|12))(([0-2][1-9])|10|20|30|31)\d{3}[0-9Xx])數(shù)據(jù)自動(dòng)
識(shí)別字段名安全標(biāo)識(shí)Cert_noe身份證Email郵箱CHILD_C
NT子女?dāng)?shù)量Cert_noemailname算法識(shí)別:利用大規(guī)模語料學(xué)習(xí)標(biāo)注模型,
可快速識(shí)別文本中的實(shí)體數(shù)據(jù)表A字段名安全標(biāo)識(shí)字段1身份證字段2郵箱
字段血緣分析
白名單數(shù)據(jù)環(huán)境采集表A數(shù)據(jù)表B識(shí)別說明規(guī)則庫人工
復(fù)核數(shù)據(jù)表A數(shù)據(jù)表B12√√…….數(shù)據(jù)研發(fā)平臺(tái)Data
Ops-數(shù)據(jù)沙箱實(shí)現(xiàn)數(shù)據(jù)流通
、
安全共享?基于沙箱數(shù)據(jù)只進(jìn)不出和分析應(yīng)用相互隔離兩大原則構(gòu)建數(shù)據(jù)沙箱環(huán)境,
差異化數(shù)據(jù)融合模式,
確保安全可控要求下,
提升訓(xùn)練和探索環(huán)節(jié)效
率,
便捷化數(shù)據(jù)應(yīng)用通道。數(shù)據(jù)沙箱環(huán)境業(yè)務(wù)
數(shù)據(jù)數(shù)據(jù)生產(chǎn)環(huán)境B模型結(jié)果
寫出資金同業(yè)權(quán)限最小化申請(qǐng)信用卡
消金
資金同業(yè)其他場景
可有效解決類似數(shù)據(jù)融合
、
公私聯(lián)動(dòng)融合分析等數(shù)據(jù)類場景沙箱數(shù)據(jù)只進(jìn)不出No
Sql存儲(chǔ)沙箱YARN分析應(yīng)用相互隔離沙箱HDFS批流開發(fā)平臺(tái)A結(jié)果查看A模型輸出Adhoc即席查詢Aicloud數(shù)據(jù)分析HDFS/IcebergHbase/MongoDB/ES原則原則信用卡
消金
資金同業(yè)其他統(tǒng)一SQL語義引擎C模型輸出B模型輸出開發(fā)分
析平臺(tái)生產(chǎn)YARNA模型結(jié)果
寫出信用卡基礎(chǔ)
資源C模型結(jié)果
寫出消金無需權(quán)限申請(qǐng)統(tǒng)
一
脫
敏B結(jié)果
查看C結(jié)果
查看xx√√?構(gòu)建支持?jǐn)?shù)據(jù)開發(fā)全流程的沙箱環(huán)境,
確保與生產(chǎn)庫分離,
只進(jìn)不出,數(shù)據(jù)采樣
。
既滿足應(yīng)用系統(tǒng)的沙箱環(huán)境數(shù)據(jù)探索需求,同時(shí)提升數(shù)據(jù)研發(fā)使用效大數(shù)據(jù)SQL引擎數(shù)倉層血緣分析原始層數(shù)據(jù)研發(fā)平臺(tái)Data
Ops-沙箱環(huán)境數(shù)據(jù)流程KAFKA
消息隊(duì)列跑
批沙
箱
環(huán)
境分
析沙
箱
環(huán)
境1
、
沙箱環(huán)境2
、
生產(chǎn)環(huán)境1
用戶日志異步發(fā)送算法平臺(tái)
生產(chǎn)環(huán)境外部沙箱應(yīng)用外部生產(chǎn)應(yīng)用沙箱作業(yè)算法平臺(tái)
(沙箱環(huán)境)
生產(chǎn)
數(shù)據(jù)源沙箱數(shù)據(jù)源生產(chǎn)作業(yè)
生產(chǎn)庫
2
用戶脫敏/抽樣/
保真/單向脫敏引擎/
采樣引擎
沙箱庫
沙箱賬號(hào)寫入脫敏/采樣/
保真是否命中
阻斷規(guī)則采集團(tuán)隊(duì)標(biāo)注敏感字段獲取脫敏字段添加脫敏字段元數(shù)據(jù)管理安全決策引擎執(zhí)行
SQL提供
數(shù)據(jù)沙箱庫報(bào)
警2用戶輸出數(shù)據(jù)研發(fā)平臺(tái)Data
Ops-成本價(jià)值管理能力?平臺(tái)層面深化數(shù)據(jù)價(jià)值評(píng)估體系探索,
實(shí)現(xiàn)數(shù)據(jù)成本與價(jià)值的多維度可量化分析,
基于成本/價(jià)值實(shí)現(xiàn)數(shù)據(jù)資產(chǎn)的ROI分析以及成本治理。存儲(chǔ)成本=存儲(chǔ)用量*存儲(chǔ)單價(jià)
計(jì)算成本=計(jì)算用量*計(jì)算單價(jià)成本樣例數(shù)據(jù),參考,
不代表實(shí)際情況標(biāo)簽
價(jià)值組合標(biāo)簽拉新關(guān)聯(lián)提升資產(chǎn)關(guān)聯(lián)提升PV/UV基礎(chǔ)標(biāo)簽組合調(diào)用量直接調(diào)用量
成本量化分析
基礎(chǔ)平臺(tái)從存儲(chǔ)和計(jì)算兩個(gè)維度,
計(jì)算每一份數(shù)據(jù)成本,
計(jì)算公式如下:資源用量范圍包括:?
存儲(chǔ)用量?
計(jì)算用量對(duì)應(yīng)資源的使用單價(jià):?
存儲(chǔ)使用單價(jià):
0.67(元/TB每天)?
計(jì)算使用單價(jià):業(yè)務(wù)場景資金相關(guān)重要鏈路HIVESASPrestoPV/UVUSER職級(jí)明細(xì)下載調(diào)用量點(diǎn)擊率轉(zhuǎn)化率數(shù)據(jù)使用成本資源用量資源單價(jià)價(jià)值量化分析訪問
熱度模型人工
標(biāo)注存儲(chǔ)成本+計(jì)算成本;0.0000093(元/vcoreseconds)"
開發(fā)治理一體化平臺(tái)
元數(shù)據(jù)檢查開發(fā)治理一體化平臺(tái)
業(yè)務(wù)屬主定義
數(shù)
資
平臺(tái)
數(shù)據(jù)分類識(shí)別
數(shù)據(jù)盤點(diǎn)
數(shù)
資
平臺(tái)
資產(chǎn)目錄運(yùn)營
資產(chǎn)自動(dòng)掛載
數(shù)
資
平臺(tái)
資產(chǎn)查找服務(wù)
資產(chǎn)鏈路地圖
質(zhì)量檢查
血緣鏈路核驗(yàn)數(shù)倉開發(fā)加工指標(biāo)加工API服務(wù)加工資產(chǎn)認(rèn)定定義資產(chǎn)業(yè)務(wù)屬主資產(chǎn)自動(dòng)打標(biāo)(表類型/是否敏感)↓資產(chǎn)信息盤點(diǎn)↓資產(chǎn)信息變更↓資產(chǎn)生命周期運(yùn)營資產(chǎn)全景地圖資產(chǎn)場景搜索(5).資產(chǎn)化應(yīng)用:數(shù)據(jù)資產(chǎn)治理之
后
,結(jié)合數(shù)據(jù)價(jià)值/成本
,面向數(shù)據(jù)
用戶
,提供資產(chǎn)目錄和搜索服務(wù),并打通資產(chǎn)與使用場景的平臺(tái)斷點(diǎn)數(shù)據(jù)研發(fā)平臺(tái)Data
Ops-數(shù)據(jù)資產(chǎn)沉淀(4).
自動(dòng)掛載:基于第三步的
自動(dòng)盤點(diǎn),
完成對(duì)于資產(chǎn)目錄掛載(事前治理側(cè)需先完成標(biāo)準(zhǔn)資
產(chǎn)目錄維護(hù))(2).認(rèn)責(zé)定義;:基于推送的數(shù)
據(jù)(元數(shù)據(jù));定義業(yè)務(wù)屬主和認(rèn)
責(zé)
,將數(shù)據(jù)責(zé)任方界定清楚(3).
自動(dòng)盤點(diǎn):按照事前定義的
業(yè)務(wù)全景圖譜,依賴治理工具實(shí)
現(xiàn)資產(chǎn)的自動(dòng)打標(biāo)
,并最終完成
分類盤點(diǎn)(1).生成:依賴元數(shù)據(jù)治理規(guī)
范工具
,檢測通過的數(shù)據(jù)(元
數(shù)據(jù))
,接口推送至數(shù)據(jù)資產(chǎn)
平臺(tái)據(jù)
產(chǎn)
據(jù)
產(chǎn)
據(jù)
產(chǎn)(5).資產(chǎn)服務(wù)(3).資產(chǎn)管理與盤點(diǎn)(1).資產(chǎn)產(chǎn)生(4).資產(chǎn)編目(2).資產(chǎn)認(rèn)責(zé)資產(chǎn)目錄掛載數(shù)倉目錄管理平臺(tái)
工具層目標(biāo)
用戶資產(chǎn)目錄導(dǎo)航打通資產(chǎn)場景
資產(chǎn)運(yùn)營人員
數(shù)據(jù)加工人員資產(chǎn)運(yùn)營人員
資產(chǎn)使用人員資產(chǎn)管理人員
資產(chǎn)開發(fā)人員數(shù)據(jù)加工人員目錄一
、
數(shù)據(jù)研發(fā)問題及挑戰(zhàn)二
、
數(shù)據(jù)研發(fā)Data
Ops實(shí)踐三
、
未來展望核心能力:
邏輯數(shù)倉層構(gòu)建面向用戶和下游應(yīng)用消費(fèi)的邏輯數(shù)倉層,
將邏輯表與物理表隔離,
將物理
表交給系統(tǒng)層優(yōu)化
物理層智能調(diào)度透明數(shù)據(jù)ETL邏輯和物理存儲(chǔ)介質(zhì),
由
邏輯層用戶行為和需求觸發(fā),
實(shí)現(xiàn)數(shù)據(jù)生
產(chǎn)鏈路的智能編排和調(diào)度,
針對(duì)重復(fù)
、
相
似計(jì)算進(jìn)行自動(dòng)合并,
下線或降權(quán)無效
、
低頻
、低價(jià)值數(shù)據(jù)生產(chǎn)
性能自優(yōu)化基于用戶查詢行為實(shí)現(xiàn)自適應(yīng)的查詢
性能優(yōu)化,自動(dòng)實(shí)現(xiàn)物化
、緩存或構(gòu)建Cube/索引
從被動(dòng)到主動(dòng)的數(shù)據(jù)治理,
實(shí)現(xiàn)“數(shù)據(jù)自動(dòng)駕駛”邏輯層基于業(yè)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 計(jì)算機(jī)軟件許可合同
- 洗車用品活動(dòng)方案
- 海鮮蒸鍋活動(dòng)方案
- 法院道德宣講活動(dòng)方案
- 注冊(cè)公司前策劃方案
- 海風(fēng)酒吧活動(dòng)策劃方案
- 2025年生態(tài)旅游PPP項(xiàng)目合同模板與實(shí)施指南
- 食品營養(yǎng)師的職業(yè)規(guī)劃與發(fā)展方向
- 2025年智能電網(wǎng)變電設(shè)備合作協(xié)議書
- 農(nóng)村土地房屋轉(zhuǎn)讓合同
- 當(dāng)代法律英語翻譯全
- 制冷操作證培訓(xùn)教材制冷與空調(diào)設(shè)備運(yùn)行操作作業(yè)培訓(xùn)教程課件
- 湖南省長沙市望城區(qū)2020-2021學(xué)年八年級(jí)下學(xué)期期末考試歷史試卷
- 煙葉烘烤調(diào)制理論考試試題
- DB23-T 3336-2022懸掛式單軌交通技術(shù)標(biāo)準(zhǔn)-(高清最新)
- 服刑人員心理健康教育課件
- 湖南省長郡中學(xué)“澄池”杯數(shù)學(xué)競賽初賽試題(掃描版含答案)
- DB32-T 2665-2014機(jī)動(dòng)車維修費(fèi)用結(jié)算規(guī)范-(高清現(xiàn)行)
- 外協(xié)(外委)單位作業(yè)安全管理制度(附安全告知書)
- 【專項(xiàng)訓(xùn)練】初二數(shù)學(xué)-全等三角形的綜合應(yīng)用
- (完整版)《市場營銷學(xué)》說課課件
評(píng)論
0/150
提交評(píng)論