數(shù)據(jù)治理能力_第1頁
數(shù)據(jù)治理能力_第2頁
數(shù)據(jù)治理能力_第3頁
數(shù)據(jù)治理能力_第4頁
數(shù)據(jù)治理能力_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、精選優(yōu)質(zhì)文檔-傾情為你奉上數(shù)據(jù)治理能力提升第一章 綜述1.1數(shù)據(jù)治理能力提升項目介紹數(shù)據(jù)能力治理提升致力打造一個將非結(jié)構(gòu)數(shù)據(jù)通過計算模型轉(zhuǎn)換成結(jié)構(gòu)化數(shù)據(jù),用于可視化圖表展示的云服務(wù),將隱藏在數(shù)據(jù)中的信息直觀展現(xiàn)于用戶面前。使用該平臺可以使用戶或者技術(shù)人員通過可視化配置的方式快速制作模型、圖表,節(jié)省人員工作量、減少人員數(shù)量投入,在無需修改底層代碼的情況下,能完成數(shù)據(jù)計算、分析及展示。極大的提升開發(fā)效率、數(shù)據(jù)的價值應(yīng)用和管理。1.2 Spark算法平臺介紹數(shù)據(jù)能力治理提升中,對數(shù)據(jù)中心的原始數(shù)據(jù)進行算法計算的部分成為Spark算法平臺,通過Spark集群的處理,將不同的算法運行到集群上,通過增加機

2、器的方式,可以橫向擴展算法的性能。動態(tài)的調(diào)整算法使用的資源大小,并通過集群監(jiān)控軟件對各任務(wù)的處理情況進行查看。1.3 Spark算法平臺組成spark集群由4臺機器組成,其中三臺為計算節(jié)點,master節(jié)點為HA高可用節(jié)點,并搭建了一系列系統(tǒng)監(jiān)控及管理應(yīng)用。第二章 Spark算法平臺的優(yōu)勢2.1集群擴展性1. 算法平臺是完全可擴展的解決方案。并通過機器的擴展、可以方便的擴充算法的性能。圖1. 幾種計算機系統(tǒng)的可擴展性2. 原算法運行為單機運行,只能通過增加機器性能或者對稱多處理系統(tǒng)來提高性能,這種提高性能的方式見圖一,無法達到集群處理的線性增長。2.2集群高可用性1. 算法平臺可解決系統(tǒng)硬件問

3、題,由原來的單機改為集群運行,可解決所有的服務(wù)器硬件故障,當某一臺服務(wù)器出現(xiàn)任何故障,如:硬盤、內(nèi)存、CPU、主板、I/O板以及電源故障,運行在這臺服務(wù)器上的算法就會切換到其它的服務(wù)器上。2. 算法平臺可解決軟件系統(tǒng)問題,在計算機系統(tǒng)中,用戶所使用的是應(yīng)用程序和數(shù)據(jù),而應(yīng)用系統(tǒng)運行在操作系統(tǒng)之上,操作系統(tǒng)又運行在服務(wù)器上。這樣,只要應(yīng)用系統(tǒng)、操作系統(tǒng)、服務(wù)器三者中的任何一個出現(xiàn)故障,系統(tǒng)實際上就停止了向客戶端提供服務(wù),比如我們常見的軟件死機,就是這種情況之一,盡管服務(wù)器硬件完好,但服務(wù)器仍舊不能向客戶端提供服務(wù)。而算法平臺的最大優(yōu)勢在于對故障服務(wù)器的監(jiān)控是基于應(yīng)用的,也就是說,只要服務(wù)器的算法

4、停止運行,其它的相關(guān)服務(wù)器就會接管這個應(yīng)用,而不必理會應(yīng)用停止運行的原因是什么。3. 算法平臺可以解決人為失誤造成的應(yīng)用系統(tǒng)停止工作的情況,例如,當管理員對某臺服務(wù)器操作不當導(dǎo)致該服務(wù)器停機,因此運行在這臺服務(wù)器上的應(yīng)用系統(tǒng)也就停止了運行。由于集群是對應(yīng)用進行監(jiān)控,因此其它的相關(guān)服務(wù)器就會接管這個應(yīng)用。2.3多算法并發(fā)1. 沒有依賴關(guān)系的算法可以并行執(zhí)行,縮短算法運算時間,提高服務(wù)器資源的使用。2. 有依賴關(guān)系的算法可以串行,可以通過web頁面進行手動配置組合,方便算法流程的修改。2.4 spark任務(wù)調(diào)度1. 可以自動分配集群資源,保證各節(jié)點的資源合理2. 可以通過web頁面查看資源使用情況

5、,方便系統(tǒng)運維2.5 spark任務(wù)失敗重試與黑名單機制1. spark會選擇合適的任務(wù)調(diào)度運行,并且監(jiān)控任務(wù)的執(zhí)行狀態(tài),任務(wù)被提交啟動執(zhí)行后,執(zhí)行過程中會將執(zhí)行狀態(tài)上報給調(diào)度程序的后端,調(diào)度程序的后端則告訴任務(wù)調(diào)度, 可以得到任務(wù)的失敗與成功狀態(tài),對于失敗的任務(wù),會記錄它失敗的次數(shù),如果失敗次數(shù)還沒有超過最大重試次數(shù),那么就把它放回待調(diào)度的任務(wù)池中,否則整個Application失敗。在記錄任務(wù)失敗次數(shù)過程中,會記錄它上一次失敗所在的位置,這樣下次再調(diào)度這個任務(wù)時,會使用黑名單機制,避免它被調(diào)度到上一次失敗的節(jié)點上,起到一定的容錯作用。2. 任務(wù)首先會統(tǒng)計成功的任務(wù)數(shù),當成功的Task數(shù)超過

6、75%(可通過參數(shù)控制)時,再統(tǒng)計所有成功的任務(wù)的運行時間,得到一個中位數(shù),用這個中位數(shù)乘以1.5(可通過參數(shù)控制)得到運行時間門限,如果在運行的任務(wù)的運行時間超過這個門限,則認為子任務(wù)出現(xiàn)問題時(包括執(zhí)行時間過長,子任務(wù)異常停止),會重新執(zhí)行該子任務(wù)(如下圖)。2.6資源動態(tài)配置1. 可以創(chuàng)建不同的任務(wù)隊列,通過修改任務(wù)執(zhí)行的隊列,使不同的任務(wù)執(zhí)行時可以使用不同的服務(wù)器資源。2. 可以對每個隊列使用的資源進行動態(tài)配置,方便給不同需求的數(shù)據(jù)不同的算法計算和處理速度。3. 可以動態(tài)的配置算法資源文件輸入路徑,輸出路徑,應(yīng)對不同情況的業(yè)務(wù)需求2.7算法擴展性1. 算法平臺已經(jīng)定義好了輸入和輸出結(jié)構(gòu)

7、,當有新增算法時,通過對算法的包裝,增加算法的輸入輸出路徑,及其他參數(shù),可以將快捷的增減算法。2. 可視化后臺添加算法啟動腳本,便捷的增減算法2.8算法可視化1. 通過web頁面方式可以方便快捷的進行算法的順序改變2. 通過web頁面方式可以查看失敗的位置,及其執(zhí)行的位置第三章 Spark算法測試數(shù)據(jù)3.1 測試結(jié)果1. 以下測試算法為:文本分類算法2. 服務(wù)器配置:16C + 128G + 4T 3. 服務(wù)器系統(tǒng):CentOS 7.24. 單機運行為一臺上述配置的服務(wù)器,參照數(shù)據(jù)中心啟動了12個線程測試,運行過程中CPU滿載5. 集群運行為上述配置的兩臺服務(wù)器200w 數(shù)據(jù)運行結(jié)果 文件大小4.9G :第一次 200W數(shù)據(jù)第二次 200W數(shù)據(jù)第三次 200W數(shù)據(jù)spark集群運行3min 21sec3min 17sec 3min 25sec單機運行5 min 20 sec6 min 07 sec6 min 04 sec1000W 數(shù)據(jù)運行結(jié)果 文件大小23G:第一次 1000W數(shù)據(jù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論