




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
Cloudwiz智能化IT運維分析平臺云興維智AIOPS
PLATFORM01公司介紹公司介紹云興維智(北京)科技有限公司是一家高科技軟件公司,致力于為企業(yè)數據中心和在線系統(tǒng)提供新一代高智能運維服務軟件。公司研發(fā)設計高性能,高可靠性,高適用性,可大規(guī)模運行的數據系統(tǒng),并在此基礎上引入數據分析和人工智能以提供市場上領先的自動運維功能和解決方案。公司是由數位長期在美國硅谷一線互聯(lián)網高科技公司工作的海歸技術專家和在中國的知名的高科技企業(yè)從事市場銷售的高管合作創(chuàng)立。目前在美國和中國北京都設有公司。團隊介紹Cloudwiz專家團隊創(chuàng)始團隊有多年微軟、Twitter、亞馬遜、eBay知名互聯(lián)網公司里建造和運維大數據系統(tǒng)的經驗,合計超過50年的從業(yè)經驗,負責超過60萬臺服務器節(jié)點的設計和運維工作。核心業(yè)務運維大數據平臺,讓客戶能夠高效、智能和自動運維IT服務器和應用。致力于故障定位時間縮短90%,down機時間減少80%,節(jié)省成本50%以上技術應用核心技術已應用于中國鐵路集團總公司、國家電網及眾多的互聯(lián)網公司融資獲得國內一線投資機構如聯(lián)想的投資?,F有客戶國家電網上汽集團思百吉集團02IT運維的現狀與挑戰(zhàn)背景介紹在線企業(yè)和云服務商的運維故障噩夢:冰山一角信譽聲譽收益2010年10月22日、26日、30日,AWS谷歌AppEngine,蘋果iCloud先后出現故障2014年11月18日微軟Azure11小時故障2015年5月,6月支付寶阿里云先后出現故障2017年2月28日亞馬遜S35個小時故障2013年6月工商銀行大面積癱瘓1小時2015年5月28日攜程旅行網12小時的系統(tǒng)癱瘓2016年1月19日推特10個小時故障,損失7%市值=10億美金領域發(fā)展IT系統(tǒng)運維發(fā)展歷程:簡單的運維工具/APM成為過去,智能運維引領未來目前大部分企業(yè)運維狀態(tài)AIOps(AlgorithmicITOperations)把機器學習、人工智能應用在運維領域ITILIT運維管理網管AIOps智能運維應用業(yè)務運維監(jiān)控未來企業(yè)運維狀態(tài)人少、事多、責任大運維人員IT設備和數據過去:運維十到幾十臺設備IT運維現狀運維人員IT設備和數據目前/未來:運維設備數量10倍-100倍增長IT運維現狀基礎架構:云化應用:微服務化雙態(tài)數據中心:傳統(tǒng)架構+互聯(lián)網架構全新架構-系統(tǒng)復雜運維對象:網絡、主機、OS、存儲、中間件、各類業(yè)務應用數據多樣化:日志、指標、告警、時間
…運維對象、數據激增依賴工程師技能經驗跨部門運維,責任界定困難業(yè)務的支撐對排障時效性要求更高排障困難-排障周期長IT運維面臨的挑戰(zhàn)無法統(tǒng)一管理,快速查詢無法滿足企業(yè)合規(guī)需求查詢難分析難對比難人員利用率低故障根源定位難成本高,效率低業(yè)務投訴多,系統(tǒng)風險高數據管理故障定位數據分析運維成本依賴專家手動運維03Cloudwiz智能運維大數據平臺產品定位網絡系統(tǒng):NPM客戶端用戶體驗:APMSDK私有云,企業(yè)數據中心數據采集移動App網銀客戶端客戶端手機銀行客戶端電商網站公共網絡動力環(huán)境系統(tǒng)動環(huán)數據日志數據業(yè)務數據流程數據網絡數據關鍵業(yè)務系統(tǒng):日志服務客戶端核心信貸支付結算網銀……ITIL/ITOM可視化展現后臺配置管理智能運維管理平臺標準數據接口智能分析監(jiān)控預警數據采集、管理操作系統(tǒng)數據庫、中間件應用業(yè)務系統(tǒng)ITIL/ITOMCloudwiz:服務器端運維數據、智能分析、監(jiān)控、管理問題解決優(yōu)化數據管理自動化數據分析快速故障定位運維提升業(yè)務后盾故障自動恢復推薦解決方案問題解決-宕機
-重大故障,系統(tǒng)不可用-系統(tǒng)性能大幅下降快速定位故障快速發(fā)現問題根源和解決方案排障定位自動檢測系統(tǒng)評測-
自動發(fā)現異常和隱患-梳理不合理系統(tǒng)配置和架構-安全隱患:端口攻擊,DDOS自動異常檢測,架構梳理-
健康指數-拓撲總覽-KPI指標評測系統(tǒng)整體態(tài)勢評測故障快速定位排除,防患于未然標準化產品功能對報警及異常事件,主動利用模式識別找出關聯(lián)指標和事件,快速定位問題。整合日志分析進行診斷。對日志進行聚類,對比和規(guī)律挖掘,突出有問題的日志。提供專業(yè)運維知識庫。自反饋學習進行故障根源定位。實時分析診斷專家報告智能發(fā)現問題分析數據的時域頻域,找出歷史規(guī)律,自動發(fā)現異常。全面覆蓋所有數據,無需設定固定閾值。長期分析診斷資源預測、容量規(guī)劃:消耗趨勢,規(guī)劃資源,提供采購計劃指標聚類分析,幫助運維人員熟悉系統(tǒng)特性。提供專家報告,優(yōu)化系統(tǒng)、配置、架構,提升性能,發(fā)現隱患專家解決方案專家現場或遠程視頻咨詢,定制貼身服務專業(yè)團隊代客運維全方位數據整合整合網絡、服務器、操作系統(tǒng)、數據庫、中間件、業(yè)務應用的指標、日志、事件。整合APM、NPM、BSM廠商和產品的數據。支持的常見服務的系統(tǒng)清單編號種類編號種類1系統(tǒng)2數據庫1.1WindowsServer2.1Oracle1.2Linux2.2Db21.3Aix2.3Sqlserver1.4Hpunix2.4mysql1.5Docker2.5postgresql1.6
JVM,GC2.6MongoDB
2.7Redis
2.8memcached3大數據平臺4中間件3.1Hadoop4.1Websphere3.2Hbase4.2Weblogic3.3Hive4.3Tuxedo3.4Spark4.4Apache3.5Storm4.5Tomcat3.6Kafka4.6Jboss3.7Flume4.7NGINX3.8Zookeeper4.8IIS3.9Elasticsearch4.9Rabbit-MQ5應用服務4.10ExchangeServer5.1……
其他專門的數據收集和監(jiān)控能力:
1、進程運行狀態(tài)
2、服務及端口響應
3、各類日志收集
4、各類運維事件:部署、配置、變化
5、任何新的或定制服務:產品采用插件定制模式,快速定制,2-5天產品價值專業(yè)的人做專業(yè)的事大幅提高運維效率,同樣的預算創(chuàng)造更多業(yè)績運維經驗和技術積累在我系統(tǒng)里,不怕牛人跑,不怕新人不上手低成本獲得國際先進的運維水平減少故障發(fā)生,增加營收運維不成為公司業(yè)務和產品迭代的瓶頸對公司的價值對CTO/運維總監(jiān)
的價值總體功能數據整合全面管理性能監(jiān)控數據業(yè)務數據日志數據網絡數據機器學習智能分析異常自動檢測關聯(lián)分析故障診斷拓撲結構和配置KPI提取和整體健康評判解決方案故障排除方案推薦系統(tǒng)自動恢復容量分析預測安全部署流程基于Hadoop的大數據平臺及數據服務運維知識庫及自反饋學習全方位監(jiān)控+智能分析排障+優(yōu)化解決方案=最好用的運維工具多維度運維數據整合關聯(lián)系統(tǒng)、應用指標日志,業(yè)務文件事件智能運維處理分析系統(tǒng)智能解決方案–自動發(fā)現異?,F代IT系統(tǒng)指標眾多,運維人員難以及時在其中發(fā)現問題隱患現代IT系統(tǒng)結構復雜,運維人員難以準確推測出關鍵指標的走勢和正常范圍問題和痛點解決方案利用大數據算法分析指標歷史數據,計算數據正常范圍和預測趨勢機器自動標注異常點,可以靈活設置報警用戶標注和自反饋算法提煉更精準的算法模型智能解決方案–快速故障定位定位問題:指標關聯(lián)算法定位問題于某個服務和節(jié)點分析問題:日志關聯(lián)整合、聚類、對比分析獲取更多信息,發(fā)現故障根源解決問題:不斷完善和獲取反饋的知識庫提供解決方案推薦智能解決方案–容量分析和預測展現資源使用現狀算法自動計算和預測未來不同時間點的資源使用情況為企業(yè)提前規(guī)劃采購計劃存儲空間、內存、CPU的消耗現狀及預測智能解決方案–專業(yè)的支持,專家報告和方案匯聚海內外云計算、互聯(lián)網專家,從業(yè)十數年,曾就職于著名互聯(lián)網公司,硅谷和海歸回國。一流的專業(yè)服務,提供現場或電話咨詢,實時支撐客戶各項技術需求。提供專家報告,優(yōu)化IT云架構系統(tǒng)、服務配置、提升性能。提供最新的穩(wěn)定版本推薦,提供各大數據服務間匹配版本規(guī)范??傮w架構模塊化設計,標準數據讀寫接口,利于整合、融入生態(tài)系統(tǒng)展現層業(yè)務邏輯層數據存儲數據處理層數據采集層總覽綜合展現數據處理中間件探針操作系統(tǒng)應用服務器(Tomcat,Weblogic)中間件(Redis,Mysql)熱數據緩存業(yè)務數據業(yè)務探針網絡網絡系統(tǒng)探針CPUJVM硬件環(huán)境及系統(tǒng)監(jiān)控I/O磁盤內存值班管理處置流程運維管理事件管理配置管理應用健康健康評判資源計劃時序型數據庫智能分析運維服務故障分析朔源自動問題檢測標準數據接口時序型數據庫分布式海量存儲系統(tǒng)日志挖掘運維知識庫運維管理門戶\三方數據源ITSM其他分應用展現日志收集器標準數據接口探針架構運行環(huán)境(ExecutionRuntime)Agent平臺主程序MainLoopFileWatcherSenderThreadRead/WriteQueueCollectorThreadParserUAgent升級配置ProcessWatcherMysqlcollectorWeblogicCollectorHBaseCollectorInit.dBuildDeployBatchDeploy04Cloudwiz部分功能展示統(tǒng)一監(jiān)控–總覽(高管駕駛艙)快速判斷系統(tǒng)健康,關鍵信息一覽無遺統(tǒng)一監(jiān)控–由粗到細系統(tǒng)服務機器進程統(tǒng)一監(jiān)控–由粗到細系統(tǒng)服務機器進程統(tǒng)一監(jiān)控–由粗到細統(tǒng)一監(jiān)控–指標監(jiān)控(多種服務,多種指標)統(tǒng)一監(jiān)控–日志監(jiān)控(全文搜索)智能報警–全面,靈活智能分析–故障溯源(學習故障歷史反饋,直接溯源根因)智能分析–關聯(lián)分析(關聯(lián)指標,事件,日志)
智能分析–日志分析(日志聚類,日志對比)智能分析–運維知識庫(專業(yè)知識傳承共享)05Cloudwiz案例電網大數據平臺的各種服務及系統(tǒng)案例:國家電網大數據平臺HBaseHiveHadoopTomcatZookeeperStormSparkMySQLCentOSKafkaFlume案例:國家電網大數據平臺客戶HBase每過3-4天全面死機,只能重啟,嚴重影響業(yè)務挖掘日志,發(fā)現死機前HBase節(jié)點出現長時間停頓,被zookeeper服務器誤診為此節(jié)點死亡匹配知識庫,找出原因為HBase節(jié)點進行內存Swap,而更深層次的原因為服務器時鐘漂移提出解決方案供客戶選擇客戶采納建議進行實施,徹底排除故障目標一:為國家電網的智能電網戰(zhàn)略提供不間斷的、穩(wěn)定的大數據計算平臺問題和挑戰(zhàn):主要存儲服務HBase每隔幾天會出現宕機,因為宕機經常發(fā)生在半夜,運維人員不能及時得到報警,造成大數據平臺長達數小時的停運,直接影響平臺上運行的分析工作。因為不能排查問題根源,此問題不斷發(fā)生。解決:指標、日志整合分析查找故障根源,知識庫推薦解決方案。問題完全解決。配置報警規(guī)則,及時發(fā)現問題。服務器上CPU使用率被自動探測出有異常升高,如紅點所示,cpu.usr在22:00-00:00和9:00左右25%,而平時一般在8%。需要找出原因。案例:國家電網大數據平臺目標二:在運維國家電網大數據計算平臺過程中,及時發(fā)現、查找并解決可能造成重大問題的誤操作、誤配置等運維問題。問題和挑戰(zhàn):如何及時發(fā)現問題并在短時間內發(fā)現根源,對任何運維團隊都是一個極大的挑戰(zhàn)。解決:指標的智能關聯(lián)分析能夠輔助運維人員快速查找故障根源Cloudwiz系統(tǒng)自動查找和匹配出相關聯(lián)的指標,提供故障根源推斷案例:國家電網大數據平臺目標二:運維國家電網大數據計算平臺過程中及時發(fā)現、查找并解決可能造成重大問題的誤操作、誤配置等運維問題。問題和挑戰(zhàn):如何及時發(fā)現問題并在短時間內發(fā)現根源,對任何運維團隊都是一個極大的挑戰(zhàn)。。解決:指標的智能關聯(lián)分析能夠輔助運維人員快速查找故障根源選擇hbase.regionserver.server.writeRequestCount對比cpu.usr。兩條曲線非常吻合。說明cpu的升高是由于hbase的write數量增加引起的??蛻赳R上意識到最近一個修改導致寫操作會增加。經過修改以后,cpu正常下來。案例:國家電網大數據平臺目標二:運維國家電網大數據計算平臺過程中及時發(fā)現、查找并解決可能造成重大問題的誤操作、誤配置等運維問題。問題和挑戰(zhàn):如何及時發(fā)現問題并在短時間內發(fā)現根源,對任何運維團隊都是一個極大的挑戰(zhàn)。解決:指標的智能關聯(lián)分析能夠輔助運維人員快速查找故障根源。上圖是可用磁盤空間的實時數據。下圖是統(tǒng)計的趨勢線。根據趨勢,目前可用磁盤空間49GB在62天后用完。用戶可以及時安排應急方案和設備采購計劃案例:國家電網大數據平臺目標三:有效地進行國家電網大數據計算平臺的日常運維工作,優(yōu)化架構,及時升級到最新且穩(wěn)定的版本以排出已知的問題。問題和挑戰(zhàn):對運維團隊的技術要求很高,一般團隊較難在短時間內達到,致使運維面臨瓶頸解決:Cloudwiz的專家團隊能夠與客戶的專業(yè)團隊協(xié)同工作,幫助客戶的技術團隊迅速成長,或者完全接手客戶的運維工作。專家報告提供專門針對客戶系統(tǒng)的貼身診斷和優(yōu)化技術報告。案例:國家電網大數據平臺大數據系統(tǒng)不同服務最佳版本和版本間依賴性推薦、演進方案目標三:有效地進行國家電網大數據計算平臺的日常運維工作,優(yōu)化架構,及時升級到最新且穩(wěn)定的版本以排出已知的問題。問題和挑戰(zhàn):對運維團隊的技術要求很高,一般團隊較難在短時間內達到,致使運維面臨瓶頸解決:Cloudwiz的專家團隊能夠與客戶的專業(yè)團隊協(xié)同工作,幫助客戶的技術團隊迅速成長,或者完全接手客戶的運維工作。專家報告提供專門針對客戶系統(tǒng)的貼身診斷和優(yōu)化技術報告。案例:國家電網大數據平臺專家報告優(yōu)化系統(tǒng)、配置、架構,提升性能目標三:有效地進行國家電網大數據計算平臺的日常運維工作,優(yōu)化架構,及時升級到最新且穩(wěn)定的版本以排出已知的問題。問題和挑戰(zhàn):對運維團隊的技術要求很高,一般團隊較難在短時間內達到,致使運維面臨瓶頸解決:Cloudwiz的專家團隊能夠與客戶的專業(yè)團隊協(xié)同工作,幫助客戶的技術團隊迅速成長,或者完全接手客戶的運維工作。專家報告提供專門針對客戶系統(tǒng)的貼身診斷和優(yōu)化技術報告。案例:中國鐵路集團總公司應用系統(tǒng)測試應用系統(tǒng):售后管理系統(tǒng)(到站)、售后管理系統(tǒng)(上門)安裝部署:生產環(huán)境使用產品:大數據平臺、應用健康分析目標系統(tǒng)概況案例:中國鐵路集團總公司應用系統(tǒng)目標一:提供整體應用系統(tǒng)的運維監(jiān)控。對整個應用系統(tǒng)從上到下(應用,中間件,系統(tǒng))的運行狀態(tài)進行實時可視化監(jiān)控,幫助運維人員對整個系統(tǒng)一目了然。問題和挑戰(zhàn):應用系統(tǒng)服務種類多,運維數據來源多,包括各系統(tǒng)吐出來的指標、日志、業(yè)務文本文件等。內部團隊肩負日常運維的工作,沒有余力進行研發(fā)。解決:Cloudwiz專長于對服務器端的各指標、日志及業(yè)務數據進行收集、呈現、整合和關聯(lián)分析,進行快速交付。1.性能監(jiān)控數據:系統(tǒng)參數監(jiān)控案例:中國鐵路集團總公司應用系統(tǒng)目標一:提供整體應用系統(tǒng)的運維監(jiān)控。對整個應用系統(tǒng)從上到下(應用,中間件,系統(tǒng))的運行狀態(tài)進行實時可視化監(jiān)控,幫助運維人員對整個系統(tǒng)一目了然。問題和挑戰(zhàn):應用系統(tǒng)服務種類多,運維數據來源多,包括各系統(tǒng)吐出來的指標、日志、業(yè)務文本文件等。內部團隊肩負日常運維的工作,沒有余力進行研發(fā)。解決:Cloudwiz專長于對服務器端的各指標、日志及業(yè)務數據進行收集、呈現、整合和關聯(lián)分析,進行快速交付。2.采集業(yè)務數據
業(yè)務數據文件:記錄文件上傳狀態(tài),進行解析$cat~/viz/oneAPM_data/Log/fcheck_2016-09-08.txt0:01---->Wait文件[0],06文件[1],TCP連接[32].0:02---->Wait文件[0],06文件[0],TCP連接[5].
正在上傳文件數量等待上傳文件數量TCP鏈接數量業(yè)務數據文件解析展示:記錄文件上傳狀態(tài)案例:中國鐵路集團總公司應用系統(tǒng)目標一:提供整體應用系統(tǒng)的運維監(jiān)控。對整個應用系統(tǒng)從上到下(應用,中間件,系統(tǒng))的運行狀態(tài)進行實時可視化監(jiān)控,幫助運維人員對整個系統(tǒng)一目了然。問題和挑戰(zhàn):應用系統(tǒng)服務種類多,運維數據來源多,包括各系統(tǒng)吐出來的指標、日志、業(yè)務文本文件等。內部團隊肩負日常運維的工作,沒有余力進行研發(fā)。解決:Cloudwiz專長于對服務器端的各指標、日志及業(yè)務數據進行收集、呈現、整合和關聯(lián)分析,進行快速交付。3、轉化日志數據:
解析格式化日志文件,提取監(jiān)控指標[dell_server_1]#tail-faccess.log82--[07/Sep/2016:09:46:00+0800]"GET/dell/codebase/jq1.7/jquery-1.7.2.jsHTTP/1.1"304083--[07/Sep/2016:09:46:00+0800]"GET/dell/wxzy/wxd.jsp?orderno=80906808312HTTP/1.1"200083--[07/Sep/2016:09:27:59+0800]"POST/dell/input_serviceactionHTTP/1.1"3010
訪問客戶IP訪問時間訪問類型訪問結果轉化日志數據展示:案例:中國鐵路集團總公司應用系統(tǒng)目標二:提升運維效率,幫助運維人員發(fā)現指標規(guī)律并進行異常的提前預警。問題和挑戰(zhàn):數據種類多,數據量大,運維人員難以手工完成上述任務。解決:Cloudwiz的主動智能運維功能,自動利用歷史數據進行數據挖掘,發(fā)現規(guī)律并預測系統(tǒng)的運行指標,提前發(fā)現異常問題并報警?;诖髷祿治龅漠惓W詣訖z測報警問題發(fā)現:業(yè)務文件上傳出現堵塞這個點比平時這個時刻的值高出很多,表示這個時刻的文件上傳數比平時高這兩個點比規(guī)律值低出很多,表示這個時刻的文件上傳數比平時低案例:中國鐵路集團總公司應用系統(tǒng)目標二:提升運維效率,幫助運維人員發(fā)現指標規(guī)律并進行異常的提前預警。問題和挑戰(zhàn):數據種類多,數據量大,運維人員難以手工完成上述任務。解決:Cloudwiz的主動智能運維功能,自動利用歷史數據進行數據挖掘,發(fā)現規(guī)律并預測系統(tǒng)的運行指標,提前發(fā)現異常問題并報警。問題發(fā)現:服務器負載不均衡,外部服務訪問在不同服務器節(jié)點上不均衡案例:中國鐵路集團總公司
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 護理教學查房與技巧
- 作業(yè)長崗前培訓
- 耳科疾病臨床護理常規(guī)
- 2023健康知識競賽試題92分
- 2022年山東棗莊嶧城區(qū)中考二模歷史試題
- 商品條碼質量培訓
- 2025年公務員綜合素質面試試題及答案
- 窯爐投資項目可行性研究報告(立項備案模板)undefinedundefined
- 在職員工職業(yè)健康培訓
- 2025年工程師職業(yè)資格考試試卷及答案
- 直播運營團隊人員分工與職責明細
- 蜘蛛人外墻施工方案
- 空調檢測報告
- 變壓器實驗報告
- 三叉神經痛(講)課件
- 神經生理治療技術
- 浙江溫州高速公路甌北片區(qū)招聘高速公路巡查人員考試真題2022
- 江蘇蘇州工業(yè)園區(qū)蘇相合作區(qū)管理委員會機關工作人員招聘13人告5204筆試題庫含答案解析
- 三年級下學期音樂復習題
- 工傷預防概念1
- GA 1808-2022軍工單位反恐怖防范要求
評論
0/150
提交評論