



版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、曙光4000A可用性測量與應(yīng)用可完成性計算* 本研究得到了中國科學(xué)院知識創(chuàng)新工程重要方向項目新一代機群關(guān)鍵技術(shù)研究(KGCX2-SW-116)的支持由淵霞1,2孟丹1薛剛31(中國科學(xué)院計算技術(shù)研究所國家智能計算機研究開發(fā)中心 北京 100080)2(中國科學(xué)院研究生院 北京 100039)3(上海超級計算中心技術(shù)支持部上海201203)通信作者:由淵霞,yyx摘要:本文介紹了對大規(guī)模計算系統(tǒng)曙光4000A進行可靠性與應(yīng)用可完成性評價的工作。文中介紹了在生產(chǎn)型系統(tǒng)中收集分析數(shù)據(jù)的方法,建立了可用性和可完成性模型,最后給出曙光4000A的可用性與應(yīng)用可完成性指標計算結(jié)果。關(guān)鍵字:大規(guī)模計算系統(tǒng),
2、可用性,應(yīng)用可完成性Evaluation of Availability and Application Achievability in Dawning4000AAbstract: This is an evaluation work on the availability and application achievability of Dawning4000A. This paper introduces the method to collecting and analyzing error data in productive environment, and established
3、 the availability and achievability models. The availability and application achievability of Dawning4000A are calculated based on this model and collected error data.Keywords: Large-scale Computing System, Availability, Application Achievability51. 引言大規(guī)模計算系統(tǒng)的可靠性測量與評價,是一項十分重要的工作,對于評價機群質(zhì)量,指導(dǎo)后續(xù)提高可靠性的工
4、作,以及構(gòu)建更大規(guī)模的系統(tǒng),具有極大的意義。然而近年來,大規(guī)模生產(chǎn)型計算系統(tǒng)的可靠性測量評價工作明顯不足。隨著計算系統(tǒng)規(guī)模的不斷增大,應(yīng)用需求的不斷提升,迫切需要研究現(xiàn)有生產(chǎn)型系統(tǒng)的可靠性。除此之外,用戶也越來越關(guān)心大規(guī)模計算系統(tǒng)的另一項指標,即,應(yīng)用在特定系統(tǒng),特定配置下,能夠在一定時間內(nèi)正確完成的能力。定義為應(yīng)用可完成性。這項指標目前研究的比較少,且缺乏適當?shù)脑u價模型。評價大規(guī)模計算系統(tǒng)的可靠性、可用性與應(yīng)用可完成性,主要工作包括:通過可靠通信機制實現(xiàn)可靠性數(shù)據(jù)的收集,建立可靠性數(shù)據(jù)庫并對數(shù)據(jù)進行有效分析,建立可靠性評價模型,描述應(yīng)用的特征,建立應(yīng)用可完成性計算模型,推導(dǎo)可靠性估算公式,計
5、算節(jié)點、整機可靠性和應(yīng)用可完成性,描述可靠性隨著系統(tǒng)配置不同而變化的規(guī)律等等。本文在528節(jié)點規(guī)模的曙光4000A系統(tǒng)上,建立了故障和可靠性數(shù)據(jù)收集系統(tǒng),計算了大規(guī)模計算系統(tǒng)的可用性,揭示了應(yīng)用可完成性的規(guī)律。計算過程中使用到的基本參數(shù)如下:n:所有節(jié)點個數(shù)k:狀態(tài)為活動的所有節(jié)點個數(shù):失效率,一般遠小于0.01%:修復(fù)率,一般遠大于99.99%。2. 機群可靠性測量環(huán)境的建立2.1. 概述可靠性數(shù)據(jù)收集系統(tǒng)建立過程從2005年6月1日至2005年8月1日。目標系統(tǒng)是安裝于上海超級計算中心,并進行正常生產(chǎn)運行的曙光4000A。其節(jié)點規(guī)模為,正常運行的計算節(jié)點448個,存儲節(jié)點16個,備用節(jié)點6
6、4個。因為系統(tǒng)軟件可根據(jù)用戶的需要進行選擇,因此本研究只考慮硬件故障的情況。由于要從生產(chǎn)型系統(tǒng)中收集數(shù)據(jù),在充分考慮用戶利益的前提下,所使用的方法應(yīng)該遵循以下原則:l 系統(tǒng)變更最少l 在網(wǎng)絡(luò)帶寬、IO能力等方面,對用戶應(yīng)用的性能影響最小l 保證在某些節(jié)點出現(xiàn)故障時收集到盡可能多的故障前數(shù)據(jù)2.2. 可靠性數(shù)據(jù)測量平臺的建立方法基于以上原則,我們選用Linux操作系統(tǒng)中已有的SYSLOG機制,并進行最簡單的配置。方法如下:1. 根據(jù)節(jié)點邏輯分區(qū)和應(yīng)用部署分區(qū)的具體情況,選擇一個或多個分區(qū)作為可靠性日志采集的對象(稱為客戶機),并采用百兆管理網(wǎng)絡(luò)作為SYSLOG的傳輸網(wǎng)絡(luò),這樣將不會影響到計算節(jié)點
7、對存儲節(jié)點的訪問2. 再選擇一個管理節(jié)點或任務(wù)不算重的節(jié)點作為日志服務(wù)器logserver3. 對這些客戶機和日志服務(wù)器進行時鐘同步4. 在logserver上運行install.client腳本,向待收集日志的所有客戶機中的syslog.conf中增加*.warning logserver,并重新啟動客戶機的syslogd5. 用遠程方式啟動日志服務(wù)器上的syslogd以上是可靠性數(shù)據(jù)搜集的初始化階段。在系統(tǒng)運行過程中,我們還應(yīng)該進行以下工作:l 每天用logrotate進行日志轉(zhuǎn)儲l 客戶機中出現(xiàn)節(jié)點崩潰或不可用等情況時,記錄起始時間,在日志中進行標記,并在客戶機節(jié)點恢復(fù)之后搜集其本地日志
8、信息l 對每次系統(tǒng)異常的原因進行分析2.3. 可靠性數(shù)據(jù)測量對系統(tǒng)運行時帶寬和存儲的影響估計為了在日志收集啟動之前,預(yù)測日志收集對網(wǎng)絡(luò)帶寬的影響,可根據(jù)系統(tǒng)運行的實際情況,選擇若干具有代表性的節(jié)點,根據(jù)運行過程中產(chǎn)生的本地日志,估算日志規(guī)模和不同時段的帶寬。對于曙光4000A而言,根據(jù)系統(tǒng)管理員的經(jīng)驗,存儲節(jié)點產(chǎn)生的日志量較多,因此選擇連續(xù)四周內(nèi)存儲節(jié)點的日志作為統(tǒng)計和估算的基礎(chǔ)。表1是四周內(nèi)全部16個存儲節(jié)點產(chǎn)生的日志總量和網(wǎng)絡(luò)流量統(tǒng)計。由此表可見,在全部528個節(jié)點上收集日志數(shù)據(jù),不會對系統(tǒng)帶寬和存儲造成明顯壓力。3. 機群可靠性的計算方法3.1. 模型描述機群可靠性測量的一般模型可描述為
9、n個節(jié)點,其中有k個活動節(jié)點3,如圖1示。圖1中:PD表示Power-Dog,監(jiān)視每個節(jié)點是否發(fā)生故障,在曙光4000A中是各個節(jié)點上的監(jiān)測部件;WD表示W(wǎng)atch-Dog,在曙光4000A中是指心跳系統(tǒng);SS表示Switching System,指應(yīng)用重做、Checkpoint等;帶數(shù)字的圓形表示節(jié)點,n=464,k=64。3.2. 描述機群可靠性的Markov鏈曙光4000A是同構(gòu)可修復(fù)系統(tǒng),各個節(jié)點的故障率、修復(fù)率完全相同。目前,我們使用連續(xù)時間Markov鏈作為描述機群系統(tǒng)可靠性的工具。假設(shè),節(jié)點故障率為,修復(fù)率為。整個機群的連續(xù)時間Markov鏈可建立如圖2所示。Markov鏈的常規(guī)
10、解法是運用Chapman-Kolmogorov方程,假設(shè)P(t)是一個向量,它的元素Pi(t)表示系統(tǒng)在t時刻處于i個節(jié)點失效的概率,M是轉(zhuǎn)換矩陣,在描述P隨時間演化的差分Chapman-Kolmogorov系統(tǒng)方程中,M代表方程的系數(shù)。Chapman-Kolmogorov方程如下所示:根據(jù)圖2所示的n+k型機群系統(tǒng)可靠性Markov鏈,可列出描述機群系統(tǒng)可靠性的Chapman-Kolmogorov方程如下:P0(t)= *P1(t)-n*P0(t), i=0Pi(t)=n*Pi-1(t)+*Pi+1(t)-(n*+)*Pi(t), i=1, n-kPi(t)=(i+1)*Pi+1(t)+*P
11、i-1(t)-(i*+)*Pi(t), i=n-k+1, n-1Pn(t)=*P1(t)-*P0(t), i=n(0)作為解該方程的初始條件,我們可以認為機群的各個節(jié)點最初沒有故障,即:P0(0)=1, P1(0)=Pn-1(0)=Pn(0)=03.3. 可靠性指標的定義曙光4000A是對外服務(wù)的系統(tǒng),必須隨時保證有一定的資源可分配給應(yīng)用程序。同時,由于機群屬于可修復(fù)系統(tǒng),其可用性指標比可靠性更準確。因此,該機群的可用性,從應(yīng)用程序的角度來說,應(yīng)該定義為系統(tǒng)中至少有n個節(jié)點無故障的概率,即:(1)MTBF也是衡量機群可靠性的重要指標。其定義為:(2)應(yīng)用可完成性和應(yīng)用可用性密切相關(guān),但不完全相
12、同。其相同之處在于,應(yīng)用可完成性指標側(cè)重從用戶體驗的角度,衡量機群系統(tǒng)完成應(yīng)用計算的能力;而應(yīng)用可用性,是從機群系統(tǒng)的角度,評價機群可供應(yīng)用使用的能力。應(yīng)用可用性只取決于機群系統(tǒng)的可靠性和體系結(jié)構(gòu),而應(yīng)用可完成性與應(yīng)用特征、應(yīng)用規(guī)模、用戶容忍度等相關(guān)。對于運行時間超長,或是一定要在某個時刻之前執(zhí)行完畢的應(yīng)用程序而言,應(yīng)用可完成性指標具有不可替代的作用。要確定應(yīng)用可完成性,除了機群可靠性自身的指標外,應(yīng)用的規(guī)模,期望運行的時間,以及應(yīng)用在運行過程中,碰到節(jié)點故障后可能出現(xiàn)的應(yīng)對行為,都要考慮在內(nèi)。假設(shè),穩(wěn)定運行的大規(guī)模計算系統(tǒng)具有穩(wěn)定的故障率和修復(fù)率,應(yīng)用正常運行需要f個節(jié)點,并在時間T0內(nèi)完成
13、。而為了應(yīng)對可能出現(xiàn)節(jié)點故障的情況,除了配備檢查點恢復(fù)機制,還要考慮應(yīng)用程序可能采取的降級運行模式。即,正常運行需要f個節(jié)點,一般情況下應(yīng)配備n(n>f)個節(jié)點,以便在某些節(jié)點出現(xiàn)故障時使用;如果系統(tǒng)出現(xiàn)的故障太多,導(dǎo)致沒有f個節(jié)點可用,那么應(yīng)用可只在k(k<f)個節(jié)點上運行,待正常節(jié)點數(shù)恢復(fù),再升級回在f個節(jié)點上運行。其中,(n+k-f)/2定義為冗余度d。假設(shè)應(yīng)用運行所需的總計算規(guī)模可定義為T=f×T0。應(yīng)用可完成度定義為,應(yīng)用程序無故障時能夠完成的最小時間T0,與存在節(jié)點故障和節(jié)點冗余的情況下,應(yīng)用程序能夠正確完成的最小時間之比:(3)3.4. 可靠性指標的計算方法
14、為了避免直接用Laplace變換求解Chapman-Kolmogorov方程,必須將描述系統(tǒng)失效概率的微分方程進行適當?shù)淖儞Q。通過1中的方法,得到:(4)一般情況下,都有<<。因此,根據(jù)2,有:(5)并且:(6)其中:(7)由于:結(jié)合(4),并帶入(3),可得C。4. 曙光4000A組件故障測量4.1. 測量方法組件故障的測量方法,是結(jié)合事件日志與系統(tǒng)管理員維護記錄,從事件日志判斷系統(tǒng)崩潰前發(fā)生的異?,F(xiàn)象,從系統(tǒng)管理員的維護記錄分析出現(xiàn)故障的原因。當某組件已損壞或老化,必須更換組件才能使節(jié)點重新正常運行時,為該組件計算一次崩潰型故障。而可通過重啟恢復(fù),或可等到計劃維護期間恢復(fù)的故障
15、,則不算作崩潰型故障。4.2. 概要測量結(jié)果系統(tǒng)中的組件非常多,而出現(xiàn)故障并導(dǎo)致節(jié)點不可用的組件則相當局限。其中l(wèi) 開始時間:2005年7月1日l 結(jié)束時間:2006年7月1日l 故障總計:44次l 其中:n 節(jié)點崩潰次數(shù):14次n 節(jié)點不崩潰次數(shù):30次4.3. 詳細測量結(jié)果表表2中,內(nèi)存和存儲的故障率較高,但同時這兩種組件的容錯機制也比較充分,因此能夠較好地保障節(jié)點運行,使節(jié)點不至于崩潰。系統(tǒng)管理員有足夠的時間,可以在計劃維護期間再進行設(shè)備更換,故而不影響節(jié)點和整機的可靠性。Bare-bone故障可能導(dǎo)致節(jié)點不斷自動重啟或無法啟動。Myrinet卡故障可能導(dǎo)致應(yīng)用程序完全無法運行。電源故障
16、可能導(dǎo)致節(jié)點突然斷電。CPU故障可能導(dǎo)致CPU不能運行,NUMA結(jié)構(gòu)中該CPU臨近的內(nèi)存無法識別等。Memory故障,如果是崩潰型,可能使得內(nèi)存訪問發(fā)生錯誤,從而導(dǎo)致系統(tǒng)崩潰。5. 曙光4000A相關(guān)指標計算5.1. 節(jié)點可靠性參數(shù)在3.3節(jié)所列出的崩潰型故障中,每一種的出現(xiàn),都會導(dǎo)致節(jié)點不可用,且必須更換組件。在這種情況下,節(jié)點的可靠性模型應(yīng)該是典型的串聯(lián)模型。對于非崩潰型故障,由于可以延遲到系統(tǒng)定期維護時更換,因此對系統(tǒng)正常運行不會產(chǎn)生影響,不納入可靠性計算的范圍。因此,曙光4000A的節(jié)點可靠性為:R=99.99689%×99.99987%×99.99987%
17、5;99.99948%×99.99786%99.99397%同樣,可知:失效率0.00623%修復(fù)率取決于節(jié)點修復(fù)能力。根據(jù)曙光4000A的運行情況,所有的節(jié)點故障都是可以立即修復(fù)的。因此修復(fù)率為100。5.2. 整機可用性與MTBF根據(jù)公式(5)、(6)、(7),以及上一節(jié)計算得到的參數(shù),可得整機可用性和MTBF隨備用節(jié)點個數(shù)變化的規(guī)律如圖3和圖4所示。圖3 整機可用性圖4 整機MTBF(天)5.3. 應(yīng)用可完成性應(yīng)用可完成度定義為,在特定故障率,特定修復(fù)率,限定節(jié)點數(shù)的情況下,特定計算規(guī)模T的應(yīng)用程序,按照一定的并行率f,無故障時能夠完成的最小時間T0,與存在節(jié)點故障和節(jié)點冗余率
18、d的情況下,應(yīng)用程序能夠正確完成的最小時間之比。在針對曙光4000A這一特定計算系統(tǒng)的分析中,應(yīng)用可完成性成為應(yīng)用計算規(guī)模,應(yīng)用并行度,和配置冗余率的參數(shù),而一般情況下,用戶能夠估算應(yīng)用計算規(guī)模,并根據(jù)節(jié)點規(guī)模確定并行度,因此,只需要計算出,配備多大冗余率才能在規(guī)定時間內(nèi)完成任務(wù)。根據(jù)3.4節(jié)的算法,得到如下所示的冗余度隨計算規(guī)模和并行度變化曲線:圖5從圖中可以看出,在曙光4000A當前故障率之下,不大于128個計算規(guī)模的應(yīng)用程序,最多只需要一個冗余節(jié)點就可以保證可完成性。當應(yīng)用計算規(guī)模大于128個節(jié)點時,就需要更大的冗余度才能使應(yīng)用正常完成。當沒有更多冗余節(jié)點,且允許應(yīng)用運行時間延長的情況下
19、,可采用降低并行度的方法,比如,原本需要256個節(jié)點,一天時間來運行的應(yīng)用,可降級為128個節(jié)點,兩天運行。如下圖所示:圖6由上圖可見,對于與曙光4000A同等故障率的系統(tǒng)而言,假定不提供節(jié)點動態(tài)冗余的能力,則,不管應(yīng)用自身的計算規(guī)模有多大,保證應(yīng)用可完成性的最大并行度只能約為128。6. 相關(guān)研究12通過簡化馬爾科夫模型,推導(dǎo)了計算冗余計算系統(tǒng)可靠性和可用性的速算公式,然而,這些公式并不能直接用于計算大規(guī)模計算系統(tǒng)的可用性,因為,大規(guī)模計算系統(tǒng)與榮譽計算系統(tǒng)的冗余程度不同,且,大規(guī)模計算系統(tǒng)能容忍的失效節(jié)點數(shù)目遠遠低于冗余計算系統(tǒng)。3建立了機群的馬爾科夫模型,但對于更大規(guī)模的模型,沒有給出計
20、算結(jié)果。4是國外關(guān)于大量大規(guī)模計算系統(tǒng)可靠性數(shù)據(jù)收集和分析的工作,然而對于國內(nèi),尤其是商用組件計算系統(tǒng)的可靠性,還有待進一步研究。7. 結(jié)論本文在故障信息收集的基礎(chǔ)上,探討了大規(guī)模計算系統(tǒng)可靠性和應(yīng)用可完成性建模與評價的問題。并以曙光4000A為例,進行了驗算。從本文入手,將進行更深入的可靠性模型和評價研究,如探討檢查點開銷對于應(yīng)用可用性的影響、以及異構(gòu)機群可靠性建模問題。8. 致謝本研究得到上海超級計算中心技術(shù)支持部經(jīng)理魏玉琪,系統(tǒng)管理員薛剛的大力支持。沒有他們的積極指揮和協(xié)調(diào),沒有他們的熱心幫助,沒有他們嚴肅認真地管理,本研究是無法完成的。圖表圖1 帶冗余節(jié)點的大規(guī)模計算系統(tǒng)模型圖2 帶冗
21、余節(jié)點的大規(guī)模計算系統(tǒng)可靠性MARKOV模型時間段2005年5月22日2005年5月28日2005年5月29日2005年6月4日2005年6月5日2005年6月11日2005年6月12日2005年6月18日日志總量(Byte)11,605,16038,017,1541,873,1139,197,791存儲節(jié)點周日志平均流量(Byte/s)19.1962.863.11.52全部節(jié)點周日志平均流量估計(Byte/s)633.272074.83102.350.16表1 故障數(shù)據(jù)量估計故障類型故障組件組件數(shù)量故障次數(shù)(k)故障率部件MTBF(天)可靠性R崩潰型Bare-bone52860.00311%3212099.99689%CPU211210.00013%77088099.99987%Memory-chip422420.00013%77088099.99987%MYRINET卡52810.00052%19272099.99948%電源51240.00214%4672099.99786%非崩潰型存儲144110.02093%477899.97907%
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 購物助手的市場營銷策略考核試卷
- 熟食超市開業(yè)活動方案
- 爆款拉新活動策劃方案
- 愛國衛(wèi)生日消毒活動方案
- 愛心書巢活動方案
- 愛心早餐志愿活動方案
- 愛心驛站開放日活動方案
- 愛民小學(xué)少先隊活動方案
- 父親節(jié)宣傳文案活動方案
- 牙膏宣傳活動方案
- 新教材北師大版必修第一冊unit1 life choices單詞短語句型寫作知識點提煉
- 小學(xué)六年級數(shù)學(xué)奧數(shù)題100題附答案(完整版)
- 譯林版六年級上冊英語1-8單元-單元測試卷(含答案)sc
- 貴州省貴陽市2023-2024學(xué)年七年級下學(xué)期期末考試生物試題(無答案)
- 廣東省湛江市2023-2024學(xué)年高二下學(xué)期7月期末考試化學(xué)試題
- 河南省周口市恒大中學(xué)2023-2024學(xué)年高二下學(xué)期7月期末考試數(shù)學(xué)試題
- 河南省鄭州市2023-2024高一下學(xué)期期末考試數(shù)學(xué)試卷及答案
- 黑龍江省哈爾濱市2024年七年級下學(xué)期生物期末試卷附答案
- 山東省鄒城市一中2024年高一數(shù)學(xué)第二學(xué)期期末檢測試題含解析
- 2022-2023學(xué)年廣西壯族自治區(qū)河池市高一下學(xué)期期末考試數(shù)學(xué)試題(解析版)
- REACH物質(zhì)管理協(xié)議書
評論
0/150
提交評論