




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 0修訂記錄課程編碼課程編碼適用產(chǎn)品適用產(chǎn)品產(chǎn)品版本產(chǎn)品版本課程版本課程版本ISSUEHC1309114統(tǒng)一存儲(chǔ)V1V1.0開(kāi)發(fā)開(kāi)發(fā)/優(yōu)化者優(yōu)化者時(shí)間時(shí)間審核人審核人開(kāi)發(fā)類(lèi)型(新開(kāi)發(fā)開(kāi)發(fā)類(lèi)型(新開(kāi)發(fā)/優(yōu)化)優(yōu)化)吳昊旻2014年3月14日張博新開(kāi)發(fā)本頁(yè)不打印Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. HC1309114統(tǒng)一存儲(chǔ)維護(hù)與故障統(tǒng)一存儲(chǔ)維護(hù)與故障診斷診斷Copy
2、right 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 2l學(xué)習(xí)完本章節(jié)后,您將能夠:p掌握存儲(chǔ)系統(tǒng)開(kāi)工失敗的處理流程p掌握存儲(chǔ)控制器故障的處理流程p掌握RAID組故障的處理流程p掌握鏈路異常的處理流程p了解MSCS的原理以及安裝部署流程目標(biāo)Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 3目錄1. 陣列開(kāi)工失敗陣列開(kāi)工失敗2. 控制器故障3. RAID故障4. 鏈路異常5. 硬盤(pán)故障6. MSCS介紹Copyright 2
3、013 Huawei Technologies Co., Ltd. All rights reserved. Page 4 陣列開(kāi)工失敗l陣列開(kāi)工失敗現(xiàn)象描述現(xiàn)象描述可能原因可能原因故障闡述故障闡述l開(kāi)工失敗通常發(fā)生在系統(tǒng)異常掉電后自動(dòng)恢復(fù)的過(guò)程中,機(jī)房搬遷后重新上電,或者是在更換控制框后。l陣列開(kāi)工失敗表現(xiàn)未ISM無(wú)法連接陣列進(jìn)行管理,控制器狀態(tài)指示燈綠燈閃爍,通過(guò)命令行登陸提示“system is not ready please wait”。l保險(xiǎn)箱盤(pán)所在硬盤(pán)框MAC地址和DB中記錄不一致;l主備控內(nèi)存大小不一致;l保險(xiǎn)箱硬盤(pán)不在位;l系統(tǒng)損壞;Copyright 2013 Huawei
4、 Technologies Co., Ltd. All rights reserved. Page 5陣列開(kāi)工失敗診斷思路NoImageCopyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 6控制器故障l常見(jiàn)開(kāi)工失敗處理策略p“master start VAULT failed” 主控啟動(dòng)保險(xiǎn)箱失敗p“master DEV start VAULT failed”設(shè)備管理啟動(dòng)保險(xiǎn)箱失敗p“read db failed”控制器讀DB失敗p“master start DEV failed”主控啟動(dòng)設(shè)備管理失敗Co
5、pyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 7目錄1. 陣列開(kāi)工失敗2. 控制器故障控制器故障3. RAID故障4. 鏈路異常5. 硬盤(pán)故障6. MSCS介紹Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 8故障診斷原則先外部,后內(nèi)部先外部,后內(nèi)部先整體,后局部先整體,后局部先高級(jí),后低級(jí)先高級(jí),后低級(jí)故障診故障診斷原則斷原則Copyright 2013 Huawei Technologies Co., Lt
6、d. All rights reserved. Page 9控制器故障l檢查控制器狀態(tài)檢查控制器狀態(tài)p控制器是能夠完成存儲(chǔ)業(yè)務(wù)處理、實(shí)現(xiàn)RAID、LUN映射、分條設(shè)置或其他業(yè)務(wù)和故障告警等功能的部件。通過(guò)瀏覽控制器信息,可以檢查控制器的健康狀態(tài)和運(yùn)行狀態(tài)信息。l對(duì)系統(tǒng)的影響對(duì)系統(tǒng)的影響p如果控制器出現(xiàn)故障,可能會(huì)導(dǎo)致讀寫(xiě)性能和可靠性降低,甚至業(yè)務(wù)中斷、數(shù)據(jù)丟失。l參考標(biāo)準(zhǔn)參考標(biāo)準(zhǔn)p在ISM管理軟件中:p控制器的健康狀態(tài)為“正常”,運(yùn)行狀態(tài)為“在線(xiàn)”。 p“事件管理”對(duì)話(huà)框中沒(méi)有新增與控制器相關(guān)的故障信息。Copyright 2013 Huawei Technologies Co., Ltd.
7、All rights reserved. Page 10控制器故障l控制器故障排查思路控制器故障排查思路p按照前面提到的先外部后內(nèi)部,先整體后局部的原則,首先應(yīng)該檢查系統(tǒng)指示燈和聲音告警,然后在檢查各個(gè)FRU部件的指示燈。若是控制器故障我們可以看到系統(tǒng)指示燈和控制器告警指示燈都紅燈常亮。最后再登陸ISM管理軟件檢查告警信息確認(rèn)控制器故障。l更換控制器更換控制器p在拔插控制器前需要確認(rèn)業(yè)務(wù)已經(jīng)停止或業(yè)務(wù)已切換至對(duì)端,并檢查主機(jī)多路徑是否工作正常;p檢查控制器緩存中的數(shù)據(jù)是否已寫(xiě)入硬盤(pán),如果沒(méi)有進(jìn)行寫(xiě)盤(pán)操作可以對(duì)控制器執(zhí)行offline操作,觸發(fā)寫(xiě)盤(pán)操作。 p更換控制器時(shí),如果兩個(gè)控制版本不一致,
8、在更換過(guò)程中會(huì)自動(dòng)進(jìn)行同步,此時(shí)需要時(shí)間較長(zhǎng),并可能出現(xiàn)控制器亮紅燈或者多次重啟現(xiàn)象。Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 11目錄1. 陣列開(kāi)工失敗2. 控制器故障3. RAID故障故障4. 鏈路異常5. 硬盤(pán)故障6. MSCS介紹Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 12 RAID組故障現(xiàn)象描述現(xiàn)象描述可能原因可能原因故障闡述故障闡述lRAID組故障與成員盤(pán)狀態(tài)有關(guān)。該RAID組故障時(shí)
9、不能承載業(yè)務(wù),導(dǎo)致業(yè)務(wù)數(shù)據(jù)丟失。l在ISM導(dǎo)航樹(shù)展開(kāi)“存儲(chǔ)資源”節(jié)點(diǎn),單擊“RAID組”。在右側(cè)的信息展示區(qū),故障的RAID組的“健康狀態(tài)”顯示為“故障”且“運(yùn)行狀態(tài)”顯示為“離線(xiàn)”。l硬盤(pán)框意外掉電 lRAID組成員盤(pán)被拔出 lRAID組成員盤(pán)被其他硬盤(pán)替換 lRAID組成員盤(pán)出現(xiàn)壞道或其他導(dǎo)致讀寫(xiě)失敗的故障l RAID組故障Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 13RAID組故障lRAID組故障排查思路Copyright 2013 Huawei Technologies Co., Ltd
10、. All rights reserved. Page 14RAID組故障lRAID組故障排查思路Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 15RAID組故障(RAID5雙盤(pán)失效處理)l定位思路定位思路 p在未修復(fù)RAID之前,切勿拔插任何硬盤(pán),避免搞混硬盤(pán)故障時(shí)間和硬盤(pán)位置。 p優(yōu)先修復(fù)RAID,再修復(fù)文件系統(tǒng)(若文件系統(tǒng)損壞的話(huà)),最后恢復(fù)業(yè)務(wù)。 p全部恢復(fù)正常后,更換故障硬盤(pán)。l處理過(guò)程處理過(guò)程p確定硬盤(pán)失效順序和時(shí)間。p檢查失效硬盤(pán)的物理和邏輯狀態(tài),如果失效硬盤(pán)物理狀態(tài)未fault則需要
11、嘗試將其拔插以恢復(fù)物理狀態(tài)為normal。p通過(guò)review命令恢復(fù)最后失效硬盤(pán)邏輯狀態(tài)為normal,使RAID組變?yōu)榻导?jí)狀態(tài)。p更換未恢復(fù)的故障硬盤(pán),是RAID組開(kāi)始重構(gòu)。p重構(gòu)完成后更換review命令恢復(fù)的硬盤(pán)。Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 16RAID組故障(RAID5雙盤(pán)失效處理)l定位思路定位思路 p在未修復(fù)RAID之前,切勿拔插任何硬盤(pán),避免搞混硬盤(pán)故障時(shí)間和硬盤(pán)位置。 p優(yōu)先修復(fù)RAID,再修復(fù)文件系統(tǒng)(若文件系統(tǒng)損壞的話(huà)),最后恢復(fù)業(yè)務(wù)。 p全部恢復(fù)正常后,更換故
12、障硬盤(pán)。l處理過(guò)程處理過(guò)程p確定硬盤(pán)失效順序和時(shí)間。p檢查失效硬盤(pán)的物理和邏輯狀態(tài),如果失效硬盤(pán)物理狀態(tài)未fault則需要嘗試將其拔插以恢復(fù)物理狀態(tài)為normal。p通過(guò)revive命令恢復(fù)最后失效硬盤(pán)邏輯狀態(tài)為normal,使RAID組變?yōu)榻导?jí)狀態(tài)。p更換未恢復(fù)的故障硬盤(pán),是RAID組開(kāi)始重構(gòu)。p重構(gòu)完成后更換revive命令恢復(fù)的硬盤(pán)。Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 17目錄1. 陣列開(kāi)工失敗2. 控制器故障3. RAID故障4. 鏈路異常鏈路異常5. 硬盤(pán)故障6. MSCS介紹C
13、opyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 18FC鏈路異常診斷思路Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 19FC鏈路異常處理步驟序號(hào) 問(wèn)題 解決方案 1陣列主機(jī)口與光纖交換機(jī)協(xié)商失敗1.更改陣列主機(jī)端口模式為點(diǎn)對(duì)點(diǎn)或者交換機(jī)模式,再重新連接2.更改陣列主機(jī)端口速率為1G、2G或者4G再重新連接 3.升級(jí)陣列版本2交換機(jī)zone配置問(wèn)題1.刪除原來(lái)的zone; 2.重新創(chuàng)建zone,保證陣列主機(jī)口
14、和業(yè)務(wù)服務(wù)器的HBA卡在一個(gè)zone里; 3HBA卡驅(qū)動(dòng)問(wèn)題1.卸載原有的HBA卡驅(qū)動(dòng)2.重新安裝新的HBA卡驅(qū)動(dòng)4硬件故障采用替換法確定故障點(diǎn),是光模塊還是光纖還是HBA卡故障,確定后更換。 Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 20FC鏈路異常處理步驟序號(hào)序號(hào)問(wèn)題問(wèn)題解決方案解決方案5 存儲(chǔ)單元端FC誤碼率過(guò)高登錄管理界面查看光纖端口誤碼情況,如果誤碼率持續(xù)增長(zhǎng),表示誤碼率過(guò)高,如果誤碼持續(xù)增長(zhǎng),屬于非正常情況,應(yīng)該從以下幾個(gè)方面排除誤碼: 1)查看存儲(chǔ)側(cè)是否有光模塊告警信息。2)更換光
15、纖線(xiàn)。3)更換主機(jī)端口。Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 21iSCSI鏈路異常診斷思路Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 22iSCSI鏈路異常處理步驟序號(hào)序號(hào)問(wèn)題問(wèn)題解決方案解決方案1 iSCSI主機(jī)端口IP地址或應(yīng)用服務(wù)器業(yè)務(wù)網(wǎng)口IP地址配置錯(cuò)誤1.確認(rèn)在應(yīng)用服務(wù)器上是否可以ping通iSCSI主機(jī)端口IP地址。2.確認(rèn)現(xiàn)場(chǎng)組網(wǎng)環(huán)境是直連組網(wǎng)還是交換機(jī)組網(wǎng)。直連組網(wǎng) = 步驟3
16、。交換機(jī)組網(wǎng) = 步驟4。3.修改iSCSI主機(jī)端口IP地址,使iSCSI主機(jī)端口IP地址與應(yīng)用服務(wù)器業(yè)務(wù)網(wǎng)口IP地址在同一個(gè)網(wǎng)段,然后轉(zhuǎn)至步驟5。您也可以在應(yīng)用服務(wù)器上修改應(yīng)用服務(wù)器的業(yè)務(wù)網(wǎng)口IP地址,使其與iSCSI主機(jī)端口IP地址在同一個(gè)網(wǎng)段上。4.分別為iSCSI主機(jī)端口和應(yīng)用服務(wù)器添加路由,使iSCSI主機(jī)端口和應(yīng)用服務(wù)器能夠通信,然后轉(zhuǎn)至步驟5。5.請(qǐng)?jiān)趹?yīng)用服務(wù)器上運(yùn)行ping命令查看網(wǎng)絡(luò)鏈路是否可以通,其中目的地址為存儲(chǔ)系統(tǒng)iSCSI主機(jī)端口IP地址。Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved.
17、 Page 23iSCSI鏈路異常處理步驟序號(hào)序號(hào)問(wèn)題問(wèn)題解決方案解決方案2應(yīng)用服務(wù)器與存儲(chǔ)系統(tǒng)之間的線(xiàn)纜松動(dòng)或損壞1.拔插或更換連接存儲(chǔ)系統(tǒng)與應(yīng)用服務(wù)器之間的網(wǎng)線(xiàn)。2.操作結(jié)束后,請(qǐng)?jiān)趹?yīng)用服務(wù)器上運(yùn)行ping命令查看網(wǎng)絡(luò)鏈路是否可以通,其中目的地址為存儲(chǔ)系統(tǒng)iSCSI主機(jī)端口IP地址。3.操作結(jié)束后,iSCSI主機(jī)端口的link指示燈是否亮綠色或藍(lán)色,且在ISM中該主機(jī)端口的“運(yùn)行狀態(tài)”顯示為“連接”。Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 24目錄1. 陣列開(kāi)工失敗2. 控制器故障3. R
18、AID故障4. 鏈路異常5. 硬盤(pán)故障硬盤(pán)故障6. MSCS介紹Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 25 硬盤(pán)故障現(xiàn)象描述現(xiàn)象描述可能原因可能原因故故障類(lèi)型障類(lèi)型l場(chǎng)景的硬盤(pán)故障主要包括:p無(wú)法識(shí)別;p介質(zhì)故障;p即將失效;p物理故障;l出現(xiàn)硬盤(pán)故障時(shí),硬盤(pán)指示燈都將紅燈常亮,并產(chǎn)生相應(yīng)告警,硬盤(pán)故障時(shí)會(huì)導(dǎo)致RAID組降級(jí)甚至失效。出現(xiàn)介質(zhì)故障時(shí)可能會(huì)導(dǎo)致部分?jǐn)?shù)據(jù)損壞。l硬盤(pán)與槽位接觸不良或硬盤(pán)故障l硬盤(pán)出現(xiàn)不可修復(fù)的壞道l硬盤(pán)可修復(fù)壞道達(dá)到閾值l硬盤(pán)磁頭、電機(jī)等故障l故障場(chǎng)景Copyri
19、ght 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 26 硬盤(pán)故障l存儲(chǔ)系統(tǒng)硬盤(pán)故障排查思路注:這里除接觸不良外都可以通過(guò)更換硬盤(pán)的方式解決,如果涉及到RAID失效時(shí),請(qǐng)參考RAID故障進(jìn)行處理。所有更換的硬盤(pán)必需是經(jīng)過(guò)華為認(rèn)證且和產(chǎn)品型號(hào)對(duì)應(yīng)的硬盤(pán),其他途徑獲取的硬盤(pán)存儲(chǔ)系統(tǒng)無(wú)法識(shí)別。Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 27 硬盤(pán)故障l硬盤(pán)SMART信息簡(jiǎn)介p硬盤(pán)SMART信息是硬盤(pán)生產(chǎn)商們建立的,硬盤(pán)上保存的
20、跟執(zhí)行情況、可靠程度、讀寫(xiě)錯(cuò)誤率等屬性相關(guān)的數(shù)據(jù);這些屬性反應(yīng)了硬盤(pán)當(dāng)前的健康狀態(tài),通過(guò)分析這些數(shù)據(jù)能判斷該硬盤(pán)是否具有風(fēng)險(xiǎn),比如硬盤(pán)即將失效就是通過(guò)SMART信息來(lái)判斷的,SMART信息中有如下常用的屬性:Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 28 硬盤(pán)故障硬盤(pán)SMART信息簡(jiǎn)介smartsmart判斷標(biāo)準(zhǔn)判斷標(biāo)準(zhǔn)Informational Exceptions log page正常情況該log page內(nèi)容在smart信息中為:IE asc = 0 x00 ascq = 0 x00 No
21、 additional sense information若為其他打印,如asc和ascq為其他值,則說(shuō)明硬盤(pán)存在異常,如溫度超標(biāo),或者硬盤(pán)出現(xiàn)即將失效的故障Total uncorrected errors正常情況該內(nèi)容在smart信息中為:Total uncorrected errors = 0若不為0,且為一個(gè)較大的值,則說(shuō)明該盤(pán)存在介質(zhì)故障的風(fēng)險(xiǎn)Grown Defect List正常情況該內(nèi)容在smart信息中為:Grown Defect List is empty,即Grown Defect List為空。若 “0 x000084-00-000004D3”這樣格式的打印,若行數(shù)較多,則
22、說(shuō)明存在介質(zhì)故障風(fēng)險(xiǎn)。Invalid DWORD count正常情況該內(nèi)容在smart信息中為:Invalid DWORD count = 0若為一個(gè)較大的值則說(shuō)明該盤(pán)存在鏈路故障的風(fēng)險(xiǎn)Running disparity error count正常情況該內(nèi)容在smart信息中為:Running disparity error count = 0若該值不為0則說(shuō)明該盤(pán)存在鏈路故障的風(fēng)險(xiǎn)Loss of DWORD synchronization正常情況該內(nèi)容在smart信息中為:Loss of DWORD synchronization = 0若為一個(gè)較大的值則說(shuō)明該盤(pán)存在鏈路故障的風(fēng)險(xiǎn)Copyright 2013 Huawei
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 餐廳服務(wù)員崗位面試問(wèn)題及答案
- 醫(yī)療器械注冊(cè)專(zhuān)員崗位面試問(wèn)題及答案
- 2025屆湖北省蘄春縣高二化學(xué)第二學(xué)期期末綜合測(cè)試模擬試題含解析
- 景區(qū)規(guī)劃組團(tuán)管理辦法
- 林業(yè)校園食堂管理辦法
- 供熱辦法分戶(hù)管理辦法
- 根據(jù)處方管理辦法關(guān)于
- 校園踩踏事故管理辦法
- 景區(qū)考察接待管理辦法
- 投資策略:股權(quán)市場(chǎng)分析
- 肺動(dòng)脈高壓講課件
- 呼吸困難的識(shí)別與護(hù)理
- 熱射病的護(hù)理
- 小學(xué)英語(yǔ)學(xué)科融合教學(xué)心得體會(huì)
- 《高級(jí)工程師施工管理》課件
- 中國(guó)2型糖尿病防治指南(2024版)解讀課件
- 2024年三副貨物積載與系固題庫(kù)
- 康養(yǎng)項(xiàng)目的可行性研究報(bào)告
- 2025年四川成都東部新區(qū)政務(wù)服務(wù)中心招聘窗口人員18人歷年自考難、易點(diǎn)模擬試卷(共500題附帶答案詳解)
- TCAMA 109-2024 半封閉溫室設(shè)計(jì)規(guī)范
- 《摩爾根果蠅實(shí)驗(yàn)》課件
評(píng)論
0/150
提交評(píng)論