




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、資料編碼產(chǎn)品名稱ibm小型機使用對象產(chǎn)品版本編寫部門資料版本p55a小型機故障基本定位方法擬制:日期:審核:日期:審核:日期:批準(zhǔn):日期:版權(quán)所有侵權(quán)必究修訂記錄日期修訂版本描述作者目錄第1章故障的定義1第2章故障信息的收集12.1 收集故障信息對于判斷診斷故障原因修復(fù)系統(tǒng)非常重要12.2 系統(tǒng)故障記錄(errorlog)12.3 控制面板上的led代碼32.4 sms (system management service) 故障記錄42.5 mail42.6 運行故障診斷程序(diagnostic)對系統(tǒng)硬件進(jìn)行檢查和診斷42.7 其他用于收集系統(tǒng)信息的命令4第3章硬件故障定位方法73.1
2、ipl 流程73.2 系統(tǒng)的啟動順序:73.3 系統(tǒng)不能啟動83.4 系統(tǒng)停在551555或55783.5 cde圖形界而掛死93.6 系統(tǒng) dump10第4章7133-d40ssa磁盤柜的故障定位12第5章軟件故障定位方法125.1 文件系統(tǒng)空間不夠125.2 檢查文件系統(tǒng)的完整性135.3 査看卷組信息(lsvglvg_ name)135.4 檢查內(nèi)存交換區(qū)(pagingspace)使用率(lsps-s)135.5 小型機內(nèi)存泄漏問題13第6章常用的系統(tǒng)狀態(tài)查詢命令15第7章網(wǎng)絡(luò)故障定位方法167.1 網(wǎng)絡(luò)不通的診斷過程167.2 網(wǎng)絡(luò)配置的基本方法16第8章hacmp環(huán)境下的排錯178.
3、1 了解問題的存在178.2 判斷問題的岀處17第9章附常用命令列表19關(guān)鍵詞:故障處理ibm aix hacmp摘 要:縮略語清單:參考資料清單:第1章故障的定義根據(jù)以下這些方面來考慮故障定位:弄清楚系統(tǒng)發(fā)牛了什么問題系統(tǒng)現(xiàn)在能做什么不能做什么故障什么時候發(fā)生的有沒有做平時不同的操作故障有沒有規(guī)律定時還是不定時發(fā)生的頻率有多高是一臺機益出現(xiàn)故障還是多臺機器故障故障現(xiàn)象是否相同最近有沒有做改動如女裝了新的硬件軟件改變了系統(tǒng)的一些設(shè)置第2章故障信息的收集2.1收集故障信息對于判斷診斷故障原因修復(fù)系統(tǒng)非常重要2.2系統(tǒng)故障記錄(errorlog)errdemon進(jìn)程在系統(tǒng)啟動時自動運行記錄包括碩件
4、軟件及其他操作信息故障記錄文件為/var/adm/ras/errlog可備份下來或拷貝到別的機器上分析errpt命令的使用(普通用戶權(quán)限也町使用)#errpt |more列出簡短出錯信息error_idtimestamp t c resource_name errordescription192ac0710723100300 t 0 errdemon error logging turned off0e017ed10720131000 p h mem2 memory failure9dbcfdee0701000000 t 0 errdemon error logging turned on03
5、8f25800624131000 u h scdisko undetermined erroraa8ab2410405130900 t 0 operator operator notificationtimestamp: mmddhhmmyy (月日時分年t類型:p永久;t臨時;u未知永久性的錯誤應(yīng)引起重視c分類:h硬件;s軟件;0用戶;u未知#errpt -d h列出所有硬件出錯信息#errpt -d s列出所有軟件出錯信息#errpt -aj error_id列出詳細(xì)出錯信息# errpt -aj 0502(666 <- error_id用大小寫均可例label: scs1_err1
6、id: 0502f666date/time: jun 19 22:29:51sequence number: 95machine id: 123456789012node id: hostlclass: htype: permresource name: scsioresource class: adapterresource type: hscsilocation: 00-08vpd: < virtal product datadevice driver leveloodiagnostic leveloodisplayable messagescsiec levelc25928fru
7、number30f8834manufactureribm97fpart number59f4566serial number00002849ros level and id24read/write register ptr0120descriptionadapter errorprobable causesadapter hardware cablecable terminator devicefailure causesadaptercable loose or defectiverecommended actionsperform problem determination procedu
8、rescheck cable and its connectionsdetail datasense data0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 00002.3控制面板上的led代碼8位代碼通常系統(tǒng)故障燈會同時亮起某些機型還會同時顯示故障設(shè)備位置代碼4位代碼通常是exxx3位代碼通常為oyyy只看后3位8位和4位代碼可查看系統(tǒng)服務(wù)于冊(service guide)3 位代碼可査看系統(tǒng)診斷手冊(diagnostic information for multiple bussystem)閃動的88&系統(tǒng)崩潰破件或軟件
9、原因造成按reset鍵會顯示更多內(nèi)容888-102 一-般為軟件故障888-102-207例外系統(tǒng)會產(chǎn)牛一個dump888-102-xxx-0c9系統(tǒng)正在做dump,請等待888-102-xxx-0c0系統(tǒng)dui叩完成可關(guān)電重啟888-103 或105鎖件故障一般有srn代碼及位置代碼2.4 sms (system management service)故障記錄如何進(jìn)入sms菜單當(dāng)主控臺出現(xiàn)鍵盤圖標(biāo)后(led顯示e1f1時)按1鍵選擇"utilities"選#z/error log",抄下8位故障代碼在sms中還可以更改系統(tǒng)卅動順序表2.5 mail#mai 1系
10、統(tǒng)會向root川戶發(fā)ma訂報告出錯信息通常系統(tǒng)出現(xiàn)故障后沒有進(jìn)行檢查 修復(fù)系統(tǒng)會定時提iw.root2.6運行故障診斷程序(diagnostic)對系統(tǒng)硬件進(jìn)行檢查和 診斷當(dāng)發(fā)現(xiàn)冇碩件故障時應(yīng)立即使ffldiag#diag> 選高級診斷advance diagnostic)> 選問題診斷problem determination)或選系統(tǒng)檢查system verification)(選pd會對系統(tǒng)錯誤記錄進(jìn)行分析)di鷗運行后會給出srn代碼故障設(shè)備名稱及百分比地址代碼等 對于pci機型應(yīng)在系統(tǒng)報錯7天之內(nèi)運行diag程序?qū)Τ鲥e記錄里的sense 數(shù)據(jù)進(jìn)行分析2.7其他用于收集系統(tǒng)
11、信息的命令lsdev -c系統(tǒng)設(shè)備信息#lsdev -co diskhdisko available 00-06-00-2,0 45 gb 16 bit scsi disk drivehdiskl available 00-06-00-1,0 45 gb 16 bit scsi disk drivehdisk2 defined 00-06-00-4, 0 16 bit scsi disk driveispv查看物理卷信息#lspvhdisko0007821160af3d76 rootvghdiskl000782117f571294 rootvghdisk20000000045c45bdo da
12、tavglsvg查看卷組信息#lsvg datavgvolume group: datavg vg identifier: 0000000055e2458bvg state: active pp size: 4 megabyte(s)vg permission: read/write total pps: 2169 (8676 megabvtmax lvs: 256 free pps: 1 (4 megabytes)lvs: 3 used pps: 2168 (8672 megabytopen lvs: 2 quorum: 2total pvs: 1 vg descriptors: 2stal
13、e pvs: 0 stale pps: 0active pvs: 1 auto on: yesmax pps per pv: 2032 max pvs: 16#lsvg -1 rootvgrootvg:lv name type lps pps pvs lv state mount point hd5 boot 111 closed/syncd n/alvoo jfs 51 102 1 closed/stale /ibmcxx lvol jfs 1 1 1 open/syncd /cics_regions lv02 jfs 441 open/syncd /var/mqm lslpp查看文件紐信息
14、# lslpp -l |grep 23100020devicespci23100020rte 4327 c ibm pci 10/100 ethernet adapt 看某個文件組是否c安裝如以太網(wǎng)卡驅(qū)動也用于查詢補丁程序的版木isattr查看設(shè)備參數(shù)設(shè)置# isattr -el ent2busio 0x7fffc00 bus i/o address false busintr 9 bus interrupt level falseintr_priority 3 interrupt priority false tx_que_size 512 transmit queue size truer
15、x_que_size 256 receive queue size truerxbuf_pool_size 384 receive buffer pool size truemedia_speed 10_half_duplex media speed true use_alt_addr no enable alternate ethernet address true alt_acldr 0x000000000000 alternate ethernet address true ip_gap 96 tnter-packet gap trueiscfg 查看vpd信息virtual produ
16、ct data)# iscfg "vl ssaldevice location descriptionssal 30-68 ibm ssa enhanced raid adapter(14104500)part number097h0645fru number097h0645-備件號serial numberc8217227ec level0000f20825manufactureribm053ros level and 1d7201 <微碼版本loadable microcode leveloddevice driver leveloodi splayable message
17、ssa- adapterdevice specific (z0) drm1=o32device specif ic (z1) caciie=0device specific(z2)000000062955dab2device specific(yl)p2-i7 <槽號 不同的便件設(shè)備有不同的vpd所含的格式和信息都不一樣通常備件號和微碼 版本最有參考價值注fru(field replace unit)才是真正的備件號第3章硬件故障定位方法ibm小型機故障定位方法包括小型機i/o柜上的顯示面板上的checkpoints信 息err or code 和srnscheckpoints檢查點是系
18、統(tǒng)加電cmos初始化程序(initial program load (tpd)運行后顯示在i/o柜的顯示面板上一系列信息3.1 ipl流程當(dāng)交流電源接到系統(tǒng)后ipl流程就開始了 1pl流程包括四個步驟phase 1: service processor 的初始化phase 1開始于交流電源接到系統(tǒng)后直到ok顯示在i/o柜上的顯示面板上為 止在這個步驟會顯示8xxx或9xxx checkpoints代碼phase2:由serviceprocessor'ji導(dǎo)的破件初始化phase2開始于按下i/o柜上的白色電源開關(guān)在這個步驟會顯示9xxx checkpoints91ff是最后的代碼標(biāo)志著
19、第三步驟的開始phase3:系統(tǒng)固件的初始化在phase3, 一個系統(tǒng)處理器接管控制并繼續(xù)初始化系統(tǒng)資源在這個步驟會顯 示exxxeloo是最后的代碼標(biāo)志著第四步驟aix啟動的開始在這個過程中還會 顯示各種位置碼位置碼代表著系統(tǒng)的每一個部分phase4:aix啟動當(dāng)aix開始 啟動時顯示血板上的代碼為oxxx同時位置碼會岀現(xiàn)在第二行當(dāng)atx的背錄窗 口出現(xiàn)在控制臺上時第四步驟結(jié)朿同時顯示而板上再無任何信息出現(xiàn) errorcode當(dāng)系統(tǒng)運行有錯誤發(fā)現(xiàn)時一個8位碼會顯示在顯示面板上同時在第 二行顯示相對應(yīng)問題硬件的位置碼srnsservicerequestnumbers,服務(wù)請求碼 當(dāng)系統(tǒng)運行有錯
20、誤發(fā)現(xiàn)時srns碼會以xxx-xxx的形式顯示在顯示面板上同時 在aix的errorlog中也會有記載以上所有代碼都會有相應(yīng)的步驟解決由于代 碼繁多請在出現(xiàn)問題后記錄下代碼并致電ibm服務(wù)熱線3.2系統(tǒng)的啟動順序:系統(tǒng)的丿1動(pci吃號)stage 2. flb h ob flb flb : 任d汗昭顯示dyyy代碼|攏至可俎的bootimagefi見示”softara starting please wait* ;更標(biāo)酒失.按bootlhsl 査找啟動設(shè)備stage 1lede1f103000999 » c32/c33<>圖標(biāo)伴椅:樓盤. 存、網(wǎng)絡(luò).scsi.嵯測所有
21、的硬盤.設(shè)各.更新odm等檢別電埠.cpu-內(nèi)存尊fxx. exxx 或 8& 代碼:570: scsi 55*:80c. ssa ® 盤:581: tcfmp 子殺統(tǒng)3.3系統(tǒng)不能啟動系統(tǒng)停在stage 1可能為電源系統(tǒng)板cpu內(nèi)存等碩件故障記錄故障代碼通知ibm 工程師系統(tǒng)停在stage2可能是啟動順序表(boot li st)損壞或i/o子系統(tǒng)故障 可嘗試進(jìn)入sms菜單檢杳啟動順序表并修改若在選擇bootlist時沒有啖盤設(shè) 備可選或顯示的硬盤信息不正確則可能是硬盤故障若根木沒有scsi設(shè)備可選 則鏈路有問題系統(tǒng)停在stage3nf能是破盤數(shù)據(jù)損壞系統(tǒng)設(shè)置文件出錯或i/
22、o 子系統(tǒng)故障3.4系統(tǒng)停在551555或557發(fā)牛在系統(tǒng)啟動的第三階段(stage3)可能是文件系統(tǒng)損壞文件系統(tǒng)口志(jfslog)損壞rootvg中有壞硬盤修復(fù)方法用系統(tǒng)光盤或系統(tǒng)備份帶卅動必須與硬盤中的操作系統(tǒng)版木一致啟動后選擇選項3"st artmeiintendncehodefoi'systenirecovety">"accessdrootvoluinegroup">,accessthisvolumegroupandstartashell bcforcmountingthefilesystemsz, 格式化文件系統(tǒng)日,忐(j
23、fslog)#/usr/sbin/logform/dev/hd8檢査修復(fù)文件系統(tǒng)#fsck -y/dev/hdl/home文件系統(tǒng)#fsck -y/dev/hci2/usr文件系統(tǒng)#fsck -y/dev/hd3/tmp文件系統(tǒng)#fsck -y/dev/hd4/文件系統(tǒng)#fsck -y/dev/hd9var/var文件系統(tǒng)川exit命令退出文件系統(tǒng)會自動mount起來重建bootimage#lslv - m hd5 找出 boot image 所在的碾盤如 hdisko#bosboot - ad /dev/hdisko#bootlist - in normal/dev/hdisko重建啟動順序
24、表重啟動系統(tǒng)#shutdown -fr如上述步驟不奏效用系統(tǒng)備份帶恢復(fù)系統(tǒng)如備份帶不能恢復(fù)用診斷光盤diagnosticcdrom檢查是否壞硬盤3.5 cde圖形界面掛死cde運行時不要更改網(wǎng)絡(luò)參數(shù)如主機名和ip地址更改網(wǎng)卡設(shè)置請先退ii1cde圖形環(huán)境選擇命令行方式登錄在字符界而下 更改如cde已經(jīng)掛死遠(yuǎn)程telnet背錄找出所有dt有關(guān)的進(jìn)程用kill命令殺掉#ps ef|grepdt#killpid檢杳當(dāng)前主機名#hostnametscf50查看主機名是否對應(yīng)有效的ip地址#netstat -i|greptscf50tr0*1500918540tscf5050604902824700更改
25、主機名或【卩地址使主機名與當(dāng)前有效的叩地址存在對應(yīng)關(guān)系#smittytcpip重新丿rl動cde界而#/etc/rcdthacmp環(huán)境下可把主機名alias到127001±#cat /etc/hosts127001_loopbacklocalhosttscf50#loopback(loo)name/addressbvg3.6 系統(tǒng) dump發(fā)牛在系統(tǒng)崩潰時aix會做dump(系統(tǒng)內(nèi)存的快照)此時機器會顯示閃動的888102xxx0cx代碼0c9系統(tǒng)dump進(jìn)行中0c9狀態(tài)可能會維持超過2分鐘不要關(guān)電和按reset,等待dump做完ocodump成功完成這時口 j以斷電匝起0c2手動啟
26、動dump功能0c4dump設(shè)備空間不足只有部分信息保存下來0c5不明原因?qū)е耫ump失敗一般dump是由于軟件出錯引起(888-102-207除外)機器通??梢灾貑⒅貑r可能提示用戶插入磁帶拷貝dump文件不要選擇退出這樣會丟失重要的故障信息dump的冇關(guān)設(shè)置估算系統(tǒng)dump的大小在系統(tǒng)最繁忙時內(nèi)存使用最多#sysdumpdev 一e0453-04lestimateddumpsizeinbytes:53477376#lsps -apagespacephysicalvolumovolumegroupsize%usedactivepaging00hdisk0rootvg480mblyeshd6h
27、disklrootvg544mb1yes當(dāng)前的設(shè)置#sysdumpdev tprimary /dev/hd6<-dump的主設(shè)備secondary /dev/sysdumpnullcopydirectory /var/adm/ras<-dump拷貝的 冃錄forced copy flag truealways allow dump truehd6應(yīng)比估算值稍大/var/adm/ras是默認(rèn)的dump拷貝|j錄比較估并值保證/var文件系統(tǒng)有足夠的剩余空間拷貝dump文件否則機器重起時會提示用戶插入磁帶dump.文件名為vmcore #對pci機型如要丁動做dump須把'
28、39;al waysal lowdump,/先設(shè)成true#sysdumpdev -kdump打包#snap - a -0/dev/rmt#或#snap - a -c把/tmp/ibmsupt目錄做成一個壓縮文件snaptarz如果/tmp文件系統(tǒng)空間不夠可用-ddirectory參數(shù)指定別的目錄代替/tmp/ibmsupt第4章7133-d40ssa磁盤柜的故障定位當(dāng)ssa磁盤柜出現(xiàn)故障吋在磁盤柜而面板的液晶顯示屏上會顯示和應(yīng)的srns, 同時黃色的顯示燈會閃動在aix的errorlogh'也會有記載錯誤信息如disk_err1 disk_err4ssa_array_error等請在
29、出現(xiàn)問題后記錄下代碼并致電ibm服務(wù)熱 線第5章軟件故障定位方法軟件故障情況錯綜復(fù)雜下血列舉幾個常見案例的故障處理方法5.1文件系統(tǒng)空間不夠查看有沒有一滿的文件系統(tǒng)特別是/var/tmp不要超過90%文件系統(tǒng)滿可導(dǎo)致系統(tǒng)不能正常工作尤其是aix的基本文件系統(tǒng)如/(根文件系統(tǒng))滿則 會導(dǎo)致用戶不能登錄用df_k杳看#df -k (杳看aix的基木文件系統(tǒng))filesysteml024-blocksfree%usediused%lusedmountedon /dev/hd424576145295%259922%/dev/hd26144002806896%2296715%/usr/dev/hd9va
30、r8192454045%64932%/var/dev/hd31679361579686%891%/tmp/dev/hdll6384533268%140235%/home除/usr文件系統(tǒng)其他文件系統(tǒng)都不應(yīng)太滿一般不超過80%處理方法1刪除垃圾文件#du -sk*|sort -rn head杳找出當(dāng)前口錄下占空間最人的子口錄逐層往下直到找出占空間最大的文件 要區(qū)分哪些冃錄是文件系統(tǒng)的mountpoint哪些是文件系統(tǒng)的子冃錄刪除文件 釋放空間有時刪除文件后空間并不馬上釋放這是由于你刪除的文件正被某個 程序打開只有當(dāng)這個程序停止后空間才釋放有時甚至需要重起系統(tǒng)處理方法2增加文件系統(tǒng)大小#smitt
31、y chjfs文件系統(tǒng)可以在任何時候加人前提是卷組(vg)h'有剩余空間5.2檢查文件系統(tǒng)的完整性#umount filesystem name#fsck - y filesystem_name注意文件系統(tǒng)必須先umount再做檢查和修復(fù)否則可導(dǎo)致未 知的后果5.3查看卷組信息(lsvg-lvg_name)有沒有”stdle狀態(tài)的邏輯卷若有用syncvg命令修復(fù)"stale"邏輯卷5.4檢查內(nèi)存交換區(qū)(pagingspace)使用率(lsps-s)使用率是否超過70%若有則用chpssxpgname增加x個pp或用mkps - a -n-sx myvg在myvg上增
32、加一個pp數(shù)為x的內(nèi)存交換區(qū)5.5小型機內(nèi)存泄漏問題小型機出現(xiàn)內(nèi)存泄漏即系統(tǒng)或應(yīng)用進(jìn)程無法將使用過的內(nèi)存釋放使可用內(nèi)存 的容量逐漸減少如杲可用內(nèi)存降到某垠小值將造成系統(tǒng)或應(yīng)用程序無法fork 了進(jìn)程就會造成系統(tǒng)癱瘓通常我們可以用psfilsar命令來查看小型機內(nèi)存和 cpu占用率的大概情況以及各進(jìn)程的內(nèi)存和cpu占用率的發(fā)展趙勢(a) ps#psgv head nl;psgv|egrep v"rss"|sort+6b 7 n r|head n5pidttystahimepginsizersslimtsiztrs%cpu%memconmand15674pts/lla0:010
33、36108361723276852406240/tctestp22742pts/lla0:00020748208123276852400140/backups10256pts/la0:00015628156923276852400110/tctestp2064-a2:135646448xx063920040kproc1806-a0:200166408xx063920040kprocsize virtual size(in the paging space), in kilobytes,rss real-memory (resident set) size in kilobytes of the
34、 process 通過不同時間輸出的比較就能觀察出內(nèi)存和cpu占用率的基本情況找出其中 占用內(nèi)存數(shù)不斷變?nèi)说倪M(jìn)程這個進(jìn)程可能就已經(jīng)發(fā)生了內(nèi)存泄漏(b) sar指令也町以查看cpu占用率但統(tǒng)計的結(jié)果不是很準(zhǔn)確通常使用sar令 的格式為#sar - p all 2 1009:29:37cpu%usr%sys%wio%idle09:29:39000495110495-0049509:29:41002692134291-2349209:29:43031294122295-2129409:29:45022790145686-3368809:29:47011296112296-1129609:29:490
35、000100101099 -00010009:29:51020098101098-1009809:29:53071686122590-5258809:29:55045563511225532-84553309:29:570168146411591165-1581264average0321085143885-42985表示2秒鐘輸出一次結(jié)呆總共有10次結(jié)呆然后平均h前如果發(fā)現(xiàn)內(nèi)存泄漏最好重新啟動系統(tǒng)第6章常用的系統(tǒng)狀態(tài)查詢命令#lsdev - c -sscsi列出各個scsi設(shè)備的所有相關(guān)信息如邏輯單元號碩件地址及設(shè)備文件名等#ps -ef列岀止在運行的所有進(jìn)程的各種信息如進(jìn)程號及進(jìn)程名等#n
36、etstat -rn列出網(wǎng)卡狀態(tài)及路由信息等#netstat 一in列岀網(wǎng)卡狀態(tài)及網(wǎng)絡(luò)配置信息#df -k列出已加載的邏輯卷及其大小信息#mount列出已加載的邏輯卷及其加載位置#uname 一a列出系統(tǒng)id號系統(tǒng)名稱os版木等信息#hostname 列岀系統(tǒng)網(wǎng)絡(luò)名稱#lsvg - 1 rootvg, lsvg - p rootvg顯示邏輯卷組信息如包含哪吐物理盤及邏輯卷等#lslv -1 datalv,lslv -p datalv顯示邏輯卷各種信息如包含哪些盤是否有鏡像等第7章網(wǎng)絡(luò)故障定位方法7.1網(wǎng)絡(luò)不通的診斷過程ifconfig查看網(wǎng)卡是否啟動(up)n etstat i查看網(wǎng)卡狀態(tài)te
37、rrs/ipktslloerrs/opkts 是否1%ping自己網(wǎng)卡地址(ip地址)ping其它機器地址如不通在其機器二用diag檢測網(wǎng)卡是否有問題 在同一網(wǎng)"“subnet mask應(yīng)一致7.2網(wǎng)絡(luò)配置的基本方法(1) 如需修改網(wǎng)絡(luò)地址主機名等一定要用chdev命令#chdev -1 ineto a hostname二myhost#chdev - 1 eno - a netaddr=,9324058, - a netmask=2552552550_(2) 查看網(wǎng)卡狀態(tài)ttlsdev -cc if(3) 確認(rèn)網(wǎng)絡(luò)地址#ifconfig eno(4) 啟動網(wǎng)卡#ifconfige n
38、o up(5) _配置路由有兩種方式加入路由永久路由#chdev - 1 inet0-aroute=_104700_, _9324059_臨時路由#route add 1047129324059用命令netstat -m查看路由表第8章hacmp環(huán)境下的排錯在-般情況下,hacmp軟件很少需要手工干預(yù),但一口有問題發(fā)生,診斷和恢 復(fù)的技巧是很重要的需要能很快地斷定問題然后運用你對hacmp的理解來恢 復(fù)hacmp的正常運作一般地,hacmp環(huán)境下的排錯包括:了解問題的存在判斷 問題的出處解決問題8.1 了解問題的存在您對以通過以下途徑了解到一個cluster環(huán)境下出現(xiàn)了問題最終用戶的投訴,他們
39、無法訪問應(yīng)用程序控制臺上出現(xiàn)一些iiacmp的信息應(yīng)川服務(wù)無法訪問最終用戶的抱怨通常預(yù)示clusters現(xiàn)了問題他們無法正常執(zhí)行應(yīng)用或是無 法背錄到系統(tǒng)我們必須采集到詳細(xì)的信息以判斷到底那里出現(xiàn)了問題是否有 錯誤的信息提示?如果可能的話,讓用戶巫復(fù)步驟以確足那里是錯誤的開始您 也可以在自己的系統(tǒng)上重復(fù)要知道用戶應(yīng)用不可用并不代表hacmp有問題問 題對能出現(xiàn)在應(yīng)用程序本身或是它的啟動或終止腳本出現(xiàn)了問題因此應(yīng)用程 序木身的排錯也應(yīng)是ha排錯的一部分2控制臺上出現(xiàn)一些hacmp的信息在hacmp啟動,終止或;ii錯時,控制臺上會出現(xiàn)一些hacmp的信息,同時也會寫 入柑應(yīng)的文件中8.2判斷問題的
40、出處當(dāng)錯誤出現(xiàn)時,我們應(yīng)嘗試發(fā)現(xiàn)錯誤的所在但我們常常被錯誤的表血所誤導(dǎo) 以下的步驟可以使我們得到更詳細(xì)的信息1保存好一些log文件(/tmp/hacmp. out&/imp/cm. log)因為它們可能被覆蓋2仔細(xì)檢查hacmp所產(chǎn)生的log文件它們能提供最初的判斷線索3用iiacm卩的工具和atx的命令來檢查iiacmp的部件是否正常4打開hacmp的跟蹤工具來產(chǎn)生更詳細(xì)的信息iiacmp的log文件:以下文件都是文本文件,可以用vi來看每個日志文件都含有 每個信息的產(chǎn)牛時間/usr/adm/cluster. log:記錄了hacmp的狀態(tài),由ha的守護(hù)進(jìn)程所產(chǎn)生/tmp/hacmp
41、. out:記錄了ha的詳細(xì)腳本 /usr/sbin/cluster/history/cluster. mmdd:記錄了ha的各個事件的發(fā)生 /tmp/cm. log: lllclstrmgr進(jìn)程產(chǎn)生,每次ha重起時會被覆蓋hacmpforaix 的結(jié)構(gòu)應(yīng)用層hacmp軟件層lvm&tcp1p層aix層物理網(wǎng)絡(luò)層物理破盤層便件層在物理網(wǎng)絡(luò)層,物理便盤層,硬件層,lvm&tcpip層,atx層我們可以用atx 系統(tǒng)命令來看是否皺件和系統(tǒng)出現(xiàn)了問題-般地,在用ecpt命令來看沒有類 世為ph的錯誤,lsvg -。來看我們所須的vg已varyon, mount來看我們所須的文 件系統(tǒng)
42、已安裝,netstat -i來看我們所須的servicelp是up的狀態(tài)(或用 if config en *), cluster node 之間白勺 service 與 servicelp, stan dby 與 standby ip互相可以ping通在各個節(jié)點上執(zhí)行stty«/dev/tty*有相應(yīng)的信息出現(xiàn)說 明彼件層,lvm&tcp1p層,a1x層沒有問題,問題可能出現(xiàn)在應(yīng)用層與hacv1p軟件 層上否則問題就出現(xiàn)在相應(yīng)的層次上在hacmp軟件層上,我們可以用 vi/tmp/hacmp. out來看,如果出現(xiàn)eventfa訂ed的字段,則有可能問題出現(xiàn)在 該層,如果在問
43、題出現(xiàn)的時段,hacmp. out無信息出現(xiàn),則問題可能出現(xiàn)在應(yīng)用 層以下是ha排錯的一些守則:在第一時間保存好相關(guān)的日志文件,特別是那些會被覆蓋的文件嘗試去重復(fù)問題的岀現(xiàn)不要被用戶所反映的問題迷惑漸進(jìn)地去重復(fù)問題,如果有多個可能導(dǎo)致問題的出現(xiàn),一個一個地去重復(fù),而 不要一次重復(fù)多個可能不要憑經(jīng)驗來判斷問題,而是要在各種測試后,由結(jié)果來判斷隔離問題的來源,根據(jù)我們上而所敘述的層次關(guān)系,至頂向下地診斷山簡到繁地做測試,我們先從-個簡單的環(huán)境來做測試,不要嘗試在一個復(fù)雜 的環(huán)境中測試一次做一次改動,否則我們無法知道是那個改動解決了問題不要忽略各種可能,因小可失大,留心系統(tǒng)的每一個細(xì)節(jié),包括電源,插
44、頭,連 線等保持各種測試的記錄以及解決的步驟,用做將來排錯的參考撥打ibm服務(wù)熱線,將問題現(xiàn)象和您所做的測試結(jié)果告訴ibm的工程師,他們將 在callcenter的測試屮心重復(fù)試驗,必耍時會派工程師到場解決問題第9章附常用命令列表any xxxx, 林林.or x is to be substituted by a name, resource name or 儀 fn = filenamedir = directoiy| = pipe symbolbosboot -a -d /dev/hdiskx -rebuilds boot rec ord'image on boot devicc
45、(hdiskx)cat view contents of a filecat /tmp/*.1 -view a file, look at outpulcat fii fn > new file -combines two hies to a single filecd -will retum you to default dircd / -will put in root dircd /xxxx -change you to a dir anywhere is systemcd will drop you out of 1 dir at a time cd xxxxx -will ch
46、ange you to a dir in current dir cfgmgi* will auto con fig devices cfgmgi* & -(-v) shows processes (&) puts in background clips s xx hd# -increase paging space (xx=# of addfl pps) cp oldfii newfii -copy a file cp oldfii dim copy a hie to another directory crontab -1 -list crontab entries for
47、 the cunent user ctrl + v -will page down 1 page ctrl + 6 -will page up 1 page del fn -same as rm -mts to remove fn df-1 -shows status of file systems (no inodes) df-lk -(k) show status in 1024 bites( lmb)(only aix 4 diag -a -updates changes in hardware configuration diag * -*= a device typefas
48、 tape,diskfastpath) diag -cd rmtx -resets tape drive dosiorinat formats a diskette to dos dosdir -list files on dos formated diskette dosread xx yy -copies dos file xx to aix file y y doswrite yy xx -copies aix file yy to dos file xx cript generates a one line synopsis of logged eno is eript pg list
49、 errorlog 1 page a time( 1st column is id) eript displays detailed information of logged errors cript s mmddhhinmyy select entries posted later than date errpt -aj xxxxxxx -list detai i error by id number.(xxx= 1 st column) eript s list software eirors eript -j xxxxxxx -list summary report by id num
50、ber.cript -an xxxxxx lisl detailed report by resource name column cript n xxxxxxx list summaiy report by resource name column errclear 0 clears eirorlog errclear n xxxxx 0 -c lea is errorlog by resource name, oall enter errclear j xxxxx 0 -clears errorlog by id number finger -same as who but with mo
51、re details flcopy -copies a diskette to another diskette format formats a diskette in default diskette drive format -i - formats in lower denity: 1.44 on 2.44 / 720 on 1.44 hostname -responds with host system name host (hostname)responds with internet address in st fix -ik 1par# - lists ipar fix was
52、 completely installedfippchk -v -checks install status of lppsippchk 2> /dev/lpx sends output of ippchk to printer ipx inut久t -n 久 ii -vipvv 久11 nrintpr nilaiipqis -lia -list details of files, current dir & subdir is -al list details of files or dir in current dir lsatlr ei xxxxxx list specif
53、ic settings on a device is dev c sort d list system hardware (devices) is dev c grep 00-ox - list rcsourscs for a adapter is dev cc xxxxx h lis( devices(xxx=tty,printeidisk.memoiyadpt lsdcv cs scsi list scsi deviccs(not serial or raid) is dev cc tapetape devicesis dev cs pci -list pci devices is dev
54、 -cs isa -list isa devices lscons -lists the assigned console lscfg list liardwarc list (same as diags list) lscfg -rl in cm* pg - lists the memoiy on pci bus macliines lscfg -vl xxxxx -list contig into from a device(irnto,hdisk,etc) lscfg -vl sysplanaro -lists the machine type, model, s/n on smp ls
55、fs -list all filesystems + data from emd lslpp -1 grep broken -lists incomplete ptfs lslv hd5 finds boot drive under pvl column lsps -checks available paging space lsps -s -checks available paging space lspv -lists information about the physical volumes lspv hdisk# -list drive info lspv 1 hdisk# lis
56、ts logical volume group disk in is user -fall lists all attributes for all users lsvg lists volume groups lsvg -p xxxxxx lists disks in volume group (xxxxx= volume name) more -reads files and displays the text one screen at a time, mpefg df list all setting the machine is set to (smp) mpcig cf 11 1 changes to fast ipl on snip machines (smp) mv fh (path fh
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 全面行政車輛管理制度
- 化纖成品倉庫管理制度
- 計算機三級數(shù)據(jù)庫高效查詢技巧試題及答案
- 工廠宿舍秩序管理制度
- 確保文檔一致性的測試流程實施試題及答案
- 公司員工餐飲管理制度
- 假期學(xué)生安全管理制度
- 公司全電發(fā)票管理制度
- 學(xué)生安全接送管理制度
- 醫(yī)院倉庫發(fā)放管理制度
- 中國慢性冠脈綜合征患者診斷及管理指南2024版解讀
- 2024年社區(qū)工作者考試必背1000題題庫必背(典型題)
- MOOC 災(zāi)難逃生與自救-同濟大學(xué) 中國大學(xué)慕課答案
- 屋面防水工程工程施工組織設(shè)計方案
- (正式版)SHT 3551-2024 石油化工儀表工程施工及驗收規(guī)范
- (2024年)版ISO9001質(zhì)量管理體系培訓(xùn)教材
- 2022年10月自考00445中外教育管理史試題及答案含解析
- JTGT H21-2011 公路橋梁技術(shù)狀況評定標(biāo)準(zhǔn)
- 2022-2023部編人教版小學(xué)一年級英語下冊教案(全冊)
- 第六單元測試卷B卷高中語文單元測試AB卷()(高教·基礎(chǔ)模塊下冊)
- T-GLYH 007-2023 公路瀝青路面廠拌熱再生技術(shù)規(guī)范
評論
0/150
提交評論