在前面和大家提到基本的錯誤偵測與報告的幾篇,大部份都是屬於硬體方面問題造成的錯誤,在這裡不得不誇AIX一下,真是一個周詳的系統,對於硬體衍生的更新及異常也設想這麼多的功能來處理,經由系統的操作即可得知硬體上的錯誤,不需要大費周章交叉更換測試才得知結果,果然體貼管理者啊;但對於AP引發的系統異常或當機,就沒這麼好搞定了,所以今天就和要大家談談關於軟體方面引發的錯誤和異常,我們又該如何來判斷處理~
在AIX上的軟體可大致歸為二類: 系統本身的與非系統的本身額外加裝的.
**1.系統本身的:**如AIX Kernel, nfs,tcpip 等等,所有SRC上可您可看到的資源服務,這些都是屬於IBM原廠有保固的;只要是IBM還沒列為停止提供服務( Withdraw from Service ),就可以從IBM的網站上找到相對應的解決方法(例如APAR,Efix..等);
除非你真的夠幸運,遇到了全世界都還沒遇到的鳥問題,這時候你也只好乖乖的等AIX的程式開發人員幫你寫fix;若是真的不幸遇到了這種狀況,一般要靠IBM的本地工程師來來回回好幾次與AIX的程式開發人員收資料,分析資料,再收資料,分析資料直到程式開發人員找到蟲(Bug)的屬性與行為模式,此時AIX的程式開發人員才會為您取個APAR.如此這樣大約等個二至三個月後,此時才會有正式的APAR公告.(P.S. 若真的等不急,也可以要求AIX的程式開發人員先寫個Efix來擋著用,但是不保證會不會引發其他的問題).
所以如果是關於這些方面的問題,介紹大家可以上 IBM 網站來找資料: IBM Technical Help Database, 這是一個針對AIX系統與跑在AIX上相關的軟體的技術資料庫.您可以在此找到所有已有解答的APAR 或文件;舉凡 nfs, tcpip, etherchannel...等都在上面可以找到
如果有關AIX OS Kernel 的問題,那又不同了;一般只要是發生系統當機時,pSeries 就會把當時當機的所有CPU與記憶體中的所有資訊記載(dump)一份到先前設定好的位置(dumpdev)中,就像MS的藍底白字,在AIX,我們可以透過sysdumpdev -l來查看是存在哪裡,例如:
這個Primary指的就是儲存dump檔案的位置,預設是/dev/hd6,當然你也可以改到別的目錄,這有點類似windows會存在%SystemRoot%minidump資料夾是一樣的道理,差別在於windows可以選擇記錄大小,而AIX則是所有資訊都會記在裡面,所以如果 /dev/hd6 的空間不足,它會繼續寫到secondary 的位置.而dump的空間大小取決於系統未使用的記憶體空間,要查這個數字,要透過sysdumpdev -e指令,示範如下:
所以之後我們會定義(size= the Estimated size * 1.5 )也就是
124780544*1.5為/dev/hd6的大小
以上就是關於dump儲存的位置及大小的內容.透過sysdumpdev的l和e二個參數來得知,當需要調整空間大小時,你就知道如何調校了.
那我們又是如何查看dump 的狀況呢?!舉例如下,我們透過sysdumpdev –L先查看dump檔內容,如下:
由下表查知dump status = 0 表示dump successfully,以上資訊就是有關於dump方面的簡介,明天再為大家進行深入探討.
註:上表參考IBM官方網站,其實網路上也很多,我就不便在此多做說明了