昨天跟大家介紹如何透過errpt指令產生的錯誤報告及解讀,今天就要和大家說說有關AIX上的錯誤偵測,首先讓我們來了解一下pSeries的開機程序:
**1.**起始化所有的硬體,然後做POST(Power-On Self Test).驗證所有的硬體是正常且可運作的.
**2.**再來是System ROS階段,首先定位操作系統的啟動碼(Bootstrap),然後加載到記憶體中.
**3.**接下來是Software ROS階段,這是整個IPL的控制碼.用於接收控制和建構AIX的特定啟動資訊.且會在記憶體中要一塊空間,建立RAMFS的檔案系統.然後將控制權交給AIX的BLV(Boot Logical Volume),
**4.**這時BLV會從/usr/lib/boot 中讀取相關的資訊,把AIX Kernel 啟動,執行bootinfo 與cfgmgr 的指令.並且將一個簡單版的ODM啟用並且設置一些基本的硬體設備到這個Kernel 中.
**5.**這時AIX Kernel已接管整個系統,LED此時停在299.接下來就是 AIX OS Boot的階段.
**6.**在AIX OS Boot階段,將RAMFS 中的 rc.boot 做第一次的 init 起始化.並執行 cfgmgr –f 將簡單版的ODM中相關的基礎設備設定後,準備啟動rootvg 做vrayonvg的動作.
**7.**Varyon rootvg 後,將/dev/hd4 載入到 RSMFS中,並且mount 成 /mnt (暫時的), 此時將/usr 與/var 做fsck 的動作且mount /mnt/usr , /mnt/var起來. 再來才可以把 /dev/hd6啟動.再把RAMFS中所有 /dev與 ODM的文件復製到硬碟中.
**8.**此時hd4 與hd5 中的兩個ODM版本做同步.硬碟上的rootvg 便可以將 root 的filesystem ( / ) mount 起來,再將 /usr 與 /var mount 到正常的目錄下.
9.最後就是 /etc/init 按 /etc/inittab 的內容一一起動.也就是之前所說的 SRC的內容.
以上用概略方式和大家介紹了開機的程序,接著就讓我們來進入正題:
經過以上精簡介紹開機的順序及動作後,我相信可能有人會有疑問:如果開機過程中就有問題怎麼檢測呢? 一般若是有出現硬體錯誤或AIX OS 的系統異常.我們都會用AIX的 Diagnostics 來做進一步的解析.
首先執行 Diagnostics 分為兩種:
第一種是在AIX 運行下執行=>不會對於其他使用者者產生影響.但是有些正在使用中的軟硬體資源便無法檢測.
第二種是關機重開後,進到維修模式(Maintenance Shell.)下執行=>此時只有 root這個使用者在console可以下指令.而且幾乎所有的軟硬體資源都可以檢測.
範例如下:
選擇Current Shell Diagnostics後就會進到下一個畫面(這個畫面與用root執行 #diag一樣)
進到Advanced Diagnostics Routines選項中再選Problem Determination 如下圖:
此時Diagnostics 會針對系統中所有的資源做檢測並且對errpt中有相關的作解析,你就會看到類似下圖,系統執行Diagnostics的動作畫面了
接下來明天就和大家介紹幾個關於Diagnostics方面常用的方法囉 ~