在伺服器硬體的除錯中,由於BMC晶片的導入,為保留出錯時的資料提供了許多可能性。
不管是CPU的暫存器,BIOS的Port 80或是其他相關的記憶體或是介面卡等周邊硬體錯誤都會在這裡留下記錄。
因此能自己讀懂BMC event log其實就能夠很大程度的掌握了自己機器的大部分硬體狀況。
通常各家廠商都會提供一份教使用者看懂他們BMC SEL(system event log)的文件。
我們這裡以Intel網站提供的範本來做講解,畢竟各家硬體廠之間的共通性還是相當高的。
以下我們不做逐項講解裡頭的內容,只做重點提示的部分。
SEL 主要以兩種格式儲存: TEXT and HEX
TEXT:
HEX:
雖然大部分的時候,我們閱讀的是文字模式,但是裡頭有個還算重要的訊息不見得所有廠商都有提供,因此需要用HEX模式來查看,這裡特地拿出來提一下。
這個欄位說明此筆Eventlog是由誰產生,知道錯誤的訊息由誰產生與回報能幫助你採取對的動作,比如:更新BIOS/BMC 或是檢查該裝置對應的錯誤訊息。
這邊雖然列出了許多的Voltage Sensor,但是身為使用者或是非具備那麼多硬體知識的人,該如何看待這些voltage sensor的event log呢?
我會建議你針對這個voltage sensor監控的來源與他供電的對象。
以下歸類三種來源作為參考:
從mainboard提供1.2V的電壓,給CPU0的記憶體A/B/C插槽。
因此這個voltage sensor出錯時,起碼你知道mainboard or CPU0的memory A/B/C slot需要注意。
從PSU供給到BMC,clock chips(system crystal),PCIE插槽,PCH及mainboard內建的NIC。
這個電源比較特別的是由HSBP(how swap backplane)提供,一般提到HSBP時,通常會和HDD backplane作聯想。
這裡的供給對象便會是背板上所聯接的硬碟,實務上視情況而定。
最後提一個文件上沒有提到的voltage sensor, P3V battery。這個voltage sensor主要來監控mainboard上的coin battery是否有電量不足的問題,沒電時BIOS裡頭的設定在主機斷電後就會消失,包括BIOS的時間。實務上除了coin battery沒電,也要考慮battery holder是不是有可能異常。