接續上回的Intel BMC SEL解講,這次從Power繼續說下去。
這裡的Power Unit指的是可以是電源線或配電盤配來的電。因為不管是這兩者其中之一發生問題,大部分的情況下從BMC的角度回報出來的問題是一樣的。又或者當你有多個Power Unit時,反映出目前Power redundancy是不是無法正常運作。
Power supply相關的log則可監控PSU的狀態以及是否需要提前更換。有些廠商也有加入偵測目前系統上的PSU是不是有混插的情況(不同model/vendor)。另外還有一個關於PSU log的重要認知,當你在開機時拔除多個PSU的其中一個,SEL也會記錄對應的log;但是如果你的主機一開機時,便只安裝一個PSU時,SEL不見得會將那些沒裝上去的PSU回報成錯誤。BMC此時可能會認為,因為開機時沒安裝,所以不視為異常。
了解Power Unit & PSU的log能幫助你在一些複雜的問題時,搞清楚客人重開機的方式,尤其是在BMC普及後這件事變得更加複雜了。這在一些像是套用FW更新或是更改某些設定時,會關係到新的FW或是設定是否能正確的生效。系統重開的術語在不同國家/公司之間常常需要用很多的描述來確認對方的做法是不是如同自己的建議。因此如果能從log中判斷的話,會多一個佐證的工具。
以下簡單提一下常用開關機的方式以及log上的表現
Power Button:
這裡指的是使用者透過主機面板上的power button來做開機或關機,按下此按鈕通常會有一筆對應的記錄。開機比較單純通常按一下就會生效,並留下一筆power button log和系統開機的log。
關機的話就取決於主機目前的狀態,像在BIOS setup menu的話按一下也會立即生效關機。但是像在OS當機的情況下,使用者需要長按power button才能強制關機,因此使用者在當機的情況下可能會有按多次power button的狀況,在SEL中便會看到多筆log,但是關機的log當然只會有一筆。
順便一提,有些機器是允許使用者將Power button disable的,因此有可能按下去會沒反應外,也不會有對應的log。
OS reboot:
在作業系統中做重開機的動作其實目前的SEL中也會有對應的log,而且windows/linux的log也會有所不同,這邊留待之後的文章做比較仔細的解說。
power reset:
這裡簡單想就是CTRL + ALT + DEL的按鍵組合,本身不會留下任何log。如果觸發OS reboot的話,就和上述情況相同。
DC cycle:
有些人又稱power cycle,有兩種方式可以達成DC cycle,一種是使用者用任何可關機的方式將主機電源關閉,然後再將電源開啟。另一種是直接對BMC下power cycle的指示,讓主機自己做DC cycle。
期間都會出現電源開啟與關閉的log,兩種方式差別在於,電源開啟與關閉的log時間差上,透過BMC的做法是固定時間間隔,人為的則比較不一定。
AC cycle:
這個是針對電源線的拔除或是移除電源來源(Rack上的電源排插、人工手動或是以其他特殊硬體達成)。
使用者有時會無視主機目前的狀態,直接拔除電源線;比較多是按電源先關機或是先從OS關機的情況因此log不太一定。但是完全移除所有電源時,才會留下AC lost這樣的log,這也是與其他重開機方式最大的不同。
在判斷log中主機目前的電源狀態時,還有一個BMC關於AC lost的設定。
BMC在主機拔除所有電源,發出AC lost log後,再度上電時,有幾個policy供使用者選擇。
1. Always On
2. Always Off
3. Last state
簡單說就是上電時永遠自動開機,或是關機。最後一種就是取決於AC lost時,主機原來的狀態再決定要開機還是關機。
因此了解AC lost policy的設定會有助於正確判斷主機的電源狀態。