最近面試了機房主機管理的職務,其中被問到主機故障排除會如何處理,如果是一般PC的話還有備料可以更換,但機房主機就不太清楚了。
因為目前公司的主機大部分都是使用Dell,所以有問題基本上都會先透過idrac去查看,確認問題後再請原廠備料更換,作業上基本上就是主機異常→聯絡廠商處理,甚至我們連機房都不用進去看。
可能過去都是透過廠商進場維修而沒有自己做故障排除經驗,所以在面試時回答得也很含糊,請問有經驗的各位前輩都是如何做這方面的故障排除,有什麼SOP嗎
其實server來說。你不用擔心。
一般就像你說的,機房都會裝有類似idrac的檢查機制。
只要注意異常就好。
因為如果真發生重大問題。一般沒那麼大的心。給你去處理。一定是給廠商過來處理的。
建議你面試時分享幾個之前利用idrac排除故障的經歷,表示你善用工具,順便帶到如何偵測運行異常,例如snmp,或如何用管理工具監控主機運作。
基本上主機發生重大問題都是馬上call廠商,沒有太多時間慢慢研究,發生異常能第一時間接收通知即可。
看那家公司的風格 簽不簽MA
正常是打電話給廠商報修 從錯誤代碼去查詢是哪個料件壞掉
直接通知廠商攜帶備料直接更換
加快處理流程
但是大多數的公司通常是不想花錢的風格
過保就已經沒有任何的維護
所以進來要談的是另外的說法
idrac可以看出一些料件是否故障
DELL的BIOS通常帶有檢測模式,可以檢測硬體問題
DELL有一些詳細的文件,可以找到一些錯誤代碼是啥故障
最重要的 是燒香拜佛希望出大包不會出在你這屆任期
例如一台破百萬的主機,也是營運主要的機器
放著過保後一堆人在裝死
雙POWER還插在同一台UPS給他滿載紅燈
期間機房冷氣跳電 溫度暴升 也沒人害怕燒掉
因為這種事情通常都大家還在玩
只會在最後出事後就說這很嚴重