實務上其實不只Firmware issue會再回歸,HW issue也是,這裡我們來看個DIMM的例子
人說久病成良醫,就算你不是原廠,不是RD,甚至不是工程師,只是個OP(operator)或是技術員(technician)。
Log的形式就是那樣,英文加上error code。
身為看到問題並回報問題,等待別人給你指示的身份。如果三天兩頭一直被相同的問題所騷擾,相信時間久了你也能反射式的看到同樣log後,就能記得之前得到過什麼指示,不見得需要重複去跟廠商做確認。因此常常也會有客人自己已經處理了好一陣子但是還是搞不定才來詢問的案例。
這次的case就是這樣子的例子,Day 12的今天,穩當當公司收到了一個銀行客人的疑問。
你好,我們近期有一台穩當當公司的伺服器發生了以下錯誤
![https://ithelp.ithome.com.tw/upload/images/20240920/20169203aVhHCVyisI.png](https://ithelp.ithome.com.tw/upload/images/20240920/20169203aVhHCVyisI.png)
log中所指示的DIMM已經更換過了,但是這個現象還是持續發生
可以幫我們做比較深入的troubleshooting嗎?
謝謝!
IT邦銀行敬上
今天處理的人是客服工程師S,光聽客人的描述就覺得好像是個棘手的問題,用他手上的notepad++打開log,搜尋了一下有多少DIMM error,一共有15筆。
奇怪的是log中記載的,竟然不只一根DIMM有問題,CPU1的D1和D0同時都有回報錯誤。
真是傷腦筋,雖然DIMM壞掉也不是什麼稀奇的事,但是像這種客人自己換了又換,又換不好的才是真正頭大。
神秘的是竟然從2020年發生到2021年都一直回報相同的CPU1 D0 & D1有問題。如果真的是照著log的描述的話,客人自己不知道已經換了多少memory。
還是請RD 分析一下詳細的log,看看該怎麼進行下一步好了。
過了一陣子,RD回信了,不失眾望的給了一個很專業的答覆。
Hi S,
這些memory error看起來跟memory margin比較有關,至於同時有兩個memory一起發生錯誤,可能是因為CPU1的channel D中有根memory在開機過程training時發生問題,導致整個channel的memory一起被disable,如果想要除錯的話,可以建議依循以下步驟
1. 關機
2. CPU0/1 互換,DIMM CPU1 D0 & CPU1 D1 交換到channel D以外的地方(例如:CPU1 D0 -> CPU1 A0
CPU1 D1 -> CPU1 B1)
3. 如果下次再發生問題時,問題發生在同一個CPU的同一個位置(CPU1, channel D),那問題比較跟MB有關
4. 如果下次再發生問題時,問題發生在不同CPU的同一個位置(CPU0, channel D),那問題是跟著CPU移動
5. 如果下次再發生問題時,問題發生在CPU1 A0,那此memory需要更換
6. 如果下次再發生問題時,問題發生在CPU1 B1,那此memory需要更換
如此一來,使用最少的資源便可以做最有效率的除錯,減少客人重新開機的次數。只要問題重複發生第二次,就可以做最大程度的釐清與判斷。