因為不清楚其他CPU是不是適用以下內容,這裡以I牌CPU為例。
如果你曾經遇過系統死當,Windows的BSOD或是VMware的PSOD,將問題回報廠商後得到的結論是需要更換CPU。
通常我會建議你先把CPU留在身邊至少一個月比較保險。為什麼這麼說呢?其實實務上在廠商RD的分析過程中,要能得到換CPU的明確證據來支持換CPU的結論其實是非常有難度的。
BSOD & PSOD 其實都是作業系統在出錯時的回報畫面,背後真正和HW相關的問題其實通常還是由CPU回報出來。
我將我常見到的幾種CPU回報的HW錯誤列出如下:
雖然上頭將錯誤分為三種,但是實務上往往三個錯誤會一起看到。
log長得像下面的例子:
[100]06:00:38 [Critical] [CATERR] [Processor] IERR - Asserted
[99] 06:00:36 [Critical] [CATERR] [Processor] Machine Check Exception (MCERR) - Asserted
現代的系統中已經有BMC這樣的硬體設備在CPU回報問題時,來協助將CPU的暫存器做匯出,幫助事後的除錯與排除。
光講CPU的錯誤好像就已經扯的有點多了,microcode的部分以及其他後續就留待下次繼續介紹吧。
引用網址:
https://www.intel.com/content/www/us/en/support/articles/000097802/processors.html
https://www.intel.com/content/www/us/en/support/articles/000006043/server-products/server-boards.html
https://www.intel.com/content/dam/www/public/us/en/documents/manuals/64-ia-32-architectures-software-developer-vol-3b-part-2-manual.pdf