iT邦幫忙

3

我快瘋了~SDD監控問題

  • 分享至 

  • xImage

我在公司每一台電腦安裝CrystalDiskInfo來進行監控,發生問題,會email通知,結果一切都正常,某天同事跟我反映電腦有問題,我使用HDTuneProPortable,發現這顆硬碟根本就壞了,CrystalDiskInfo還顯示正常。

後來一台一台電腦下去查,才發現,2020年採購一批,SU650,陸陸續續出現壞軌,有好幾十台,有些電腦根本就是好久都沒開機,結果一開機,發現硬碟壞了,也是SU650。

不知道,有什麼免費的軟體,可以幫我監控公司的硬碟狀況嗎?如果能提早發現,就會比較輕鬆點.....
一下子要處裡好幾台,我快瘋了~

https://ithelp.ithome.com.tw/upload/images/20250630/20122928MHFYvUXwuZ.png

看更多先前的討論...收起先前的討論...
DennisLu iT邦好手 1 級 ‧ 2025-06-30 21:27:31 檢舉
我都用MX500(現在停產了),去看看自己的SSD廠商,有沒有給工具。
像是美光也有工具查看SSD健康...狀態
美光 Storage Executive 更新韌體 或是查看狀態 都很好用
如果在 ubuntu 你可以使用 smartmontools 再配合 zabbix 將狀況送出來!

在 ubuntu 下命令安裝
sudo apt install smartmontools

安裝好以後使用以下指令就可以看到硬碟的資訊
sudo smartctl -A /dev/sda

例如:
ID# ATTRIBUTE_NAME VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
5 Reallocated_Sector_Ct 100 100 36 Pre-fail Always - 0

在 Zabbix Agent 的 zabbix_agentd.conf 加:
UserParameter=smart.reallocated,/usr/sbin/smartctl -A /dev/sda | awk '/Reallocated_Sector_Ct/ {print $10}'

到 Zabbix 上新增 Item

type:Zabbix agent
key:smart.reallocated
type of information:Numeric (unsigned)
再加上觸發器,例如:如果大於 5 就警告,大於 100 就危險!

監控硬碟 S.M.A.R.T. 狀況,必須靠專門的工具再與免費強大的 zabbix 結合,可以輕鬆很多!
nerv80736 iT邦新手 4 級 ‧ 2025-07-01 14:15:43 檢舉
SU650 是威剛的,威剛自己有檢測軟體
SU650 保固三年,該換了,消費型的不用想太多,建議買企業型的SSD,會比較有保障
還有就是所有的警告都只是參考,這套沒有那套有,也不代表這顆SSD無法繼續使用
SSD無法繼續使用有兩種,一種是無法寫入,一種是連讀取都不能
總之備份才是王道,沒有備份,你用再好的硬體也沒用,因為意外總是不經意就發生
dboracle iT邦新手 5 級 ‧ 2025-07-11 15:38:25 檢舉
CrystalDisk 與 HDTunePro
就我個人經驗
測試傳統硬碟,一測一個準
測試SSD,僅參考
前幾年其他工程師到廠維修時,也有問過是否有軟體可以測試出損壞的SSD,答案是並沒有精準的

個人建議
如果資料重要的話,還是需要搭配傳統硬碟,速度慢一點但至少救援軟體可以救回
如果重要資料都會上傳SERVER,那就放心大膽用SSD,壞了頂多重灌,公司允許的話,看還有多少台用這款的SSD,多買幾個備著
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中
0
owan
iT邦高手 1 級 ‧ 2025-06-30 17:32:43

CrystalDiskInfo 8.2.0 [release date 2019/06/30]
HDTunePro 5.70 [release date 2017/08/04]

兩套軟體都相對舊... 建議先更新 重新測一次
尤其兩邊抓的 ID 屬性名稱不一樣 我會說這兩套的結果我都不信

另外因為圖沒有截到全部
CrystalDiskInfo 可能 data 是對的
但對於故障的判定值不同 也有可能會造成差異

結論先用新版本再測一次 再來判斷是否故障

身為 IT 人 工具務必定期更新啊

已經確定SSD,已經有壞軌存在了,存取都很困難了,CrystalDiskInfo不管是新版還是舊版,都顯示正常。

weirdfield SSD 沒有壞軌這東西,只有壞區,而SU650 是消費型商品,所以他沒有備用磁區,企業用才會有備用磁區,例如 1TB 只有 960GB可用,隱藏的40GB就是備用磁區

0
mathewkl
iT邦高手 1 級 ‧ 2025-06-30 21:24:10

先假設值是對的
目前100 臨界50會標正常不意外
而且HD TUNE的A0~B0都是未知屬性,表示根本識別不出來

不是韌體的目前值故障只會標100,就是程式太舊讀錯
更新軟體再讀一次或擲杯猜一個

0
in30000
iT邦新手 4 級 ‧ 2025-07-02 01:49:52

感覺是這項產品有問題,我用過好幾個健康度3x~6x%的,使用上都沒遇到掉資料或是因此藍畫面的。
或許更新韌體有救!

0
bluegrass
iT邦高手 1 級 ‧ 2025-07-02 17:49:44

PRTG 有免費版, 好像100個SENSOR

https://www.paessler.com/manuals/prtg/wmi_hdd_health_sensor

1
luella
iT邦見習生 ‧ 2025-07-04 12:05:04

聽起來真的很讓人崩潰,尤其是當你依賴 CrystalDiskInfo,但它卻沒能偵測到硬碟已經出問題。SU650 在你們公司看起來真的問題不少。你可以考慮試試 Hard Disk Sentinel 免費版 或 GSmartControl,這些工具對 S.M.A.R.T. 資訊的分析比較深入。另外,如果你們用的是 Windows 或 Linux,也可以搭配 smartmontools 寫個簡單的腳本,自動定期檢查硬碟狀況並發送通知。能提早發現問題的話,真的能減少很多壓力。希望你能早日找到合適的解決方案,加油!

我要發表回答

立即登入回答