iT邦幫忙

1

ecc的重要性?

匿名 2011-02-22 11:36:1556999 瀏覽

server要有ecc的記憶體,真的有那麼重要嗎?如果沒有ecc,會有什麼問題呢?容易當機?主機load容易變高?還是?謝^^**

10
player
iT邦大師 1 級 ‧ 2011-02-22 14:48:36

很久以前 RAM的品質不佳
資料會掉
動不動就Windows藍色死幕
所以在商業運用上
為了避免計算誤差導致損失
所以才用ECC去做記憶體自動修正

現在的RAM大多品質精良
鮮少耳聞RAM故障
不過還是要看你的Server是用來跑什麼用的
如果是金融業或是與財務相關的
最好還是用ECC的會比較保險

RAM用ECC
HD用RAID5與熱插拔
再加上備援與遠端資料備份
這些都是為了預防萬一用的

7
raytracy
iT邦大神 1 級 ‧ 2011-02-22 16:38:06

樓上說了一部份, 但是來自微軟的統計, 卻讓人很憂心:

Windows 有內建錯誤自動回報的機制, 微軟分析這些回報資料發現, 大部分的錯誤, 都跟 RAM 裡面所儲存的資料發生錯誤有關. single-bit error rates in DRAM 甚至是排行前十大當機的原因之一.

因此, 微軟累積統計了四年的資料之後, 於 2007 年正式對資訊製造業做出建議:
希望桌機和筆電, 都能內建 ECC RAM.

微軟甚至在 WinHEC 研討會上, Show 出自家公司所使用的 HP 電腦, 因為記憶體發生 single-bit error 而造成當機的實際統計數據, 而且這個當機並不僅限於 Windows 環境, 也包括非 Windows 的環境. (「當機」的定義並非 BSOD 或是系統無法動彈, 只要是系統軟體沒有依照預定的動作來執行, 或是運算結果有誤, 在排除掉軟體本身的 Bug 之後, 都算是當機錯誤)

但這樣做, 將會使得這些產品的價格上升, 因此產業界的反對聲浪很大. 不過, 當初問題不就是因為, 這些產業過度的 Cost Down, 才會造成系統不穩定的嗎? 只是在激烈的價格競爭下, 製造商寧願犧牲系統穩定度, 也不願在價格戰中打敗仗.

事實上, 微軟已經把這樣的政策, 套用到 Server 產品上了. 所有想要取得 Windows Server 認證的廠商, 都必須使用 ECC RAM, 微軟才會發給認證. 對於所有想要取得 Server 2008 R2 伺服器認證的廠商, 也都必須使用 ECC RAM.

從微軟這個動作, 就可以知道, RAM 的問題有多嚴重? 以及 ECC 的重要性.

cooch iT邦研究生 3 級 ‧ 2011-03-04 08:23:23 檢舉

沒錯,
不僅是微軟,
來自 Google 大量統計資料研究結果,
也顯示記憶體中 ECC 的重要性,

所以只要是要當伺服器用的主機,
ECC 是必要規格!

4
b47519
iT邦研究生 1 級 ‧ 2011-02-22 21:41:55

ECC (Error-correcting code) 是指在傳輸時間允許偵測並校正錯誤的ㄧ種編碼方法,它是在接收端藉由已編碼資料的檢查以偵測並校正傳輸錯誤。ECC使用電子方法檢查儲存在DRAM中的資料是否一致。通常有ECC功能的記憶體主要用於高階個人電腦、伺服器或工作站。
根據微軟(Microsoft)內部一份不公開的白皮書指出,桌上型和筆記型電腦可能需要採用錯誤修正程式碼(error-correcting code,ECC)記憶體,以解決單位元(single-bit)記憶體錯誤這樣的日益增加的系統當機問題。該公司也在其WinHEC會議的座談會上提出了這個問題,不過指出其有關系統故障的資料仍不明確。

微軟約花了4年的時間透過其線上當機分析(Online Crash Analysis,OCA)工具收集數據,這些資料向微軟的網站報告了系統所出現的當機現象。大約18個月以前,微軟開始跟系統和晶片製造商分享OCA資料和上述的白皮書。而有消息指出,該白皮書的研究顯示在DRAM中的single-bit錯誤率是造成系統當機的10大原因之一。

不過微軟強調其有關系統當機的資料不能做為定論,因為OCA並沒有針對出現當機的系統類型、以及些系統所採用的記憶體類型提供足夠的數據。而為了增強OCA工具的性能,微軟正要求OEM協助提供更多的資料,並考慮在桌上型電腦和筆記型電腦中採用ECC記憶體。

目前ECC記憶體廣泛被用於個人電腦伺服器,但迄今為止,桌上型電腦、筆記型電腦和許多晶片製造商都在抵制ECC記憶體,因為它會在模組上增加額外DRAM晶片,因而增加成本,並且要升級晶片組中的記憶體控制器。

在WinHEC上,座談會聽眾中的一些系統製造商表示支援採用ECC記憶體的行動,但DRAM製造商則在座談會中仍抱持懷疑態度。

「我認為問題很嚴重,」惠普(HP)的x86伺服器部門工程師Jeff Galloway表示,微軟已經向他展示了在HP電腦上系統當機的資料,看來就是源於single-bit DRAM錯誤;而且他補充指出,這些當機的狀況是發生在不執行Windows Server作業系統的電腦上。

Galloway還表示:「整個產業要對此有所作為。微軟透過Windows Server標誌的認證,將ECC記憶體應用到伺服器之中,我認為現在也應該針對桌上型電腦和筆記型電腦採用相同的策略。」「像這樣的座談會是我們讓OEM參與我們將來要做的工作的方式之一,」主持座談會的微軟Windows Server部門首席程式經理Son VoBa表示:「ECC可能是解決問題的唯一途徑。」

single-bit錯誤的原因通常可以追溯到中子輻射(neutron radiation)的影響,這種宇宙射線(cosmic rays)會衝擊DRAM中的每一個電容器,因而改變它們的電荷狀態。不過DRAM製造商表示,那種影響實際上已經隨著時間的推移而逐漸減少,並且錯誤可能來自包括晶片組在內的各種各樣干擾源。

「在過去的幾代製程技術中,我們已經看到了軟錯率(soft error rates)的下降,」記憶體供應商美光(Micron)的市場開發副總裁Dean Klein表示。此外,包括三星(Samsung)和奇夢達(Qimonda)在內的DRAM製造商還指出SDRAM和DDR1記憶體,提供了筆記型和桌上型電腦不需要的ECC性能,因此當針對目前的DDR2記憶體來設定標準時,工程師也省略了ECC記憶體以節省成本。

一家記憶體製造商建議,較好的方式可能是在正在訂定中的DDR4介面標準中,建置一種重試機制(retry facility)。一位三星的發言人透露,DDR4工作小組已經初步討論了一種監測記憶體I/O介面的功能。

美國一家研究機構Envisioneering的分析師Peter Glaskowsky則表示,微軟早在1990年代中期就說服OEM採用ECC來克服軟錯,但卻被拒絕了,因OEM不願意為此負擔成本,也造成由Windows故障造成的系統當機比由DRAM軟錯造成的系統當機案例要多。

Glaskowsky補充,目前Windows作業系統越來越穩定,因此微軟重提上述議題確實有其意義所在。然而這次還不清楚軟錯問題是否已重要到足以讓OEM做出改變。

2
尼克
iT邦高手 1 級 ‧ 2011-02-23 10:00:36

http://shop.transcend.com.tw/dr\_detail.asp?G\_No=4
其實Server上要注意有無ECC,其實還有一個Register也是要注意。

*升級或安裝請特別注意:有Register和沒有Register功能的記憶體不能混用。

2
summer05145
iT邦新手 1 級 ‧ 2011-02-23 16:37:09

我是伺服器方面的業務專員
我的公司是捷洲資訊
我的客戶及我們出貨的RAM
全部都具有ECC + REG 二樣機制
這二樣機制算是Server級RAM的標準

但是單就價錢來無ECC +REG的RAM可以說是家用的
光X商場的價錢大多在一千到二千上下
但是在同樣容量的話Server級的要六千起跳

這是因為企業用戶要耐用及穩定
而有這二種機制確實能有效減少機器當機及出錯的機率
另外Server用的CPU跟PC用的CPU是有差別的

2
cooch
iT邦研究生 3 級 ‧ 2011-02-26 12:03:51

個人認為,
記憶體的 ECC 功能是伺服器必要規格!

看看 Google 長時間大量統計研究結果就知道:
Google:電腦記憶體比預期中更脆弱
http://www.zdnet.com.tw/news/hardware/0,2000085676,20141826-1,00.htm

我要發表回答

立即登入回答