本來今天想分享一下自己設置 SoftRaid 10的過程,但是因為今天比較忙,所以就簡單談一下最近公司發生的陣列損壞救援狀況跟大家分享。
事情的經過是,大約三週前公司一台作為資料交換的檔案主機發出告警,提示RAID5 的其中一顆硬碟有問題(這台機器使用主機板內建的raid card,也是硬體的raid,只是比較...大家知道就好)!因此,負責的同仁關機換一顆新的硬碟上去(嘿嘿,別要求太多,內建的有就好,還幻想熱插拔),理所當然,raid開始自動重建~哇,世界真美好!日子時間就這樣過,當天一切依舊美好。
隔天上班,一看當場傻眼!天啊~系統顯示,不但重建沒有完成,又多壞了一顆!這...這下完蛋了!RAID5 連壞兩顆而且重建沒有完成,系統已經無法啟動!資料也...。
***** 警示一:再完美的單一備份,都難逃假設前提!人倒楣時,什麼事都會發生~古人有講,我們有沒有在聽!"不要把所有雞蛋放在一個籃子裏!"。真是深切的體會。
好吧,回到故事。本想這只是一台資料交換用的檔案主機,裡頭的資料應該都是短暫的過水暫放,應該不會有太大的問題!剛要喘口氣,天啊!電話一直進來,原來USER哪管IT當時定義它是幹麻用的,有的放就放,而且越放越順手,越放越多,因為暫存區管理比較鬆散,結果,上面有一堆重要的參考資料!而且是許多部門,還跨海峽兩岸多工廠分點!天啊!世界黑暗啊!
***** 警示二:管理絕對要落實,不要作半套,不然出事了,再怎樣IT也跑不了,暫存交換區,就要落實空間的使用限制,檔案的周轉與有效期限管理,不要相信user會聽你說的"定義",要相信制度與落實執行才能有效管理!
好吧~屁話一堆,最後說最重要的!
上網找、打電話問、供應商問,唉,答案都是外送專業救援公司吧!
在大家不約而同介紹一家"專業有口碑"的廠商後,把機器送過去!
最後是救回來了,只是花了近10萬~好貴!
寫這篇文章的原因,除了屁話一下,也是因為昨天寫了用 software 建立陣列!感覺蠻好用的(我自己公司與家裡都使用著,但是我的保全可也是多重喔,改天再聊)~怕給大家一個誤解,以為這樣就天下太平!誤了大家一輩子!
另外一個原因就是:SoftWare Raid 廠商是沒有辦法救援的!這個恐怖的答案深植我心~(尤其是一些比較便宜的NAS,似乎也是用software 做陣列,像是 FreeNAS Openfiler都可以簡單安裝讓你的舊機器就像一台NAS喔) 但我沒有更深入的印證與了解,若有相關的訊息,歡迎您一起討論說明喔~
今天就屁話到這吧!
有時候,公司不想花$$,在資訊投資上,到最後.吃苦的.被幹的.緊張的..卻是mis..
有時候,真的要堅持一下.
諸葛先生不僅有三寸不爛之舌, 借東西的本事也是一流
射曹軍的箭可以跟曹軍借, 船可以跟周瑜借, 要縱火需要用的東風也可以借. 面子真的很大.
大大的分享有所同感
確實USER說的定義....@@
資料還是要固定備份於其他主機
當硬體主機故障時還可以還原資料
想想我們好像也沒有做的很完整備份機制
嗯, 只有規定是不夠的. 如你所說:暫存交換區,就要落實空間的使用限制,檔案的周轉與有效期限管理. 或是每月定時清除所有檔案, 也是方式之一.
我們公司也有同樣的問題,劃了一個資料夾讓同事作暫存及交換資料用,並希望用完後即清除,沒想到user越用越順手,檔案越來越多,也不清,佔用很大的空間.後來乾脆發公告,每月月底將會做清檔動作,資料不搬,後果自負.幑
請教一下,若RAID5有四顆,那麼版大的第二顆hd掛掉時,第4顆會自動上線接手嗎?
如果是我介紹的這一個soft raid,可以在建立raid 5 時,再加一個參數 -x ,指定備用硬碟,當raid5中任一顆有問題時,會自動替換。