iT邦幫忙

3

請問Storage 會在背景作大量無用的IO,佔用80%以上的磁碟效能且時間長達一個月..是正常的嗎?

CLF 2019-08-02 16:36:304009 瀏覽

請教各位有使用Storage的先進是否有碰到類似的問題..
我們主要是作為VMWare ShareStorage 的應用
我們3年前買了一台 dell SCV2000 iSCSI 10G2 port2控制器的 Storage
原本是使用MD3的產品因為使用體驗很好..後來汰舊換新就很自然的在預算可能的狀況升級新一代的Dell SCV產品..

但是惡夢就此開始了..

Dell 是採現金交易,對使用月結方式的客戶需要找一家SI廠商作過水..
當產品到貨後..因為手上有一堆專案在處理..就延了10天左右才開始開箱測試使用..
因為對於DELL的售後服務也感到很滿意所以想也沒什麼問題..
但是上架開始測試之後就有發現一個很奇怪的問題.. 它在有些時侯效能特別差..
我以前也都大概使用 ATTO Disk Benchmark 等軟體大概測試一下..再試試搬檔案的讀寫效能就OK了..
經過此事件後我對 IOMater 這軟體都熟了不少..

在初步的測試中發現.. 正常狀況.. 複製檔案的速度大概可以有 600MB/S ~ 800MB/S 同時讀寫的效能.
也就是說 以此速度 一個 120GB 的 GuestOS 複製或搬移 大概 3~5分鐘就可以完成.
但是卻會發現有時 它複製同一個檔案..效能只剩 3~6MB/S
當時作了很多測試..發現在多工IO很多時不易發現..問題大都出現在 只有1個IO在執行時..會剛好那個IO就會特別慢..但是有時同一個作業又會飛快7常.
後來找DELL連線檢查問題..連控制器都換了2組..但是狀況依舊..
而時間已經過了近一個月.. Dell 也無法接受我退貨的要求..SI只是過水也無法幫我吞退貨..
後來想..應該是FW的問題或許下個更版就解決了..而且它也不是每次出現..是偶而單一IO時才會如此.. 後來內部討論就不卡驗收了.
後來幾個版本的更新都沒有修正此問題..

而之後都會偶而發生 低效能的狀況..
如: 複製佈署一個 GuestOS 平時大概 3~5分鐘完成, 低效能時就需要 2~10個小時.
ERP過帳平時大概5分鐘完成, 但是有時就是 過了半小時還沒過完.. User 反應此問題時..就只能請 User 停掉行程再重新過帳一次..

這些也就算了..
它在3年內 發生了2次.. 整個 Storage 都在忙碌的狀況.. 前端的所有GuestOS 全都會變得奇慢無比..且會持續20~30天..
IO延遲非常嚴重.. 好像所有的磁碟動作都成了慢動作.. 每次過檔都要半小時以上.. 複制GuestOS也要8小時以上.. 主機常會停格不動..
找DELL技術支援檢查了半天都看不出原因.. 就說是我的前端負載太重, 磁碟IO效能不足. 建議我換SSD的磁碟..
但是我檢查我前端的IO平時都用大概 250 IOPS , 10MB/S 左右的讀寫流量.. 根本不是如此的問題..
後來我也將 上面的LUN資料淨空,沒有任何的IO在SCV上面再看它仍然有 500MB/S 1750 IOPS 在持續運作..整整24小時以上的時間.
然後DELL技術工程師又改口說這也是正常的.. SCV本來就有背景的最佳化運作在執行.
我完全沒辦法接受此說法..在背景無感的運作也就算了..佔用 80%以上的資源整整一個月在作莫名其妙最佳化..
而這台Storage 是連快照Dedupe什麼都沒有的功能.. 只是當簡單的RAID使用..還會如此不受控..
跟我說這是"正常"的.. 請問大家所用的Storage 都會有這麼"正常"的狀況發生嗎??

附圖 最近又發生的背景 IO 狀況

我在 8/1 3:30 左右 將 LUN淨空, 可以看到 SCV背景仍有大量IO 持續到 8/2 3:00
如果它隨時都沒理由就來這樣一次IO風暴.. 這樣的 Storage 要如何才能"正常"使用??
PS: 此次的IO風暴持續20天..

https://ithelp.ithome.com.tw/upload/images/20190802/20043105vUaCUwc4hG.png

https://ithelp.ithome.com.tw/upload/images/20190802/20043105kz7KmTkaWL.png

https://ithelp.ithome.com.tw/upload/images/20190802/20043105hwLe2MSWYR.png

https://ithelp.ithome.com.tw/upload/images/20190802/20043105E1Bi1EHUA4.png

最後分享我最近借測的4台 Storeage IOMeter 測試結果..後續如果有新的再加上去..
只有60萬左右預算真沒幾台可以選..希望可以順利換掉SC..
https://public.tableau.com/profile/wolf.wang#!/vizhome/StorageIOMeterat2019/sheet0

https://ithelp.ithome.com.tw/upload/images/20190829/200431050dTApxeosy.png
2019/09/17 更新

看更多先前的討論...收起先前的討論...
player iT邦大師 1 級 ‧ 2019-08-02 21:16:35 檢舉
你有放在防火牆後面嗎?
如果沒有的話, 可能是被入侵了
歹徒正在大挖你的檔案?
CLF iT邦新手 3 級 ‧ 2019-08-03 01:33:24 檢舉
是在防火牆內的,除了DELL的技術連線其他人是連不進來的.. 除非DELL的SC系統已被駭客破解..
而且LUN內的檔案都刪光了..真不知它在忙什麼IO..
ks1217 iT邦研究生 1 級 ‧ 2019-08-05 11:41:22 檢舉
四年前購買的 PS4100, 兩張控制器, 每年都跳電池異常(今年A, 明年B) , 保固第三年工程師帶兩片控制器來換(說是不能單換電池), 第一片上去一樣顯示異常, 第二片上去才正常...還好帶兩片來, 今年已過保, 反而可以買電池換, 一組一萬七.... 預計明年另一片出電池異常, 就要淘汰了! 再也不敢用DELL Storage了.
CalvinKuo iT邦大師 7 級 ‧ 2019-08-05 13:16:29 檢舉
二三十萬的Storage應該有Log吧....
看看有啥異常Log,例如: 磁碟斷線後又連線 (所以REBUILD)
若有LOG,為啥DELL客服沒查出來...
CLF iT邦新手 3 級 ‧ 2019-08-06 10:28:02 檢舉
它的一堆LOG看不懂.. dell 技術支援說不用理那些..
沒有嚴重或警告級別的LOG...磁碟LOG也很正常..
然後2線的技術支援也看不出來是什麼行程佔用的...拖了2週最後他們的經理就直接跟我說這是正常的..所有SC系列的 Storage 都是這樣..
另外SC系列的產品是 60萬起跳的...
我有在想是不是回去改用群暉的就好..只要半價..效能還不輸中低階的企業級Storage ... 只是群暉的都是單控制器..掛點的話恢復週期要1~3天..
當時選DELL的原因之一是企業級的雙控制器,4小時到場處理..
但是此問題我一直認為是 BUG, 他們卻跟我說是正常的..我沒法接受這種說法!!
那不是三不五時存儲要跑怪行程..我的主機都不用工作了..
CLF iT邦新手 3 級 ‧ 2019-08-06 10:36:53 檢舉
我家R720, R730 也是大概2~3年 H730P RAID卡上的電池會老化不蓄電..
如果過保只要有UPS電池不換也沒太大影響.. 除非UPS同時掛了..
DELL加買保固很貴.. 可以找SI有 1/3價格就可以買到的次日到場延保.
另外購買主機時可以跟DELL買到7年全保..價格滿划算的..可以把主機價值用到最大.
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

2 個回答

0
hsiang11
iT邦好手 1 級 ‧ 2019-08-02 16:53:10

Storage的系統可能有程序再跑大量的IO,
DELL查不出問題實在有些誇張
像QNAP本身的介面就有資源監控可以看到程序
大多吃資源的原因都是因為一些轉檔再跑
我家裡也有一台QNAP一開機硬碟就會狂轉數小時才會休息 在某一次更新後就出了這種問題
後面怎麼更新都不會好

我想這種問題都是要把資料移出 試試乾淨系統重灌或許有機會解決
但是痛點就是在這 大量資料轉移的時程又加上又要再買一台放資料
所以要處理無故佔資源還挺麻煩的

附帶一提:QNAP的跑跑硬碟 有時先休眠再喚醒就又忽然好了

CLF iT邦新手 3 級 ‧ 2019-08-02 18:07:44 檢舉

謝謝回覆, 但是VM的share storage 沒法休眠..要搬25TB資料真的要搬很久..而且還有掉資料的可能.. 以前的RAID都沒這種問題..
反而新SC系列..竟然成了常態..我沒法接受..

CLF iT邦新手 3 級 ‧ 2019-08-07 16:26:17 檢舉

好像只有NAS的存儲可以看到工作管理員, 在測了好幾台 Block level 的存儲都沒有工作管理員的功能..

連 Dell 的技術支援工程師從SC後端都看不出來是什麼程序在佔用IO..
目前只能恢復出廠值再重新設定過了...

光是要搬25TB的VM 就要花我3天的時間..還要再搬回來..

有快照功能的存儲在搬資料時最好確定要有2倍以上的儲存空間..再批次搬家..不然就像我之前就把它搬掛了2台GuestOS ..
原因竟然是雖然我早把快照功能都關閉..但是SC系統仍會在背景自行建立系統快照..所以即使把檔案都刪除了.空間並不會立刻歸還出來..所以搬到一半就卡住凍結.
想要搬回原來的存儲..原來的存儲空間也不歸還..結果就是2邊都沒空間卡到死..真是可怕的GuestOS的搬家經驗..
現在只好一次搬一點..慢慢搬..隨時注意磁碟可用空間..SC吃空間的方式跟一般RAID的算法是不同的..你還要把系統快照及系統耗用都要算進去..即使你都沒開快照也是一樣..簡單的算法就是再乘2 就比較不會出事..

0
小湯
iT邦好手 1 級 ‧ 2019-08-09 07:29:02

我在 8/1 3:30 左右 將 LUN淨空, 可以看到 SCV背景仍有大量IO 持續到 8/2 3:00
Q1.將LUN清空是指?SC2000上完全沒有資料嗎?
Q2.有系統架構圖嗎?可提供大家參考一下嗎?
群暉的FS系列算是CP值不錯的選擇(可以控制在60萬內),但若只有一台也要考慮單點故障的風險.

看更多先前的回應...收起先前的回應...
CLF iT邦新手 3 級 ‧ 2019-08-09 10:10:36 檢舉

A1: 是的當時將所有 GuestOS 都搬走..只留下空空的一個LUN, 裡頭應該只剩ESXi-VMFS的基本資料夾..並且我也在vCenter 中將它離線了..
A2: 有架構圖.. 我將它補在後面..
是啊..用群暉的話就要買2台作HA才行..但是會浪費掉一半的SSD空間..

CLF iT邦新手 3 級 ‧ 2019-08-09 10:58:04 檢舉

我後來己將SCv2000重置回出廠值..再去觀察它..有發現只要有大量放入資料它之後都會有一段長時間在背景作IO作業..但是優先權很低前端VM不會有延遲的感覺..

只有之前發生的2次..像是瘋了一樣大量背景高優先權IO..讓我的前端VM全都卡住..而且不是1~2天是整整一個月..

偏偏連Dell技術支援也看不出所以然..

最後給我的回答都是正常的..我的SCv2000很正常..
1.是我的前端IO太重影響.
我的觀察我前端VM的IO很輕根本沒有佔用那麼多的IO,後來我花了2天把前端IO都移走..仍沒有改善..
2.它本來就有背景作業很正常.
但是會大量佔用高優先權IO且根本不知道它在作什麼..就不是正常的事..
SCv2000沒有快照,也沒有分層,也沒有Dedupe, 我真搞不懂它還有什麼背景作業好作?? 在作磁碟重組嗎?

這2次事件後我對Dell的SC及技術支援能力感到失望..如果是大家的Storage都會如此那是我技術不好..認知有誤..需要多學Storage要如何安排規劃IO..這樣的存儲系統跟我的認知真的有很大的落差..

小湯 iT邦好手 1 級 ‧ 2019-08-10 12:05:39 檢舉

個人認為跟您的技術沒關係,您確實碰到奇怪的問題.更奇怪的是連Dell原廠工程師也解決不了,真是傻眼.不過通常若有critical systemy在使用(像ERP).規劃上還是比較建議有快取Cache功能的Storage.
我參考了以下這篇 : (不知道若您改為Raid10是否會改善效能,雖然您覺得實際系統吃IO沒那麼重,但若有背景在Run,也許能有改善)
https://kknews.cc/zh-tw/other/px2ayg2.html
以上,只是淺見.

CLF iT邦新手 3 級 ‧ 2019-08-12 00:01:37 檢舉

SCv2000 可以動態調整 RAID10 ,RAID6-10 等Profile ..但是此事件後我就不太敢再用...怕有後遺症..因為連DELL的後端工程師自己也說不清它什麼時侯會作RAID重整..每次問..回答都不太一樣..

而且也沒法控制執行的時間及佔用前景資源.. 只能說正常情況是不佔用前端資源的..但是在像我家的"正常"狀況是會把前端資源吃光光的..

再來可以由我的測試報表可以看到 RAI10 只是寫入快..讀取卻會慢很多..對於讀比較多的應用並不是好選擇..而且很浪費空間..寫1GB要佔用3GB

由測試來看..只要有SSD
RAID6讀取可以快2成以上, 寫入也才慢2成, 但是容錯一樣且空間利用率好很多.. 而我的應用也都是讀寫比大概在 8:2 所以RAID5,6 會比較實用.

我要發表回答

立即登入回答