想問各位大大(目前擔任公司MIS工程師工作),因為伺服器有一天某一台實體機無法連線,立馬查了一下是網卡掛了,導致有一台虛擬機系統故障開不起來,故緊急把網卡的網路線換到內建網卡設定(但我不會不知在哪設,是主管設定才知道),然後開了VM主機平台,打開各虛機系統其中一台開不起來掛了,因為有備份虛機整個VM檔故把整台還原只落差幾小時,也有備份資料庫但不用再另外導入,但整個事件嚇的一身冷汗,主管才指示了一堆狀況要學會和危機處理或找人來了解整個網路的架構佈置和主機的狀況能後續危機處理,目前方向想找一下專家來幫助了解和改善,因網路這塊小弟弱,該怎麼做好呢?
目前機房狀況/伺服器要了解
1.伺服器的佈建情況
2.主機,VM,各台配置狀況
3.故障的危機處理,如何很快速還原上線
4.備援和備份的狀況
5.網卡的備用(加購等)
6.NAS的狀況,速度很慢,使用量滿載/需要增加空間或接法改變.等
針對你的問題 感覺你是第一次接觸機房網路及伺服器管理的感覺,建議你利用下班時間進修或是請主管找SI廠商協助維護你也順便在旁學習一些基礎管理即故障排除,還有管理機房第一個要有危機意識做好如發生問題的處理方式及解決方法,不能靠主管來下指示才動作這樣你的工作KPI已在主管心中大打折扣了
1.主機狀況盤點還是得自己親手去做,但能請廠商一起介入,不懂的就問廠商到懂.
2.故障還原跟備份備援看要做到甚麼程度(資料中斷量,整機還原時間能接受多久),再請廠商推薦相對應方案,導入方案的同時你也能學會怎麼做.後續固定時間演練還原,熟悉後就不會這麼緊張.
3.備品看是要機房備用或著考慮簽維護合約.
4.硬體效能改善,評估設備使用年限與更換價格看是要增購配件還是換新.
以上這些SI廠商應都能協助,你已經盤點完問題,可以看你所在地區,直接找廠商洽談.
跨出第一步比較困難,實際去用會發現大部分問題,你自己找網路上都有解答.但建議還是要找個廠商簽維護,有困難能即時問,真的出事也不會自己一個人慌張..
首先你要去和你主管要:
1.網路圖
2.設備表
3.架構圖
4.公司SOP
5.部門內部操作手冊
然後去看他、讀他、弄熟他、"弄懂他",通常這些東西不一定會一直持續有更新,所以可以和現況做比對,去盤點每一個項目(實體/虛擬)
找不到或沒有的就想辦法去問,去弄懂那些在和不在清單上的東西
然後遇到問題要先動腦,YT、Google、GhatGPT都是你的好幫手,要會去搜尋關鍵字和釐清問題,並判斷哪個回答是正確的,然後不要一直糾結在哪個才是最正確的答案/方案,先動手做,然後邊做邊想邊修正出最快最好的方式,你就會得到一套屬於你的經驗和作業流程(<<<這部分每個人的方式都不一樣)
再看你們有沒有配合的SI(不管是買設備、維護...等等的),有沒有相關培訓課程能上(內訓/外訓),沒有的話你也可以自己主動和主管提出申請受訓,或是請主管安排時間或指派人員幫你做一次內部的教育訓練!
大概是這樣...