想問各位大大(目前擔任公司MIS工程師工作),因為伺服器有一天某一台實體機無法連線,立馬查了一下是網卡掛了,導致有一台虛擬機系統故障開不起來,故緊急把網卡的網路線換到內建網卡設定(但我不會不知在哪設,是主管設定才知道),然後開了VM主機平台,打開各虛機系統其中一台開不起來掛了,因為有備份虛機整個VM檔故把整台還原只落差幾小時,也有備份資料庫但不用再另外導入,但整個事件嚇的一身冷汗,主管才指示了一堆狀況要學會和危機處理或找人來了解整個網路的架構佈置和主機的狀況能後續危機處理,目前方向想找一下專家來幫助了解和改善,因網路這塊小弟弱,該怎麼做好呢?
目前機房狀況/伺服器要了解
1.伺服器的佈建情況
2.主機,VM,各台配置狀況
3.故障的危機處理,如何很快速還原上線
4.備援和備份的狀況
5.網卡的備用(加購等)
6.NAS的狀況,速度很慢,使用量滿載/需要增加空間或接法改變.等
針對你的問題 感覺你是第一次接觸機房網路及伺服器管理的感覺,建議你利用下班時間進修或是請主管找SI廠商協助維護你也順便在旁學習一些基礎管理即故障排除,還有管理機房第一個要有危機意識做好如發生問題的處理方式及解決方法,不能靠主管來下指示才動作這樣你的工作KPI已在主管心中大打折扣了
1.主機狀況盤點還是得自己親手去做,但能請廠商一起介入,不懂的就問廠商到懂.
2.故障還原跟備份備援看要做到甚麼程度(資料中斷量,整機還原時間能接受多久),再請廠商推薦相對應方案,導入方案的同時你也能學會怎麼做.後續固定時間演練還原,熟悉後就不會這麼緊張.
3.備品看是要機房備用或著考慮簽維護合約.
4.硬體效能改善,評估設備使用年限與更換價格看是要增購配件還是換新.
以上這些SI廠商應都能協助,你已經盤點完問題,可以看你所在地區,直接找廠商洽談.
跨出第一步比較困難,實際去用會發現大部分問題,你自己找網路上都有解答.但建議還是要找個廠商簽維護,有困難能即時問,真的出事也不會自己一個人慌張..
好的感謝大大的建議
1.主機盤點硬體、軟體、IP、設備各自做什麼大概剛來的時候都點做看過記錄一遍了.以方便日後找相關SI廠商洽詢
2.這1塊就真的沒有演練和不熟,因為遇到那一個虛機故意或壞,大概就是VM虛機整個倒回,再看壞的時間要不要在增加導回資料庫但這塊就是只能遇到實際在做,之前並無遇到整個掛掉的狀況,所以會害怕不熟不過經過這次有好一點也記錄下來SOP。
3.買備品是一定要的吧,尚在考量找廠商還不知找什麼SI,不過簽維護感覺公司會都會有種想法已請資訊人員了自己想辦法還簽維護幹嘛,所以感覺會被打槍。
4.硬體評估改善這是接下來要做,明年才有預算進行。
3.如果公司這樣想,那資訊人員壓力會很大.就算該系統9成以上的問題資訊人員都能解決,只要出現不能解決的問題,資訊人員就得扛責. 有要久任得慢慢導正公司對資訊人員的認知,有廠商維護對公司才有相對應的保障.
這部分也難強求,真的沒廠商就當練功吧,先假設全部系統故障,你能從無到有還原回來吧.
首先你要去和你主管要:
1.網路圖
2.設備表
3.架構圖
4.公司SOP
5.部門內部操作手冊
然後去看他、讀他、弄熟他、"弄懂他",通常這些東西不一定會一直持續有更新,所以可以和現況做比對,去盤點每一個項目(實體/虛擬)
找不到或沒有的就想辦法去問,去弄懂那些在和不在清單上的東西
然後遇到問題要先動腦,YT、Google、GhatGPT都是你的好幫手,要會去搜尋關鍵字和釐清問題,並判斷哪個回答是正確的,然後不要一直糾結在哪個才是最正確的答案/方案,先動手做,然後邊做邊想邊修正出最快最好的方式,你就會得到一套屬於你的經驗和作業流程(<<<這部分每個人的方式都不一樣)
再看你們有沒有配合的SI(不管是買設備、維護...等等的),有沒有相關培訓課程能上(內訓/外訓),沒有的話你也可以自己主動和主管提出申請受訓,或是請主管安排時間或指派人員幫你做一次內部的教育訓練!
大概是這樣...
這樣有好有壞,好的就是你那邊現在就是個練功場,你搞懂了,大部分地方都大同小異,只是設備多少/品牌和用的軟體不同的差別
壞的,就是不很好做
至於3~6項,既然你都是自己做,而且老闆看似也同意汰舊換新,那就看是使用現有資源還是先做計劃+預算提交上去,然後找SI一起協助規畫,進行整改了!
WOWO大大果然很精僻見解,謝謝,對是個練功房只是以前用的軟硬體設備不同,例如以前的環境都是用實機1種1個server(mail,資料庫,防火牆,人資,財務...都1種1實機),現在是1個虛擬平台實機.然後可以做很多虛機系統工作.然後各種備份串連NAS,每日備份等等..是比較方便和維護,好處哪一個壞就去修那一個虛機..不過現擔心的是1個實體平台伺服器壞那就要有備援或災難計劃去做,公司沒有做HA也沒備援.所以可以想想這一塊,而且公司的伺服器都買中古機也沒SI維護,當然計劃+預算提供找SI來協助規劃.公司會想改善..不過找了1,2個SI.感覺都是獅子大開口然後叫你弄一堆有的沒得..感覺很討厭,所以要再找合適的不過比較要花時間找了。
一個服務用一台實體機,這大概是約莫1X~20年前的做法了吧...!!
現在設置一座/一台虛擬機/ESXI/VSAN/超融合的方式算比較常見了
至於備份備援的部分,你可以去研究下VEEAM社區版,然後裝在另一台實體機上(WIN10/11的PC也可以),用這個去備份(打包)你家的虛擬機,然後復原的部分就看你拿時後能拿到硬體設備,直接用VEEAM去復原
這大概是目前最省錢的做法了...不然沒HA也要多一台主機去做叢集會比較好些,至少一台實體掛掉還能夠把虛擬機搬移到另一台上恢復服務
至於虛擬機設定的部分,記得ESXI好像不提供免費版了...你可以找下VMware workstation 17 pro(免費)來玩玩,基本概念和ESXI大致相同
HyperV的話,Windows pro記得有內建...
而依照你的環境,SI來規劃通常一開始也都會叫你整個更新,畢竟什麼線重拉啦,網路重規畫啦,主機重弄啦,對他們來說比一個個清查盤點查線要簡單
不過分階段作業/更新也是可以和SI討論的,但是要找到好的SI也滿重要的!(但這又牽涉到你們的規畫和預算...)
兩天內針對你所有問題編寫一個完整的AI系統監測專門解決你目前的問題.......收費五千內...測試後完全滿意再付費.有意建請留言.....根據您描述的情況,似乎您面臨了一些與伺服器、網路和虛擬機管理相關的挑戰。以下是一些建議,幫助您改善現有的系統和處理能力:
不知道您來該公司多久了,發生的事件是屬於你的業務範圍嗎?
如果來公司很久了,又是屬於你的工作責任範圍,那我只能說你該打屁股了(因無危機意識)
如果上述問題皆否,那你自然有託辭,就趁這段時間趕緊學習吧...
如何學習,如其他大大所說,自己建立一套相同的環境,過程中一定會遭遇問題
解決問題的過程中自然會學到很多經驗,能建立起相同的環境後
就可以開始模擬各種災害狀況,並將其解決或修復
之後你就不用擔心類似狀況了