經過了幾個月的前置作業,終於迎來了正式上線的日子。
Jerry規畫著服務上線的順序,首先是DNS服務,再來靜態物件比較多的官網,最後就是跟交易以及金流有關的網站。
為了這個重要的上線日,最後一場會議除了確認前置作業的所有事項是否到位外,還有一件重要的事情,就是切換的時間點!!
是離峰時間的半夜? 還是使用的人少一點的下午1~2點? 或者是尖峰的時候?
有的開發人員認為,要除錯就是要有人用啊,不然半夜都沒都沒人用,導入完怎麼知道服務有沒有正常!!
但客服部門認為,出了問題就是會客訴,這會增加客服人員的負擔,是開發部門驗證程序不夠完善!!
對Jerry來說,他其實並不喜歡半夜來作業,那個時間點不適合動腦筋除錯,但他只能靜靜的等大家討論結果。
最後,考量服務穩定不要影響太多客戶,所以選擇半夜來作業。
DNS服務異常~服務全下線了~~
時間來到上線前的23:30,預計在隔天的00:30進行DNS切換,要將DNS服務導入Edge DNS。
時間逐漸倒數,Jerry登入F5設備的Console中,開始編輯設定檔。
SI顧問因為家中小孩發燒,所以透過遠端準備協助驗證服務跟支援。
時間到,Jerry下了wq! 結束編輯模式,重啟named服務來驗證服務!!
正當要透過Line跟顧問說設定完成時,顧問先打來了!!
Jerry你的DNS服務應該有問題,我現在都查不到Record,網站都打不開!!
機房OP也立即撥電話過來說,監控上所有對外服務都Ping Down了,你剛剛異動要不要還原?
Jerry立即檢查設定檔,並沒有找到任何問題。Jerry不可置信的看著筆電,眼睛充滿血絲心跳加速,不斷思考倒底哪裡有問題~~
此時顧問電話打來,詢問是否需要支援! Jerry沒有猶豫太久,立即透過teamviewer讓顧問遠端登入看設定。
顧問看了半天,也沒有發現設定上的異常,但是他透過診斷機制發現F5 LC的named服務並未啟動!!
於是他下了指令發現起動失敗,這時顧問才發現到named.conf的檔案權限是root!!
在電話的那頭顧問問說,我記得沒錯的話檔案權限應該是named阿?
Jerry突然意識到~~他利用登入F5後檢查服務都一直用root,忘記切帳號了!!
在知道問題在哪後,經過調整中終於把DNS服務恢復了!!
這場騷動,足足讓Jerry公司的服務停擺了30分鐘,想當然隔天被罵到臭頭~~~
ISP是哪一端?
在經歷DNS上線的問題後,Jerry更不敢大意,繃緊神經拿著上線確認清單一直核對完成與否。
主管們也意識到,不能放Jerry一個人作業,尤其是半夜疲勞作業更容易出錯。
這次網路、系統、開發相關負責人全部到齊,主要是今天官網要發佈重要活動消息,預計會有比平常多的流量,正好測試一下CDN的威力。
時間一到,DNS改指向CDN後,平台Dashboard上開始出現流量,Jerry心想心想著這次穩了吧!!
突然!!有AP打來說他的手機連不上網站,Jerry心想會不會是手機網路的問題。
接著~陸續有人反映網站打不開,Jerry的郵件收到Origin Connection Failure 源站連線失敗的異常通知。
Jerry大驚!! 暗自咒罵~是誰擋了我的服務!!
於是衝進機房,把每一個防護機制的負責人都問候了一次,並詢問有沒有擋到CDN,大家都說沒有。
正當主管搖頭準備宣布,要將DNS切回來的時候,顧問問了Jerry一句 " 所有防護機制都看過了嗎"!!
Jerry回說,地端的設備負責人都說沒有,不然還有哪一端?
此時!!Jerry猛然想到,靠腰!!還有ISP端啦~~
Jerry立即撥通ISP的機房電話,確認剛剛是不是有擋了什麼?
ISP機房SE說,對阿我剛看有一個來自Akamai網段的連線,對你們官網大量的連線耶,這個攻擊都已經擋下了喔!!
Jerry 激動的跟SE說事件的前因後果,要求趕快將阻擋的IP解除,並依據稍後的E-MAIL附件,將CDN網段加入排除清單中。
在一波操作忙碌中,終於完成了服務的導入。
到了凌晨3點,服務都還算順暢運作,於是主管要求大家可以回家休息了。
Jerry到家已經04:30 ,才剛躺下去準備休息,沒想到~~~待續...