[Day 14] 關於 SRE 與 SEC 的關係

13th鐵人賽 sre security

rainforest

團隊神龍特攻隊 - it 宏的逆襲

2021-09-22 11:30:04

2690 瀏覽

分享至

關於SEC的事情

資料庫演練100%備份還原

每年至少兩次的資料災害恢復演練，資料要100%覆蓋，要100%可恢復！可以由資深同仁帶著比較沒經驗的同仁，順便幫助團隊其他組員更加有信心。

定期更換帳密

如果是內部系統通常是建議三個月更換一次，但可以用抽籤的1~6個月更換也可以。
DB類帳號建議每半年換一次。
如果是有在使用git的建議commit搭配GPG -> https://ithelp.ithome.com.tw/articles/10234900

定期檢查cpu&mem

VM or Node 檢查頻率要依照波動幅度做調整，幅度越高，頻率應該越高
Pod cpu or mem的使用率都有持續成長沒有降下來的情況，更應該要留意！查看是否有code沒寫好，沒妥善利用好資源。

定期檢查硬碟使用率

檢查頻率要依照硬碟成長幅度做調整，成長幅度越高，頻率應該越高，成長幅度高的話也要看一下是不是有東西寫壞了...，不是你們寫的服務客人反應太熱量，不然就是你們寫的服務讓自己太嗨了，亂寫一堆檔案也沒有妥善處理。

定期確認防火牆規則

防火牆的異動常常因為需求做調整，但也要定期去檢視防火牆規則設定是否合宜，是否設定錯誤，可能會造成資安上的漏洞。

定期檢視監控是否運作正常

有時候你以為你設定的監控，是正常的，但它就剛好在某天壞掉，直到系統出現問題，你才驚覺，WTF看似有監控但都是假的！所以我才要提醒你各位，要定期去檢視一下你的監控是否運作正常，警報是否能正常觸發？適時關懷一下你的監控唄！

定期追蹤你所使用的套件

Open Source 常常會有更版，多多少少會修正一些安全性的問題，若你不定期去追蹤的話，萬一萬一你在正式環境上使用的版本是個大漏洞，公司的系統整個就處於高風險的環境之中，甚至可能被零時差攻擊！所以良心建議大家，真的要定期追蹤一下你所以使用的東西，不管是程式語言或是使用的套件，更甚至是OS的版本...。但是否更新就要你們做好風險評估了，因為有時候急忙的更新上去，那個新修正的版本可能會有更多問題，所以風險管理...真的是一門學問，更新重要的東西前，最好是能在其他環境先測試過一輪比較好，可以看看這篇的做法 -> [Day 5] SRE - 發動事件左移之術，預視未來的機制