日常維運3: 註冊 OpsWorks 失敗，挑戰與心得

15th鐵人賽 sre

SeanIa̍p

2023-09-17 17:02:52

1034 瀏覽

分享至

前言

前面介紹完了註冊 OpsWorks 失敗的解決方案。這篇文章想分享一些在處理過程中值得分享的事情。

Userdata 的挑戰

shell script

第一個就是整個 userdata 的修改。前面有提到，做為一個超級菜鳥，其實筆者一開始連 shell script 都不太會寫，受到了前輩很多的幫忙後，才慢慢做出改善的結果。

而在整個修改過程中，筆者一開始曾寫出以下被揪正的指令：

if [ -z "$INSTANCE_ID" ]; then SET_EC2_UNHEALTHY; exit 0; fi

該指令主要在exit 0這裡不太好，因為該指令應該是用在系統沒有問題的情況下，但顯然這裡是在出錯的情況下結束的。

另外，上面可以看到，筆者下達關機的指令是透過另一個 AWS CLI Command：

aws autoscaling set-instance-health

這個做法是經過前輩建議的。事實上筆者一開始是直接透過 Linux Command，對虛擬機本人下達關機(shut down)的指令。但前輩認為比較理想的做法，應該是透過 ASG 判斷 EC2 健康狀態的方式來進行這個終止機器(terminate)的動作。因此相較於直接下達關機指令，透過設定機器為 unhealthy 的方式則應該會是更好的。

權限

不過，在實驗這個指令的過程中也很意外地遇到另一個權限問題。因為該指令是從 EC2 中下達的，雖然 userdata 的指令都會以虛擬機的最高權限來執行，但一開始開給 EC2 的權限就無法執行該指令的狀況下，這邊也歷經過一輪權限設定的繁鎖流程呢。

最後，由於錯誤處理的指令本身也會有各種預料之外的突發狀況，因此在每個過程中不斷印出相關的訊息，也是事後在排查問題時一件相當重要的事情。比如說，在一個指術的開始或結束後，或在錯誤處理機制觸發的前後，如果能加上一個echo，就很容易能夠在問題出現後找到失敗的指令。以上這些都是在學習過程中所接觸到，筆者認為非常珍貴的經驗，也在此分享給讀者。

架構與歷史的挑戰

第二件事情，在維護模式工具當時也有提到一點，就是能夠在研究的過程中摸到服務的架構，並從架構的演進中看到公司過去的各種歷史，以及，呃，包伏……的部分。比如說，我們可能光部署或架構管理工具，就有 CloudFormation、客製化工具、Terraform，以及甚至還有部分是手動建立的。每一個不同的工具都象徵某個時代的團隊，而我們就是站在巨人的肩膀上，跟據前人的建設再增加上我們自己的東西，或……也許有時候也有負責當拆彈專家的部分。