通常故障排除的流程如下圖
在監控越來越多,系統複雜度越來越高的情況下,發生A現象與B現象幾乎同時發生的情況也可能越來越多,最終只是一種「巧合」,卻常常讓人們走進這種陷阱。
最近最有名的例子就是 大谷翔平 vs 長榮股票
從系統的某一端開始逐步查找問題直到根源。
將系統分兩部分,確認問題在哪部分,依此類推。
當你遇到收到一份問題報告時,應該先把問題的範圍做釐清,通常我們會分為
當然這個分類你可以依照不同團隊,不同性質去做分類。
找出大約第一次出現問題的時間,如果有做到gitops的話,可以比對git log,進行比對,是否有存在相關性,並把異動範圍以及內容作為可能性之一。
今天為大家分享故障排除的小技巧,依照流程一步一步來不要緊張,避開常見的陷阱,相信你會在面對問題時,更系統化的解決問題。