Trouble with Distributed Systems (1)

2021 iThome 鐵人賽

DAY 8

AI & Data

資料工程師修煉之路 Part II系列第 8 篇

13th鐵人賽 data engineer

tshine73

2021-09-08 20:37:11

1417 瀏覽

分享至

之前的文章我們大多都是在談系統出錯了怎麼辦，諸如節點掛掉怎麼做、做副本 (replication) 時 Lag 怎麼辦等等等等；一切就只是希望讓工程師們意識到，邊界條件（鬼故事）在現實世界中是會發生的，先了解，才能更好的處理它們。

分散式系統會因為各種原因出錯，所以從這章開始，是時候要把鬼故事升級成魔王故事了，我們將談談更多可能會發生的錯誤，用最大力氣假設系統若會故障就真的會故障，就像投資時要全盤考量各種風險那樣（但有些人沒在管）。

接下來我們會有最經典的網路問題、時鐘精度問題，最後就是在分散式系統中最有趣的，有關節點狀態的真與假，但首先先談談部份故障為何吧！

故障和部份故障 (Faults and Partial Failures)

當你寫一段程式在單一台電腦上，它的結果很好預測，成功執行或失敗；一個執行在獨立電腦的好軟體沒有道理會起肖（除非你看太多奇怪東西中毒了），當你的硬體正常運作時，相同的操作會得到相同的結果，但當你硬體發生問題時（例如記憶體損壞、某條排線鬆脫等等），其結果就是整個作業系統故障（例如 windows 的藍色當機畫面），一個好軟體在獨立電腦上執行的結果，要嘛正常，要嘛故障，沒有中間的。

當你的軟體開始執行在多台電腦上時，用網路連接，這情況就不一樣了，我們並不是在一個理想化系統模型中運行；在分散式系統中，總是有很多意想不到的方式出錯（例如有人不小心把某一機櫃的網路線拔掉了），稱為 部份故障 (partial failure)，部份故障是不確定的。