大數據平台：分散式檔案

2021 iThome 鐵人賽

DAY 28

DevOps

13th鐵人賽

967 瀏覽

在網路之上的多個伺服器節點建立了個巨量儲存空間和高吞吐(Throughput)的檔案系統，使用時無須關心檔案的物理儲存方式，可以像使用本地檔案系統一樣管理檔案及資料夾。

是 Hadoop 「數據生態圈」的重要基礎設施：
* 具備「故障檢測和隔離(Fault Detection and Isolation, FDI)」能力
* 透過資料「副本機制」獲得了更好的容錯能力
* 適合大型檔案以及巨量資料的批次處理

具有一些明顯的限制：
* 採用一致性模型有較高的讀寫延遲
* 不適用用於即時性服務
* NameNode 可能會造成單點故障

系統高可用性：
可以透過 NFS 來同步主從 NameNode 的資料備份，可以快速的故障轉移到熱備援的 NameNode，提升系統的可用性。
水平擴充能力：
可以利用 Federation 機制提高系統的水平擴充能力，將全域的檔案目錄切割到多個 NameSpace 後分配到多個獨立的 NameNode 管理，共享所有 DataNode 的儲存資料。
- Raid 6 標準的里德-所羅門碼(Reed-Solomon Codes, RS Codes)資料儲存方法
- 多個熱備援的 NameNode
- DataNode 的資料平衡機制