【2025鐵人賽】用作業系統讀懂另一半的OS：File System 03

2025 iThome 鐵人賽

DAY 29

Software Development

用作業系統讀懂另一半的OS系列第 29 篇

17th鐵人賽 os 作業系統

Wei Cheng

2025-08-29 04:35:30

222 瀏覽

分享至

檔案系統內部結構(File-System Internals)

在我們日常與電腦的互動中，檔案操似乎是天經地義、瞬間完成的。然而，在這看似簡單的動作背後，隱藏著一套由作業系統精心設計與管理的複雜機制。這套機制確保了資料能夠在非揮發性儲存裝置上被有條不紊地組織、存取與保護。為了真正理解檔案系統的運作原理，我們需深入探討其三個核心的內部主題：儲存裝置與檔案系統的層次關係、使檔案系統可見的掛載過程，以及在多人協作環境下至關重要的檔案共享與權限管理。

儲存裝置與檔案系統的層次關係

檔案並非直接存放在主記憶體中，而是長期保存在如硬碟（HDD）、固態硬碟（SSD）或NVM等非揮發性儲存裝置上。然而，一個全新的儲存裝置，其本質僅是一片廣闊的、未經組織的儲存區塊的集合，它本身並不具備存放檔案的能力。為了讓這片原始空間變得可用，作業系統必須對其進行一系列層次化的準備工作。

第一步是分割（Partitioning）。作業系統會將一個物理儲存裝置分割成一個或多個獨立的邏輯區域，即分割區。這樣做有多重好處，例如可以在同一硬碟上安裝多個不同的作業系統，或者將系統檔案與使用者資料分開存放，以便於管理和備份。

接著，每個分割區會被視為一個卷（Volume）。一個卷是檔案系統能夠佔據的單一邏輯儲存單元。在此基礎上，會進行最關鍵的步驟——格式化（Formatting）。格式化是在卷上建立特定檔案系統（如NTFS、ext4或FAT32）的過程。這個過程會寫入該檔案系統所需的核心管理資料結構，例如超級區塊（Superblock，記錄檔案系統的整體資訊）、可用空間管理表（如位元圖）以及根目錄（Root Directory）的初始結構。唯有經過格式化的卷，才真正成為一個能夠開始儲存、組織與檢索檔案的檔案系統。

在檔案系統內部，所有檔案都是透過層級目錄結構（Hierarchical Directory Structure）來組織的。目錄本身是一種特殊的檔案，其內容是其他檔案或子目錄的列表與其位置的對應資訊。這種樹狀結構不僅方便使用者進行分類與搜尋，更是實現權限控制的基礎。

File-System Mounting（檔案系統掛載）

當我們將一個已格式化的儲存裝置（如USB隨身碟）連接到電腦時，作業系統是如何知道其內容，並將其顯示在特定的路徑下呢？這個過程被稱為掛載（Mounting）。掛載是將一個外部的檔案系統，整合至主作業系統既有的目錄樹中的一個動態過程。

掛載的本質，是指定一個已存在的空目錄作為掛載點（Mount Point），然後將目標裝置上的檔案系統的根目錄與這個掛載點連結起來。一旦掛載完成，原裝置上的所有檔案與目錄，就會看似存在於該掛載點之下，使用者可以透過標準的檔案路徑（如 /media/usb 或 E:\）來存取它們，而無需關心其物理來源。

整個掛載程序由作業系統嚴格管理。當收到掛載指令時，系統會驗證指定裝置上是否存在一個合法、可識別的檔案系統格式。驗證通過後，作業系統會在一個內部的掛載表（mount table）中記錄下這次的掛載關係，並將掛載點目錄的存取請求，透明地轉發到底層的裝置驅動程式。因此，一個未被掛載的裝置，儘管物理上已連接，卻無法透過檔案名稱被存取。這個機制是作業系統維持統一命名空間、保護系統資源完整性的重要手段。

檔案共享（File Sharing）與多使用者管理

在單人使用的個人電腦上，檔案存取相對單純。然而，在伺服器或任何多使用者系統中，檔案的共享與存取控制就成為一項核心的安全挑戰。系統必須確保資料只能被授權的使用者存取，並防止未經授權的讀取、修改或刪除。

為應對此挑戰，現代作業系統引入了精密的權限控管機制。其基礎是使用者與群組的身分識別。系統中的每個使用者都會被分配一個唯一的使用者ID（UID），並可隸屬於一個或多個群組，每個群組也有一個唯一的群組ID（GID）。

在UNIX及其衍生系統（如Linux）中，這個概念被發展為一個經典的三層權限模型。系統中的每一個檔案和目錄，其元資料（metadata）中都會記錄著三組資訊：一個擁有者（Owner）的UID、一個所屬群組（Group）的GID，以及針對這三種身分類別的存取權限。當任何使用者嘗試存取一個檔案時，系統會依序進行以下權限比對：

檢查是否為擁有者：如果請求者的UID與檔案的擁有者UID相符，則套用「擁有者」權限。擁有者通常擁有對檔案的完全控制權。
檢查是否屬於群組：如果不是擁有者，系統會檢查請求者是否為檔案所屬群組的成員。若是，則套用「群組」權限。
套用其他人權限：如果以上皆非，請求者則被歸類為「其他人（Others）」，系統將套用權限最小的「其他人」權限。

每一層級的權限都被細分為讀（read）、寫（write）、執行（execute）三種操作。透過這套UID/GID與rwx權限碼的組合，系統得以對每一次檔案存取行為進行精確且高效的合法性判斷，從而保障了在複雜共享環境下的資料安全。

Virtual File Systems（虛擬檔案系統）

在Linux或任何現代作業系統中，使用者能夠以完全相同的方式與各式各樣的儲存裝置互動。無論是讀取本機硬碟（ext4）、寫入Windows格式的USB隨身碟（FAT32/NTFS），還是存取遠端的網路共享（NFS），我們都使用著同一套標準的系統呼叫，如 open()、read() 與 write()。這種跨越異構儲存媒介的無縫體驗並非理所當然，其背後的核心功臣，便是被稱為「虛擬檔案系統」（Virtual File System, VFS）的精妙設計。

VFS的本質，是在作業系統核心中引入一個抽象層（Abstraction Layer）。它的核心任務，是將上層應用程式對檔案的操作請求，與下層具體檔案系統的內部實作細節進行徹底的解耦。若沒有VFS，作業系統核心就必須為每種支援的檔案系統（如ext4、NTFS、tmpfs等）撰寫各自獨立的檔案操作邏輯，這將導致程式碼大量重複、難以維護，且每當需要支援一種新的檔案系統時，都意味著對核心進行複雜的修改。VFS如同作業系統的「萬用轉接頭」，它為所有檔案系統定義了一套標準的介面與規範。如此一來，上層的應用程式與作業系統核心的其他部分，只需與VFS這個統一的介面溝通即可，無需關心操作的對象究竟是哪一種檔案系統。

VFS的運作機制

VFS的運作核心，依賴於物件導向程式設計中的間接呼叫（indirection）與多型（polymorphism）思想，並透過函數指標（function pointers）來實現。當一個應用程式發出一個檔案操作的系統呼叫，例如 read() 時，其在核心中的旅程如下：

首先，這個請求會被VFS層接收。VFS會根據傳入的檔案描述符（file descriptor），找到一個代表該已開啟檔案的核心資料結構。這個結構中包含了該檔案所屬的具體檔案系統類型資訊。接著，VFS並不會自己執行讀取操作，而是會去查詢一個與該檔案關聯的「操作函數列表」。這個列表是一個充滿函數指標的表格，在檔案被開啟時，就已經被底層的具體檔案系統（例如ext4驅動程式）初始化，填入了指向其自身 read 實作函數的記憶體位址。

最後，VFS會透過這個函數指標，呼叫ext4驅動程式所提供的 ext4_read() 函數，將控制權轉交出去。實際的磁碟區塊讀取、資料解析等工作，將由ext4驅動程式完成。操作結束後，結果會沿原路徑回傳給VFS，最終由VFS返回給使用者應用程式。透過這個機制，VFS本身維持了極大的通用性，它只負責管理流程與呼叫標準介面，而將所有與格式相關的「髒活」都交給了專門的檔案系統驅動程式。

Linux VFS的四大核心物件：

為了實現上述的抽象模型，Linux的VFS設計了四種核心的資料結構（物件），用以在記憶體中描述檔案系統的不同面向。這四個物件緊密協作，構成了VFS的運作基礎。

超級區塊物件（superblock object）：
此物件代表一個已掛載的檔案系統實例。當一個儲存卷（volume）被掛載到系統目錄樹上時，核心會讀取該檔案系統的元資料，並在記憶體中建立一個對應的superblock物件。它儲存了關於整個檔案系統的宏觀資訊，如檔案系統類型、磁碟區塊大小、掛載點、以及指向根目錄項目的指標等。
索引節點物件（inode object）：
此物件代表一個磁碟上具體的檔案或目錄。它包含了檔案的所有元資料，除了檔案名稱之外，例如檔案大小、存取權限、擁有者與群組ID、時間戳記，以及最重要的——指向儲存檔案內容的資料區塊的指標。每個檔案在檔案系統中都有一個獨一無二的inode。
目錄項目物件（dentry object）：
dentry物件是檔名與inode之間的連結。它代表了路徑中的一個組成部分（例如，在路徑 /home/user/file.txt 中，「home」、「user」和「file.txt」都是dentry）。作業系統透過快取dentry物件（dcache）來加速路徑的解析過程。當VFS需要查找一個檔案時，它會逐層遍歷路徑中的dentry，最終找到目標檔名對應的inode。
檔案物件（file object）：
此物件代表一個由行程（process）開啟的檔案。當應用程式呼叫 open() 時，核心會建立一個file物件，並將其與一個檔案描述符關聯起來。值得注意的是，一個inode物件可以對應多個file物件（例如，多個行程同時開啟同一個檔案）。file物件儲存了與此次「開啟」相關的狀態資訊，例如檔案的讀寫模式、以及當前讀寫的偏移量（cursor position）。

Remote File Systems（遠端檔案系統）

在今日高度網路化的運算環境中，使用者能夠如同操作本機檔案一般，無縫地存取位於遠端伺服器上的資料。這種「位置透明性」（Location Transparency）的便利性，是數十年來檔案系統技術演進的結晶。從早期的手動檔案傳輸，到現今深度整合於作業系統中的分散式檔案系統與雲端儲存，其核心目標始終如一：將網路的複雜性隱藏起來，為使用者提供一個統一且一致的檔案存取介面。

遠端存取的演進：從手動傳輸到無縫整合

在遠端檔案系統普及之前，跨機器存取資料主要依賴如檔案傳輸協定（FTP）等工具。在這種模式下，「遠端」與「本地」是兩個涇渭分明的世界。使用者必須透過專門的軟體或指令，手動連接至遠端主機，瀏覽其目錄結構，然後將檔案「下載」至本地端進行編輯，完成後再手動「上傳」回去。此過程不僅操作繁瑣，更缺乏即時編輯的能力，且極易引發版本不同步的問題。本質上，FTP提供的是資料的「搬運」服務，而非真正的檔案「系統」整合。

革命性的轉變來自於分散式檔案系統（Distributed File Systems, DFS）的出現，其中最具代表性的便是網路檔案系統（NFS）與伺服器訊息區塊（SMB/CIFS，常被稱為Samba）。DFS的核心創新在於，它允許使用者將遠端的目錄「掛載」（mount）到本地的目錄樹中。透過作業系統虛擬檔案系統（VFS）層的抽象，遠端目錄在使用者看來，與本地的資料夾無異。所有標準的檔案操作（如open, read, write）都會被VFS攔截，並由DFS的客戶端模組轉譯為網路請求，發送至遠端伺服器。這種無縫整合的體驗，是實現位置透明性的關鍵一步。

時至今日，遠端存取的潮流進一步演化為雲端儲存（Cloud Storage），如Google Drive或Dropbox等服務。儘管其上層常透過HTTP等Web協定進行互動，但其背後許多客戶端同步軟體的運作原理，依然離不開DFS所奠定的基礎，即在本地建立一個虛擬的檔案系統介面，將使用者的操作同步至雲端。

Client-Server架構：遠端存取的核心模型

無論是NFS、Samba還是雲端儲存，其底層都遵循著一個共通的客戶端—伺服器（Client-Server）架構。在此模型中，角色分工明確：

伺服器端是資料的權威來源。它擁有實體的儲存裝置與檔案，並負責管理檔案系統的完整性。伺服器管理員會設定哪些目錄可以被「匯出」（export）或「分享」（share），並定義詳細的存取權限規則，決定哪些客戶端或使用者可以存取這些資源。

客戶端則是服務的請求方。它透過網路向伺服器發出操作請求。當一個遠端檔案系統被掛載後，客戶端的作業系統會將所有針對該掛載點的檔案操作，轉交給DFS客戶端模組。該模組負責將這些操作封裝成符合特定協定的網路封包，發送給伺服器，並等待回應。

一次典型的遠端檔案讀取流程如下：客戶端的使用者嘗試開啟一個遠端檔案，此open請求被轉發至伺服器，請求中通常包含了使用者的身份憑證（如UID/GID）。伺服器接收後，首先進行身份驗證，然後根據其權限配置表，檢查該使用者是否具備讀取此檔案的權限。若驗證通過，伺服器會為這次的存取建立一個會話（session），並回傳一個檔案代碼（file handle）給客戶端。之後，客戶端便可利用此代碼發起後續的read或write請求。所有操作完成後，客戶端發出close請求，伺服器隨即結束此次會話。整個過程中的網路通訊對使用者而言幾乎是無感的，完美達成了位置透明性的目標。

安全性挑戰：

將檔案系統暴露於網路上，雖然帶來了便利，卻也引入了本地端所沒有的嚴峻安全挑戰。其中，最核心的問題便是身份的「認證」（Authentication）與權限的「授權」（Authorization）。

一個常見的痛點是使用者身份（UID）的對應問題。在UNIX環境中，權限是基於數字ID來判定的。若客戶端上UID為501的使用者，與伺服器上UID為501的使用者並非同一人，便可能導致嚴重的權限錯亂。此外，惡意攻擊者也可能透過偽造IP位址或使用者ID的方式，冒充合法使用者，進行未經授權的存取。

為此，遠端檔案系統必須建立可靠的認證機制。早期的不安全作法，如僅依賴IP位址進行驗證或以明文傳輸帳號密碼，在現代網路環境中已完全不可取。安全的解決方案則需仰賴強健的加密與驗證協定。例如，使用Kerberos這類的票證授權系統，可以在不信任的網路環境中，為客戶端與伺服器提供雙向的身份驗證。而LDAP等目錄服務，則能提供一個集中的身份資料庫，解決跨系統的UID對應問題。所有在網路上傳輸的資料，也都應透過SSL/TLS等協定進行加密，以防止竊聽與竄改。

一致性語意（Consistency Semantics）

在現代的多使用者與分散式運算環境中，多個使用者或行程同時存取同一個共享檔案已是常態。然而，這種便利性也帶來了一個根本性的挑戰：當一位使用者對檔案進行修改時，其他使用者將在何時、並以何種方式看到這些變更？這個問題的答案，取決於檔案系統所採用的「一致性語意」（Consistency Semantics）。

一致性語意是檔案系統設計中的一項核心契約，它明確定義了關於檔案讀寫操作可見性的規則。這套規則不僅影響著程式開發者設計協作應用程式的方式，也深刻地決定了檔案系統的效能與擴展性。其複雜性不僅在於類似執行緒同步（synchronization）所需處理的競態條件（race condition），更牽涉到磁碟I/O的物理延遲、網路傳輸的不可預測性，以及各層級快取（caching）的刷新策略。一個過於嚴格的一致性模型雖然直觀，卻可能帶來巨大的效能開銷；而一個過於寬鬆的模型，則可能導致資料錯亂。因此，不存在所謂「最好」的一致性語意，只有最適合特定應用場景的設計。

UNIX語意：嚴格但昂貴的即時性

UNIX語意提供了最為嚴格和直觀的一致性保證。其核心規則是：任何由一個行程執行的write操作，其結果對於任何其他後續執行read操作的行程而言，都是立即且完全可見的。換言之，系統保證所有使用者看到的都是檔案的最新版本。

在單機系統中，這種語意是透過讓所有開啟同一個檔案的行程，共享同一個核心內部的索引節點（in-memory inode）來實現的。這個共享的資料結構記錄了檔案的元資料與資料區塊的指標。當任何一個行程寫入資料時，都是在修改這個共享的結構，因此其他行程自然能夠立刻讀取到變更。雖然每個行程有自己獨立的檔案讀寫指標（offset），但它們操作的底層資料是完全同步的。

這種模型的優點在於其簡單與可預測性，開發者無需擔心資料可見性的延遲問題。然而，其缺點也同樣顯著。為了維持這種嚴格的同步，系統需要頻繁地進行鎖定與快取刷新，帶來了相當大的效能開銷。當此模型被應用於分散式檔案系統（如NFS）時，問題會被進一步放大。每一次客戶端的寫入，都可能需要立即與伺服器進行同步，並通知所有其他客戶端使其快取失效，巨大的網路延遲會讓系統效能急劇下降。

會話語意：犧牲即時性以換取效能

為了解決UNIX語意在分散式環境下的效能瓶頸，會話語意（Session Semantics）應運而生，並在安德魯檔案系統（Andrew File System, AFS）中得到經典實踐。此模型大幅放寬了一致性的要求，提供了一種階段性的一致性保證。其核心規則是：一個使用者對檔案的修改，在該使用者的「會話」（session，通常指從open()到close()的整個期間）結束之前，對於其他使用者是不可見的。只有當該使用者關閉檔案（執行close()）後，其所做的所有變更才會被提交至伺-服器，並在此之後對其他使用者變得可見。

在典型的客戶端—伺服器架構中，當客戶端開啟一個檔案時，它會將檔案的完整副本下載至本地快取。在整個會話期間，所有的讀寫操作都只針對這個本地副本，完全避免了網路延遲，因此執行速度極快。直到客戶端關閉檔案時，才會將修改後的本地副本一次性地上傳回伺服器。這種設計極大地減少了網路通訊的頻率，從而顯著提升了系統在廣域網路環境下的效能與擴展性。然而，這種高效能的代價是犧牲了即時性，並可能引發「後寫入者獲勝」（last writer wins）的衝突問題——若多位使用者同時開啟並修改同一檔案，只有最後一位關閉檔案的使用者的修改會被保留。

不可變共享檔案語意：以不變應萬變的絕對一致性

不可變共享檔案語意（Immutable-Shared-Files Semantics）提供了最簡單也最絕對的一致性模型。此模型的核心思想是：一個檔案一旦被標記為共享，它就成為「不可變的」（immutable）。在此規則下，所有使用者都被保證看到的是完全相同、永不改變的檔案版本。檔案系統會直接禁止對這類檔案的任何寫入或修改操作。如果需要「更新」檔案，使用者必須創建一個帶有新版本號或新名稱的全新檔案來取代它。

這種策略從根本上消除了所有寫入衝突與資料競爭的可能性，因此也就不再需要複雜的同步機制。由於檔案內容永不改變，系統可以放心地在各處進行快取，而無需擔心快取失效的問題。此模型雖然限制了協作的動態性，但非常適用於那些對資料完整性與一致性要求極高的唯讀應用場景，例如發布軟體安裝包、共享學術研究的基準資料集、或分發教學用的PDF教材等。