【2025鐵人賽】用作業系統讀懂另一半的OS：File System 01

2025 iThome 鐵人賽

DAY 27

Software Development

用作業系統讀懂另一半的OS系列第 27 篇

17th鐵人賽 os 作業系統

Wei Cheng

2025-08-27 04:31:58

374 瀏覽

分享至

終於要進到最後一章拉！！！！
https://i.pinimg.com/736x/d9/7a/b1/d97ab1a14e3cd22ab452aae0d41c3fb0.jpg

檔案系統保護機制（Protection）

當作業系統進入多使用者、多工的環境時，一個根本性的問題隨之浮現：如何確保檔案只能被授權的使用者或行程以合法的方式存取？這便是檔案系統保護機制（Protection）的核心議題。

檔案保護的首要目標，在於提供一套可控的機制，用以規範對檔案的存取類型。在一個複雜的系統中，檔案的擁有者需要能力去指定誰可以存取該檔案，以及他們被允許執行何種操作。例如某位使用者可能希望將一份報告分享給同事閱讀，但禁止其修改；同時，這份報告對於系統中的其他無關使用者則應完全不可見。一個有效的保護機制必須能夠精細地調控存取權限，確保資訊的機密性與完整性。

檔案保護機制的兩大核心目標：

面向	說明
Reliability（可靠性）	確保資料不會因為硬體損壞或誤操作而遺失，例如斷電、磁碟壞軌、誤刪等
Protection（保護性）	防止未授權的使用者存取或竄改資料，例如惡意攻擊、間諜程式

為了實現這樣的控制，作業系統需要識別系統內的每一個使用者，也就是使用者識別碼（User ID）。一旦使用者身分確立，其後所有啟動的行程與執行的操作，都會與該使用者識別碼關聯，系統便能依此作為授權的依據。

群組（Groups）

最常見的存取控制方法之一，是將使用者組織成群組（Groups）。透過群組管理，系統管理者可以將具有相似存取需求的使用者歸為一類，這種做法大幅簡化了權限管理的複雜度。當使用者數量龐大時，逐一為每位使用者設定權限顯然不切實際，而群組化的管理則提供了一個更具擴展性的解決方案。

以UNIX為例，UNIX將檔案的存取權限劃分為三個維度：讀取（read）、寫入（write）與執行（execute）。同時，它將系統中的使用者角色區分為三類：檔案的擁有者（owner）、與擁有者同屬一個群組的成員（group），以及系統中的所有其他使用者（others）。透過這兩組維度的組合，系統為每個檔案維護了一套九個權限位元的設定。

例如，一個檔案的擁有者可能擁有讀寫權限，其所屬群組成員僅有讀取權限，而其他使用者則無任何權限。

權限代號	操作	說明
`r`	Read	可以讀取檔案內容或列出目錄檔案
`w`	Write	可以修改檔案或新增/刪除目錄檔案
`x`	Execute	可以執行檔案（若是可執行檔）或進入目錄

欄位	使用者類型	權限範圍
Owner	檔案建立者	擁有完全控制權
Group	同群組使用者	可以有類似權限
Others	其他使用者	通常給最少權限

Access Control List, ACL

然而，這種傳統的擁有者、群組、其他的權限模型在應對更複雜的協作場景時，可能會顯得彈性不足。如果有一份文件需要同時授權給分屬不同群組的特定幾位使用者進行編輯，群組的方式便會難以處理。為了解決此類問題，許多現代作業系統引入了更為精細的存取控制列表（Access Control List, ACL）。ACL 允許檔案擁有者為任意數量的特定使用者或群組，個別指定詳細的存取權限。每一條 ACL 項目都明確定義了一個主體（一個使用者或群組）以及其被授予的操作權限集合。這提供了遠比群組更為強大且靈活的控制粒度。

我們可以將OS中所有的保護狀態可以被一個存取矩陣（Access Matrix），這個存取矩陣代表系統中的主體（如使用者、行程），列則代表客體（如檔案、設備）。矩陣中的每一個元素 Access(i, j) 定義了主體 i 能夠對客體 j 執行的操作集合。

由於存取矩陣提供了一個完整且形式化的理論框架，但在實際系統中，主體與客體的數量極為龐大，直接以二維陣列實現這個矩陣會導致巨大的空間浪費，因為矩陣中的絕大多數元素都會是空的。因此，ACL可以被視為是這個稀疏矩陣的一種按列（column）儲存的實現方式，而另一種稱為能力列表（Capability List）的機制，則是按行（row）來實現，它為每個主體維護一份其所能存取的客體及其權限的列表。

ACL vs. UNIX 權限模型

比較項目	ACL	UNIX 權限
彈性	高（可為每位使用者設定）	中（固定三類）
管理性	複雜	簡單易懂
適用情境	多用戶系統、大型應用	中小型系統、一般桌機
效能影響	較大（維護長表）	較小（固定欄位）

記憶體映射檔案：一種高效率的檔案存取模型

在處理效能關鍵型應用上（例如大規模資料庫系統、高速資料採集或即時影像處理等場景），傳統的標準檔案輸入/輸出（I/O）操作，如 read() 與 write() 系統呼叫，常因其固有的延遲與系統資源開銷而構成效能瓶頸。為了解決此問題，作業系統提供了一種更為先進且高效的機制，稱為「記憶體映射檔案」（Memory-Mapped Files, mmap），它透過虛擬記憶體系統，提供了一種將檔案內容直接當作記憶體區塊進行存取的模式。

記憶體映射檔案的核心概念

記憶體映射檔案的本質，允許應用程式請求將一個檔案或檔案的一部分，直接映射（map）到其自身的虛擬位址空間中。一旦映射完成，核心會回傳一個指向該虛擬記憶體區域的指標。此後，應用程式便能透過這個指標，如同操作一個標準的記憶體陣列（array）或緩衝區（buffer）一般，直接對檔案內容進行讀取與寫入，而無需再借助傳統的 I/O 系統呼叫。

這種模式的關鍵在於，它巧妙地繞過了在使用者空間（user space）與核心空間（kernel space）之間進行資料複製的傳統步驟。在標準 I/O 模型中，read() 操作會觸發核心將磁碟上的資料讀入核心的頁面快取（page cache），接著再將資料從頁面快取複製到應用程式指定的使用者空間緩衝區。write() 操作則需將使用者空間緩衝區的資料複製到頁面快取，再由核心排程寫回磁碟。記憶體映射檔案則移除了這層冗餘的複製，應用程式直接在映射的記憶體區域上操作，而這個區域實際上就是核心的頁面快取，大幅降低了系統呼叫的開銷與CPU的負擔。

運作流程與分頁錯誤機制

記憶體映射的運作流程與作業系統的虛擬記憶體管理機制緊密相關。當應用程式呼叫 mmap() 請求映射檔案時，作業系統僅僅是在程序的虛擬位址空間中保留一段連續的位址範圍，並將其與目標檔案建立關聯，此時並未發生實際的磁碟讀取。

真正的資料載入是延遲（lazy）且依需求（on-demand）發生的。當程式首次嘗試存取映射區域中的某個記憶體位址時，由於該位址對應的資料尚未載入實體記憶體，處理器會觸發一個「分頁錯誤」（Page Fault）。這並非一個程式錯誤，而是一個通知作業系統核心的訊號。接收到訊號後，核心的記憶體管理器會介入，定位到該記憶體位址對應的檔案區塊，從磁碟中讀取相應的資料頁（page），並將其載入到實體記憶體中，最後更新頁表（page table）以建立虛擬位址與實體記憶體位址的映射關係。當中斷處理完成後，程式便能順利存取該記憶體位址，且後續對同一記憶體頁的存取將不再觸發分頁錯誤，因為資料已經存在於實體記憶體中。這種機制確保了只有被實際存取的檔案部分會被載入，對於處理大型檔案而僅需存取其中片段資料的應用極具效益。

寫入操作的非同步性與同步考量

相較於讀取操作的直觀性，對記憶體映射區域的寫入操作具有非同步（asynchronous）的特性。當應用程式修改了映射記憶體中的資料時，這些變更僅發生在記憶體中的頁面快取上，並不會立即被寫回（write back）至底層的實體磁碟檔案。作業系統會將這些被修改過的頁面標記為「髒頁」（dirty page），並根據其內部的排程策略（例如，在系統負載較低時或記憶體壓力增大時）非同步地將這些髒頁的內容寫回磁碟。

這種非同步行為雖然提升了寫入效能，但也帶來了資料一致性的風險。若在髒頁被寫回磁碟前，系統發生非預期的崩潰或斷電，則這些已修改的資料將會遺失。為了確保資料的持久性，開發者必須手動介入。可以透過呼叫 msync() 系統呼叫，強制作業系統將指定記憶體範圍內的髒頁同步寫回磁碟。此外，當程式呼叫 munmap() 解除檔案映射，或正常關閉檔案描述符時，核心通常也會觸發一次寫回操作。

更進一步，當多個進程同時映射同一個檔案以進行讀寫時，它們實質上共享了同一塊實體記憶體。若缺乏適當的同步機制，極易引發競爭條件（race condition），導致資料損毀或不一致。因此，在多進程共享情境下，必須搭配使用如號誌（semaphore）、互斥鎖（mutex）或檔案鎖（file locking）等同步原語（synchronization primitives），以確保對共享記憶體區域的存取是互斥且原子性的。

多進程共享記憶體

在現代多工操作系統的設計中，行程（process）的記憶體隔離性是一項核心原則。每個行程都擁有獨立的虛擬位址空間，這種隔離機制確保了行程之間的穩定性與安全性，防止單一行程的錯誤影響到系統中的其他行程。然而，在許多高效能運算與複雜的應用場景中，行程間的協作與高速資料交換是不可或缺的需求。為了滿足此需求，操作系統提供了一系列行程間通訊（Inter-Process Communication, IPC）機制，其中，共享記憶體（Shared Memory）因其極高的傳輸效率而備受青睞。

透過記憶體映射實現檔案共享

在UNIX系統中，實現行程間共享記憶體最典型的方式之一是利用記憶體映射檔案（memory-mapped file）機制，其核心為 mmap() 系統呼叫。當一個行程呼叫 mmap() 將一個磁碟檔案映射到其虛擬位址空間時，操作系統的虛擬記憶體管理器會在該行程的頁表（page table）中建立起虛擬頁（virtual pages）與檔案實體區塊之間的對應關係。

此機制的精妙之處在於，當多個行程使用 mmap() 映射同一個檔案時，操作系統可以將這些行程中各自的虛擬頁，全部指向核心頁面快取（page cache）中同一組實體記憶體框架（physical memory frames）。如此一來，這些行程雖然在邏輯上擁有各自的虛擬記憶體，但實際上它們共享了同一塊物理記憶體。任何一個行程對這段共享記憶體區域的修改，都會因為底層物理記憶體的共用而立即對其他所有共享此區域的行程可見。這提供了一種極其高效的資料共享途徑，因為資料的傳遞無需經過核心空間與使用者空間之間繁瑣的複製，其速度僅受限於記憶體存取的速度。

寫入時複製（Copy-On-Write）機制的區別

在討論記憶體共享時，常會提及另一項重要的記憶體優化技術：寫入時複製（Copy-On-Write, COW）。儘管COW與記憶體共享相關，但其目標與 mmap 的共享機制有所不同。COW的核心思想是延遲記憶體複製，直到真正需要時才進行。最經典的應用發生在 fork() 系統呼叫。當一個父行程創建子行程時，操作系統並不會立即為子行程複製父行程所有的記憶體頁面。相反地，它讓父子行程共享同一組物理頁面，並將這些頁面標記為唯讀。

只有當父行程或子行程中的任何一方嘗試對某個共享頁面進行寫入操作時，才會觸發一個保護性分頁錯誤。此時，核心才會介入，為進行寫入操作的行程複製一份該頁面的私有副本，並更新其頁表指向這個新副本，此後該行程便在此私有副本上進行修改。這個過程對另一個行程是透明的，它依然指向原始的、未被修改的頁面。因此，COW的目的是在保持行程隔離性的前提下，最大化地節約記憶體資源與提升 fork() 的效率；而 mmap 的共享模式則是為了打破行程隔離性，以實現高效的資料交換。

Copy-On-Write（COW）機制：

階段	行為
初始	多個 process 共用同一頁面（節省空間）
某 process 修改該頁	作業系統會「複製一份新頁面」給該 process
結果	其他 process 不受影響，原頁仍共享

互斥機制在共享環境下的必要性

共享記憶體的高效性是一把雙面刃，它在帶來便利的同時也引入了嚴峻的並行程式設計挑戰，其中最主要的就是競爭條件（Race Condition）。當兩個或多個行程並行存取同一塊共享記憶體，並且至少其中一個操作是寫入時，若沒有任何同步措施，最終的結果將取決於行程執行的相對時序，這會導致資料的非預期損毀與程式邏輯的混亂。

為了保護共享資料的完整性，必須對存取共享資源的程式碼區段，即「關鍵區段」（Critical Section），施加保護，確保在任何時刻只有一個行程能進入其中執行。這種保護機制被稱為互斥（Mutual Exclusion）。操作系統為此提供了多種同步原語（synchronization primitives）。例如，互斥鎖（Mutex）是最基礎的工具，它提供 lock 與 unlock 兩種操作，行程在進入關鍵區段前必須先取得鎖，離開時再釋放鎖，從而保證了存取的獨佔性。號誌（Semaphore）則是更廣義的同步工具，它維護一個計數器，可用於控制同時能存取某資源的行程數量。此外，條件變數（Condition Variable）常與互斥鎖配合使用，允許行程在特定條件未滿足時進入休眠等待，並在條件滿足時由其他行程喚醒，避免了空轉等待造成的CPU資源浪費。

常見同步工具：

工具	功能
Semaphore	遞增/遞減計數器，支援同步與資源管控
Mutex（互斥鎖）	一次只能有一個 process/thread 進入關鍵區段
Condition Variable	搭配 mutex 使用，可等待/喚醒條件發生

共享記憶體作為行程間通訊的應用模型

憑藉其低延遲與高頻寬的特性，共享記憶體成為最高效的IPC方式之一，特別適用於需要大量或頻繁交換資料的應用。一個典型的應用模型是「生產者-消費者」（Producer-Consumer）問題。在此模型中，一個或多個生產者行程將資料放入一個共享的緩衝區，而一個或多個消費者行程則從中取出資料進行處理。這個緩衝區本身就是一塊共享記憶體，而對緩衝區的存取控制，例如判斷緩衝區是否為空或已滿，以及保護指標的更新，則必須依賴前述的號誌與互斥鎖等同步工具來協調。

其他應用場景還包括多行程共用的快取系統，所有行程可從共享記憶體中快速讀取快取資料，避免了重複的磁碟I/O或複雜計算。在即時資料處理系統中，也常由一個行程負責從硬體設備高速擷取資料並寫入共享記憶體，而另一個或多個行程則同步地從中讀取資料進行分析、顯示與儲存，實現了任務的解耦與並行處理。總而言之，共享記憶體雖然對程式設計師提出了更高的同步管理要求，但其無可比擬的效能優勢使其在高效能運算領域中佔有不可或缺的地位。

常見應用場景：

模式	說明
Producer / Consumer	一方寫入資料（生產者），一方讀取資料（消費者），常搭配 buffer 與 semaphore
Shared Cache	多 process 存取同一區快取區域，避免重複計算
資料擷取與分析	一個 process 擷取感測資料、另一個 process 同步分析與記錄

共享記憶體與同步機制一覽

機制	功能	特性
mmap()	對映檔案至記憶體	多 process 共用
Copy-On-Write	實體記憶體延後複製	效率高，適合 fork()
Semaphore / Mutex	同步機制	避免 Race Condition
共享記憶體 IPC	高速資料傳輸	適合大量或頻繁交換資料的應用

檔案系統結構(File-System Structure)

檔案系統是操作系統中至關重要的核心組件，其根本任務在於為持久性儲存設備上的資料提供一種結構化的管理機制。它作為一個中介層，將底層儲存硬體的物理特性抽象化，為上層的應用程式與使用者呈現出一個直觀、有組織的檔案與目錄視圖。一個設計精良的檔案系統必須在效能、可靠性與易用性之間取得精妙的平衡。其整體結構可被概念性地劃分為兩個主要層次：關注物理儲存管理的實作層，以及面向使用者的邏輯層。

儲存媒體的物理基礎

現代檔案系統主要建構於兩類儲存技術之上：傳統的硬碟驅動器（Hard Disk Drive, HDD）與非揮發性記憶體（Non-Volatile Memory, NVM）。HDD是一種機電設備，透過旋轉的磁性碟片與移動的讀寫磁頭來存取資料，其效能受到尋道時間與旋轉延遲的物理限制。相較之下，以固態硬碟（Solid-State Drive, SSD）為代表的NVM裝置，基於半導體技術，無任何機械運動部件，因此提供了遠為優越的存取速度與更低的延遲。

儘管這兩種設備在內部運作原理上大相逕庭，但它們為檔案系統的設計提供了幾個共通的關鍵特性。首先，兩者皆支援「就地重寫」（rewrite in place），允許直接覆寫儲存介質上的任意資料區塊。其次，它們都具備「隨機存取」（random access）能力，意味著可以非線性地、直接定位到任何儲存位置，這對於實現高效率的檔案存取至關重要。最核心的一點是，所有與儲存設備的資料交換，皆是以固定大小的「區塊」（block）為單位進行，此區塊大小（如512位元組或4KB）構成了檔案系統進行I/O操作的最小粒度。這些底層特性共同塑造了檔案系統在設計上所面臨的挑戰與機遇。

裝置類型	特性
傳統磁碟（HDD）	有磁頭與碟片，具備可重寫、隨機存取能力
非揮發性記憶體（NVM）	如 SSD、Flash，不需旋轉延遲，存取速度快

檔案系統的雙層架構模型

為了有效管理複雜性，檔案系統的架構普遍採用分層設計，明確區分了使用者所感知的邏輯結構與系統內部對物理儲存的管理。這種關注點分離的設計思想，使得檔案系統的介面與實作得以解耦。

上層是使用者介面層級，也被稱為邏輯檔案系統。此層次定義了檔案的抽象概念以及使用者與之互動的方式。它所關注的是提供一個清晰、一致且易於操作的視圖，隱藏所有底層的複雜性。其核心功能包括檔案的命名規則、屬性定義（例如檔案大小、類型、創建與修改時間戳等元資料），以及存取權限的控制模型，如UNIX系統中經典的讀、寫、執行權限劃分。此外，它還定義了一組標準化的應用程式介面（API），通常以系統呼叫的形式提供，例如 open()、read()、write() 與 close() 等，應用程式透過這些介面來操作檔案。檔案的組織形式，如層級式的目錄樹狀結構，以及進階的連結機制（如硬連結與符號連結），亦屬於此層次的範疇。此層的設計優劣直接影響到系統的易用性與安全性。

使用者介面層級（邏輯設計）：使用者「看得見、摸得著」的部分。

功能	說明
檔案命名	使用者透過檔名識別檔案，例如 `report.docx`
檔案屬性	包含大小、建立時間、修改時間、類型等 metadata
權限設計	誰可以讀、寫、執行檔案（如 UNIX 權限）
檔案操作 API	系統呼叫如 `open()`、`read()`、`write()`、`close()`
目錄結構	資料夾的組織方式，例如層級式、樹狀結構、硬連結等

下層則是實作層級，有時稱為物理檔案系統。此層次是操作系統核心與儲存裝置之間的橋樑，負責將上層的邏輯檔案概念轉譯為對物理儲存區塊的具體操作。其核心任務是處理檔案內容與磁碟區塊之間的對映關係。例如，一個在邏輯上連續的檔案，在物理上可能被儲存在分散於磁碟各處的區塊中。為此，檔案系統需要精密的區塊分配策略，常見的策略包括連續配置、鏈結配置與索引配置，每種策略都在空間利用率與存取效能之間有不同的權衡。

實作層級（物理儲存對映）： OS 與儲存裝置之間的橋樑，負責把抽象的「檔案」轉換為實體磁碟區塊的管理方式。

功能	說明
檔案對映（Mapping）	檔案內容對應到哪些磁碟區塊？（如 FAT, inode）
區塊分配策略	檔案區塊如何配置（如連續配置、鏈結配置、索引配置）
空間管理	空間是否被有效利用？如何追蹤可用/已用區塊？（如 Bitmap、Free List）
快取策略	如何減少 I/O 次數、提高存取效率？（如 Buffer Cache）
容錯機制	遇到壞區或斷電要如何保護資料（如 Journaling）

為了追蹤哪些區塊已被使用、哪些仍可用，實作層還必須包含一套有效的磁碟空間管理機制，例如位圖（bitmap）或空閒列表（free list）。為了提升效能，檔案系統通常會實作快取策略，將頻繁存取的磁碟區塊暫存於主記憶體中，以減少昂貴的I/O操作。最後，為了確保資料的完整性與系統在意外斷電或崩潰後的恢復能力，實作層還需納入容錯機制。其中，日誌式（Journaling）檔案系統便是一種廣泛採用的技術，它在實際修改磁碟資料前，會先將操作記錄在一個日誌區域，從而保證了操作的原子性，大幅提高了系統的穩定性。總而言之，實作層的設計直接決定了檔案系統的效能、效率與可靠度。