# Outline
一、前言
二、概念
2-1. Garbage Collect
2-2. Pack
隨著鐵人賽即將完賽,對於整系列的結構也逐漸清晰。雖然很想繼續針對 GitLab CI 的部分去探討,但仍決定先回頭講聊聊與 Git 原理比較相關的主題,將系列缺漏的部分補上。今天就讓我們聊聊 Git 是如何將鬆散的儲存壓縮成較有效率的儲存結構吧。
—— Day 27
正如前面〈Git Commit〉與〈Git Object〉所述,Git 會將每一個版本像照相一樣拍下來,每一個檔案都會儲存成 Git Blob Object,無論這個檔案是否與前一個版本相差無幾,對 Git 來說都是不同的物件,所以會原封不動的儲存下來,而不是像其他版本控制工具一樣是儲存兩個檔案之間的差異。儘管這樣的方式帶給我們許多好處,例如切換版本速度快、構成 Git 分散式版本控制的基礎等等,但是長久下來 Git 的資料庫不免逐漸笨重起來。
這個顯而易見的議題,Git 當然不會忽視,本章就來聊聊 Git 是如何解決這個議題的。
事實上,Git 會不定期進行「垃圾收集」(garbage collet,gc) 的動作,觸發條件是 7,000 個左右的 loose object(即沒有被壓縮成 packfile 的 Git Object)或是 50 個 packfile。而這個動作主要會做幾件事情:
packed-refs
檔案透過這些事情,就能將 Git Repository 所需要的空間縮小了。
# Command Synopsis: git-gc
# Reference: https://git-scm.com/docs/git-gc
git gc [--options]
OPTIONS
--aggressive
--auto
--quiet
--prune=<date> | --no-prune
--force
--keep-largest-pack
那麼 Git 又是如何將這些 loose objects 封裝成 packfiles 的呢?Git 會去尋找檔案名稱與大小相近的檔案,並且只保存檔案不同版本之間的差異內容,如此就能兼具那些儲存差異的版本控制節省空間的優點。而為了提升效能,在封裝成 packfile 的同時,也會建立該 packfile 的 index 檔案,如此 Git 在尋找 Git Object 時,就能直接透過 index 快速找到該 Git Object 在 packfile 的位置以進行還原。
每一個 packfile 都會對應到一個 index,因此通常會有一組這樣命名的檔案:
pack-<SHA-1>.pack
pack-<SHA-1>.idx
詳細可以透過 git verify-pack
指令去查看指定的 packfile 儲存了哪些 Git Object 去深入暸解
# Command Synopsis: git-verify-pack
# Reference: https://git-scm.com/docs/git-verify-pack
git verify-pack [--options] <pack>.idx
OPTIONS
--verbose
--stat-only
OUTPUT FORMAT
SHA-1 type size size-in-packfile offset-in-packfile depth base-SHA-1
除了 loose objects 和 packfiles 外,前面也提到所有的 Git Reference 檔案會合併成 packed-refs
檔案,該檔案的格式大概如下:
# pack-refs with: peeled
<SHA-1> <Reference Path>
<SHA-1> <Reference Path>
....
所以當某個 Reference 不存在於 .git/refs
目錄底下時,Git 便會去 .git/packed-refs
檔案中尋找。但若是我們更新某個 Reference,例如進行了 commit,所以當前 branch 對應的 commit SHA-1 值被更新了,此時 Git 是不會主動更新 packed-refs
中的值,而是在建立一個 Git Reference 檔案,直到 Git References 再度被後並成 packed-refs
檔案。
若是想直接手動進行合併,也可以直接輸入 git pack-refs
指令進行合併。
# Command Synopsis: git-pack-refs
# Reference: https://git-scm.com/docs/git-pack-refs
git pack-refs [--options]
OPTIONS
--all
--no-prune