[DAY 8] .gitattributes 進階應用：掌控 GitHub 儲存庫語言設定

2024 iThome 鐵人賽

DAY 8

自我挑戰組

30 天程式學習筆記：我的自學成長之路系列第 8 篇

16th鐵人賽

lafeeleaf

2024-09-08 06:21:29

690 瀏覽

分享至

為什麼我的 GitHub 儲存庫會被錯誤地分類為 Roff 語言？

在 GitHub 上建立的儲存庫（repository）中，語言分類功能能讓使用者快速瞭解專案所使用的程式語言。然而，有時候 GitHub 的自動語言偵測系統可能會出現錯誤，將儲存庫中的程式碼錯誤分類，導致不必要的混淆。正確的語言分類不僅有助於其他開發者迅速了解你的專案，還能提升專案在 GitHub 上的曝光率和搜尋排名。本文將探討當 GitHub 將儲存庫的主要語言錯誤分類為 Roff 時，可能的原因及解決方案。

Roff 是什麼，能吃嗎？

Roff 是一種早期的文書處理語言，主要用於 Unix 系統上的排版文件，如手冊頁（man pages）。儘管在現代開發環境中較少使用，但仍有部分專案會涉及 Roff 語言。GitHub 使用 Linguist 作為其語言偵測引擎，該引擎會根據專案中的檔案特徵來判斷所使用的語言。然而，某些檔案格式或特徵可能與 Roff 相似，導致 GitHub 錯誤地將專案分類為 Roff。

這個問題可能出現在專案中包含特定格式的文件時，如 .man 或 .1 等格式的文件，這些文件格式通常用於 Unix 系統的手冊頁，因而被誤認為 Roff 語言文件。此外，當專案中包含大量非程式碼文件或罕見的程式碼文件時，GitHub 也可能會誤判專案的主要語言。

為什麼正確的語言分類很重要

正確的語言分類對開發者和使用者都非常重要。它能幫助其他開發者迅速了解專案的技術棧，方便他們在尋找特定技術相關的開源項目時，更精準地篩選。語言分類還影響專案在 GitHub 上的可見度和推薦算法，錯誤的分類可能會讓專案難以被目標使用者發現。此外，許多分析工具和儀表板依賴這些語言分類進行統計和報告，因此錯誤的分類可能會影響數據的準確性。

如何修正問題

修正 GitHub 錯誤分類語言的方法有多種。最常見的方法是使用 .gitattributes 文件來覆寫 GitHub 的語言偵測結果，或採用 linguist-vendored 來排除特定文檔不被統計。在專案根目錄中建立或編輯 .gitattributes 文件，並加入以下內容：

# 覆寫語言類型
*.ipynb linguist-language=Python

# 排除此類文檔的語言統計
*.man linguist-vendored
*.1 linguist-vendored

不確定哪些檔案被歸類為Roff怎麼辦

創建generate_gitattributes.sh

#!/bin/bash

# 清空或建立 .gitattributes 文件
> .gitattributes

# 遍歷當前目錄下的所有檔案副檔名
for ext in $(find . -type f | sed -n 's/.*\.\([^.]*\)$/\1/p' | sort | uniq); do
  # 將要被語言統計的文件排除使用 linguist-vendored 方法
  if [ "$ext" != "py" ] && [ "$ext" != "ipynb" ] && [ "$ext" != "sql" ]; then
    echo "*.$ext linguist-vendored" >> .gitattributes
  fi
done

echo ".gitattributes 文件已生成。"