Day 6 - TF-IDF：我在你心裡究竟是什麼地位 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2025 iThome 鐵人賽

DAY 6

AI & Data

AI、機器學習以及深度學習的語言學應用系列第 6 篇

Day 6 - TF-IDF：我在你心裡究竟是什麼地位

17th鐵人賽

Carol

團隊美珠姨

2025-09-20 19:32:18

98 瀏覽

分享至

前幾天的標題我都只放了主題，今天突然靈光乍現，覺得用「我在你心裡究竟是什麼地位」這句話來比喻 TF-IDF 非常的貼切🤣

沒錯，TF-IDF 的核心概念，其實就是在探討不同字詞在不同文本當中，到底「地位如何」。

為什麼我們需要知道字詞的地位呢？

因為我們在做 文本分析（Text Analysis） 或是 資料檢索（Information Retrieval） 時，會想要知道：

👉🏻 哪些字詞只是一般雜訊？

👉🏻 哪些字詞才是真正能代表這篇文章的「關鍵」？

透過 TF-IDF 這個加權方法，我們就能抓出文本的重點。

要了解 TF-IDF ，必須先把它 TF 跟 IDF 分開來看！

TF：Term Frequency

TF 為 Term Frequency ，也就是詞的頻率。

計算方式：某詞在一份文件裡出現的次數，除以文件的總詞數。

👉🏻 它能幫助我們比較不同長度的文章，因為如果只單看詞出現的次數，那麼長度很長的文本有很大可能會佔優勢

例：如果一篇文章 100 個字裡，「迪士尼」出現了 10 次，那麼它的 TF = 0.1。

IDF：Inverse Document Frequency

分母的 df 為 document frequency ，一個字 t 的 df 為他出現在所有文件當中，幾個不同的文件篇數，分子的 N 為所有文件的篇數。

IDF 為 Inverse Document Frequency ，目的是用來衡量一個詞在所有文件中「稀有度」。

👉🏻 出現越多次 → 分母越大 → IDF 越小 → 代表性越低

👉🏻 出現越少次 → 分母越小 → IDF 越大 → 代表性越高

例：
每部迪士尼電影都有「美女」，所以「美女」並不是特別有代表性的詞；
但「野獸」只會在《美女與野獸》出現，因此能更好代表這部電影。

TF-IDF

TF-IDF 即為 TF x IDF ，是一種權重的概念，可以知道不同字詞的代表性為何。

⭐️ 當兩個詞的在兩個文本裡面詞頻一樣時，可以透過IDF得知哪個詞的代表性比較高

TF-IDF 應用

資訊檢索（Information Retrieval）

搜尋引擎可以用 TF-IDF 來評估「某篇文章和搜尋關鍵字的相關性」。

👉🏻 TF-IDF 是用來「排序與查詢最相關的文件」。

文本分析（Text Mining / NLP 特徵抽取）

在機器學習（Machine Learning）裡，TF-IDF 常常被用來把文字轉換成「數值向量」，讓電腦能夠處理：

👉🏻 TF-IDF 被當作一種「抓取特徵」的工具。

Day 5 - N-gram（下）

Day 7 - Vector Space Model（向量空間模型）：文字在空間裡的距離感

系列文

AI、機器學習以及深度學習的語言學應用共 30 篇

RSS系列文訂閱系列文

1 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19838 篇

完賽人數

529 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙

AI、機器學習以及深度學習的語言學應用系列 第 6 篇