Day 13 - [語料庫模型] 01-TF-IDF與餘弦相似性

13th鐵人賽 tf-idf 語料庫

團隊來自行雲者研發基地的菁英們

2021-09-27 01:44:00

2846 瀏覽

分享至

TF-IDF（Term Frequency - Inverse Document Frequency）和餘弦相似性是整套系統很重要的部分，主要用來建立整個問答集的模型，還有比對使用者輸入的句子和問答集的哪一句最相似。

簡介

TF-IDF

常用在資訊檢索與文字探勘的加權方式，是一種統計方法，用來評估一個詞在句子或文件中的重要程度。
應用於中文時，由於中文字詞間不如英文有空白相隔，因此中文語句需先經過適當斷詞。
假設出現越多次的詞是越不重要的詞。

TF-IDF 分為兩個部分，TF 和 IDF。(IDF 由 DF 轉換而來)

TF（詞頻）：一個詞在一個句子中出現的頻率。
DF（文件頻率）：是指一個詞出現在幾個句子中。
IDF（逆向文件頻率）： IDF便是將DF經過轉換，IDF 越低的表示這個詞越不重要，反之亦然。

TF-IDF 實例說明

以五個擷取自問答集的問句為例，經過斷詞之後，問句會變成表中的格式。

表1

編號	問句
0	['如何', '申請', '長期', '照顧', '服務', '及', '流程', '為', '何', '?']
1	['申請', '長照', '服務', '有', '什麼', '條件', '？']
2	['長期', '照顧', '服務', '項目', '有', '哪些', '？']
3	['何謂', '是', '「', '居家', '服務', '」', '？']
4	['何謂', '「', '喘息', '服務', '」', '？']

首先，我們會把所有的詞整理成一個集合（圖 1）。再統計每個詞出現在句子中的頻率，例如，「有」出現在第 1、2 句（參考表格 1、圖 1 綠框、圖 2 綠框）。再統計一個詞出現在幾個句子中，例如，「服務」在五個句子都有，所以相對的 IDF 值就會比較小（參考表格 1、圖 1 橘框、圖 3 橘框）。IDF 可以被當作是一個權重，用來表示這個詞的重要程度，把 TF * IDF 就會得到這個資料集的模型（圖 4）。