今天來介紹文字模型常用的文字特徵-TFIDF,我們透過堆積木的方式,來說明文字特徵的設計。
TF全名是Term Frequency,代表某一個字詞在某一個文本出現的頻率。當字詞出現的頻率越高,可能意謂著字詞的重要性越高。
TFIDF由兩個部分組成,一個是剛提到的TF,另一個是IDF。IDF則是用來觀察文字出現在文本的頻率,看看是否某個字詞只集中在特定的文本。Inverse表示IDF的數值是放在分母,分母越小,整體特徵值越大。換言之,當字詞出現的頻率高,而且僅集中在特定的文本,代表這個字詞越有代表性來解釋這些文本。
前面提到的字詞都是單一字詞,例如'cat'或者'dog',但有些字詞出現時常連同其他字詞。於是,這時候,我們就可以重新定義字詞單位,也就是n-gram的概念。例如,將'robotic cat'看做一個字詞(bigram),去觀察'robotic rat'這個詞出現的TF和IDF。
透過觀察TFIDF,我們可以用來分析哪一些字詞可以排除,例如'the'這種字詞,出現的頻率很高,但幾乎每個文本都有,這樣的字詞又稱做常用字,在資料清洗過程中,通常會被過濾掉。這樣的過濾有助於我們在訓練模型的過程,讓模型可以更加專注在重要的字詞上,也減少需要處理資料的算力或儲存需求。
ChatGPT出題時間:
问题 1: 在TF-IDF权重计算中,如果一个词在某个文档中频繁出现,但在整个文档集合中很常见,它的TF-IDF值会是什么样的?
A. 高
B. 低
C. 中等
D. 不确定
答案 1: B. 低
解释 1: 如果一个词在某个文档中频繁出现但在整个文档集合中也很常见,它的TF-IDF值会较低,因为它的信息量相对较小。
问题 2: Bigram TF-IDF用于考虑什么样的文本特征?
A. 单个词的频率
B. 两个相邻词的共现频率
C. 词语在文档中的位置
D. 文档的总字数
答案 2: B. 两个相邻词的共现频率
解释 2: Bigram TF-IDF考虑的是两个相邻词的共现频率,这有助于捕捉更多有关词语关系的信息。