iT邦幫忙

2023 iThome 鐵人賽

DAY 15
0
AI & Data

夥伴們!一起航向AWS Certified Machine Learning Specialty的偉大航道吧!系列 第 15

Day 15 第二站 Exploratory Data Analysis - 文字特徵工程(TFIDF)

  • 分享至 

  • xImage
  •  

今天來介紹文字模型常用的文字特徵-TFIDF,我們透過堆積木的方式,來說明文字特徵的設計。

1. TF(Term Frequency)

TF全名是Term Frequency,代表某一個字詞在某一個文本出現的頻率。當字詞出現的頻率越高,可能意謂著字詞的重要性越高。

2. TFIDF(Term Frequency Inverse Document Frequency)

TFIDF由兩個部分組成,一個是剛提到的TF,另一個是IDF。IDF則是用來觀察文字出現在文本的頻率,看看是否某個字詞只集中在特定的文本。Inverse表示IDF的數值是放在分母,分母越小,整體特徵值越大。換言之,當字詞出現的頻率高,而且僅集中在特定的文本,代表這個字詞越有代表性來解釋這些文本。

3. Unigrams and Bigrams TFIDF

前面提到的字詞都是單一字詞,例如'cat'或者'dog',但有些字詞出現時常連同其他字詞。於是,這時候,我們就可以重新定義字詞單位,也就是n-gram的概念。例如,將'robotic cat'看做一個字詞(bigram),去觀察'robotic rat'這個詞出現的TF和IDF。

透過觀察TFIDF,我們可以用來分析哪一些字詞可以排除,例如'the'這種字詞,出現的頻率很高,但幾乎每個文本都有,這樣的字詞又稱做常用字,在資料清洗過程中,通常會被過濾掉。這樣的過濾有助於我們在訓練模型的過程,讓模型可以更加專注在重要的字詞上,也減少需要處理資料的算力或儲存需求。


ChatGPT出題時間:

问题 1: 在TF-IDF权重计算中,如果一个词在某个文档中频繁出现,但在整个文档集合中很常见,它的TF-IDF值会是什么样的?
A. 高
B. 低
C. 中等
D. 不确定

答案 1: B. 低

解释 1: 如果一个词在某个文档中频繁出现但在整个文档集合中也很常见,它的TF-IDF值会较低,因为它的信息量相对较小。

问题 2: Bigram TF-IDF用于考虑什么样的文本特征?
A. 单个词的频率
B. 两个相邻词的共现频率
C. 词语在文档中的位置
D. 文档的总字数

答案 2: B. 两个相邻词的共现频率

解释 2: Bigram TF-IDF考虑的是两个相邻词的共现频率,这有助于捕捉更多有关词语关系的信息。


上一篇
Day 14 第二站 Exploratory Data Analysis - 資料前處理
下一篇
Day 16 第三站 Modeling - 你被激到了嗎?激活函數 Activation Function
系列文
夥伴們!一起航向AWS Certified Machine Learning Specialty的偉大航道吧!30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言