Day 15 第二站 Exploratory Data Analysis - 文字特徵工程(TFIDF) - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2023 iThome 鐵人賽

DAY 15

AI & Data

夥伴們!一起航向AWS Certified Machine Learning Specialty的偉大航道吧!系列第 15 篇

Day 15 第二站 Exploratory Data Analysis - 文字特徵工程(TFIDF)

15th鐵人賽

chrisspeed

2023-09-30 14:29:37

423 瀏覽

分享至

今天來介紹文字模型常用的文字特徵-TFIDF，我們透過堆積木的方式，來說明文字特徵的設計。

1. TF(Term Frequency)

TF全名是Term Frequency，代表某一個字詞在某一個文本出現的頻率。當字詞出現的頻率越高，可能意謂著字詞的重要性越高。

2. TFIDF(Term Frequency Inverse Document Frequency)

TFIDF由兩個部分組成，一個是剛提到的TF，另一個是IDF。IDF則是用來觀察文字出現在文本的頻率，看看是否某個字詞只集中在特定的文本。Inverse表示IDF的數值是放在分母，分母越小，整體特徵值越大。換言之，當字詞出現的頻率高，而且僅集中在特定的文本，代表這個字詞越有代表性來解釋這些文本。

3. Unigrams and Bigrams TFIDF

前面提到的字詞都是單一字詞，例如'cat'或者'dog'，但有些字詞出現時常連同其他字詞。於是，這時候，我們就可以重新定義字詞單位，也就是n-gram的概念。例如，將'robotic cat'看做一個字詞(bigram)，去觀察'robotic rat'這個詞出現的TF和IDF。

透過觀察TFIDF，我們可以用來分析哪一些字詞可以排除，例如'the'這種字詞，出現的頻率很高，但幾乎每個文本都有，這樣的字詞又稱做常用字，在資料清洗過程中，通常會被過濾掉。這樣的過濾有助於我們在訓練模型的過程，讓模型可以更加專注在重要的字詞上，也減少需要處理資料的算力或儲存需求。

ChatGPT出題時間：

问题 1：在TF-IDF权重计算中，如果一个词在某个文档中频繁出现，但在整个文档集合中很常见，它的TF-IDF值会是什么样的？
A. 高
B. 低
C. 中等
D. 不确定

答案 1： B. 低

解释 1：如果一个词在某个文档中频繁出现但在整个文档集合中也很常见，它的TF-IDF值会较低，因为它的信息量相对较小。

问题 2： Bigram TF-IDF用于考虑什么样的文本特征？
A. 单个词的频率
B. 两个相邻词的共现频率
C. 词语在文档中的位置
D. 文档的总字数

答案 2： B. 两个相邻词的共现频率

解释 2： Bigram TF-IDF考虑的是两个相邻词的共现频率，这有助于捕捉更多有关词语关系的信息。

Day 14 第二站 Exploratory Data Analysis - 資料前處理

Day 16 第三站 Modeling - 你被激到了嗎？激活函數 Activation Function

系列文

夥伴們!一起航向AWS Certified Machine Learning Specialty的偉大航道吧! 共 30 篇

RSS系列文訂閱系列文

1 人訂閱

完整目錄

直播研討會

{{ item.channelVendor }} {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

參賽組數

1064 組

團體組數

40 組

累計文章數

22209 篇

完賽人數

600 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# windows server linux css react vue.js

IT邦幫忙