語意表示的基本概念
如何利用「數據」來適切地表達語言中字句的「涵義」,即所謂的「字句語意表示」(Word Semantic Representation),也是NLP最重要的基礎,最重要的工作。
主要分兩種方式:
詞袋模式
一個句子(文本)的語意可用「文本內所包含各種不同關鍵詞語頻率出現的多寡來表示」
讀熱編碼(One Hot Encoding):
利用個別單詞出現在文本中的「位置」,而以「1」、「0」來表示其位置的一種稀疏向量語句表示方式。
利用索引「Index」來代表該詞在詞典中排列的位置序號。
詞出現頻率(Term Frequency, TF):
BOW強調利用不同詞「出現頻率多寡」表示其文本語意,故BOW Model中必須計算各個字詞出現的頻率,因此TF指統計每個詞在不同文本中出現的頻率,出現的頻率愈高,表示這個詞是此文件重要內容與特徵。
TF有兩缺點:
Ⅰ. 沒有考慮比率
Ⅱ. 忽略一般沒有特殊涵義介係詞與慣用詞
TF-IDF(Term Frequency-Inverse Document Frequency):
指一種統計方法,用以評估一個詞對於一個文本的「獨特性」與「重要程度」
Ⅰ. 詞在文本中出現的次數:TF = 特定詞出現在一個文本的頻率 / 一個文本內所有的詞。比例愈大,詞對文本重要性愈高。
Ⅱ. 詞在語料庫其他文件中出現的頻率:IDF = Log(所有文本數) / (包含此特定詞的文本數)。此比例愈大,表示這個詞對此文本的重要性愈低。
Ⅲ. 績效良好,應用廣的「語意特徵表示法」:
計算詞頻率學派缺點:
Ⅰ. 稀疏性:一個50萬字的文本,若一個詞只出現10次,則其在50萬個向量空間內,只有10個「1」,其餘49萬9990個向量值都是「0」。
Ⅱ. 沒有序列資訊:只算「頻率次數」,完全不管「順序關係」,故因此失去許多許多文句間的資訊。
Ⅲ. 沒有語意資訊:主要在表達文本內有「哪些詞句」,例如:「白血球打敗細菌」與「細菌打敗白血球」。
參考資料
人工智慧-概念應用與管理 林東清著