iT邦幫忙

2023 iThome 鐵人賽

DAY 20
0
AI & Data

嘗試在AI世界闖蕩系列 第 20

Day 20 AI核心應用:自然語言處理(NLP)

  • 分享至 

  • xImage
  •  

自然語言處理特徵抽取


語意表示概念

字句語意表示Word Semantic Representation:利用數據來適切表達語言字句的涵義。

  • 自然語言處理中最基礎也最重要的工作。
  • 分為兩種方式:
    ①頻率導向Frequency Oriented的詞袋模式Bag of Words(BOW)
    ②向量導向Vector Oriented的詞向量Word Vector/Word Embedding
    https://ithelp.ithome.com.tw/upload/images/20231002/201631022Nb6tItaQc.jpg

詞袋模式

詞袋模式Bag of Words,簡稱BOW:一個句子的語義可用文本內所包含各種不同關鍵字詞與頻率出現多寡來表示。
➊獨熱編碼One Hot Encoding:一種稀疏向量的詞句表示方式透過個別單詞出現在文本中位置,以1、0來代表其位置。

  • 利用一篇文章中所有位置所出現過的字詞來代表這篇文章的特徵。
  • 利用索引Index來代表該詞在詞典中排列的位置序號。
  • 數據化的基礎
    ➋詞出現頻率Term Frequency,簡稱TF:統計每個詞在不同文件中出現的頻率,頻率越高,表示此詞是此文件的重要內容與特徵。
  • 缺點:①沒有考慮比率,忽略文本長短 ②忽略一般沒有特殊涵義的介係詞與慣用詞➔改正而創造出TF-IDF
    ➌Term Frequency-Inverse Document Frequency,簡稱TF-IDF:一種統計方法用於評估一個詞對於一個文本的獨特性與重要程度。
  • 兩種數值比率決定重要性:
    ①詞在文本中出現的次數
    比率越大➜詞對文本重要性越高
    https://ithelp.ithome.com.tw/upload/images/20231002/20163102p7M5E2nVPN.jpg
    ②詞在語料庫其他文件中出現的頻率
    比率越大➜詞對此文本重要性越低
    https://ithelp.ithome.com.tw/upload/images/20231002/20163102Jqg3iaoSsi.jpg
    ③TF-IDF是一個績效良好,應用很廣的語義特徵表示法
    主要應用:
  • 關鍵字抽取 :利用TF-IDF值的高低來篩選文本中重要的關鍵字。
  • 搜尋引擎:網頁文本中來計算這個詞的TF-IDF,將分數最高網頁推給搜尋引擎。
  • 文本分類:找出TF-IDF值最高的幾個重要關鍵詞,這些詞的集群可代表文本的分類主題。
  • 摘要抽取:從文本個句子中,找出TF-IDF分數最高的文具,其可能為拽要摘要文句。
    ➍計算詞頻率學派缺點:①稀疏性 ②沒有序列的資訊 ③沒有寓意的資訊

參考來源:人工智慧:概念應用與管理 林東清


上一篇
Day 19 AI核心應用:自然語言處理(NLP)
下一篇
Day 21 AI核心應用:自然語言處理(詞向量)
系列文
嘗試在AI世界闖蕩31
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言