iT邦幫忙

第 12 屆 iThome 鐵人賽

DAY 5
0

在向量空間模型(Vector Space Model)中queries被表示成向量(Vector)形式,在同樣的向量空間中document也被表示成向量(Vector)形式。換句話說就是,queries和document都表示成向量,而其中權重(weight)為TF-IDF,如下圖
https://ithelp.ithome.com.tw/upload/images/20200904/20110042oDFId0NL0X.png
在昨天有提到關於TF-IDF公式表示若應用到表示queries和document權重,如下表:
https://ithelp.ithome.com.tw/upload/images/20200904/20110042v1BQWT15PZ.png
我會比較喜歡用公式3表示queries和document權重(TF-IDF)

計算好queries和document的向量表示後就可以算兩者之間cosine similarity
https://ithelp.ithome.com.tw/upload/images/20200904/201100429VINcdd3FV.png
其中https://chart.googleapis.com/chart?cht=tx&chl=%5CTheta小,cos大;https://chart.googleapis.com/chart?cht=tx&chl=%5CTheta大,cos小。
0<coshttps://chart.googleapis.com/chart?cht=tx&amp;chl=%5CTheta<1

分析

  • 優點:
  1. 可以計算分數所以可以排序
  2. 允許局部匹配
  3. 文檔和查詢之間的相似度取值是連續的
  • 缺點:
    無法解決"同義詞"的問題

上一篇
Day04:TF-IDF演算法
下一篇
Day06:最佳匹配模型(Best Match Model)
系列文
資訊爆炸時代學資訊檢索與擷取8
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言