第 12 屆 iThome 鐵人賽

DAY 5

0

自我挑戰組

資訊爆炸時代學資訊檢索與擷取系列第 5 篇

Day05:向量空間模型(Vector Space Model)

12th鐵人賽向量空間模型資訊檢索與擷取

2020-09-05 09:51:51

4851 瀏覽

分享至

在向量空間模型(Vector Space Model)中queries被表示成向量(Vector)形式，在同樣的向量空間中document也被表示成向量(Vector)形式。換句話說就是，queries和document都表示成向量，而其中權重(weight)為TF-IDF，如下圖

在昨天有提到關於TF-IDF公式表示若應用到表示queries和document權重，如下表:

我會比較喜歡用公式3表示queries和document權重(TF-IDF)

計算好queries和document的向量表示後就可以算兩者之間cosine similarity

其中 $\Theta$ 小，cos大; $\Theta$ 大，cos小。
0<cos $\Theta$ <1

分析

優點:

可以計算分數所以可以排序
允許局部匹配
文檔和查詢之間的相似度取值是連續的

缺點:
無法解決"同義詞"的問題

Day04:TF-IDF演算法

Day06:最佳匹配模型(Best Match Model)

系列文

資訊爆炸時代學資訊檢索與擷取共 8 篇

目錄

RSS系列文訂閱系列文

6 人訂閱

完整目錄

熱門推薦

{{ item.subject }}

{{ item.channelVendor }} | {{ item.webinarstarted }} |

{{ formatDate(item.duration) }}

直播中

尚未有邦友留言

立即登入留言

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙