iT邦幫忙

第 12 屆 iThome 鐵人賽

DAY 6
0
自我挑戰組

資訊爆炸時代學資訊檢索與擷取系列 第 6

Day06:最佳匹配模型(Best Match Model)

  • 分享至 

  • xImage
  •  

先來複習一下IR三要素如下:

  1. Term Frequency
  2. Inverse Document Frequency
  3. Document Length Normalization

今天我們要介紹最佳匹配模型(Best Match Model)於1994年被提出。一開始Okapi system使用如下的公式作分數排序
https://ithelp.ithome.com.tw/upload/images/20200905/20110042NBVc4OuOTd.jpg
但是BM1的公式並沒有相關性資訊(relevance information)。為了增強排序在BM15引用term-frequency公式如下:
https://ithelp.ithome.com.tw/upload/images/20200905/201100421QFfmA7sky.jpg
第j篇document中第i個word的term-frequency
https://ithelp.ithome.com.tw/upload/images/20200905/201100427ISr2i5c0P.jpg
query中第i個word的term-frequency
其中https://chart.googleapis.com/chart?cht=tx&chl=%24tf_%7Bij%7D%24表示第i個word在第j篇文章出現的次數
S1、S3、K1、K3皆為參數(S1=K1+1、S3=K3+1)
以上公式結果會介於0到1,從下圖實驗中可以觀察到K值越大頻率影響越大、K值越小頻率影響越小。
https://ithelp.ithome.com.tw/upload/images/20200905/201100421d8ipzRC2A.jpg
接著計算https://chart.googleapis.com/chart?cht=tx&chl=%24G_%7Bjq%7D%24他會考慮到文章的長度以及query的長度
https://ithelp.ithome.com.tw/upload/images/20200905/20110042OmxSMRZulq.jpg
其中https://chart.googleapis.com/chart?cht=tx&chl=%24k_2%24是可調參數、len(q)是query的長度、len(https://chart.googleapis.com/chart?cht=tx&chl=%24d_j%24)為文章長度、https://chart.googleapis.com/chart?cht=tx&chl=%24avg_%7Bdoclen%7D%24所有文章長度平均
將上述綜合起來就可以得到BM15公式如下
https://ithelp.ithome.com.tw/upload/images/20200905/201100429l9nQ7dpL7.jpg
BM11和BM15主要差異在於有考慮到document length,term-frequency公式如下:
https://ithelp.ithome.com.tw/upload/images/20200905/20110042xx3Ns9dqAT.jpg
BM11的公式如下
https://ithelp.ithome.com.tw/upload/images/20200905/201100429gW7thQr6Z.jpg
整理一下BM1、BM15、BM11公式如下:
https://ithelp.ithome.com.tw/upload/images/20200905/20110042YZNGwHK2ql.jpg
有些研究說K2設定為0效果比較好,所以BM1、BM15、BM11公式可以簡化如下:
https://ithelp.ithome.com.tw/upload/images/20200905/20110042pT7Pb85ylw.jpg
BM25提出來的概念是合併BM11和BM15,它的term-frequency公式如下:
https://ithelp.ithome.com.tw/upload/images/20200905/201100421VCbfjK3Z6.jpg

  • 如果b=0,term-frequency公式就和BM15的一樣
  • 如果b=1,term-frequency公式就和BM11的一樣
  • 0<b<1,b接近1會比較好通常設定為0.75
    https://ithelp.ithome.com.tw/upload/images/20200905/20110042padeEmpgRX.jpg

分析

  • 優點:
  1. 考慮到IR三要素
  2. 可以計算分數並排序
  • 缺點:
    當document很長tf會很小甚至接近於零對於常文章會有問題

上一篇
Day05:向量空間模型(Vector Space Model)
下一篇
Day07:語言模型(Language Models)
系列文
資訊爆炸時代學資訊檢索與擷取8
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言