iT邦幫忙

第 12 屆 iThome 鐵人賽

DAY 6
0

昨天講到語言模型應用於IR上主要有兩種方法,KL-Divergence Measure以及 Query Likelihood Measure。
今天來談談 Query Likelihood Measure,它主要是利用P(https://chart.googleapis.com/chart?cht=tx&chl=%24d_j%24|q)機率分數來排序文章。
https://ithelp.ithome.com.tw/upload/images/20200908/20110042zDMuoSH3QD.png
其中p(https://chart.googleapis.com/chart?cht=tx&chl=%24w_i%24|https://chart.googleapis.com/chart?cht=tx&chl=%24d_j%24)為Document Model。

Document Model(Unigram)

p(https://chart.googleapis.com/chart?cht=tx&chl=%24w_i%24|https://chart.googleapis.com/chart?cht=tx&chl=%24d_j%24)公式如下:
https://ithelp.ithome.com.tw/upload/images/20200908/20110042tBxzobA3ce.jpg
舉個例子也許會更清楚
EX1:
https://ithelp.ithome.com.tw/upload/images/20200908/201100421xBWJZygaQ.jpg
EX2:
https://ithelp.ithome.com.tw/upload/images/20200908/201100428PYmVwJKzp.jpg

為了解決可能出現零次的問題,我們可以使用所謂的Smoothing來解決。首先,先來了解一下background model,background model就是收集好多資料把它集合成一大篇文章,計算每個word在這麼多文章中初先次數除以總次數,公式如下
https://ithelp.ithome.com.tw/upload/images/20200908/20110042v2TvJr6u7H.jpg
比較常用代表性的language model smoothing methods如下

  1. Linear Interpolation
    https://ithelp.ithome.com.tw/upload/images/20200908/20110042f3O2CG5qJz.jpg
  2. Bayesian Smoothing with Dirichlet Prior
    https://ithelp.ithome.com.tw/upload/images/20200908/201100428zH5kCupvj.jpg

上一篇
Day07:語言模型(Language Models)
系列文
資訊爆炸時代學資訊檢索與擷取8
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言