第 12 屆 iThome 鐵人賽

DAY 3

0

自我挑戰組

資訊爆炸時代學資訊檢索與擷取系列第 3 篇

Day03:機率模型 (Probabilistic Model)

12th鐵人賽資訊檢索與擷取機率模型

2020-09-03 09:41:56

2557 瀏覽

分享至

機率模式 (Probabilistic Model)

機率模式 (Probabilistic Model) 為1976年由Roberston和Sparck Jones所提出的，它以機率的架構來解資訊檢索問題，嘗試計算文章和使用者問題的相關性機率值表示為:

P( $R_q$ | $d_j$ )
此機率值要越大越好，以下為一連串推導。

假設

$R_q$ 為當給定query q時，一群相關的文章
$\vec{$R_q$}$ 為當給定query q時，一群不相關的文章
P( $R_q$ | $d_j$ )為當給定文章 $d_j$ 為相關query q的機率值
P( $\vec{$R_q$}$ | $d_j$ )為當給定文章 $d_j$ 為不相關query q的機率值
則可以定義relevance degree，來計算 "查詢" 與 "文件" 的相似度, 越相似代表越相關 :
sim( $d_j$ ,q)=P( $R_q$ | $d_j$ )/P( $\vec{$R_q$}$ | $d_j$ )
上述公式透過貝氏定理(Bayes' rule):

由於一篇文章由多個word所組成的，因此:

因為我們假設index terms遵守Bernoulli distributions:

所以機率模型可以改寫如下:

如果同取log的話，乘->加，除->減

加上一些計算上的技巧(多加藍色區塊)

改消去的消一消，最後可得

現在我們列一個表，其中N表示所有文章數;ni表示ni篇文章含有wi，N-ni篇文章不含有wi;Rq篇文章是相關文章，N-Rq篇文章是不相關文章

透過這個表格，機率式表示為:

代入sim(dj,q)中，可得到:

為了避免分子分母為零，所以加上0.5

但是在真實情況下我們不會知道Rq和ri，那就設定為零

分析

優點:

透過此方法可以排序了

缺點:

沒有考慮到頻率這項要素
沒有考慮到文章長度正規化，越長的文章就會分數高

Day02:布林模型(Boolean Model)

Day04:TF-IDF演算法

系列文

資訊爆炸時代學資訊檢索與擷取共 8 篇

目錄

RSS系列文訂閱系列文

6 人訂閱

完整目錄

熱門推薦

{{ item.subject }}

{{ item.channelVendor }} | {{ item.webinarstarted }} |

{{ formatDate(item.duration) }}

直播中

1 則留言

0

gasly12887

iT邦新手 5 級 ‧ 2025-06-23 22:52:41

感謝分享。這很適合用在我的21點遊戲網站

回應
檢舉

登入發表回應

我要留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19866 篇

完賽人數

529 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙