iT邦幫忙

第 12 屆 iThome 鐵人賽

DAY 2
0

在介紹布林模型(Boolean Model)之前我們要先定義一個名詞為Index term。每篇文章都由一些index term或是關鍵字(keywords)所組成的。而每一個Index term是由一個詞(word)或一群連續詞(word)所組成。

什麼是布林模型(Boolean Model)

布林模型(Boolean Model)於1973年提出,它是一個最簡單的檢索模型主要基於幾何理論 (set theory) 和布林代數(Boolean algebra)。中心思想是把所有文章建立成Index term by document的矩陣,透過布林(Boolean)運算可以計算出哪幾篇文章是使用者所想要的。

舉個例子

假設今天有一群文章

  • https://chart.googleapis.com/chart?cht=tx&chl=%24d_1%24=This is an apple
  • https://chart.googleapis.com/chart?cht=tx&chl=%24d_2%24=I like to go to school
  • https://chart.googleapis.com/chart?cht=tx&chl=%24d_3%24=Apple is a kind of fruit and I like to eat it

https://ithelp.ithome.com.tw/upload/images/20200901/201100421YDZqKsi1Y.png
首先,我先建立一個Index term by document的矩陣。其中列(row)表示所有文章出現過的term,行(column)表示每篇文章在這裡總共有三篇文章。
若下一個query為school,則school=[0 1 0],answer=https://chart.googleapis.com/chart?cht=tx&chl=%24d_2%24
若下一個query為"school" and "go",則school^go=[0 1 0]^[0 1 0]=[0 1 0],answer=https://chart.googleapis.com/chart?cht=tx&chl=%24d_2%24
若下一個query為"apple" or "apple",則apple or school=[1 0 1] or [0 1 0]=[1 1 1],answer=https://chart.googleapis.com/chart?cht=tx&chl=%24d_1%24&https://chart.googleapis.com/chart?cht=tx&chl=%24d_2%24&https://chart.googleapis.com/chart?cht=tx&chl=%24d_3%24

分析一下

  • 優點:
  1. 呈現的方式較為簡潔且容易明白
  2. 檢索速度快
  3. 對需求明確的檢索(如明確的標題等)效果好
  • 缺點:
  1. 不太人性,對於每份文件的預測不是 “相關” 就是 “不相關”,非黑即白
  2. 查詢結果沒依照符合程度的評分做排序、使用者較難表達複雜的查詢條件

小結

今天介紹了最早使用的檢索模型布林模型(Boolean Model)並做優缺點分析。明天會介紹比較複雜一些的機率模型 (Probabilistic Model)給各位/images/emoticon/emoticon29.gif


上一篇
Day01:什麼是資訊檢索與擷取?
下一篇
Day03:機率模型 (Probabilistic Model)
系列文
資訊爆炸時代學資訊檢索與擷取8
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言