Day 17: 透過搜尋結果評估搜尋引擎的效果（一）

第 11 屆 iThome 鐵人賽

DAY 17

AI & Data

深入淺出搜尋引擎和自然語言處理系列第 17 篇

11th鐵人賽 nlp 自然語言處理搜尋引擎資訊檢索

丹尼爾胡

2019-09-18 06:04:32

2793 瀏覽

分享至

今明兩天要來說說，我們可以如何判斷和評估一個搜尋引擎的效果。

先從三個在統計學和機器學習領域基礎而重要的評估方式說起：準確率(Accuracy)、精確率(Precision)、以及召回率(Recall)。我們用一個例子來說明，

假如在一個100人的班上發生了群聚流感，有20個人中鏢，所幸其餘80人安然無恙。老師為了掌握學生的狀況，帶著大家去快篩，結果如下：

這時我們就可以計算數據：

準確率，分類正確的人數和總人數的比例，也就是實際上生病了，快篩結果也是生病的人數：(15+70) / (15+5+10+70) = 85%。
精確率，所有快篩為生病的人中，實際上生病了的比例：15 / (15+10) = 60%。
召回率，所有實際生病的人中，的確被快篩為生病的比例：15 / (15+5) = 75%。

在搜尋引擎當中，「快篩結果」就是我們回傳給使用者的文件，而「實際狀況」就是文件究竟是不是他們在尋找的東西（相關與否）。在搜尋引擎評估中，精確率通常比召回率更好計算，我們來想想看為什麼？精確率取的是「所有回傳給使用者的文件中，實際上使用者需要的文件」；另一方面，召回率則在尋找「使用者需要的所有文件中，搜尋引擎確實回傳給他們的文件。」這一來一往，我們可能就想到了為什麼計算召回率沒那麼容易：要得知「使用者需要的所有文件」幾乎是天方夜譚。

這三個基礎數據可以幫助我們了解一個搜尋引擎的好壞。明天，我們會討論基礎數據的延伸，幫助我們更進一步的評估一個搜尋引擎。