昨天介紹了布林檢索,它的缺點在於只能找出和使用者提問相關的文檔,但並不能說明哪篇文檔的相關性更高,而今天要介紹的 TF-IDF 就可以解決這項問題。 TF-ID...
回顧一下昨天介紹的內容,我們了解 TF-IDF 可以用來計算一個單詞在這篇文章中的重要程度,通過以下兩個指標: TF = ( 單詞在文檔中出現的次數 ) /...
BM25 可以說是 TF-IDF 的進階版,BM 是 Best Matching 的縮寫,25 則是修改的版本,由於它在檢索上的表現非常出色而被廣泛使用。 這個...
昨天介紹了 BM25 的概念,它從 TF-IDF 發展而來,可以找出和使用者提問最相符的多筆文檔,在資訊檢索的領域中非常實用,今天就來實作看看吧! 網路上有很多...
不知不覺也過了兩個星期了,繼續加油吧! 我們前面講了好多和資訊檢索相關的內容和計算方式,不過有一個部分沒有提到,那就是評估檢索結果的方法。 這個部分乍看之下好像...
昨天提到了可以通過 Precision 和 Recall 的計算方式來判斷我們檢索出來的結果好不好,然而這是在不考量文檔排名的情況下所做出的評估,如果使用 BM...
我規劃的下一個篇章是如何將非結構化的文字轉換成向量的形式,讓電腦可以處理,不過在這之前,我想要先來聊聊貝式分類器是如何應用在 NLP 任務上的。 根據我有點模糊...
在過去的幾天,我們陸續介紹了各種前處理的技術,並實際應用在資訊檢索的主題裡面。接下來,我們要嘗試把非結構化的文字轉成數值型態的向量,讓電腦學會每一個單詞代表的意...
接下來要介紹的是詞袋 ( Bag of Words, BoW ),它也是文本轉數值資料的一種方法。在昨天的文章中,我們已經對它做了簡單的介紹,今天就來詳細聊聊吧...
我們昨天把詞袋 ( BoW ) 的概念和實作講完了,今天來聊聊更進階的 Word2Vec。 我們在 Day 18 介紹各種文本表示方式的時候,有提到詞嵌入 (...