資訊以多樣化的文本或是多媒體呈現並在不同網路平台與社群上傳播。隨著資訊爆炸時代的來臨,資訊檢索與擷取也成為熱門的研究議題。
這項研究議題也有相當悠久的歷史,從傳統的檢索模型像是Vector Space Model或是BM25等,一直到現在深度學習技術帶來新的方法都應用在資訊檢索與擷取上。這30天我會從基本的傳統模型介紹到深度學習模型,最後談論其應用。
前言 作者之前在學校修了資訊檢索與擷取這門課,而且還修了兩次不是太爛被當掉。是一次去別的學校旁聽後覺得這個研究議題太有趣了回來自己學校在修了一遍。儘管修了兩次仍...
在介紹布林模型(Boolean Model)之前我們要先定義一個名詞為Index term。每篇文章都由一些index term或是關鍵字(keywords)所...
機率模式 (Probabilistic Model) 機率模式 (Probabilistic Model) 為1976年由Roberston和Sparck Jo...
TF-IDF演算法資訊檢索中是相當重要的。TF-IDF演算法主要包含了兩個部分:詞頻(term frequency,TF)跟逆向文件頻率(inverse doc...
在向量空間模型(Vector Space Model)中queries被表示成向量(Vector)形式,在同樣的向量空間中document也被表示成向量(Vec...
先來複習一下IR三要素如下: Term Frequency Inverse Document Frequency Document Length Normal...
語言模型(Language Models)在1998年才被應用到IR上。Language Models主要目的在於判斷長度T的文字序列在自然語言中出現的可能性。...
昨天講到語言模型應用於IR上主要有兩種方法,KL-Divergence Measure以及 Query Likelihood Measure。今天來談談 Que...