iT邦幫忙

鐵人檔案

第 12 屆 iThome 鐵人賽
回列表
自我挑戰組

資訊爆炸時代學資訊檢索與擷取 系列

資訊以多樣化的文本或是多媒體呈現並在不同網路平台與社群上傳播。隨著資訊爆炸時代的來臨,資訊檢索與擷取也成為熱門的研究議題。
這項研究議題也有相當悠久的歷史,從傳統的檢索模型像是Vector Space Model或是BM25等,一直到現在深度學習技術帶來新的方法都應用在資訊檢索與擷取上。這30天我會從基本的傳統模型介紹到深度學習模型,最後談論其應用。

參賽天數 6 天 | 共 8 篇文章 | 6 人訂閱 訂閱系列文 RSS系列文
DAY 1

Day01:什麼是資訊檢索與擷取?

前言 作者之前在學校修了資訊檢索與擷取這門課,而且還修了兩次不是太爛被當掉。是一次去別的學校旁聽後覺得這個研究議題太有趣了回來自己學校在修了一遍。儘管修了兩次仍...

2020-09-01 ‧ 由 WenTingTseng 分享
DAY 2

Day02:布林模型(Boolean Model)

在介紹布林模型(Boolean Model)之前我們要先定義一個名詞為Index term。每篇文章都由一些index term或是關鍵字(keywords)所...

2020-09-02 ‧ 由 WenTingTseng 分享
DAY 3

Day03:機率模型 (Probabilistic Model)

機率模式 (Probabilistic Model) 機率模式 (Probabilistic Model) 為1976年由Roberston和Sparck Jo...

2020-09-03 ‧ 由 WenTingTseng 分享
DAY 4

Day04:TF-IDF演算法

TF-IDF演算法資訊檢索中是相當重要的。TF-IDF演算法主要包含了兩個部分:詞頻(term frequency,TF)跟逆向文件頻率(inverse doc...

2020-09-04 ‧ 由 WenTingTseng 分享
DAY 5

Day05:向量空間模型(Vector Space Model)

在向量空間模型(Vector Space Model)中queries被表示成向量(Vector)形式,在同樣的向量空間中document也被表示成向量(Vec...

2020-09-05 ‧ 由 WenTingTseng 分享
DAY 6

Day06:最佳匹配模型(Best Match Model)

先來複習一下IR三要素如下: Term Frequency Inverse Document Frequency Document Length Normal...

2020-09-06 ‧ 由 WenTingTseng 分享
DAY 6

Day07:語言模型(Language Models)

語言模型(Language Models)在1998年才被應用到IR上。Language Models主要目的在於判斷長度T的文字序列在自然語言中出現的可能性。...

2020-09-08 ‧ 由 WenTingTseng 分享
DAY 6

Day08: Query Likelihood Measure

昨天講到語言模型應用於IR上主要有兩種方法,KL-Divergence Measure以及 Query Likelihood Measure。今天來談談 Que...

2020-09-08 ‧ 由 WenTingTseng 分享