作者之前在學校修了資訊檢索與擷取這門課,而且還修了兩次不是太爛被當掉。是一次去別的學校旁聽後覺得這個研究議題太有趣了回來自己學校在修了一遍。儘管修了兩次仍然對於一些知識細節理解上有些漏洞,所以希望藉由這次鐵人賽除了幫助我自己更深入研究探討IR之外我也想將這門知識介紹給更多人了解。
在我們生活中每天充滿著各種資訊在這忙碌的世代人們也漸漸地忘記如何閱讀與思考這些資訊。你的生活像下面這張圖嗎?
Too much information kills information
資訊檢索(Information Retrieval,IR)這門學問過去主要應用在圖書館的資料檢索系統中。隨著網際網路的蓬勃發展,人們在網路上透過搜尋引擎進行文本或是多媒體的搜索需求也與日俱增。簡而言之,資訊檢索目的就是根據使用者提問(Query)找出符合的相關文章(Document)並回傳,如圖一。
圖一、D表示一群文章,Q表示使用者提問(Query),F表示一個函式轉換文章和提問成排序好的表示,R表示排序函式(ranking function)
其中如何找到符合使用者胃口的相關文章呢?就是一門大學問啦!
這三十天會從傳統的檢索模型介紹到深度學習模型應用在IR上,最後介紹IR相關應用。
由於鐵人賽時間緊迫,發文內容如有謬誤,還請各位先進不吝指正