iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

資訊檢索相關文章

共有 13 則文章

0 人追蹤

追蹤

7 Like 1 留言 12339 瀏覽

鐵人賽 AI & Data DAY 10

深入淺出搜尋引擎和自然語言處理系列第 10 篇

達標好文技術 Day 10: TF-IDF 文件加權與實作

在搜尋技術中TF-IDF是個很基礎而重要的統計方式。什麼是TF-IDF呢？而又為什麼需要TF-IDF？ TF-IDF的全名是Term Frequency - I...

丹尼爾胡 ‧ 2019-09-11

4 Like 0 留言 9482 瀏覽

鐵人賽 AI & Data DAY 7

深入淺出搜尋引擎和自然語言處理系列第 7 篇

技術 Day 7: 親手寫個檢索系統吧（ㄧ）文件預處理

語言是由文字組合出來的。作為一個人類，我們能夠將一篇文章分割成好幾個部分來閱讀和理解，為了讓電腦理解一篇文章，它也必須能夠這麼做。第一步就在於文字的預處理和正...

丹尼爾胡 ‧ 2019-09-08

6 Like 1 留言 7146 瀏覽

鐵人賽 AI & Data DAY 6

深入淺出搜尋引擎和自然語言處理系列第 6 篇

技術 Day 6: 原來Google這樣Search！關於資訊檢索

什麼是資訊檢索呢？大家最清楚的例子莫過於網路搜尋引擎了。當你在Google Search上輸入一段你想查詢的字，作為一個使用者通常會跟搜尋引擎有以下的互動： (...

丹尼爾胡 ‧ 2019-09-07

5 Like 0 留言 4736 瀏覽

鐵人賽 AI & Data DAY 8

深入淺出搜尋引擎和自然語言處理系列第 8 篇

技術 Day 8: 認識文件矩陣以及索引的建立

在Day 6的文章中，我們說到在進行搜尋時，我們首要關心的是查詢的詞與文件間的相似度。我用一個例子作為開端：假如我們有三個檔案，分別叫做doc1, doc2以及...

丹尼爾胡 ‧ 2019-09-09

6 Like 1 留言 4398 瀏覽

鐵人賽 AI & Data DAY 9

深入淺出搜尋引擎和自然語言處理系列第 9 篇

達標好文技術 Day 9: 親手寫個檢索系統吧（二）倒排索引

1. 預處理今天的實作我們會使用華爾街日報的的文件集，我有預先將文件集切割成只有兩萬份文件的集合，這份文件集能夠從以下的code中下載。在今天的實作中，我們會...

丹尼爾胡 ‧ 2019-09-10

4 Like 0 留言 3593 瀏覽

鐵人賽 AI & Data DAY 18

深入淺出搜尋引擎和自然語言處理系列第 18 篇

技術 Day 18: 透過搜尋結果評估搜尋引擎的效果（二）

昨天說到使用三種統計方法來評估搜尋引擎，分別是準確率、精確率以及召回率。今天我們要接著說到幾個搜尋引擎的衡量指標。第一個方法稱為Precision@k，它衡量...

丹尼爾胡 ‧ 2019-09-19

5 Like 0 留言 3278 瀏覽

鐵人賽 AI & Data DAY 16

深入淺出搜尋引擎和自然語言處理系列第 16 篇

技術 Day 16: Google搜尋時怎麼預測你的心？關於完成與擴展查詢

日常生活中，當我們在用搜尋引擎查詢時應該都經常受一個功能的輔助：預測查詢，或稱為完成查詢，顧名思義，這功能用於輔助使用者完成他們的查詢。完成查詢除了能輔助...

丹尼爾胡 ‧ 2019-09-17

5 Like 0 留言 3081 瀏覽

鐵人賽 AI & Data DAY 15

深入淺出搜尋引擎和自然語言處理系列第 15 篇

達標好文技術 Day 15: 神奇的法杖 - 提高效率的WAND演算法

今天我們要介紹用來提升查詢效率的WAND演算法。在這個演算法中我們會為每一個字詞記錄一個數值，這個數值稱為maximum contribution。一個字詞的...

丹尼爾胡 ‧ 2019-09-16

2 Like 0 留言 2834 瀏覽

鐵人賽 AI & Data DAY 11

深入淺出搜尋引擎和自然語言處理系列第 11 篇

技術 Day 11: Google要如何儲存成千上萬個網站的位置？關於索引壓縮

如同我們前幾天所寫的倒排索引，多數搜尋引擎為了查詢的效率，會將索引儲存在記憶體當中。如此，需要足夠的記憶體才能夠將所有索引儲存起來。如果我們能夠從索引的資料型態...

丹尼爾胡 ‧ 2019-09-12

3 Like 0 留言 2782 瀏覽

鐵人賽 AI & Data DAY 17

深入淺出搜尋引擎和自然語言處理系列第 17 篇

技術 Day 17: 透過搜尋結果評估搜尋引擎的效果（一）

今明兩天要來說說，我們可以如何判斷和評估一個搜尋引擎的效果。先從三個在統計學和機器學習領域基礎而重要的評估方式說起：準確率(Accuracy)、精確率(Pre...

丹尼爾胡 ‧ 2019-09-18

6 Like 0 留言 2711 瀏覽

鐵人賽 AI & Data DAY 12

深入淺出搜尋引擎和自然語言處理系列第 12 篇

技術 Day 12: 親手寫個檢索系統吧（三）索引壓縮

今天我們要來實作倒排索引的空間壓縮。這裡我們會利用昨天文中介紹的VByte壓縮法壓縮倒排索引中的文件ID doc_ids 以及文件-詞頻列表 doc_term_...

丹尼爾胡 ‧ 2019-09-13

2 Like 0 留言 2520 瀏覽

鐵人賽 AI & Data DAY 14

深入淺出搜尋引擎和自然語言處理系列第 14 篇

技術 Day 14: 怎麼提高搜尋速度呢？關於效率搜尋

搜尋的速度是影響使用者對一個搜尋引擎體驗的一個因素，對於活在2019的你來說，很難想像在Google Search時你要等兩秒（不包含網路封包傳送的時間）才能等...

丹尼爾胡 ‧ 2019-09-15

3 Like 0 留言 2432 瀏覽

鐵人賽 AI & Data DAY 13

深入淺出搜尋引擎和自然語言處理系列第 13 篇

技術 Day 13: 可是資料是不斷增加的啊！關於動態索引建構

這幾天我們都在「靜態」的情況下建構倒排索引，文集中的文件數不變、空間使用不會有太大變化，也沒有及時新增或修改。即便如此，要建構這樣的靜態索引還是可能會出現一些難...

丹尼爾胡 ‧ 2019-09-14

參賽組數

902 組

團體組數

37 組

累計文章數

19838 篇

完賽人數

528 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙

達標好文 技術 Day 10: TF-IDF 文件加權與實作