iT邦幫忙

鐵人檔案

2024 iThome 鐵人賽
回列表
自我挑戰組

重新開始 elasticsearch 系列

過去曾使用 elasticsearch 設計文本搜尋的自動補全功能,功能是做出來了,但結果差強人意;希望透過這次機會重新挑戰這個題目,希望表現可以更好,也順便重新學習 elasticsearch 並 catch up 最近推出的新功能。

參賽天數 0 天 | 共 29 篇文章 | 2 人訂閱 訂閱系列文 RSS系列文
DAY 0

2024 鐵人賽 Day12: Ingest Tweeter data

好的,前面關於 ES 的知識應該足夠我們開始 auto-complete 的 task 了,首先我們需要有資料! 之前實作的時候,使用的是 2016 年美國總統...

2024-09-27 ‧ 由 kimcheng 分享
DAY 0

2024 鐵人賽 Day13: Significant-Text Aggregation ( ?

因為 elasticsearch 要打很多字,寫文苦手如我決定縮寫它,所以會用 ES 代稱。 auto-complete 除了自動補完之外,另外一個說法是『猜你...

2024-09-28 ‧ 由 kimcheng 分享
DAY 0

2024 鐵人賽 Day14: Significant-Text Aggregation again( ?

上一篇說到用 significant text aggregation 補完沒有打完的字;那補完這個字了,下一步是要找出這個字的延伸字,也就是如果是 covid...

2024-09-29 ‧ 由 kimcheng 分享
DAY 0

2024 鐵人賽 Day15: The combination of two

前兩篇實作了『補完還沒打完的字』,根據『被補完的字給接續建議字』;接下來使用 python 結合兩者產出最後的呈現,如果你不熟悉 python 可以閱讀註解,或...

2024-09-30 ‧ 由 kimcheng 分享
DAY 0

2024 鐵人賽 Day16: Optimization I

從對之前作法的 Review 中,大致可以總結以下幾個可以改善的地方: 效率:因為 query 中大量的使用 significant-text aggrega...

2024-10-01 ‧ 由 kimcheng 分享
DAY 0

2024 鐵人賽 Day17: Optimization II

前一篇綜整了三個主要的問題,並針對其中兩個—— significant-text aggregation 的效能和 suggestion 結果單一的問題做了一點...

2024-10-02 ‧ 由 kimcheng 分享
DAY 0

2024 鐵人賽 Day18: Optimization III

在 『optimizer I 』中有提到,使用 significant-text aggregation 來補全單詞是個取巧的做法,今天稍微解釋一下 signi...

2024-10-03 ‧ 由 kimcheng 分享
DAY 0

2024 鐵人賽 Day19: Sum it up

上一篇進行到 token 補全的部分,相比於原本使用 significant-text aggregation,採用了詞頻的方始把 token 補完;那 sug...

2024-10-04 ‧ 由 kimcheng 分享
DAY 0

2024 鐵人賽 Day20: ES as Vector DB I

隨著 LLM (Large Language Model)& RAG (Retrieval-Augmented Generation)應用興起,vect...

2024-10-05 ‧ 由 kimcheng 分享
DAY 0

2024 鐵人賽 Day21:ES as Vector DB II

今天目標要把一些 vector 存入 ES 內,供下一篇進行 KNN search 使用。 接下來的資料都會改用 TMDB 的電影資料,前面使用的 tweete...

2024-10-06 ‧ 由 kimcheng 分享