iT邦幫忙

鐵人檔案

2024 iThome 鐵人賽
回列表
自我挑戰組

重新開始 elasticsearch 系列

過去曾使用 elasticsearch 設計文本搜尋的自動補全功能,功能是做出來了,但結果差強人意;希望透過這次機會重新挑戰這個題目,希望表現可以更好,也順便重新學習 elasticsearch 並 catch up 最近推出的新功能。

參賽天數 0 天 | 共 29 篇文章 | 2 人訂閱 訂閱系列文 RSS系列文
DAY 0

2024 鐵人賽 Day22:ES as Vector DB II

KNN 是 K-nearest neighbor 的縮寫,字面上的意思是『 k 個離最近的鄰居』,k 是一個可調控的整數。 這個算法主要應用在解決分類問題,一個...

2024-10-07 ‧ 由 kimcheng 分享
DAY 0

2024 鐵人賽 Day23: ES as Vector DB IV

前一篇在進行 knn 搜尋的時候,發現了非常不合理的搜尋結果: 當搜尋『黑道家族勾心鬥角』時,最相似的電影居然是溫馨家庭喜劇;再加上前面幾筆內容不同但相似性分數...

2024-10-08 ‧ 由 kimcheng 分享
DAY 0

2024 鐵人賽 Day24: KNN + text search

在 Search Query III 這一篇內有提到可以用 bool query 結合兩個 query,knn 是可以被放在 bool query 內被一起使用...

2024-10-09 ‧ 由 kimcheng 分享
DAY 0

2024 鐵人賽 Day25: RAG

前幾篇說明了 ES as Vector DB 的使用,在 AI 的應用中,Vector DB 主要的使用場景是 RAG—Retrieval Augmented...

2024-10-10 ‧ 由 kimcheng 分享
DAY 0

2024 鐵人賽 Day26: How to RAG - prompt

在上一篇文章中提到要整合 ES 和 LLM 做成 RAG,我們還需要一個給 LLM 一段 prompt 並將 ES 搜尋到的資訊回傳個 LLM 作為 conte...

2024-10-11 ‧ 由 kimcheng 分享
DAY 0

2024 鐵人賽 Day27: How to RAG - Provide Context

前一篇手動擷取 ES 內的電影資料提供給 LLM,今天要來透過 python 腳本自動化。 首先要做的就是把要問 LLM 的問題轉為 vector 並在 ES...

2024-10-12 ‧ 由 kimcheng 分享
DAY 0

2024 鐵人賽 Day28: Ingest Pipeline

前幾篇不論在 tweet 資料寫入或 ML 資料寫入,都不免透過 python 進行了一些簡單的資料清理才寫入 ES;如果想要進行的資料處理邏輯很簡單,不想為此...

2024-10-13 ‧ 由 kimcheng 分享
DAY 0

2024 鐵人賽 Day29: Ingest Pipeline - Tweeter Data

今天要來用 ES 的 Ingest Pipeline 處理前面用來做 Auto complete 的 Tweeter 資料,先回顧一下: 資料的樣子 {'n...

2024-10-14 ‧ 由 kimcheng 分享
DAY 0

2024 鐵人賽 Day30: I Made It

這系列文章從過去的一個小專案 —— auto-complete 開始,重新 pick up ES 的相關概念,從 analyzer、index-mapping...

2024-10-14 ‧ 由 kimcheng 分享