之前已經有基礎了,這次要繼續延伸做下去,後面應該也會放上我比較完整的程式碼,所以如果前面的內容已經忘光光的沒有關係,我這邊應該會打算做點整理,所以程式碼後面都會...
引言
昨天我們談到 Tokenization 跟 Segmentation 的差異,知道了拆文字有很多種方式:字、詞、子詞。在中文裡,因為是以字(Charact...
如果軟體跟硬體的部署都好了,就可以測試樣本的採集了!通常一間 AI 公司會有一組團隊,或者雇用實習生來蒐集資料,資料的內容是需要制定策略去採集的,有很多巧思要注...
什麼是 Trino
Trino is a distributed SQL query engine designed to query large data...
一、HyDE 的基本概念
HyDE 的全名是 Hypothetical Document Embeddings,直譯為「假想文件嵌入」。基本概念是:在檢索之前,...
引言
上一篇我們用向量檢索找出了幾個相似的 chunk。但有時候即使找到了 top_k 的候選文件,相關性的排序也還不是最完美的。有些內容雖然有相關,但對回答問...