引言
昨天我們談到 Tokenization 跟 Segmentation 的差異,知道了拆文字有很多種方式:字、詞、子詞。在中文裡,因為是以字(Charact...
資料專案,說穿了就是「用資料解決問題」。它可能包含資料蒐集、清理、建模、落地應用,甚至是與法規或商業需求緊密結合。和一般的 IT 專案相比,資料專案往往牽涉更多...
一、HyDE 的基本概念
HyDE 的全名是 Hypothetical Document Embeddings,直譯為「假想文件嵌入」。基本概念是:在檢索之前,...
邏輯迴歸 (Logistic Regression) 是一種常見的分類模型,主要用於預測二元分類或多元分類,有別於先前的線性迴歸是用來預測無邊界的連數據值,而邏...
線性迴歸 (Linear Regression) 是統計學中的一種預測方法,主要分為簡單線性迴歸 (Simple Linear Regression) 與多元線...
在 Day 13,我們討論了Chunking 策略,將 Notion 筆記切分成適合的文字片段,方便送進 Embedding 模型轉換成向量。今天,我們要實作兩...