▋前言 在使用 AMI Meeting Corpus 進行語音分析實驗時,發現一個重要的問題:逐字稿 (ES2002a.Mix-Headset.txt) 裡的...
在 Day 14,我們學會了如何將 Notion 筆記切分 (Chunking),並且估算了 Embedding 成本。接下來,要讓我們的筆記進入「語意檢索」的...
在 Day 13,我們討論了Chunking 策略,將 Notion 筆記切分成適合的文字片段,方便送進 Embedding 模型轉換成向量。今天,我們要實作兩...
在 Day 12,我們理解了 Embedding 這個將「語意」轉化為「數學座標」的魔法。在我們迫不及待地想把所有筆記都向量化之前,還有一個極其重要、卻也最常被...
在 Day 11,我們成功地讓 Notion 筆記存進了 SQLite 資料庫。這就像是為我們的「第二大腦」建立了記憶中樞,我們可以透過 SQL 精準地存取資料...
前言 歡迎來到第十一天!昨天我們跨出了巨大的一步:成功將第一個知識點 (keyPoint) 轉化為向量,並存入了 Supabase 這個雲端知識庫,順便還嘴了一...
前言 歡迎來到第九天!昨天我們透過了解了 RAG 的基本概念並透過 Gemini Embedding API 實際看到了文字是怎麼轉為向量陣列的,我自己相當喜歡...
前言 歡迎來到第二週!真虧你看完昨天那篇落落長的鬼東西還沒棄坑,真有你的!我打完看了一下字數約四萬字,自己也傻了一下,但為了系列文的完整度我又不能直接跳過那些程...
引言 我們知道電腦無法像人一樣直接理解文字。要讓電腦「看懂」文字,我們必須先把文字轉換成數字的形式,才能進行後續的分析或建模。 在 主題三:特徵與表示 中,我會...
🔹 前言 昨天 (Day 4) 我們比較了 向量資料庫,解決了「知識要存在哪裡,怎麼檢索」的問題。 但在 RAG (Retrieval-Augmented Ge...
昨天把 Indexing pipeline 跑過一遍:從資料載入、Chunking、Embeddings,到向量資料庫。要讓 RAG 找到「對的內容」,關鍵在第...
🔹 前言 在 LLMOps 的世界裡,向量資料庫 (Vector Database) 幾乎是 RAG(Retrieval-Augmented Generatio...
▋在Dify設定模型 昨天在Dify上已經初步認識了各個頁面的功能,但如果實際嘗試的話,會發現還是沒辦法建立一個RAG聊天機器人,關鍵在於,我們還沒給定Dif...
DIO曾言:「老東西,你的替身是最沒用的!!」 今天,我們來講古,來介紹以前的AI是怎麼做濾鏡這種東西。 在影像生成上面,過去(大約2022之前)我們使用對抗生...
前言 第24天了!最後就在官方文件裡面撈看看還有什麼可以玩的。 ✨ 首先是安裝方式,除了之前試過的linux GPU版本安裝之外,官方文件還提供了linux C...
前言 昨天我們進行LangChain結合Diagram as Code RAG生成雲端架構圖的初步展示,但對於文件管理來說,要在本地端管理越來越多的文件,實在難...
上一篇我們介紹了RAG和LLM,它們是讓聊天機器人活起來說人話的重要關鍵。但在背後,其實還有功不可沒的向量化技術作為支撐,今天就來跟大家解釋Embedding和...
什麼是Embedding? Embedding是一種將物件(如單詞、句子或者其他資料)轉換成實數向量(一種數學表示)的技術。這個轉換過程使得計算機能夠更好地理解...
簡介 除了 ChatGPT 網頁介面以外,還能透過 OpenAI API 調用 ChatGPT 的功能,讓我們能夠在自己的開發應用裡面借助 ChatGPT 的力...