Day 22｜讓 AI 擁有你的品牌靈魂（上） ✨ 打造專屬知識庫

2025 iThome 鐵人賽

DAY 22

生成式 AI

17th鐵人賽

259 瀏覽

資料只是素材，知識才是品牌的靈魂。

在前面幾天，我們學會了透過爬蟲、RSS 等方式，把資料從網路上抓下來，變成我們可以操作的資料流。

但對於做內容行銷、社群經營的人來說，還有另一件更重要的事，讓 AI 說話時，能保有我們的品牌特性，而不是像在網路上隨便找答案。

這時候，「知識庫（Knowledge Base）」 就登場了。

本篇的工作流範本可在此下載。（下載連結）

為什麼需要知識庫？

你可以想像它像 NotebookLM 這種工具一樣，先讓 AI 讀過你上傳的文章、教學、品牌內容，之後 AI 就會根據這些資料來回答問題或生成內容，而不是胡亂回答。

不過也有人會好奇：

「那 AI 要一直讀整份資料嗎？這樣不是會超慢又很花費？」

其實不用。這裡會用到一個叫 「嵌入式模型（Embedding Model）」 和 **「向量資料庫（Vector Database）」**的概念：

今天這篇，我們會把資料轉成向量資料，做出專屬知識庫；

明天（Day 23）才會教你如何使用這個知識庫來生成內容。

雖然前面教過用爬蟲收集資料，但這次我們改用更輕鬆的方法：RSS

RSS 是什麼？

RSS 是一種可以訂閱網站更新的格式。

例如 iThome 提供我們這一系列文章的 RSS，我們可以輕鬆抓到全部文章的內容。
操作步驟
- 在白板上新增「手動觸發」節點，後面接上「RSS Read」節點。
- 把本系列 RSS 連結貼上：https://ithelp.ithome.com.tw/rss/series/8470
- 執行後會看到多個 items（我執行當下是 18 篇）

聚合成一筆資料（Aggregate）
- RSS 會一次抓出很多篇文章，但我們想要把它們合併成一筆資料方便後續處理
- 使用「Aggregate」節點設定：
  - Aggregate：All Item Data (Into a Single List)
  - Put Output in Field：data
  - Include：Specified Fields
  - Fields To Include：選 title, link, content:encodedSnippet

執行後，我們就會得到一筆包含所有文章資料的 JSON，可以準備送進向量資料庫了。

有很多種向量資料庫可以選，我們用之前 Day 5 安裝過的 Supabase，因為它內建支援向量儲存，非常適合入門。

在前面的 Aggregate 節點後，新增「Supabase Vector Store」節點
- Operation Mode 選擇：Insert Documents（代表要把資料存進向量資料庫）
它會需要兩個資料來源：
- Embedding（嵌入式模型）：連上「Embeddings Google Gemini」節點
  - 嵌入式模型不是 LLM（生成模型），它是專門把內容轉成向量資料
  - 選擇 models/text-embedding-004，其向量維度是 768
- Document（文件資料）：連上「Default Data Loader」節點
  - Type of Data 選擇：JSON
  - Mode 選擇：Load All Input Data
  - 如果你輸入的是檔案，則 Type of Data 要選 Binary

還沒建資料表，資料是無法存進去的，要先在 Supabase 建好。

在 Supabase 後台左側點選「SQL Editor」
在上方的「Quickstarts」找到「LangChain」範例庫，裡面有一段 SQL 是建立向量資料表的教學
注意：預設程式碼裡有兩處寫著 vector(1536)，這代表它預期你用的是 1536 維度的模型（例如 OpenAI 的 embedding）
- 但我們用的是 768 維度的 Google Gemini 模型，所以要把那兩個 1536 改成 768
點選「Run」，資料表就建立完成 🎉