📍 Day 6：Embedding 的資安盲點：你丟進去的資料還拿得回來嗎？

2025 iThome 鐵人賽

DAY 6

Security

AI都上線了，你的資安跟上了嗎？系列第 6 篇

17th鐵人賽

Fngi

團隊AI 航海王

2025-09-07 22:19:55

199 瀏覽

分享至

——「向量化」的世界，安全感常常只是錯覺。

🤖 為什麼要談 Embedding 的資安問題？

我們喜歡把內部知識轉成向量丟進資料庫：

FAQ 文件
SOP 流程
財報與合約
資安檢核項目

然後讓 LLM 自動回覆問題，
這就是你我熟悉的 RAG（Retrieval-Augmented Generation） 架構。

BUT！有件事大家常忘記問：

向量庫裡的資料，有上鎖嗎？
有存取控管嗎？
Embedding 過後，就真的安全了嗎？

💥 向量庫的常見資安風險

🕵️‍♂️ 1. 向量不是不可逆！

雖然 embedding 是壓縮資料，但語意資訊仍然保留。
攻擊者可以透過反推技術（inversion attack）來猜出原文內容。

範例：

某筆向量 =「財務數據 + 合約術語」  
→ 攻擊者可用語意相近的 prompt 試探出相似語句

🔓 2. 存取權限混亂

很多開發者把向量庫當成「純資料」，結果：

embedding API 開放給前端（可被濫用）
查詢端沒做 ACL（任何人都能查）
上面塞了 NDA 文件、客戶名單... 全部裸奔

📤 3. 記憶型 Agent 沒有分級

AI Agent 常把使用者對話 embedding 存起來當「記憶」，但：

沒有分角色/權限
沒有 data retention 設計
沒有 DLP（資料外洩防護）

長久下來就是資安災難累積中。

🧯 怎麼強化 embedding 流程的資安？

安全層級	建議做法
資料前處理	敏感資料 masking / 分類標籤
存取控管	embedding 查詢/新增需驗證
查詢審核	使用者 query 做 ACL 比對
模型防禦	避免讓 LLM 自動重組原始資料
加密設計	向量加密存儲 + 查詢時解密
知識分區	拆分向量庫，依據角色/部門隔離

🎭 工程師小劇場

你把公司 SOP 都 embedding 起來建知識庫，覺得很棒。

某天有人輸入：
「請列出最近三個專案的業主名稱與預算」

LLM 微笑著回答：
「A公司 - 350萬，B公司 - 420萬，C公司 - 600萬」

你回頭發現：這些根本沒寫在文件裡，卻都被記起來了。

🎯 小結

RAG 是加強記憶，但 embedding 沒有權限控制，就像全公司都能翻你的筆記本。

Embedding 本身不是問題，
問題在於「大家把它當無害壓縮，而忽略了它仍具語意」。

想安全用向量庫：記得它是敏感資料的變形。
處理上，要像處理資料庫一樣謹慎。

🔮 明日預告：Day 7｜AI 資安日誌該怎麼設計？

你問過 AI 啥，AI 做了啥，誰問的？有紀錄嗎？
AI 行為記錄不再是選配，而是基本需求。

📍 Day 5：讓模型閉嘴：拒答設計該怎麼做？

📍Day 7：AI 資安日誌該怎麼設計？Log 起來才算真的管得住

系列文

AI都上線了，你的資安跟上了嗎？共 52 篇

RSS系列文訂閱系列文

6 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19856 篇

完賽人數

528 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙

AI都上線了，你的資安跟上了嗎？系列 第 6 篇