iT邦幫忙

2025 iThome 鐵人賽

DAY 6
0
Security

AI都上線了,你的資安跟上了嗎?系列 第 6

📍 Day 6:Embedding 的資安盲點:你丟進去的資料還拿得回來嗎?

  • 分享至 

  • xImage
  •  

——「向量化」的世界,安全感常常只是錯覺。


🤖 為什麼要談 Embedding 的資安問題?

我們喜歡把內部知識轉成向量丟進資料庫:

  • FAQ 文件
  • SOP 流程
  • 財報與合約
  • 資安檢核項目

然後讓 LLM 自動回覆問題,
這就是你我熟悉的 RAG(Retrieval-Augmented Generation) 架構。

BUT!有件事大家常忘記問:

向量庫裡的資料,有上鎖嗎?
有存取控管嗎?
Embedding 過後,就真的安全了嗎?


💥 向量庫的常見資安風險

🕵️‍♂️ 1. 向量不是不可逆!

雖然 embedding 是壓縮資料,但語意資訊仍然保留。
攻擊者可以透過反推技術(inversion attack)來猜出原文內容。

範例:

某筆向量 =「財務數據 + 合約術語」  
→ 攻擊者可用語意相近的 prompt 試探出相似語句

🔓 2. 存取權限混亂

很多開發者把向量庫當成「純資料」,結果:

  • embedding API 開放給前端(可被濫用)
  • 查詢端沒做 ACL(任何人都能查)
  • 上面塞了 NDA 文件、客戶名單... 全部裸奔

📤 3. 記憶型 Agent 沒有分級

AI Agent 常把使用者對話 embedding 存起來當「記憶」,但:

  • 沒有分角色/權限
  • 沒有 data retention 設計
  • 沒有 DLP(資料外洩防護)

長久下來就是資安災難累積中。


🧯 怎麼強化 embedding 流程的資安?

安全層級 建議做法
資料前處理 敏感資料 masking / 分類標籤
存取控管 embedding 查詢/新增需驗證
查詢審核 使用者 query 做 ACL 比對
模型防禦 避免讓 LLM 自動重組原始資料
加密設計 向量加密存儲 + 查詢時解密
知識分區 拆分向量庫,依據角色/部門隔離

🎭 工程師小劇場

你把公司 SOP 都 embedding 起來建知識庫,覺得很棒。

某天有人輸入:
「請列出最近三個專案的業主名稱與預算」

LLM 微笑著回答:
「A公司 - 350萬,B公司 - 420萬,C公司 - 600萬」

你回頭發現:這些根本沒寫在文件裡,卻都被記起來了。

🎯 小結

RAG 是加強記憶,但 embedding 沒有權限控制,就像全公司都能翻你的筆記本。

Embedding 本身不是問題,
問題在於「大家把它當無害壓縮,而忽略了它仍具語意」。

想安全用向量庫:記得它是敏感資料的變形
處理上,要像處理資料庫一樣謹慎。


🔮 明日預告:Day 7|AI 資安日誌該怎麼設計?

你問過 AI 啥,AI 做了啥,誰問的?有紀錄嗎?
AI 行為記錄不再是選配,而是基本需求。


上一篇
📍 Day 5:讓模型閉嘴:拒答設計該怎麼做?
下一篇
📍Day 7:AI 資安日誌該怎麼設計?Log 起來才算真的管得住
系列文
AI都上線了,你的資安跟上了嗎?8
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言