辦公室對話
貝老闆(拿著手機興奮):「小可,我昨天看到一篇文章,說 AI 訓練要有大數據才行,我就想把我們客戶的身分證字號、電話號碼全都丟進去,這樣模型一定超聰明!」
小可(白眼+摺扇狂敲):「老闆!你是想讓公司直接上新聞頭條嗎?『某公司客戶資料外洩』,隔天金管會就找上門了啦!」
工程師 King(眉頭一皺,神情恐懼):「PII 放進去,誰還敢 deploy……」
AI 實習生(舉手興奮):「好!我來幫忙把資料通通吃進去!」
小可(怒吼):「不要對 AI 實習生亂下指令!」
好威:「齁,貝哥哥~~~你這是踩隱私紅線啦!資料不是能丟就丟,要有分級、最小化、還要設定刪除策略,不然 GDPR、個資法隨時賞你一張罰單。」
1. 隱私分級(PII Data Classification)
在企業裡,不是所有資料都能隨便使用。像姓名、電話、身分證字號、醫療紀錄這些,都屬於 PII(Personally Identifiable Information,可識別個人資訊),必須分級管理。一般做法會標記成「公開、內部、機敏、極機密」,不同等級對應不同使用規範。就像公司倉庫,原料可以隨意搬,但保險箱裡的金條不能亂摸。若要跟 AI 協作,應該先問 AI:「這些資料哪些算 PII?請幫我列出分級規則。」
2. DLP(Data Loss Prevention)與 Prompt 攔截
光靠人記憶一定會出包,所以要用 DLP 工具(或 AI 幫忙)去偵測資料是否含有 PII。例如輸入欄位有電話號碼,系統就自動攔下來,或提醒「這不應該丟進 Prompt」。AI 也能加一層「Prompt 防火牆」,攔截有人試圖輸入個資。對不懂技術的人,可以直接問 AI:「請幫我設計一個 Prompt 攔截器,當輸入包含身分證字號或 email 時要自動拒絕。」
3. 資料最小化(Data Minimization)
原則是 用多少、存多少、保留多久。模型訓練、或是做 RAG,應只保留必要欄位。例如客服紀錄裡,真正重要的可能只是「問題內容」和「產品型號」,不需要保留「電話」或「地址」。和 AI 協作時可以問:「幫我設計去識別化流程,把敏感欄位刪掉或模糊化。」
4. RAG 紅線與刪除策略
很多人以為 RAG 就是把資料全丟進去給 AI 檢索,但紅線很明確:只能放可公開的資料。如果放了合約、客戶個資,就踩雷了。另一個要注意的是「到期刪除」,不能永遠保留,必須設定 TTL(time-to-live)。可以問 AI:「請幫我設計一個 RAG 資料管線,確保只收錄公開資訊,並且設定 90 天自動刪除。」
1.「資料不是越多越好,越乾淨才有價值」
蒐集太多 PII 反而會變成風險炸彈。想像一下,客戶打來問「你們是不是把我電話拿去訓練 AI?」那信任直接破產。和 AI 協作時,與其問「怎麼把資料丟進去」,不如問「哪些資料可以安全地用?」
2.「隱私合規不只是法規,更是商譽保護」
GDPR、個資法、CCPA 這些名字聽起來遙遠,但一旦踩到,動輒數百萬罰款。更嚴重的是品牌受損,客戶不敢再交資料給你。你可以讓 AI 幫忙產生 合規 checklist,例如:「我們的資料處理流程符合 GDPR 第幾條嗎?」
3.「最小化與去識別,才能放心用 RAG」
不要把所有東西往知識庫裡塞,否則一個錯誤 Prompt,AI 就把客戶資料唸出來。最小化+去識別化,讓 RAG 保持在安全範圍內,才不會讓 AI 變成隱私外洩機器。記得問 AI:「幫我設計一個去識別化策略,確保查詢不會吐出敏感資訊。」
👉 你覺得在自己公司或團隊裡,哪種資料最容易被誤丟進 AI?你會怎麼跟 AI 說,才能讓它幫你做好「資料最小化」?