[論文學習]LLM 遺忘機制對真實世界擾動資料的穩健性研究

llm

martinyeung 2026-06-09 00:01:10 ‧ 622 瀏覽

分享至

Noisy But Forgotten: LLM Unlearning are Robust against Perturbed Data in the Wild (C. Wang et al., ICML 2025 workshop)

1. 核心問題與動機

大型語言模型 (LLM) 在訓練大量異質資料後，具備強大生成能力，但也帶來嚴重風險：memorization 導致隱私洩漏、放大社會偏見、生成有害或非法內容（如生物安全相關危險知識）。

LLM Unlearning（機器遺忘） 正是為了解決這些問題的關鍵技術，目標是在**不大幅損害模型整體效用（utility）**的前提下，選擇性地移除特定「忘記資料」（forget set）所誘導的知識。

傳統假設 vs. 真實世界挑戰

現有 unlearning 方法（如 RMU - Representation Misdirection Unlearning、NPO - Negative Preference Optimization）多假設 forget set 是乾淨、高保真、精確定義的。

然而，真實部署情境中，忘記資料常為**低品質、擾動（noisy/perturbed）**形式：

Incomplete（不完整）：因隱私限制、資料截斷或僅有部分內容，導致 token-level 隨機遮罩（e.g., 5% masking）。
Rewritten（重寫）：用戶或 LLM 本身對敏感內容進行改寫/同義改述，引入表面形式變化但保留語意。
Watermarked（水印）：使用 KGW 或 SynthID 等 LLM watermarking 技術嵌入不可見訊號，用於版權追蹤或 IP 保護，引入模型特定 artifacts。

這些「noisy forget sets」會引入意外 artifacts（如風格化表述或水印訊號），可能干擾 unlearning 過程。

論文提出核心研究問題（Q）：忘記資料的品質與來源，如何影響 unlearning 的有效性與穩健性？即使在評估時使用無噪聲 forget data，也會如何？

動機的深度意義

這是第一篇系統性地從資料中心（data-centric）視角探討 unlearning 的工作，連結 machine unlearning、data provenance 與 generative model artifacts。

現實中，忘記請求常來自不完整或合成資料，若 unlearning 對此不穩健，將嚴重限制其實際應用價值。論文強調，這不是對抗性 poisoning，而是自然、真實世界的擾動。

2. 結果 / 成果

論文在 WMDP（危險知識移除，如生物安全領域，Zephyr-7B-beta 模型）和 MUSE（記憶相關評估，ICLM-7B 等）基準上進行廣泛實驗，使用 RMU 與 NPO 兩大 SOTA 方法。

主要實驗發現（高度穩健）

Unlearning 效能幾乎不受影響：無論 forget data 是 original、incomplete、rewritten 或 watermarked（KGW/SynthID），unlearn efficacy（如 WMDP 上的 hazardous knowledge 移除）維持在相似水準。Rewritten 和 watermarked 版本甚至常達到 comparable 或略優的 forgetting 效果。
General Utility 保留良好：在 MMLU 等零樣本任務上，模型整體能力下降極小。Incomplete masking 可能略微影響 utility（因遺失關鍵 token），但整體穩定。
跨方法與基準一致：NPO 在 MUSE 上對 Verbatim Memorization、Privacy Leakage 等指標展現強抑制；RMU 同樣穩健。
Error Set Overlap 等額外指標：證實 unlearned knowledge 的差異有限。

Saliency-based 分析（關鍵解釋）

透過 saliency map 或梯度/注意力分析，發現核心語意元素（high-saliency semantic components）在各種擾動下仍被保留。表面形式（surface form）大幅改變，但驅動 forgetting 的深層語意線索保持一致。

這解釋了為何 unlearning 對 noisy data 具魯棒性 —— 演算法主要依賴深層語意而非淺層詞彙模式。

貢獻總結

引入 data-centric 視角，首次系統研究 noisy forget sets。
實證 + saliency 分析證明表面擾動影響有限。
在真實基準上驗證 SOTA 方法的穩健性，強調 semantic fidelity 優於 token-level exactness。

3. 分析與洞見

多角度剖析穩健性來源

語意 vs. 表面形式：LLM 內部表徵高度抽象，unlearning（如 RMU 的 representation redirection）捕捉的是高階語意而非精確 token 序列。Rewritten data 雖改變表述，但保留 intent，因此仍有效觸發 forgetting。Watermark 雖嵌入額外訊號，但未破壞核心 semantic cues。
Incomplete 的邊緣情況：隨機 masking 可能意外移除高 saliency token，導致略弱效果，但整體仍可接受。這暗示未來可優化 masking 策略（如 saliency-aware masking）。
與既有文獻比較：不同於 test-time distribution shift 或 adversarial attack，本文聚焦 train-time natural perturbations。更廣泛而言，這強化了「unlearning 非完美但實用」的觀點，尤其在 privacy/safety 應用中。
局限與 edge cases：若擾動過度破壞 semantic（e.g., 高 masking rate 或完全無關 rewrite），效果可能衰退。論文未深入 worst-case adversarial noisy data，或多輪 unlearning 累積效應。Watermark 強度、rewrite 品質也可能影響結果。
實際意涵：對企業/監管者而言，好消息是即使 forget data 不完美，unlearning 仍可靠；但也提醒需注意 data provenance，避免過度依賴合成資料引入新 artifacts。對研究者，鼓勵開發更 data-robust 的 unlearning 框架（如結合 provenance detection）。

4. 結論

論文結論指出：LLM unlearning 對真實世界擾動資料展現驚人穩健性，核心語意元素在表面變化下仍被有效捕捉。

這既肯定現有方法（如 RMU、NPO）的實用潛力，也強調採用資料中心視角評估 unlearning 效能的重要性。

未來方向

探索更極端的 noisy 情境與混合擾動。
開發 saliency-guided 或 provenance-aware unlearning 技術。
擴展到多語言、多模態或 continual unlearning 設定。
結合 watermark detection 提升對合成資料的處理能力。

總體而言，這是一篇具前瞻性與實務價值的論文，為 LLM 安全部署提供重要洞見：在 noisy 但 semantic-preserved 的真實世界中，「Noisy But Forgotten」仍是可行的。

文章連結：

OpenReview：https://openreview.net/forum?id=DEXXC6ClQ2 （或 PDF: https://openreview.net/pdf?id=DEXXC6ClQ2）
arXiv：https://arxiv.org/abs/2510.09007 （或 PDF: https://arxiv.org/pdf/2510.09007）

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19838 篇

完賽人數

528 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙