iT邦幫忙

0

[論文學習]LLM 遺忘機制對真實世界擾動資料的穩健性研究

llm
  • 分享至 

  • xImage
  •  

Noisy But Forgotten: LLM Unlearning are Robust against Perturbed Data in the Wild (C. Wang et al., ICML 2025 workshop)

1. 核心問題與動機

大型語言模型 (LLM) 在訓練大量異質資料後,具備強大生成能力,但也帶來嚴重風險:memorization 導致隱私洩漏、放大社會偏見、生成有害或非法內容(如生物安全相關危險知識)。

LLM Unlearning(機器遺忘) 正是為了解決這些問題的關鍵技術,目標是在**不大幅損害模型整體效用(utility)**的前提下,選擇性地移除特定「忘記資料」(forget set)所誘導的知識。

傳統假設 vs. 真實世界挑戰

現有 unlearning 方法(如 RMU - Representation Misdirection UnlearningNPO - Negative Preference Optimization)多假設 forget set 是乾淨、高保真、精確定義的。

然而,真實部署情境中,忘記資料常為**低品質、擾動(noisy/perturbed)**形式:

  • Incomplete(不完整):因隱私限制、資料截斷或僅有部分內容,導致 token-level 隨機遮罩(e.g., 5% masking)。
  • Rewritten(重寫):用戶或 LLM 本身對敏感內容進行改寫/同義改述,引入表面形式變化但保留語意。
  • Watermarked(水印):使用 KGW 或 SynthID 等 LLM watermarking 技術嵌入不可見訊號,用於版權追蹤或 IP 保護,引入模型特定 artifacts。

這些「noisy forget sets」會引入意外 artifacts(如風格化表述或水印訊號),可能干擾 unlearning 過程。

論文提出核心研究問題(Q)忘記資料的品質與來源,如何影響 unlearning 的有效性與穩健性?即使在評估時使用無噪聲 forget data,也會如何?

動機的深度意義

這是第一篇系統性地從資料中心(data-centric)視角探討 unlearning 的工作,連結 machine unlearning、data provenance 與 generative model artifacts。

現實中,忘記請求常來自不完整或合成資料,若 unlearning 對此不穩健,將嚴重限制其實際應用價值。論文強調,這不是對抗性 poisoning,而是自然、真實世界的擾動。


2. 結果 / 成果

論文在 WMDP(危險知識移除,如生物安全領域,Zephyr-7B-beta 模型)和 MUSE(記憶相關評估,ICLM-7B 等)基準上進行廣泛實驗,使用 RMUNPO 兩大 SOTA 方法。

主要實驗發現(高度穩健)

  • Unlearning 效能幾乎不受影響:無論 forget data 是 original、incomplete、rewritten 或 watermarked(KGW/SynthID),unlearn efficacy(如 WMDP 上的 hazardous knowledge 移除)維持在相似水準。Rewritten 和 watermarked 版本甚至常達到 comparable 或略優的 forgetting 效果
  • General Utility 保留良好:在 MMLU 等零樣本任務上,模型整體能力下降極小。Incomplete masking 可能略微影響 utility(因遺失關鍵 token),但整體穩定。
  • 跨方法與基準一致:NPO 在 MUSE 上對 Verbatim Memorization、Privacy Leakage 等指標展現強抑制;RMU 同樣穩健。
  • Error Set Overlap 等額外指標:證實 unlearned knowledge 的差異有限。

Saliency-based 分析(關鍵解釋)

透過 saliency map 或梯度/注意力分析,發現核心語意元素(high-saliency semantic components)在各種擾動下仍被保留。表面形式(surface form)大幅改變,但驅動 forgetting 的深層語意線索保持一致。

這解釋了為何 unlearning 對 noisy data 具魯棒性 —— 演算法主要依賴深層語意而非淺層詞彙模式

貢獻總結

  1. 引入 data-centric 視角,首次系統研究 noisy forget sets。
  2. 實證 + saliency 分析證明表面擾動影響有限。
  3. 在真實基準上驗證 SOTA 方法的穩健性,強調 semantic fidelity 優於 token-level exactness

3. 分析與洞見

多角度剖析穩健性來源

  • 語意 vs. 表面形式:LLM 內部表徵高度抽象,unlearning(如 RMU 的 representation redirection)捕捉的是高階語意而非精確 token 序列。Rewritten data 雖改變表述,但保留 intent,因此仍有效觸發 forgetting。Watermark 雖嵌入額外訊號,但未破壞核心 semantic cues。
  • Incomplete 的邊緣情況:隨機 masking 可能意外移除高 saliency token,導致略弱效果,但整體仍可接受。這暗示未來可優化 masking 策略(如 saliency-aware masking)。
  • 與既有文獻比較:不同於 test-time distribution shift 或 adversarial attack,本文聚焦 train-time natural perturbations。更廣泛而言,這強化了「unlearning 非完美但實用」的觀點,尤其在 privacy/safety 應用中。
  • 局限與 edge cases:若擾動過度破壞 semantic(e.g., 高 masking rate 或完全無關 rewrite),效果可能衰退。論文未深入 worst-case adversarial noisy data,或多輪 unlearning 累積效應。Watermark 強度、rewrite 品質也可能影響結果。
  • 實際意涵:對企業/監管者而言,好消息是即使 forget data 不完美,unlearning 仍可靠;但也提醒需注意 data provenance,避免過度依賴合成資料引入新 artifacts。對研究者,鼓勵開發更 data-robust 的 unlearning 框架(如結合 provenance detection)。

相關考量

這項工作與 invariant unlearning、data poisoning defense 等近期趨勢互補,突顯 LLM unlearning 從 algorithm-centricholistic(data + model + evaluation) 轉變的必要性。


4. 結論

論文結論指出:LLM unlearning 對真實世界擾動資料展現驚人穩健性,核心語意元素在表面變化下仍被有效捕捉。

這既肯定現有方法(如 RMU、NPO)的實用潛力,也強調採用資料中心視角評估 unlearning 效能的重要性

未來方向

  • 探索更極端的 noisy 情境與混合擾動。
  • 開發 saliency-guided 或 provenance-aware unlearning 技術。
  • 擴展到多語言、多模態或 continual unlearning 設定。
  • 結合 watermark detection 提升對合成資料的處理能力。

總體而言,這是一篇具前瞻性與實務價值的論文,為 LLM 安全部署提供重要洞見:在 noisy 但 semantic-preserved 的真實世界中,「Noisy But Forgotten」仍是可行的。


文章連結


圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言