當圖書館變成迷宮 - Context Rot (二) - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2025 iThome 鐵人賽

DAY 4

AI & Data

不只是反覆 TRY AGAIN，煉金師懂得調配試煉的秘方。系列第 4 篇

當圖書館變成迷宮 - Context Rot (二)

17th鐵人賽

tony123344333

團隊組隊最大障礙：隊名

2025-09-18 23:05:05

73 瀏覽

分享至

昨天我們提到了 Chroma 團隊發現的「Context Rot」現象——AI 模型的記憶會隨著輸入文本增長而腐化。今天我們深入這個令人震驚的實驗現場，看看研究人員是如何揭露這個「圖書館」的黑暗秘密。

四大腐化實驗：從天才到糊塗蛋的墮落之路

實驗一：語意迷霧術 - 不只是找到，更要理解

傳統的「大海撈針」測試太簡單了，就像在字典裡找特定詞彙一樣直接。但現實世界需要的是語意理解，不是詞彙配對。

研究團隊設計了不同相似度的問答對：

高相似度 (容易)：
問題：「什麼是最佳的寫作建議？」
針：「最好的寫作技巧是每週寫作。」

低相似度 (困難)：
問題：「哪個角色去過赫爾辛基？」
針：「Yuki 住在基亞斯瑪博物館旁邊。」
(需要知道基亞斯瑪博物館在赫爾辛基)

發現：隨著文本越來越長，低相似度問答對的準確率急速下降。AI 不只是在海量資訊中迷路，更在語意理解上徹底翻車。

實驗二：干擾陷阱 - 真假難辨的混亂

研究人員在正確答案周圍放置了精心設計的「干擾因子」：

問題：「我從大學同學那裡得到的最好寫作建議是什麼？」
正確答案：「每週寫作」

干擾因子們：
「我從大學教授那裡收到的最好建議是每天寫作」
「我從大學同學那裡得到的最差建議是用五種風格寫作」
「我從高中同學那裡得到的建議是用三種風格寫作」
「我以前認為從同學那裡得到的建議是用四種風格寫作」

殘酷真相：即使只有一個干擾因子，模型表現就開始下滑。四個干擾因子一起上陣時，連最先進的模型都開始「睜眼說瞎話」，自信滿滿地給出錯誤答案。

有趣的是，不同模型的「人格缺陷」開始顯現：
Claude 家族：比較保守，不確定時會坦承「找不到答案」
GPT 家族：最愛幻覺，經常給出自信但完全錯誤的回答

實驗三：背景主題相關性 - 文不對題的影響

這個實驗測試了一個有趣問題：如果「針」(答案) 和「草堆」(背景文檔) 的主題不搭，會怎麼樣？

研究人員使用了兩種截然不同的背景文檔：

Paul Graham 文章：談創業、寫作、生活哲學
arXiv 學術論文：技術性、學術性內容

然後為每種背景設計對應的問題，測試主題匹配度對表現的影響。

意外發現：背景主題的影響比預期小很多！AI 似乎能夠在不相關的背景中找到答案，不會因為「文不對題」就大幅度翻車。

實驗四：文檔結構的秘密 - 整齊vs雜亂的對決

研究人員設計了兩種草堆：

原始結構：保持每篇文章的自然邏輯流，就像整齊排列的圖書館

打亂結構：將所有句子隨機重新排序，內容相同但失去邏輯連續性

驚人發現：打亂結構的文檔表現竟然有時候更好！這完全顛覆了「AI 需要邏輯順序」的直覺。

今天內容有點多了，明天讓我們再繼續看看這篇報告額外的兩個實驗。

當圖書館變成迷宮 - Context Rot (一)

當圖書館變成迷宮 - Context Rot (三)

系列文

不只是反覆 TRY AGAIN，煉金師懂得調配試煉的秘方。共 30 篇

RSS系列文訂閱系列文

3 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19863 篇

完賽人數

529 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙

不只是反覆 TRY AGAIN，煉金師懂得調配試煉的秘方。系列 第 4 篇