iT邦幫忙

2025 iThome 鐵人賽

DAY 4
0

昨天我們提到了 Chroma 團隊發現的「Context Rot」現象——AI 模型的記憶會隨著輸入文本增長而腐化。今天我們深入這個令人震驚的實驗現場,看看研究人員是如何揭露這個「圖書館」的黑暗秘密。

四大腐化實驗:從天才到糊塗蛋的墮落之路

實驗一:語意迷霧術 - 不只是找到,更要理解

傳統的「大海撈針」測試太簡單了,就像在字典裡找特定詞彙一樣直接。但現實世界需要的是語意理解,不是詞彙配對。

https://ithelp.ithome.com.tw/upload/images/20250918/20178806lraq0khMZb.png

研究團隊設計了不同相似度的問答對:

高相似度 (容易):
問題:「什麼是最佳的寫作建議?」
針:「最好的寫作技巧是每週寫作。」

低相似度 (困難):
問題:「哪個角色去過赫爾辛基?」
針:「Yuki 住在基亞斯瑪博物館旁邊。」
(需要知道基亞斯瑪博物館在赫爾辛基)

發現:隨著文本越來越長,低相似度問答對的準確率急速下降。AI 不只是在海量資訊中迷路,更在語意理解上徹底翻車。

https://ithelp.ithome.com.tw/upload/images/20250918/20178806K0aUbFBcRU.png


實驗二:干擾陷阱 - 真假難辨的混亂

https://ithelp.ithome.com.tw/upload/images/20250918/20178806xzGFFKfpOI.png

研究人員在正確答案周圍放置了精心設計的「干擾因子」:

問題:「我從大學同學那裡得到的最好寫作建議是什麼?」
正確答案:「每週寫作」

干擾因子們:
「我從大學教授那裡收到的最好建議是每天寫作」
「我從大學同學那裡得到的最差建議是用五種風格寫作」
「我從高中同學那裡得到的建議是用三種風格寫作」
「我以前認為從同學那裡得到的建議是用四種風格寫作」

殘酷真相:即使只有一個干擾因子,模型表現就開始下滑。四個干擾因子一起上陣時,連最先進的模型都開始「睜眼說瞎話」,自信滿滿地給出錯誤答案。

https://ithelp.ithome.com.tw/upload/images/20250918/20178806Mgql6lSoBh.png

有趣的是,不同模型的「人格缺陷」 開始顯現:
Claude 家族:比較保守,不確定時會坦承「找不到答案」
GPT 家族:最愛幻覺,經常給出自信但完全錯誤的回答

https://ithelp.ithome.com.tw/upload/images/20250918/20178806HEc4gb5OGN.png


實驗三:背景主題相關性 - 文不對題的影響

https://ithelp.ithome.com.tw/upload/images/20250918/201788062hJWl8LSG2.png
這個實驗測試了一個有趣問題:如果「針」(答案) 和「草堆」(背景文檔) 的主題不搭,會怎麼樣?

研究人員使用了兩種截然不同的背景文檔:

Paul Graham 文章:談創業、寫作、生活哲學
arXiv 學術論文:技術性、學術性內容

然後為每種背景設計對應的問題,測試主題匹配度對表現的影響。

意外發現:背景主題的影響比預期小很多!AI 似乎能夠在不相關的背景中找到答案,不會因為「文不對題」就大幅度翻車。

https://ithelp.ithome.com.tw/upload/images/20250918/201788061fgTcM3mpT.png


實驗四:文檔結構的秘密 - 整齊vs雜亂的對決

https://ithelp.ithome.com.tw/upload/images/20250918/20178806V3hVx8XNlM.png

研究人員設計了兩種草堆:

原始結構:保持每篇文章的自然邏輯流,就像整齊排列的圖書館

打亂結構:將所有句子隨機重新排序,內容相同但失去邏輯連續性

驚人發現:打亂結構的文檔表現竟然有時候更好!這完全顛覆了「AI 需要邏輯順序」的直覺。

https://ithelp.ithome.com.tw/upload/images/20250918/201788064Htcb4lEau.png


今天內容有點多了,明天讓我們再繼續看看這篇報告額外的兩個實驗。


上一篇
當圖書館變成迷宮 - Context Rot (一)
下一篇
當圖書館變成迷宮 - Context Rot (三)
系列文
不只是反覆 TRY AGAIN,煉金師懂得調配試煉的秘方。5
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言