當圖書館變成迷宮 - Context Rot (三) - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2025 iThome 鐵人賽

DAY 5

AI & Data

不只是反覆 TRY AGAIN，煉金師懂得調配試煉的秘方。系列第 5 篇

當圖書館變成迷宮 - Context Rot (三)

17th鐵人賽

tony123344333

團隊組隊最大障礙：隊名

2025-09-19 20:37:26

109 瀏覽

分享至

今天接續把這篇研究說完

昨天在實驗(一)有提到，團隊認為原本的大海撈針測試太簡單了。
於是有再設計幾個需要思考、推論的方法來測試模型是否能找出正確答案。

升級版的腦力測驗

大致可分為:

知識更新 - 例如在對話中統計實際擁有的腳踏車數
時間推論 - 就由對話推論出時間訊息
多會話 - 在多輪對話中看看是否能正確推敲出結果

實驗還分成兩種難度：其一是僅給出關鍵訊息要求推論；另一組是丟一大段文章，要模型從中尋找訊息並推論。

結果發現 think 模型普遍表現較佳，而只給精簡片段也對是否能推論出答案有很大的影響
而 claude 的差異更顯著，體現 claude 家族在回應上較保守。

看似簡單的任務

最後他們測試了一個看起來極其簡單的任務：重複詞語測試。
這個實驗要求模型完全複製一段包含重複詞語的文字，其中只有一個位置插入了不同的詞語。

實驗設計

範例：apple apple apple apple apples apple apple apple...
任務：完全複製這段文字，一字不漏

研究團隊測試了不同長度的序列（25到10,000個詞）和各種詞語組合，包括：

"apple" / "apples"
"golden" / "Golden"
"San Francisco" / "sf"
"Golden Gate Bridge" / "Golden Gate Park"

雖然看起來是連小學生都會的複製貼上，但隨著序列變長，所有模型都出現顯著的效能衰退。

各模型的特殊表現：

Claude Opus 4：會因擔心版權問題而拒絕執行（2.89%拒絕率），有時會先分析文本再決定是否進行
GPT系列：在特定長度出現性能峰值，但也會產生原文中不存在的隨機詞語
Gemini系列：從500-750詞開始出現隨機輸出，如奇怪的符號組合

這個實驗揭示了現代大型語言模型的一個根本限制：即使是最先進的模型，在處理長序列的精確複製時也會遭遇困難。這不是智慧或推理能力的問題，而是模型架構本身在處理長序列時的固有限制。

經過了這三天的研究之旅：從天才到凡人的真相

經過這三天深入 Chroma 團隊的研究現場，我們見證了一個令人震撼的事實：那些被吹捧為擁有「無限記憶」的超大上下文窗口 AI，其實都有著致命的阿基里斯腱。

我們發現了什麼？

第一個真相：記憶會腐化

不是記憶體越大就越強。AI 的記憶就像一個會漏水的容器，放進去的資訊越多，流失的也越多。這不是 bug，是 feature——模型設計的根本限制。

第二個真相：干擾是影響結果

就像人類在嘈雜環境中難以專注，AI 面對相似但錯誤的資訊時，也會被徹底混淆。一個精心設計的假訊息，就能讓最聰明的 AI 開始胡言亂語。

第三個真相：簡單任務並不簡單

連複製貼上這種小學生都會的事，在長文本面前都變成了不可能任務。這提醒我們：AI 的「智慧」和人類的智慧是截然不同的東西。

這些研究告訴我們，想要成為優秀的 AI 煉金師，不能再有以下幻想：
❌ 「丟更多資料進去就會更準確」
✅ 資訊品質比資訊數量更重要
❌ 「AI 會自動理解所有上下文」
✅ 需要主動引導 AI 的注意力到關鍵資訊上
❌ 「長上下文窗口等於超強記憶」
✅ 設計精簡、結構化的提示比塞滿資料更有效

了解了 AI 記憶的限制後，我們就能開始設計真正有效的煉金配方。明天開始，我們將探討如何在這些限制下，依然能煉製出優質的 AI 輸出。

當圖書館變成迷宮 - Context Rot (二)

從記憶管理到資訊建築師 - Context Engineering 登場

系列文

不只是反覆 TRY AGAIN，煉金師懂得調配試煉的秘方。共 30 篇

RSS系列文訂閱系列文

3 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19863 篇

完賽人數

529 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙

不只是反覆 TRY AGAIN，煉金師懂得調配試煉的秘方。系列 第 5 篇