iT邦幫忙

2025 iThome 鐵人賽

DAY 3
0

我的模型可以喂進整本哈利波特!!

每次有新的 AI 模型推出,我們總是會看到這樣的宣傳:「上下文窗口達到 XXX 萬個 tokens!可以容納 X 本哈利波特全集!」然後就是那個經典的「大海撈針」(Needle in a Haystack) 實驗分數,彷彿只要能在海量文字中找到一句特定的話,就代表這個模型已經完全掌握了長文本處理的奧義。

什麼是上下文窗口?
上下文窗口 (Context Window) 就是 AI 模型一次能「看到」和「記住」的文字量上限,通常以 tokens 為單位計算。你可以把它想像成電腦的 RAM (記憶體)--記憶體越大,能同時處理的程式和資料就越多。

大海撈針實驗到底在測什麼?
「大海撈針」(Needle in a Haystack) 是目前最廣為使用的長文本測試方法。
實驗設計很簡單:
放針:在一大堆無關文字 (「草堆」) 中插入一句特定的話 (「針」)
藏好:把這句話放在文本的不同位置 (開頭、中間、結尾)
考試:問模型這句特定的話是什麼
測試模型在長文時的詞彙匹配能力

什麼是哈利波特?

初學者的美麗誤會

初學者在使用時,往往有錯誤的認知。認為我只要把資料通通喂進去,AI 就能依據文件中的知識回應我正確的結果。(望向某政治人物用 LLM 查某事有無違法事實,結果大翻車。沒有要特別影涉誰,如有雷同 那肯定是大家都常犯這種錯誤)

然而,現實往往不如我們所想的美好。

想像一下,你有一個超大的圖書館,可以存放成千上萬本書。聽起來很棒,對吧?但問題是:圖書館的館藏越多,你迷失的機率就越高。

記憶的詛咒 - Context Rot

最近(2025/07) Chroma 的研究團隊發現了一個有趣且令人擔憂的現象:隨著輸入文本長度增加,即使是最先進的語言模型,其表現也會顯著地下降。他們將這種現象稱為「Context Rot」--上下文腐化。

這就像是一位原本記憶力超群的學者,當你給他越來越多的資料時,他不但沒有變得更博學,反而開始混淆、遺忘、甚至產生幻覺。

不只是「找到」,更要「理解」

傳統的「大海撈針」測試其實相當簡單:在一堆無關文字中放入一個已知的句子,然後要求模型找出這個句子。這主要測試的是詞彙匹配能力,就像在字典裡找特定詞彙一樣直接。
但現實世界的任務往往更複雜。你需要的不是「找到答案在第幾頁」,而是「理解這些資訊的關聯性並給出洞察」。

明天我們深入 Chroma 團隊的研究現場,看看 Chroma 團隊是如何設計這些「腐化實驗」,以及為什麼連最簡單的複製貼上都能讓 AI 翻車。

有興趣的朋友也可以直接閱讀:https://research.trychroma.com/context-rot


上一篇
那些年我們對 AI 說過的話:從巫術到科學的提示轉變
系列文
不只是反覆 TRY AGAIN,煉金師懂得調配試煉的秘方。3
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言