2026 年 4 月,Deezer 執行長 Alexis Lanternier 在公開聲明中透露了一個讓業界震驚的數據:該平台每日新增上傳的歌曲中,已有 44% 為 AI 生成音樂。這個數字在半年前還只是 30%,九個月前是 10%。成長速度是指數曲線,沒有任何放緩的跡象。
更值得關注的是:其中一首完全由 AI 生成的音樂,上週同時在美國、英國、法國、加拿大、紐西蘭的 iTunes 排行榜登上第一名。
這個數字對工程師社群意味著什麼?
當你在 2026 年使用任何一個 LLM API,你的模型是建立在人類創作內容上的。但這個「人類創作」的定義正在快速侵蝕。
Deezer 的數據只是冰山一角。音樂、影像、文字、程式碼——AI 正在大量生產這些內容,而這些內容又會被餵進下一代的 AI 模型。如果你是 AI 應用的開發者,這代表一個重要的系統性風險:你訓練的模型,正在學習由 AI 生成的錯誤知識。
研究人員稱之為「Model Collapse」——當一個模型過度依賴 AI 生成內容進行訓練時,其輸出的多樣性會系統性下降,最終導致輸出品質劣化。這個概念最早在 2023 年被提出,當時多數人認為是理論推演。但 2025 年後,多個研究團隊先後發表了實證論文,證實這個現象在特定的訓練條件下真實存在且難以逆轉。
如果你在替客戶建立知識庫系統,你必須問自己一個問題:這些文件是什麼時候建立的?
如果是在 2023 年之前,多數內容是由人類創作。但從 2024 年開始,大量 AI 生成的「內容農場」文章開始出現。2026 年,這個比例可能已經高到讓你必須重新思考你的 Embedding 策略。
具體來說,以下幾個領域的 AI 內容污染問題特別值得關注:
面對這個問題,開發者社群出現了兩種不同的應對策略:
策略一:過濾與驗證
在建立 Embedding 資料庫時,引入「AI 生成內容檢測」模組。代表性的工具如 GPTZero(針對文字內容的檢測)、各種音訊指紋分析工具等。但這些工具有一個共同的弱點:它們只能檢測「是否為 AI 生成」,無法評估「這個 AI 生成的內容品質如何」。
因此,建議在替客戶建立知識庫時,特別對來源的時間戳做篩選——盡量選擇 2024 年第一季之前的內容作為高品質資料的骨幹,2024 年後的內容則做更嚴格的抽檢。
策略二:接受污染,調整預期
另一派認為過濾成本過高,不如接受一定比例的 AI 內容存在,專注在建立「人類創作內容」的差異化價值。這派的代表是部分大型 SaaS 平台——他們的策略是對 AI 內容進行「標記」而不是「清除」,讓用戶自行判斷哪些內容更可信。
不論你選擇哪種策略,有一件事是確定的:在 2026 年,無條件信任網路上的「公開資訊」,已經是一種技術債。
對於處理客戶知識庫或內容平台的開發者,可以參考以下建議:
在建立 Embedding 資料庫前,先對內容來源做「人類創作比例」的抽樣評估。至少抽取 20 筆,隨機檢測,如果發現超過 30% 可能是 AI 生成內容,就該重新考慮你的資料來源策略。
這個做法看起來很繁瑣,但考慮到知識庫一旦建立起來之後的維護成本,前面多花的這點時間其實是值得的。
當你選擇把哪些資料餵進你的系統,你就是在定義你的系統最終會長什麼樣子。Deezer 的數據不是一個警訊,是一個已經發生的現實。開發者現在能做的,是在這個新的現實下,建立更好的驗證機制與品質框架。
否則,你建的系統會在不知不覺中,繼承了整個網路的雜訊。而這個問題,等到系統已經上線、客戶已經開始使用之後,才發現就太晚了。