iT邦幫忙

1

DeepSeek R1 介紹 (論文筆記)

  • 分享至 

  • xImage
  •  

近期 DeepSeek 發佈了如何透過強化學習 (Reinforcement Learning, RL) 來提升大型語言模型的推理能力,這項突破性的工作實證出不需要傳統的監督方法,而是讓模型通過自我探索,便能增強其推理能力。

我這幾天閱讀完論文後,我試圖用非常簡化且非常摘要的方式整理,篇幅較短若有疏漏之處敬請見諒。
若各位大神覺得以下實在是隔靴搔癢,可以直接到原論文連結欣賞。
/images/emoticon/emoticon41.gif

在開始之前,我們先來看看這篇做了甚麼...

以下是我將整體論文框架,摘錄而成的吉度簡化示意:
https://ithelp.ithome.com.tw/upload/images/20250203/20171636ODXHQBKf18.png

參考資料:
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
https://arxiv.org/abs/2501.12948


階段1: DeepSeek-R1-Zero

首先,這篇論文一開始基於 DeepSeek-V3-Base 模型,採用 GRPO 強化學習的框架進行訓練,並先開發出 DeepSeek-R1-Zero,雖然這個模型就已經非常強了,但文中提到他存在 可讀性語言混雜 (如中英混雜) 的問題。(原文: DeepSeek-R1-Zero struggles with challenges like poor readability, and language mixing)

表現上,在AIME 2024 測試中,將 pass@1 從原本的 15.6% 大幅提升至 71.0%,經過多數投票後更達到了 86.7% 的優異成績,已與 OpenAI o1-0912 的水準差不多。

階段2: DeepSeek-R1

為了解決前面提到的可讀性、語言混雜的問題,DeepSeek採用冷啟動 (Cold-start),也就是先準備一堆思考鍊 Chain-of Thought,CoT 範本讓他學習,和採用多階段訓練 (Multi-stage Training),在歷經Cold-start、RL、Rejection Sampling & Fine Tune、RL 的方法 (花媽: Do Re Mi So~),開發出 DeepSeek-R1。

最終在表現上,DeepSeek-R1 在各項競賽中全面都贏過 OpenAI-o1-mini,並在 AIME 2024 與 MATH-500 上贏過 OpenAI-o1-1217,其他測試項目的表現也與 OpenAI-o1-1217 差不多。

階段3: 知識蒸餾

更狠的是,DeepSeek 的團隊,還試圖透過知識蒸餾 (Knowledge Distillation,KD 也就是用大模型當老師,把它的知識教給小模型學習) 的方式,將大模型的推理能力轉移至較小的模型 (如 Qwen2.5、Llama3) ,透過微調小模型取代高成本的RL訓練過程,確保小模型具備優秀的CoT的能力。

實驗結果發現,透過知識蒸餾的模型 (如 DeepSeek-R1-7B),表現與透過直接透過RL的小模型表現差不多,而且還在某些評比上,還贏過GPT-4o-0513,這證明 KD 是一種很有效的方式,相較於直接對小模型進行 RL 訓練,或者重頭砸一堆成本訓練,KD更能快速學習並泛化推理能力。此結果對於未來許多資源受限的企業來說,是一個機會!


GroupRelative Policy Optimization (GRPO)

這個是(Shao et al., 2024) 所提出,是一種相對政策優化技術,旨在減少強化學習過程中的計算成本。其核心概念是不依賴傳統的價值函數設計,而是透過群體內相對評分來進行優化,使 LLM 能夠在更高效的 RL 訓練中學習更複雜的推理行為。
我以我自己的理解整理如下,未來若有時間再補上完整的數學介紹:
https://ithelp.ithome.com.tw/upload/images/20250202/20171636OfaV2moxRx.jpg


參考資料:

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
論文連結: https://arxiv.org/abs/2501.12948
DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models
論文連結: https://arxiv.org/abs/2402.03300


圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言