iT邦幫忙

2025 iThome 鐵人賽

DAY 22
0

大型語言模型的三階段:

  1. pre-train (self-supervised learning)
    模型的訓練資料由網路取得。
  2. instruction fine-tuning (supervised learning)
    資料由人類提供,透過人工收集大量問題與答案。
  3. RLHF (reinforcement learning from human feedback)
    從回饋中學習答案。

第一階段又稱foundation model
第二與第三階段又稱Alignment

RLHF(增強式學習)的概念:
透過feedback來微調模型參數,將人類認為較好的答案機率提高,不好的答案就降低

第二階段與第三階段之間的不同:

  • instruction fine-tuning:假設每次接龍都是好的,那最終結果也會是好的
  • reinforcement learning:不管中間接龍的過程,只管最終生成結果

reward model:
模擬人類的回饋,並用於語言模型的第三階段。

RLAIF(reinforcement learning from AI feedback):
使用AI模型互相進行回饋。

RL的難題:
什麼答案是好的?人類判斷標準不同


上一篇
DAY 21
系列文
找工作期間不要讓自己太廢22
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言