DAY 22 大型語言模型的三階段&RLHF - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2025 iThome 鐵人賽

DAY 22

0

自我挑戰組

找工作期間不要讓自己太廢系列第 22 篇

DAY 22 大型語言模型的三階段&RLHF

17th鐵人賽

2025-10-06 23:26:33

61 瀏覽

分享至

大型語言模型的三階段:

pre-train (self-supervised learning)
模型的訓練資料由網路取得。
instruction fine-tuning (supervised learning)
資料由人類提供，透過人工收集大量問題與答案。
RLHF (reinforcement learning from human feedback)
從回饋中學習答案。

第一階段又稱foundation model
第二與第三階段又稱Alignment

RLHF(增強式學習)的概念:
透過feedback來微調模型參數，將人類認為較好的答案機率提高，不好的答案就降低

第二階段與第三階段之間的不同:

instruction fine-tuning:假設每次接龍都是好的，那最終結果也會是好的
reinforcement learning:不管中間接龍的過程，只管最終生成結果

reward model:
模擬人類的回饋，並用於語言模型的第三階段。

RLAIF(reinforcement learning from AI feedback):
使用AI模型互相進行回饋。

RL的難題:
什麼答案是好的?人類判斷標準不同

DAY 21 pre-train、Instruction Fine-tuning

DAY 23 Transformer

系列文

找工作期間不要讓自己太廢共 61 篇

目錄

RSS系列文訂閱系列文

2 人訂閱

完整目錄

熱門推薦

{{ item.subject }}

{{ item.channelVendor }} | {{ item.webinarstarted }} |

{{ formatDate(item.duration) }}

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19864 篇

完賽人數

529 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙