2025 iThome 鐵人賽
分享至
大型語言模型的三階段:
第一階段又稱foundation model第二與第三階段又稱Alignment
RLHF(增強式學習)的概念:透過feedback來微調模型參數,將人類認為較好的答案機率提高,不好的答案就降低
第二階段與第三階段之間的不同:
reward model:模擬人類的回饋,並用於語言模型的第三階段。
RLAIF(reinforcement learning from AI feedback):使用AI模型互相進行回饋。
RL的難題:什麼答案是好的?人類判斷標準不同
IT邦幫忙