iT邦幫忙

1

【Machine Learning】:LLM的一些學習綜整

  • 分享至 

  • xImage
  •  

最近閱讀LLaMA, DeltaEdit paper時,閱讀到了一些好文章值得分享跟紀錄 (絕對不是我把這帳號當記事本用),因此本文章基於以下網站進行撰寫,如下:

然後再隨筆補上一些自己過去學習機器學習的經歷。

1. Autoregressive v.s Non-autoregressive

這個在李鴻毅2021的機器學習課程就有提到過,Autoregressive以及Non-autoregressive重點差別在於 輸出產生方式 (補充:輸出可以是文字, phoneme):

  • Autoregressive (AT):輸出從 BEGIN 的 Token 開始,將上一個文字的預測輸出當作是下一個預測文字的輸入,直到輸出END才結束句子生成
  • Non-autoregressive (NAT):而是一次吃的是一整排的 BEGIN 的 Token,把整個句子一次性都產生出來
    有關於NAT 之 控制BEGIN的個數可以用以下方法實現:
    1. 另外訓練一個 Classifier: 吃 Encoder 的 Input,輸出是一個數字,代表 Decoder 應該要輸出的長度。
    2. 給它一堆 BEGIN 的 Token,直到輸出END才結束句子生成

以上內容出自我很久以前的筆記,實在發現我忘了太多了==。

2. zero-shot, one-shot, few-shot learning

我發現許多人不太清楚這三種的差別,
...待寫

3. Fine-tuning vs Instruction tuning vs Prompt tuning

Prompt tuning 是我最近在看 DeltaEdit 的 paper 時發現不太清楚的概念,因此想要在這邊做紀錄。
...待寫

4. NSP 以及 MLM 是甚麼?

NSP跟MLM都是pre-train model的常用訓練方法,我最初接觸的時候是在閱讀BERT用於pre-trained的時候,使得文字語料可以對模型進行預訓練:

  • MLM 又被稱作是 Masked Language Modeling

    簡而言之,該任務會用符號(ex:"[MASK]") 隨機掩蓋掉輸入的Token,

    順帶一提,在BERT的原文是這樣說的:

    In order to train a deep bidirectional representation, we simply mask some percentage of the input tokens at random, and then predict those masked tokens. In this case, the final hidden vectors corresponding to the mask tokens are fed into an output softmax over the vocabulary, as in a standard LM. In all of our experiments, we mask 15% of all WordPiece tokens in each sequence at random.

    而NSP的缺點會導致pre-training跟fine-tuning兩階段訓練目標差距過大的問題,這點也在BERT的論文也有被提到:

    Although this allows us to obtain a bidirecetional pre-trained model, a downside is that we are creating a mismatch between pre-training and fine-tuning, since the [MASK] token does not appear during fine-tuning.

    因此BERT也同時採用了NSP的方法。

  • NSP 又被稱作是 Next Sentense Prediction

    該訓練的任務目標是建立模型理解詞彙間的能力,例如「小明愛小華」「小華愛小明」這兩句雖然人名對調,但意思完全不一樣對吧?

    NSP 在訓練上會採用二分類的方法,也就是隨機找文章中的上下兩段話,去對機器進行上下文的QA問答

    舉例來說:我們會拿一個句子去問機器說「小明愛小華」的下一句是不是「但小華有男朋友了」?然後機器就會根據當下訓練的參數去進行IsNext或是NotNext的猜測,這時我們只要把答案給機器看(答案的形式為IsNext/NoNext),告訴機器下一句其實是「但小華只有8歲」,答案是NoNext,這樣就可以完成訓練摟~

參考資料:

For 好文章

For NSP && MLM


圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言