iT邦幫忙

鐵人檔案

2023 iThome 鐵人賽
回列表
AI & Data

LLM 學習筆記 系列

筆者學習 Large-Scale Language Model (LLM) 的筆記。

鐵人鍊成 | 共 33 篇文章 | 78 人訂閱 訂閱系列文 RSS系列文 團隊消波塊上的海洋貓貓
DAY 21

LLM Note Day 21 - 資訊檢索小知識 IR Tips

簡介 資訊檢索 (Information Retrieval, IR) 在討論如何快速的搜尋使用者想要找到的結果,在 LLM 出現之前已經是個相對成熟的領域,我...

2023-10-06 ‧ 由 Penut Chen 分享
DAY 22

LLM Note Day 22 - 任務導向聊天機器人 TOD Chatbot

簡介 任務導向對話 (Task-Oriented Dialogue, TOD) 聊天機器人,與一般的 Chatbot 不同,TOD Chatbot 有明確的任務...

2023-10-07 ‧ 由 Penut Chen 分享
DAY 23

LLM Note Day 23 - LangChain 中二技能翻譯

簡介 除了下層的推論框架以外,也有非常多人在關注上層的應用開發,其中最炙手可熱的當屬 LangChain 框架。當我們開始實際使用 LLM 開發相關應用程式時,...

2023-10-08 ‧ 由 Penut Chen 分享
DAY 24

LLM Note Day 24 - 語言模型微調 LLM Finetuning

簡介 接下來要來討論如何微調 (Finetune) 一個大型語言模型。微調 LLM 與微調其他模型其實很相似,但是因為 LLM 的參數量較大,所以訓練的最低需求...

2023-10-09 ‧ 由 Penut Chen 分享
DAY 25

LLM Note Day 25 - PEFT & LoRA 訓練框架

簡介 在單張消費級顯卡上全微調 (Fully Fine-Tune, FFT) 一個 7B 參數量以上的模型幾乎是不可能的,這時神秘的笑臉再次出手拯救了我們。由...

2023-10-10 ‧ 由 Penut Chen 分享
DAY 26

LLM Note Day 26 - Gradient Checkpointing

簡介 當訓練資料的長度越長,需要的 GPU 記憶體就會越高,因為算出來的梯度會跟著變大。透過 Gradient Checkpointing 可以幫助我們減少梯度...

2023-10-11 ‧ 由 Penut Chen 分享
DAY 27

LLM Note Day 27 - Long Context LLM

簡介 上下文長度 (Context Length) 指的是一個模型輸入 + 輸出最多可以到多少個 Tokens。例如一開始的 LLaMA 只支援 2048 個...

2023-10-12 ‧ 由 Penut Chen 分享
DAY 28

LLM Note Day 28 - 資料集 Datasets

簡介 要訓練一個模型,首先要有資料。不僅要有很大量的資料,也要有品質很好的資料。資料的品質包含:文句是否通順、格式是否合理、內容是否偏頗、資訊是否有害等等。品質...

2023-10-13 ‧ 由 Penut Chen 分享
DAY 29

LLM Note Day 29 - 授權條款 License

簡介 在研究 LLM 相關的授權條款時,主要有三個方向:程式碼的授權、資料集的授權與模型權重的授權。有些相對嚴謹的專案,會將這三種東西的授權設定成不同的授權,而...

2023-10-14 ‧ 由 Penut Chen 分享
DAY 30

LLM Note Day 30 - 學海無涯,學無止境

簡介 AI 領域的變化相當快速,很有可能筆者今天寫的介紹,明天框架一個大改就不能用了。或者突然出現一個驚人的模型,取代了所有 Transformer Decod...

2023-10-15 ‧ 由 Penut Chen 分享