2025 iThome 鐵人賽

DAY 21

LLM Note Day 21 - 資訊檢索小知識 IR Tips

簡介資訊檢索 (Information Retrieval, IR) 在討論如何快速的搜尋使用者想要找到的結果，在 LLM 出現之前已經是個相對成熟的領域，我...

2 Like 0 留言 2620 瀏覽

DAY 22

LLM Note Day 22 - 任務導向聊天機器人 TOD Chatbot

簡介任務導向對話 (Task-Oriented Dialogue, TOD) 聊天機器人，與一般的 Chatbot 不同，TOD Chatbot 有明確的任務...

4 Like 0 留言 3224 瀏覽

DAY 23

LLM Note Day 23 - LangChain 中二技能翻譯

簡介除了下層的推論框架以外，也有非常多人在關注上層的應用開發，其中最炙手可熱的當屬 LangChain 框架。當我們開始實際使用 LLM 開發相關應用程式時，...

3 Like 1 留言 6463 瀏覽

DAY 24

LLM Note Day 24 - 語言模型微調 LLM Finetuning

簡介接下來要來討論如何微調 (Finetune) 一個大型語言模型。微調 LLM 與微調其他模型其實很相似，但是因為 LLM 的參數量較大，所以訓練的最低需求...

3 Like 1 留言 22586 瀏覽

DAY 25

LLM Note Day 25 - PEFT & LoRA 訓練框架

簡介在單張消費級顯卡上全微調 (Fully Fine-Tune, FFT) 一個 7B 參數量以上的模型幾乎是不可能的，這時神秘的笑臉再次出手拯救了我們。由...

5 Like 1 留言 16178 瀏覽

DAY 26

LLM Note Day 26 - Gradient Checkpointing

簡介當訓練資料的長度越長，需要的 GPU 記憶體就會越高，因為算出來的梯度會跟著變大。透過 Gradient Checkpointing 可以幫助我們減少梯度...

1 Like 0 留言 2630 瀏覽

DAY 27

LLM Note Day 27 - Long Context LLM

簡介上下文長度 (Context Length) 指的是一個模型輸入 + 輸出最多可以到多少個 Tokens。例如一開始的 LLaMA 只支援 2048 個...

4 Like 1 留言 4792 瀏覽

DAY 28

LLM Note Day 28 - 資料集 Datasets

簡介要訓練一個模型，首先要有資料。不僅要有很大量的資料，也要有品質很好的資料。資料的品質包含：文句是否通順、格式是否合理、內容是否偏頗、資訊是否有害等等。品質...

2 Like 0 留言 4465 瀏覽

DAY 29

LLM Note Day 29 - 授權條款 License

簡介在研究 LLM 相關的授權條款時，主要有三個方向：程式碼的授權、資料集的授權與模型權重的授權。有些相對嚴謹的專案，會將這三種東西的授權設定成不同的授權，而...

2 Like 0 留言 3174 瀏覽

DAY 30

LLM Note Day 30 - 學海無涯，學無止境

簡介 AI 領域的變化相當快速，很有可能筆者今天寫的介紹，明天框架一個大改就不能用了。或者突然出現一個驚人的模型，取代了所有 Transformer Decod...

2 Like 2 留言 1742 瀏覽

第十五屆冠軍

系列文章