簡介 資訊檢索 (Information Retrieval, IR) 在討論如何快速的搜尋使用者想要找到的結果,在 LLM 出現之前已經是個相對成熟的領域,我...
簡介 任務導向對話 (Task-Oriented Dialogue, TOD) 聊天機器人,與一般的 Chatbot 不同,TOD Chatbot 有明確的任務...
簡介 除了下層的推論框架以外,也有非常多人在關注上層的應用開發,其中最炙手可熱的當屬 LangChain 框架。當我們開始實際使用 LLM 開發相關應用程式時,...
簡介 接下來要來討論如何微調 (Finetune) 一個大型語言模型。微調 LLM 與微調其他模型其實很相似,但是因為 LLM 的參數量較大,所以訓練的最低需求...
簡介 在單張消費級顯卡上全微調 (Fully Fine-Tune, FFT) 一個 7B 參數量以上的模型幾乎是不可能的,這時神秘的笑臉再次出手拯救了我們。由...
簡介 當訓練資料的長度越長,需要的 GPU 記憶體就會越高,因為算出來的梯度會跟著變大。透過 Gradient Checkpointing 可以幫助我們減少梯度...
簡介 上下文長度 (Context Length) 指的是一個模型輸入 + 輸出最多可以到多少個 Tokens。例如一開始的 LLaMA 只支援 2048 個...
簡介 要訓練一個模型,首先要有資料。不僅要有很大量的資料,也要有品質很好的資料。資料的品質包含:文句是否通順、格式是否合理、內容是否偏頗、資訊是否有害等等。品質...
簡介 在研究 LLM 相關的授權條款時,主要有三個方向:程式碼的授權、資料集的授權與模型權重的授權。有些相對嚴謹的專案,會將這三種東西的授權設定成不同的授權,而...
簡介 AI 領域的變化相當快速,很有可能筆者今天寫的介紹,明天框架一個大改就不能用了。或者突然出現一個驚人的模型,取代了所有 Transformer Decod...