iT邦幫忙

2024 iThome 鐵人賽

DAY 6
0
生成式 AI

LLM與生成式AI筆記系列 第 6

Day06: LLM 簡介與架構

  • 分享至 

  • xImage
  •  

LLM 簡介與架構

1. 簡介

大型語言模型(LLM)在自然語言處理(NLP)領域取得了顯著的進步。這些模型大多基於Transformer架構,特別是解碼器部分,如GPT模型系列。理解LLM的基本輸入(tokens 令牌)和輸出(logits)以及注意力機制對於掌握LLM的工作原理至關重要。

詳細的LLM簡介可參照我翻譯的:

  1. Stanford CS25-Apr 2024: V4 I Overview of Transformers - Transformers and LLMs: An Introduction(上)

  2. Stanford CS25-Apr 2024: V4 I Overview of Transformers - Transformers and LLMs: An Introduction(下)

看完上面的連結對目前大模型的狀況變可以了解一二。

延伸閱讀與觀看

2. LLM 整體架構 - Transformer整體架構

LLM通常基於Transformer架構,其中特別採用了僅使用解碼器的設計(例如GPT系列)。這些模型使用自注意力機制來處理輸入並生成輸出。其他的架構則之後會陸續介紹。

具體請參照:

  1. Let's build GPT: from scratch, in code, spelled out. 學習紀錄

  2. 最原始的 transformer 版本圖文詳細敘述:Transformer 運作原理圖解 by Jay Alammar

  3. Let's reproduce GPT-2 (124M):跑完這個流程大概對程式碼跟模型的理解絕對會更深的多。

  4. nanoGPT 流程圖像化 by Brendan Bycroft: 3D視覺化展示LLM內部運作。

延伸閱讀與觀看

3. 標記化 Tokenization

將原始文本資料轉換為模型可以理解的格式,即token。這過程包括將文本拆分為標記(通常是單字或子單字)。

具體請參考:

中文方面兩者擇一了解即可,找了很久沒找到繁中的,感覺可惜。

4. 注意力機制

注意力機制是LLM的核心技術,它使得模型能夠在生成輸出時關注輸入的不同部分。這包括自注意力和縮放點積注意力機制,相關的介紹其實在前面架構介紹的內容裡也有提到。

延伸閱讀與觀看

5. 文字生成

模型使用不同的策略生成文本輸出。常見策略包括貪婪解碼、波束搜尋、top-k 採樣和核採樣。

延伸閱讀與觀看

6. 參考的流程跑通專案

下面的都是對岸的,沒辦法,因為流程跟繁中是最類似的,假如有繁中的話拜託讓我知道,萬分感謝。

  1. GPT2-Chinese
  2. ChatLM-mini-Chinese

7. 其他的模型架構或方法

7.1 新的位置嵌入 Positional embeddings相關方法:

在了解原始 transformer 的 Positional embeddings方法後,就可看下不同的方法,像是RoPE 這樣的相對位置編碼方案。或實現 YaRN (通過溫度因子乘以注意力矩陣) 跟 ALiBi (基於token距離的注意力獎懲) 來擴展上下文長度。

7.2 Mamba ,RWKV , TTT等新架構或模型:

說是新模型其實提出也有一段時間了,我感覺我問了Chat-gpt, Gemini, Claude 有哪些2024或2023新提出的大模型架構還比我自己找的文章速度要快,所以有興趣的自己去問問就好。

7.3 模型融合 Model merging:

另外將以訓練的模型合併也是一個提升表先的方法,具體的可參考這個 mergekit 庫,這個課實現了許多融合的方法,如 SLERP, DARE, 和 TIES

模型融合通常指的是將多個已訓練的模型合併成一個單一模型的過程。這不僅僅是用參數平均或投票決定輸出,而是在模型的權重和結構層面上進行合併。這個過程不需要再次訓練,可以通過數學操作(如球面線性內插(SLERP)或其他融合技術)將不同模型的知識整合起來。模型融合可用於創建一個表現更佳、更強大的模型,通常是將多個模型在特定任務上的優勢結合起來。

7.4 專家混合 Mixture of Experts:

Mixtral 因其卓越的性能而重新使MoE架構流行起來。 與此同時,開源社區出現了一種frankenMoE,通過融合像 Phixtral這樣的模型,這是一個更經濟且性能良好的選項。MoE是一種結構,它包含多個子模型或“專家”,每個專家專門處理不同的任務或數據子集。在MoE架構中,一個“gate”或調度器決定對於給定的輸入,哪個專家被使用。這是一種稀疏啟動方法,可以大幅提升模型的容量和效率,因為不是所有的專家都會對每個輸入進行響應。

7.5 多模態模型 Multimodal models:

這類模型像是( CLIP, Stable Diffusion, 或 LLaVA) 能處理多種類型的輸入(文本、圖像、音頻等)以及具備了統一的嵌入空間,從而具備了強大的應用能力,如文本到圖像。

題外話:
Yes

我還以為機器人之後會是24小時不間斷運作,沒想到是20小時,不過感覺這東西在美國大概會跟自動駕駛的狀況類似,但是在其他地方就不知道了。

總之,假休完了就要收心了。


上一篇
Day05:Stanford CS25-Apr 2024: V4 I Overview of Transformers -下
下一篇
Day07: 運行 LLMs 的指南
系列文
LLM與生成式AI筆記31
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言