今天來介紹LLM → Large Language Models 大型語言模型,
我們的主題AIGC也離不開大語言模型
相信大家一定都有使用過ChatGPT,沒錯ChatGPT就是一個GPT-3.5大語言聊天模型
擁有超過1750億參數,支援最多16K的輸入 這邊聽不懂沒關係我們會慢慢解釋
Language models語言模型就像一個聰明的語言理解機器,它被訓練成了解和使用人類的語言。想像一下,你給它一個句子的開頭,它可以幫你預測出接下來可能出現的詞語或完成整個句子。這是因為它通過閱讀大量的文章、書籍和網頁,學會了語法、詞彙和常見的語言模式。
比如說 : 今天真開心,外面的天氣很 _ 。
這裡一定是好、棒,不會出現濫、壞
這是因為我們給他的訓練資料讓語言模型預測這些詞的機率比較高
如果你拿品質較差的訓練集那他給你的回覆可能也會不太好
以ChatGPT為例,大家一定聽過英文的回覆品質比較好,就是因為訓練資料大部分都是英文,小部分中文
知道了語言模型後,什麼是「大」語言模型呢?
大語言模型是語言模型的強化版,它更加強大和聰明。那其實沒有個明確的定義,主要就是訓練的參數(語言知識),可能幾十億甚至到上千億
像GPT-3就有1750億的參數
而我們熟悉的ChatGPT則是使用GPT-3.5還有GPT-4模型
雖然沒公布但這兩個參數肯定更高
大語言模型能很好的處理文本生成像是文章、故事、詩歌、新聞報導、程式碼等
甚至是翻譯、文本分類、情感分析、問答系統
或許是,但應該很快就出現上限了,人類資料就那麼多
而且也可能會出現過擬合(overfitting)的情況
還有訓練費用也是問題,這些千億級的模型訓練費用動輒都幾百萬美金(上萬張A100)
目前也越來越多在研究用高品質的少量訓練資料來訓練很好的模型
而模型的訓練過程包括兩個主要階段:預訓練和微調,下面會一一介紹
在這個階段,模型首先在大量的未標記文本數據上進行訓練,通常使用無監督或自監督的學習方法。模型通過閱讀這些文本數據,學習語言的基本知識、詞彙、語法結構和語言關聯性。這一階段的目標是使模型獲得一種通用的語言理解能力,而不是針對特定任務進行訓練。
當我們有了一個模型後(又稱預訓練模型),我們想要讓他執行特定任務(聊天、特定領域問答),微調的目標是使模型適應特定任務
以ChatGPT為例,他就是一個微調過的聊天模型
相信有用過的都知道,我們可以用聊天的方式跟他溝通,他也會用聊天的方式回覆我們
那是怎麼做到的呢?
我們可以準備很多的聊天訓練集來訓練
這邊就可以延伸很多應用了,像是金融模型、醫療模型、法律模型
可以說各行各業都能有自己的微調模型來幫助你
最後如果你也對這主題有興趣歡迎來我們的discord跟大家一起討論~
https://discord.gg/sFDuct738y