LLM是一種利用深度學習(Deep Learning)的模型,用來預測下一個字(Token)。
例如:輸入:「我今天想去」→模型可能預測「吃飯」或「圖書館」
這過程中模型不是知道文字的意思,而是根據巨量文字資料訓練出的機率分佈來做回答,也就是說,它是在預測每個字出現的機率,做文字接龍,這個過程又叫做文字生成(Text Generation)。
LLM為什麼叫「大型」語言模型?
因為它的參數量非常龐大,這些參數(parameters)就像是模型的腦神經連線數。
參數越大代表模型越聰明,越能捕捉複雜的語義和上下文,但也越難訓練。
常見的像是GPT-3參數量約1750億,GPT-4參數量約1.76兆,LLaMA 3-8B參數量約80億,LLaMA 3-70B參數量約700億。
知道什麼是LLM後,下一篇我們將要來學如何導入LLM!