Day 17 剖析大型語言模型 (LLM)

16th鐵人賽

chuehnone

2024-08-31 14:07:31

915 瀏覽

分享至

在 Day 16 目前大型語言模型 (LLM) 的基礎，Transformer 提到大型語言模型的基礎是 Transformer，而大型語言模型直白的說，也就是經過大量文字資料訓練的模型，通常包含數十億到上千億的參數。這些參數讓模型能夠學習語言的語法 (Syntax)、語意 (Semantics) 和語境 (Context) 關係，才能在各種自然語言處理任務中自動生成文字。

大型語言模型的訓練過程

預訓練 (Pre-Training)
在大規模文字資料集上訓練模型的過程。在這個階段，模型會學習語言的基本結構和規則，包括語法、語意、語境關係和某些常識性知識。預訓練的目的是讓模型掌握廣泛的語言知識，使其具備通用的語言理解能力。
在預訓練過程中，模型通常有以下任務
- 語言建模 (Language Modeling)：模型會學習如何預測句子中的下一個詞語，或者通過上下文來填補句子中的空缺詞語。這幫助模型學習到語言的自然結構和流暢度。
- 雙向情境學習 (Bidirectional Contextual Learning)：例如 Bidirectional Encoder Representations from Transformers (BERT)，透過雙向情境來同時理解單詞前後的語境，這有助於捕捉更豐富的語言信息。
微調 (Fine-Turining)
在預訓練完成後，模型會在特定任務或領域的標註資料上進行微調，來提高其在特定應用場景中的結果。例如微調後的模型可以更加精確地回答問答系統中的問題或生成特定風格的文字。
微調的過程如下
- 任務專用資料集：模型在微調階段使用的資料集是針對特定任務或領域的，這些資料幫助模型在該領域中提高專業性。例如微調可以針對情感分析、問答系統等任務進行優化。
- 調整模型參數：在微調過程中，進一步更新模型的參數，以調適特定任務的需求。這使得模型能夠在特定應用中有更好的準確性。