iT邦幫忙

2024 iThome 鐵人賽

DAY 17
0

Day 16 目前大型語言模型 (LLM) 的基礎,Transformer 提到大型語言模型的基礎是 Transformer,而大型語言模型直白的說,也就是經過大量文字資料訓練的模型,通常包含數十億到上千億的參數。這些參數讓模型能夠學習語言的語法 (Syntax)、語意 (Semantics) 和語境 (Context) 關係,才能在各種自然語言處理任務中自動生成文字。

大型語言模型的訓練過程

  • 預訓練 (Pre-Training)
    在大規模文字資料集上訓練模型的過程。在這個階段,模型會學習語言的基本結構和規則,包括語法、語意、語境關係和某些常識性知識。預訓練的目的是讓模型掌握廣泛的語言知識,使其具備通用的語言理解能力。
    在預訓練過程中,模型通常有以下任務

    • 語言建模 (Language Modeling):模型會學習如何預測句子中的下一個詞語,或者通過上下文來填補句子中的空缺詞語。這幫助模型學習到語言的自然結構和流暢度。
    • 雙向情境學習 (Bidirectional Contextual Learning):例如 Bidirectional Encoder Representations from Transformers (BERT),透過雙向情境來同時理解單詞前後的語境,這有助於捕捉更豐富的語言信息。
  • 微調 (Fine-Turining)
    在預訓練完成後,模型會在特定任務或領域的標註資料上進行微調,來提高其在特定應用場景中的結果。例如微調後的模型可以更加精確地回答問答系統中的問題或生成特定風格的文字。
    微調的過程如下

    • 任務專用資料集:模型在微調階段使用的資料集是針對特定任務或領域的,這些資料幫助模型在該領域中提高專業性。例如微調可以針對情感分析、問答系統等任務進行優化。
    • 調整模型參數:在微調過程中,進一步更新模型的參數,以調適特定任務的需求。這使得模型能夠在特定應用中有更好的準確性。

簡言之,預訓練就是基礎的語言基礎,像是知道怎麼跟人對話溝通。而微調則是專業的內容,例如讓模型了解物理或化學知識。

如果要了解大型語言模型的應用與挑戰,可以參考之前 Day 3 生成式 AI 與自然語言處理的文章。

參考


上一篇
Day 16 目前大型語言模型 (LLM) 的基礎,Transformer
下一篇
Day 18 透過生成式 AI 加速程式開發
系列文
生成式 AI 的演進與應用:從理論基礎到未來趨勢18
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言