iT邦幫忙

2024 iThome 鐵人賽

DAY 25
0
AI/ ML & Data

深度學習的學習之旅:從理論到實作系列 第 25

[Day 25] 了解大型語言模型(LLM):變革AI的核心技術

  • 分享至 

  • xImage
  •  

LLM

前言

昨天說到了生成式AI,今天來介紹一個跟他息息相關的重要技術,LLM吧~

LLM是什麼

LLM的全名是Large Language Model,中文叫做大型語言模型。它是自然語言處理(NLP)領域的一項核心技術。簡單來說,這些模型透過大量學習語言資料,來達到生成、理解和推理人類語言的能力。

LLM主要運用深度學習技術,特別是基於Transformer架構的神經網路,來處理文字資料。它的目標就是要自動產生和理解人類的語言(至於什麼是Transformer,明天我再來寫一篇文章來介紹它)。
這些大型語言模型其實就是在超級大量的文字資料上訓練出來的神經網路模型。它們的主要任務,就是要學習文字中的統計規律,然後利用這些規律來產生新的文字、回答問題、翻譯語言,或是完成其他跟語言有關的任務。
image alt

LLM有哪些關鍵特色?

  1. 超多參數:LLM通常有數十億甚至上千億個參數,這讓它們能學到超豐富的語言模式。
  2. 超大量的訓練資料:這些模型需要大量的語料庫來訓練,包括網頁、書籍、文章、社群媒體貼文等各種資料。
  3. 強大的上下文處理能力:LLM可以處理很長的文章,而且在產生新文字時能保持前後文的連貫性。

LLM的發展歷程與架構

  • Transformer模型
    Transformer架構可以說是大型語言模型的核心技術之一。它是Google在2017年提出來的,大幅提升了語言模型的表現,特別是在平行運算能力和長距離相依性處理方面,Transformer用了一個叫「自注意力機制」(Self-attention Mechanism)的技術,這讓模型能夠關注文章中不同位置的字詞,從而更好地理解上下文。

  • Transformer架構的優點:

    • 自注意力機制:模型能根據輸入的每個字詞來調整它對其他字詞的關注度,這讓模型能抓住文章中的長距離相依關係。
    • 平行運算:比起傳統的循環神經網路(RNN),Transformer處理長文章的速度更快,因為它可以同時處理所有字詞。
  • GPT系列(Generative Pre-trained Transformer)
    GPT是OpenAI開發的一系列大型語言模型,它們的主要特色是基於生成式任務來訓練。GPT系列模型先用無監督學習方式進行預訓練,然後再根據具體應用場景來微調。特別是GPT-3,它有1750億個參數,是目前最有名的LLM之一。

  • GPT系列的特點:

    • 無監督預訓練:模型透過大量未標記的文字來預訓練,學習語言中的基本規律。
    • 少樣本學習:GPT模型只需要看少量範例,就能完成特定任務,不需要大量標記資料。
    • 超強的自然語言生成能力:GPT生成文字的能力非常強,可以根據輸入的提示自動產生連貫且有邏輯的語言。
  • BERT系列(Bidirectional Encoder Representations from Transformers)
    BERT是Google開發的雙向語言模型,它會同時考慮前後文來理解字詞的意思。跟GPT不同的是,BERT主要專注在理解任務,而不是生成任務。BERT用「遮罩語言建模」的方式來預訓練,模型需要猜測被遮住的字詞,藉此學習到語境中的語意關係。

  • BERT的特點:

    • 雙向性:BERT能同時考慮上下文資訊來推理字詞的語意,這讓它在文本分類、問答系統等理解任務上表現得很好。
    • 預訓練與微調:BERT先進行通用的預訓練,然後可以透過微調來適應各種下游任務。
  • T5系列(Text-To-Text Transfer Transformer)

    • T5是Google開發的一種統一的文本到文本模型。它把所有NLP任務都轉換成一個統一的文本到文本格式。舉例來說,翻譯任務可以表述為「將英語轉為法語」。這種統一的方法讓T5在多任務學習上表現特別好。

LLM 的訓練過程

  • 預訓練階段
    • 在預訓練階段,模型會透過大量未標記的文字資料來學習語言模式。這個階段通常是無監督學習,模型的目標是透過預測下一個字或填補缺失的字來學習上下文關係。
  • 微調階段
    • 預訓練完成後,LLM可以根據具體的應用場景來進行微調。這些應用場景可能包括情感分析、機器翻譯、問答系統等。微調過程會用標記過的資料集,透過監督學習來優化模型在特定任務上的表現。
  • 少樣本學習與零樣本學習
    • LLM的一個重要特色是它能在只看少量範例,甚至完全沒看過範例的情況下學習新任務。這是因為LLM在預訓練過程中已經學到了一般的語言模式,當給它一個新任務時,模型能根據上下文推測出該怎麼完成這個任務。

LLM主要可以用來做什麼?

LLM有很多應用場景,最有名的當然就是作為生成式AI。以下是一些主要的應用:

  1. 對話系統與聊天機器人:大型語言模型在對話系統中表現特別出色,像OpenAI的ChatGPT就是一個很好的例子。這些模型能產生流暢自然的對話,回答各種問題,而且在複雜對話中能保持上下文的連貫性。
  2. 機器翻譯:LLM被廣泛應用在自動翻譯系統中。透過多語言資料集的訓練,模型能在不同語言之間進行精確的翻譯。
  3. 文字生成與自動寫作:LLM可以自動產生高品質的文字內容,包括新聞報導、技術文章、創意寫作等。GPT系列模型在自動寫作方面已經展現出強大的能力。
  4. 問答系統:LLM可用來建立問答系統。透過理解使用者的問題並在知識庫中搜尋相關資訊,模型能產生準確的答案。像BERT在問答系統中的表現就非常優秀,能準確理解問題並回覆合適的答案。
  5. 文字摘要:LLM能根據長文章生成簡短的摘要,這在資訊檢索和自動文件摘要系統中有重要應用。

LLM 的挑戰

LLM還有哪些挑戰?未來發展如何?雖然LLM已經有很驚人的進展,但還是面臨了一些挑戰:

  1. 運算資源需求超高:訓練大型語言模型需要巨量的運算資源,包括大量的GPU/TPU和儲存空間。
  2. 資料偏見問題:LLM往往會從訓練資料中學到偏見,這可能導致模型產生帶有性別、種族或文化偏見的內容。
  3. 難以解釋:因為LLM規模龐大又很複雜,它們的內部決策過程很難解釋,這讓它們在某些應用中缺乏透明度。

結語

今天簡單了介紹LLM,可以發現LLM是一個非常強大且發展迅速的技術,而且它正在改變我們與電腦互動的方式,也為人工智慧帶來了新的可能性。今天就先到這裡囉~大家明天見


上一篇
[Day 24] 生成式AI的影響與挑戰
下一篇
[Day 26] Transformer:自然語言處理的關鍵技術
系列文
深度學習的學習之旅:從理論到實作30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言