iT邦幫忙

2025 iThome 鐵人賽

DAY 2
0
佛心分享-IT 人自學之術

LLM入門學習系列 第 2

Day 1 AI 與 LLM 基本概念

  • 分享至 

  • xImage
  •  

一、人工智慧 (AI) 的基本概念

一、什麼是AI

人工智慧(Artificial Intelligence, AI)是一門讓電腦能夠執行需要「人類智慧」才能完成的工作的科學與技術。AI並非單一技術,而是包含了多種方法與分支。

1.1 AI的範疇

  • 弱AI(Narrow AI)
    針對單一任務的智能系統,例如:Siri。
  • 強 AI (General AI)
    具備類似人類的通用智能,能跨任務學習,也是目前主流研究目標

1.2 AI 與 ML、DL 的關係
ML (Machine Learning) → 透過資料學習模式,是 AI 的一個方法。

  • 機器學習主要是讓進行學習並找出規律,而不需要明確的規則式編程。

DL (Deep Learning) → 使用多層神經網路進行複雜特徵提取,是 ML 的重要子領域。

  • 深度學習則是一種以人工神經網路為核心的機器學習方法,能夠自動從大量資料中提取特徵。

二、機器學習

機器學習的核心思想是「用資料讓模型學習,而不是人工硬編規則」。
2.1 類型

  • 監督式學習 (Supervised Learning)
    提供輸入(X)與對應輸出(Y)。
    範例:垃圾郵件分類、房價預測。

  • 非監督式學習 (Unsupervised Learning)
    只有輸入(X),沒有標籤。
    範例:聚類(Clustering)、主成分分析(PCA)。

  • 強化學習 (Reinforcement Learning, RL)
    透過與環境互動獲取「獎勵/懲罰」來學習策略。
    範例:AlphaGo、遊戲 AI。

2.2 深度學習 (Deep Learning, DL)
使用神經網路(Neural Networks),具備多層隱藏層。
可自動學習高維特徵,適合處理語音、影像、文字。

二、Transformer:LLM的基石

一、從NLP到LLM的發展

自然語言處理 (Natural Language Processing, NLP)是讓機器能理解、生成並運用人類語言。早期的自然語言處理主要是依靠規則與統計的方法,例如:規則式系統,依靠人工定義的文法與關鍵字,這種方式相對來說比較僵硬。第二版的處理方式稱為:統計式NLP,例如:n-gram 語言模型,他能夠預測一個詞出現在句子中的機率,以此來選擇下文。

而進入深度學習時代後,神經網路模型(如 RNN、LSTM)能捕捉更多語境關係,但仍存在記憶範圍有限的問題。直到Transformer架構(Vaswani et al., 2017)的出現,NLP才發生了重大突破,而後Transformer成為GPT(Generative Pre-trained Transformer)等大型語言模型的基礎。

二、Transformer出現的原因

1.1 RNN / LSTM 雖能處理序列資料,但因為記憶範圍有限的關係,兩者存在著長距離依賴問題,難以捕捉遠距詞語的關係,且訓練速度慢。Transformer則使用自注意力機制 (Self-Attention),使模型可以同時關注句子中的所有詞彙,捕捉長距依賴關係完全取代RNN。

1.2 Transformer的架構

  1. Embedding:將文字轉換為向量表示。

  2. Position Encoding:對詞向量補充序列順序資訊。

3.Multi-Head Self-Attention:
* 輸入:Embedding + Position Encoding
* 輸出:多頭注意力向量,捕捉詞與詞之間的關聯。

4.Residual Connection + Layer Normalization:
* 殘差連接:將原始輸入與注意力輸出相加。
* LayerNorm:穩定數值,避免梯度消失。

5.Feed Forward Layer:
* 兩層前饋全連接網路 (含非線性激活函數)。
* 增強模型非線性表達能力。

6.Residual Connection + Layer Normalization:
* 將 FFN 輸出與前一步輸入相加,再做正規化。

[輸入文字]
      │
      ▼
[Embedding ]
      │
      ▼
[Position Encoding]
      │
      ▼
 ┌───────────────┐
 │ Multi-Head    │
 │ Self-Attention│
 └───────────────┘
      │
      ▼
[Residual Connection + Layer Normalization]
      │
      ▼
[Feed Forward Layer]
      │
      ▼
[Residual Connection + Layer Normalization]
      │
      ▼
[輸出表示]

1.3 Attention 的核心公式
對於一組詞向量:
Query (Q):目前關注的詞。
Key (K):其他詞的特徵。
Value (V):資訊內容。
Attention 計算:

Attention(Q, K, V) = softmax(QK^T / √d_k) V

三、大型語言模型(LLM,Large Language Model)的概念

LLM 是一種在大量文本資料上訓練的深度學習模型,具備理解與生成自然語言的能力。
特徵:
龐大的參數數量:通常擁有數十億甚至上千億的參數,能捕捉語言的細緻關係。
通用性:不需要針對特定任務重新設計,透過「提示(Prompt)」即可執行翻譯、摘要、對話、程式碼生成等任務。
上下文理解:能依據輸入文本的語境,生成連貫且符合邏輯的輸出。
代表性模型:
GPT 系列(OpenAI):強調生成能力,用於對話與創造性任務。
BERT(Google):雙向編碼器,擅長理解任務,如情感分析與問答。
LLaMA、Falcon、Mistral:開源社群推動的 LLM,研究與開發者可自由使用。


上一篇
D1 學習計畫
下一篇
D3 Python基礎回顧
系列文
LLM入門學習4
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言