Day 1 AI 與 LLM 基本概念

17th鐵人賽

max1112

2025-09-16 20:13:58

381 瀏覽

分享至

一、人工智慧 (AI) 的基本概念

一、什麼是AI

人工智慧（Artificial Intelligence, AI）是一門讓電腦能夠執行需要「人類智慧」才能完成的工作的科學與技術。AI並非單一技術，而是包含了多種方法與分支。

1.1 AI的範疇

弱AI(Narrow AI)
針對單一任務的智能系統，例如:Siri。
強 AI (General AI)
具備類似人類的通用智能，能跨任務學習，也是目前主流研究目標

1.2 AI 與 ML、DL 的關係
ML (Machine Learning) → 透過資料學習模式，是 AI 的一個方法。

機器學習主要是讓進行學習並找出規律，而不需要明確的規則式編程。

DL (Deep Learning) → 使用多層神經網路進行複雜特徵提取，是 ML 的重要子領域。

深度學習則是一種以人工神經網路為核心的機器學習方法，能夠自動從大量資料中提取特徵。

二、機器學習

機器學習的核心思想是「用資料讓模型學習，而不是人工硬編規則」。
2.1 類型

監督式學習 (Supervised Learning)
提供輸入（X）與對應輸出（Y）。
範例：垃圾郵件分類、房價預測。
非監督式學習 (Unsupervised Learning)
只有輸入（X），沒有標籤。
範例：聚類（Clustering）、主成分分析（PCA）。
強化學習 (Reinforcement Learning, RL)
透過與環境互動獲取「獎勵/懲罰」來學習策略。
範例：AlphaGo、遊戲 AI。

2.2 深度學習 (Deep Learning, DL)
使用神經網路（Neural Networks），具備多層隱藏層。
可自動學習高維特徵，適合處理語音、影像、文字。

二、Transformer：LLM的基石

一、從NLP到LLM的發展

自然語言處理 (Natural Language Processing, NLP)是讓機器能理解、生成並運用人類語言。早期的自然語言處理主要是依靠規則與統計的方法，例如:規則式系統，依靠人工定義的文法與關鍵字，這種方式相對來說比較僵硬。第二版的處理方式稱為:統計式NLP，例如:n-gram 語言模型，他能夠預測一個詞出現在句子中的機率，以此來選擇下文。

而進入深度學習時代後，神經網路模型（如 RNN、LSTM）能捕捉更多語境關係，但仍存在記憶範圍有限的問題。直到Transformer架構（Vaswani et al., 2017)的出現，NLP才發生了重大突破，而後Transformer成為GPT(Generative Pre-trained Transformer)等大型語言模型的基礎。

二、Transformer出現的原因

1.1 RNN / LSTM 雖能處理序列資料，但因為記憶範圍有限的關係，兩者存在著長距離依賴問題，難以捕捉遠距詞語的關係，且訓練速度慢。Transformer則使用自注意力機制 (Self-Attention)，使模型可以同時關注句子中的所有詞彙，捕捉長距依賴關係完全取代RNN。

1.2 Transformer的架構

Embedding:將文字轉換為向量表示。
Position Encoding:對詞向量補充序列順序資訊。

3.Multi-Head Self-Attention:
* 輸入：Embedding + Position Encoding
* 輸出：多頭注意力向量，捕捉詞與詞之間的關聯。

4.Residual Connection + Layer Normalization:
* 殘差連接：將原始輸入與注意力輸出相加。
* LayerNorm：穩定數值，避免梯度消失。

5.Feed Forward Layer:
* 兩層前饋全連接網路 (含非線性激活函數)。
* 增強模型非線性表達能力。

6.Residual Connection + Layer Normalization:
* 將 FFN 輸出與前一步輸入相加，再做正規化。

[輸入文字]
      │
      ▼
[Embedding ]
      │
      ▼
[Position Encoding]
      │
      ▼
 ┌───────────────┐
 │ Multi-Head    │
 │ Self-Attention│
 └───────────────┘
      │
      ▼
[Residual Connection + Layer Normalization]
      │
      ▼
[Feed Forward Layer]
      │
      ▼
[Residual Connection + Layer Normalization]
      │
      ▼
[輸出表示]

1.3 Attention 的核心公式
對於一組詞向量：
Query (Q)：目前關注的詞。
Key (K)：其他詞的特徵。
Value (V)：資訊內容。
Attention 計算：

Attention(Q, K, V) = softmax(QK^T / √d_k) V

三、大型語言模型(LLM,Large Language Model)的概念

LLM 是一種在大量文本資料上訓練的深度學習模型，具備理解與生成自然語言的能力。
特徵：
龐大的參數數量：通常擁有數十億甚至上千億的參數，能捕捉語言的細緻關係。
通用性：不需要針對特定任務重新設計，透過「提示（Prompt）」即可執行翻譯、摘要、對話、程式碼生成等任務。
上下文理解：能依據輸入文本的語境，生成連貫且符合邏輯的輸出。
代表性模型：
GPT 系列（OpenAI）：強調生成能力，用於對話與創造性任務。
BERT（Google）：雙向編碼器，擅長理解任務，如情感分析與問答。
LLaMA、Falcon、Mistral：開源社群推動的 LLM，研究與開發者可自由使用。