[Day 12] LLM Runtime 選擇？目標明確！！

2025 iThome 鐵人賽

DAY 12

生成式 AI

一塊一塊拼湊的 AI 樂高世界之旅系列第 12 篇

17th鐵人賽

記憶只有五秒的海星

2025-09-26 11:44:14

138 瀏覽

分享至

前一天介紹了有關 LLM 的相關背景知識，再來我們還需要選擇一個合適運行 LLM 的平台，並且順利的使用它。

以下來介紹兩個目前最常用的框架：

Pytorch

作為深度學習的主流框架，早已是學術界與產業界訓練與推理 LLM 的基礎工具。它的優勢在於

支援自訂模型架構、梯度控制，以及各式訓練流程。
整合 Hugging Face Transformers、DeepSpeed、Accelerate 等框架，方便調優與部署。

不過，缺點也很明顯。PyTorch 本質上是通用深度學習框架，因此部署 LLM 時往往需要較多的工程整合，例如考慮 VRAM 用量而模型壓縮、量化到實作架設 API 等。對只想「直接跑模型」的開發者來說，門檻相對高。

以下為一個實作問答的範例：

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

# 1. 定義欲使用的模型
model_name = "meta-llama/Llama-3.2-3b"

# 2. 載入 tokenizer（可以理解為把文字轉成模型能理解的 token）
tokenizer = AutoTokenizer.from_pretrained(model_name)

# 3. 載入模型
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.float16,   # 用半精度省記憶體
    device_map="auto"            # 自動放到 GPU（如果有的話）
)

# 4. 準備輸入
prompt = "請用簡單的方式解釋什麼是黑洞？"

inputs = tokenizer(prompt, return_tensors="pt").to(model.device)

# 5. 生成輸出
outputs = model.generate(
    **inputs,
    max_new_tokens=200,    # 回答長度
    temperature=0.7,       # 越高=越有創意
    top_p=0.9              # 控制取樣範圍
)

# 6. 解碼輸出
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(response)