Day 15: 在地端運行 LLM：Ollama、vLLM 與 llama.cpp 比較以及ollama安裝

2025 iThome 鐵人賽

DAY 15

生成式 AI

從 RAG 到 Agentic RAG：30 天打造本機智慧檢索系統系列第 15 篇

17th鐵人賽

seedfood

團隊躺平的內捲小隊

2025-09-29 23:45:53

515 瀏覽

分享至

前言

在完成了基礎的 RAG 架構後，接下來我們一項重點是：如何在地端運行 LLM（Large Language Model）？
目前常見的佈署工具包含 Ollama、vLLM 以及 llama.cpp。以下整理了一份比較表供大家參考。

📚LLM佈署工具比較表

特點	Ollama	vLLM	llama.cpp
定位	提供簡單易用的本地 LLM 運行環境，支援多種模型一鍵安裝與管理	高效能推理框架，專注於伺服器端大規模部署	輕量化 C++ 實作，強調跨平台與低資源可用性
安裝與使用	安裝簡單（`brew install ollama` / Windows installer），透過 `ollama run` 即可快速啟動模型	需要 Python 環境與 CUDA，部署流程相對複雜，需要自行下載模型權重	單一可執行檔，無需額外依賴，可直接在 CPU 上跑
模型支援	內建支援 LLaMA、Mistral、Gemma 等主流模型，下載即用	支援 Hugging Face Transformers 格式，適合自訓練或自定義模型	支援 GGUF 量化模型，特別適合資源有限的環境
效能優勢	啟動快，支援 GPU 加速與量化模型，適合快速試驗	針對大模型最佳化（PagedAttention 等技術），能高效處理大批量請求	可在無 GPU 環境下運行，記憶體需求低，支援 4-bit/8-bit 量化
API/整合	提供 REST API，易於整合進 RAG、Agent 框架	需自行包裝 API 或搭配 FastAPI，適合進階使用者	無內建 API，需要自行包裝，適合低階控制或嵌入式場景
適合硬體	一般 PC（>=16GB RAM）即可跑中小模型；若有 GPU（>=8GB VRAM）則能流暢運行 7B~13B 模型	需要較強硬體：GPU (>=24GB VRAM) + 大記憶體，適合伺服器環境	CPU-only 也能執行；Raspberry Pi / MacBook Air 這類低功耗設備都可跑小模型
典型場景	個人開發者做 Demo、快速原型、RAG 測試	企業伺服器端，需處理多用戶、大流量請求	個人裝置、邊緣運算、沒有 GPU 的環境
社群與維護	活躍度高，官方提供 Windows/Mac/Linux 支援	主要由研究社群與企業維護，偏向 AI infra 領域使用	開發社群活躍，持續支援量化格式，特別適合開源愛好者

適用場景建議

企業場景 → vLLM
- 適合高併發、伺服器端大規模推理，能有效降低延遲並提升吞吐量。
- 典型應用：企業知識庫查詢、多用戶同時訪問的 RAG 系統。
個人場景 → Ollama / llama.cpp
- Ollama：最適合快速搭建 Demo，安裝簡單，支援 REST API，整合容易。
- llama.cpp：適合資源設備受限的場景（例如 MacBook Air、樹莓派）。

本次 Demo 的選擇：Ollama

由於我們的目標是 在地端完成一個個人化的 RAG Demo，因此選擇 Ollama：

安裝簡單：只需要一行指令即可安裝並下載模型。
快速整合：內建 REST API，能輕鬆與我們的前端（Streamlit）以及後端檢索模組整合。
輕量需求：一般 PC（16GB RAM + 8GB VRAM GPU）即可流暢執行 7B 模型，非常適合個人測試。

🏗️Ollama 安裝與基本測試

以下將依照不同作業系統，提供安裝方法與基本操作，不過筆者的環境是windows，後續介紹會繼續以window系統為主。

1. 安裝 Ollama

macOS
Ollama 官方提供 Homebrew 安裝方式：

brew install ollama

安裝完成後即可使用 ollama 指令。

Windows
前往官方網站下載安裝程式：https://ollama.ai/download
執行安裝，完成後打開 PowerShell 或 CMD，輸入：

ollama --version

確認是否安裝成功。

Linux
Ollama 提供一鍵安裝指令：

curl -fsSL https://ollama.ai/install.sh | sh

完成後，重新打開終端機即可使用。

2. 下載與執行模型-以Windows 環境安裝與測試 Ollama（RTX 3060 實例）

接下來我們介紹在 Windows 環境 下用Ollama安裝LLM，並以 RTX 3060 的硬體資源(筆者目前只有這張卡QQ)，說明如何選擇合適的模型。

3. 檢查硬體資源

在安裝 LLM 之前，先確認目前電腦的 GPU / RAM / 磁碟 能支援哪樣規格的LLM 運行。

檢查 GPU 與記憶體

打開 PowerShell 或 命令提示字元 (CMD)，輸入：

# 查看 GPU 型號與顯示記憶體
nvidia-smi

你應該會看到類似結果：

👉 代表我的 3060 有 12GB VRAM(12288MiB)，足夠跑中小型 LLM 模型。
檢查重點：

✅ GPU 記憶體：12GB 可用
✅ 驅動版本：建議 520.xx 以上
✅ CUDA 版本：11.8+ 或 12.x

檢查 RAM 與磁碟
記憶體和磁碟空間也需要檢查，不然模型下載不下來，也跑不動。
一樣在 PowerShell 或 命令提示字元 (CMD)，輸入：

systeminfo | findstr "Total Physical Memory"

記憶體建議：

最低：8GB
建議：16GB
理想：32GB

# 檢查 C: 槽可用空間
fsutil volume diskfree C:

空間需求：
這邊提供模型大小參考，讀者可以藉此評估硬碟空間要有多少比較夠

小型模型（2B-4B）：1.5-3GB 每個
中型模型（7B-8B）：4-5GB 每個
大型模型（13B-14B）：7-9GB 每個
超大模型（30B+）：15-20GB 每個
建議:
🔴 最低：10GB 可用空間
🟡 建議：30GB 可用空間
🟢 理想：100GB SSD

4.選擇合適的模型（繁體中文場景）

由於 RTX 3060 具備 12GB VRAM，適合運行 7B 級別的模型。如果是繁體中文場景，推薦優先考慮 Qwen 系列，因為其在中文（含繁中）理解與生成上的效果通常優於 LLaMA、Mistral。

可選模型比較（RTX 3060，繁體中文場景）

模型名稱	參數大小	量化大小 (GGUF / Ollama)	需要 VRAM	中文能力	適合場景
Qwen 1.5 7B	7B	約 4GB (q4_0) / 6GB (q8_0)	6~8GB	✅ 強	中文 QA、對話、RAG
llama-3-taiwan-8b-instruct	8B	約 4GB (q4_0) / 6GB (q8_0)	6~8GB	✅ 強	台灣語境微調，強於在地語意理解
Mistral 7B	7B	約 4GB (q4_0) / 6GB (q8_0)	6~8GB	❌ 偏弱	英文 QA、效能快
LLaMA 2 7B	7B	約 4GB (q4_0) / 6GB (q8_0)	6~8GB	⚠️ 中等	英文任務佳，中文需要微調
LLaMA 2 13B	13B	約 8GB (q4_0) / 12GB (q8_0)	12GB+	⚠️ 中等	英文推理強，但中文弱，3060 效能吃緊

其實3060太小了，選擇真的不多，要推到14B基本上很容易就OOM，所以我們考量還是以:

首選 → llama-3-taiwan-8b-instruct
備用 → Qwen 1.5 7B

5. Ollama下載指令示例

下載適合繁體中文的 Qwen 模型：

# Qwen 7B (繁體中文推薦)
ollama pull cwchang/llama-3-taiwan-8b-instruct

這個步驟如果順利完成，我們就把~Taiwan-LLM 7B~ llama-3-taiwan-8b-instruct(筆者先前寫錯)給載到地端電腦了，後續我們就可以試著用這顆LLM來進行實作了!

Day 14: 模組擴充與Streamlit Demo程式

Day 16:向量資料庫進階分析: Qdrant

系列文

從 RAG 到 Agentic RAG：30 天打造本機智慧檢索系統共 30 篇

RSS系列文訂閱系列文

9 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19867 篇

完賽人數

529 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙

從 RAG 到 Agentic RAG：30 天打造本機智慧檢索系統系列 第 15 篇