前幾天我們介紹了AI在各個領域的應用,像是圖片、語音、資料分析之類的。
今天我們要試著直接在自己的電腦上跑一個LLM,這樣除了讓自己有更多隱私與自由外,也可以讓我們更加理解模型的運作方式。
在本地端跑LLM的好處
隱私:我們使用的資料不會被上傳到雲端,適合敏感內容或公司內部使用。
成本控制:不用付API費用,下載模型即可離線使用,免費仔福音。
彈性:可以測試不同開源模型,依照自身需求切換。
學習價值:因為是更貼近模型的底層運作,所以對開發或學習都會有幫助。
一些比較常見的本地端工具
llama.cpp
是一個C++ 作的推論引擎,專為LLaMA系列模型設計。
特點:
高度優化,能在 CPU 上執行。
跨平台:Windows、macOS、Linux都能用。
適合輕量體驗和嵌入式應用。
ollama
更高層的封裝,讓你用更簡單的方式在本地下載、管理與執行模型。
特點:
只需一行指令就能啟動模型。
支援 API 呼叫,可整合到應用程式。
已支援 LLaMA 2、Mistral、Code LLaMA 等熱門開源模型。
如何安裝與體驗ollama
安裝步驟(以macOS或Linux為例)
curl -fsSL https://ollama.com/install.sh | sh
啟動一個模型
下載並執行LLaMA 2:
ollama run llama2
如果有跑出
> Explain quantum computing in simple terms
就代表接著可以像使用ChatGPT一樣,輸入文字並獲得回覆了
使用上要注意的地方
硬體需求:即使有量化(壓縮),大模型可能還是會需要大量記憶體(RAM/VRAM)。
效能差異:因為CPU的關係,推論速度可能較慢,不如雲端即時。
模型大小:從幾GB到上百GB不等,下載需要時間與空間,電腦空間容易不足(我說我)。