在不購買硬體設備的前提下,沒有有效的改善方案。
AI 模型依賴於 GPU 進行運算是由於 AI 模型中存在大量向量運算,需要利用 GPU 並行運算的特性加快運算速度。而 CPU 即便有多線程、管道等技術,沒辦法做到比擬 GPU 的並行運算效率。所以,哪怕沒有分配運算資源給 VM 也不會比 GPU 運算快。
Windows 系統預設執行的背景服務較多,佔用資源比 Linux 系統多不少。建議使用 Linux 系統,搭配容器化技術執行 Openclaw 及 Ollama。
記憶體不足產生大量分頁,大量 I/O 導致硬碟使用率滿載,造成其他程式執行速度下降。
您要跑地端AI就要有GPU資源呀~ 至少買台NVIDIA DGX Spark吧! 目前看原價屋大概10~15萬左右。
若還是嫌貴,就只先去訂閱雲端AI,設一下Token上限吧!
首先,近十年的AI大模型除非是9B或是以下規模,基本上用CPU運行都是慢。
原因Pod042A兄所說,「AI 模型依賴於 GPU 進行運算是由於 AI 模型中存在大量向量運算,需要利用 GPU 並行運算的特性加快運算速度。而 CPU 即便有多線程、管道等技術,沒辦法做到比擬 GPU 的並行運算效率。所以,哪怕沒有分配運算資源給 VM 也不會比 GPU 運算快。」。
但是要補充一點是現時的AI大模型都用NVIDIA CUDA技術來訓練,所以在進行推理時用NVIDIA CUDA的顯示卡是效能最高的選擇。
另外即使要用VM在純CPU環境運行openclaw和ollama,應該是分開兩台VM來運行openclaw和ollama,以不是放在同一個VM中。
確保不會因為單一應用程式用消耗大部分令資源其他應用程式沒有資源運行。
還有VM只有8vCPU同時運行openclaw和ollama,真是太小。
最小要為ollama的VM安排16vCPU,以openclaw的VM安排8vCPU。
Openclaw如果沒接比較聰明的LLM模型表現會出現金魚腦或者笨笨的樣子,地端大家都使用ollama如果硬體不夠好,沒辦法用大模型,可是用大模型,荷包會受不了。
目前還是建議使用雲端AI,龍蝦降低token可以從智能路由(根據查詢複雜度調用agents),記憶技能改善,等等方式大幅降低token,再加上帳單限制就好