如何用128GB Strix Halo AI 電腦，打造自己的私有化「數位助理作業系統」

ai agent 知識庫 ai pc 地端模型陳穎漢觀點

Caffein 2026-06-12 09:22:10 ‧ 1032 瀏覽

分享至

最近我正在規劃一套完全私有化、不依賴公有雲的 Personal AI Assistant OS，而即將到貨的 128GB Strix Halo 迷你工作站（Geekom A9 Mega），將成為這套系統的第一個實驗平台。

這篇文章不是開箱文，也不是跑分文。

我更在意的是另一個問題：
如果企業不願意把合約、報價單、ESG 文件、財務資料交給公有雲 AI，那麼在 2026 年，我們能否用十萬元等級的硬體，打造一套真正能工作的私有化數位助理系統？

這正是我準備驗證的事情。
這不僅是一台 AI 電腦，這是我自己的親手打造的私有化「數位助理作業系統」

在 AI 浪潮席捲的今天，科技社群最不缺的就是各種「硬體跑分」或「千億參數大模型」的規格狂歡。
每當有新的硬體發表，主流輿論總會陷入單純的數據比較。

然而，做為浸淫在網路基礎設施與系統整合（SI）產業多年且為AI重度使用者的我，我看待這件事的角度截然不同。

我在社群上初步分享，很多人以為這又是一篇常規的 AI PC 開箱文，甚至調侃這不過是「買不起獨顯，只能用內顯把記憶體加到最大」的妥協方案。

但，這台硬體從頭到尾都只是載體。

我真正準備打造的是，在邊緣端（Edge）完全不依賴公有雲、可常態運作、具備可遠端自動復原的高可用設計的「個人數位助理作業系統（Personal AI Assistant OS）」。
這是一場關於個人私有化算力與資安隱私的範式轉移。

第一章：我真正想解決什麼問題？（邊緣端的隱私紅線）

在日常的企業營運與高階決策中，我們每天都在被密集的「機械式專業勞動」瘋狂消耗時間：
跨年度、跨版本的商業合約 Diffing 比對（找出條款中隱藏的法律紅線與魔鬼細節）；
高敏感的財務報價單、請購簽核、請款審查的勾稽與記錄，與企業資產負債表審查；
資安稽核、職安稽核、ESG稽核相關文件的準備與合規、年度CDP與EcoVadis問卷填答與跨年對比對，與法規 RAG 檢索；
大量紙本掃描件與 Config 設定檔的精準 OCR 與結構化理解。

這些任務智商要求極高，且極度缺乏效率。
我們迫切需要一個「不下班、不領薪水、且具備專家智商的數位助理」來分擔工作流。

我們當然知道雲端的 GPT-4 或 Claude Opus4.8 智商頂級，但企業的核心資產、未公開的客戶名單與合約條款，絕對不能「裸奔」上傳到公有雲。
這是一條沒有任何妥協空間的資安底線。

我需要的，是一個物理位置完全鎖定在我的機房或辦公桌上，100% 聽命於我，且在資料動線上與外部網際網路徹底隔離的私有化大腦。

第二章：物理極限下的抉擇，我評估過的五種方案

以上任務經評估後需 70B 參數級別大語言模型（LLM）在地端才能順暢運行，加上防禦 Prompt 爆量所預留的上下文緩衝區（KV Cache），硬體的物理紅線被牢牢釘死在 96GB 記憶體容量以上。

在此剛性需求下，我逐一評估了市場上的實踐路徑。

方案 1：NVIDIA RTX 專業顯卡工作站（企業重裝版）
優勢：純血 NVIDIA CUDA 生態系，記憶體頻寬極高（單卡 960 GB/s 以上、雙卡 NVLink 串聯可達 1.7 TB/s 以上），推論速度無可挑剔。
缺點：代價太過昂貴。串聯雙張 RTX Pro 6000 Ada (48GB) 或多張高階顯卡，整機資本支出（CAPEX）輕易突破 45 萬至 60 萬台幣。這屬於數據中心級別的軍火，用來做個人工作站，ROI 極難平攤。
適用對象：預算無上限、每天需要跑數百次微調（fine-tuning）實驗的研究機構或大型企業 AI Lab。

方案 2：Apple Mac Studio（多媒體極客版）
優勢：統一記憶體架構（UMA）頻寬約 400-800 GB/s（M4 Max 實測約 546 GB/s），影音解碼引擎（Media Engine）實力冠絕天下，適合短影音生成賽道。對創作者而言是極佳的工作母機。
缺點：128GB 配置定價通常在 17-19 萬台幣以上。最致命的是其生態系隔離——在 B2B 系統整合與自動化維運中，大量的 Linux 工具鏈、x86 原生編譯的 Docker 鏡像，在 macOS 下部署會遭遇無數的底層相容性天坑。對需要在辦公室跑 Windows 獨佔工程軟體或 CAD 繪圖的整合商來說，等於被迫「二選一」。
適用對象：影音創作者、Mac-only 工作流的研究者、預算較高的獨立開發者。

方案 3：傳統 DDR5 記憶體擴充方案（如 Minisforum HX370 系列微型主機）
這是「最便宜湊出大記憶體」的選項，值得單獨仔細評估：
優勢：建置成本最低。在傳統 x86 平台上插滿大容量 DDR5 SO-DIMM（例如兩條 64GB 共 128GB），整機成本可以壓在 3-5 萬台幣以內，比方案 5 的 Strix Halo 還便宜一半。 Windows 生態 100% 相容。所有 x86 工程軟體、CAD、Office 都能直接跑，沒有任何生態轉換成本。可同時當作一般 PC 用。這是「真實多功能電腦」——平常寫程式、跑報表、玩遊戲，緊急時也能拿來跑 AI。
缺點（致命）：記憶體頻寬鴻溝：受限於傳統雙通道 DDR5 記憶體架構，實際可用頻寬通常僅約 90 GB/s 左右（DDR5-5600 理論值約 89.6 GB/s），即便高階配置也很難突破 100 GB/s，當 70B 模型的龐大權重在這條極窄的通道反覆搬運時，吐字速度會直接退化至 1-2 token/s。一份 AI 生成的合約審查報告需要數小時才能跑完。 CPU 與 GPU 記憶體是分離的。這是最關鍵的架構缺陷——你插了 128GB DDR5 給 CPU 用，但獨顯（或內顯）那 8-16GB VRAM 仍然只有 8-16GB。70B 模型根本塞不進去——你以為有 128GB 記憶體，但實際上 GPU 只能用到 8-16GB。所謂「128GB 跑大模型」根本是行銷話術，真實能跑的上限是 13B 量化模型（剛好塞進 16GB VRAM）。系統會卡死。即便用統一記憶體的內顯架構（如 Strix Point 890M），記憶體頻寬過窄會讓前台日常軟體（瀏覽器、Office）也跟著卡頓，因為記憶體控制器被 LLM 推論長期佔用。長期維運 ROI 不一定好。表面上便宜 5 萬台幣，實際上跑 70B 模型的體驗是「能跑、但慢到沒人想用」。省下的錢會在「用不下去、最後改買其他方案」這個結局中付諸東流。
適用對象：只跑 13B 以下小模型的研究型玩家；對 LLM 推論速度沒需求的純學術實驗；不打算用 AI 處理真實工作的嘗鮮者。

方案 4：NVIDIA GB10 企業級邊緣盒（DGX Spark / Acer Veriton GN100）
優勢：純正的企業級 AI 計算節點，純血 CUDA 生態。兩台可用 NVIDIA ConnectX 互連成 256GB 統一記憶體（這是 NVIDIA 官方明文支援的功能），能跑 200B 級別的 MoE 模型。GB10 算力達 1 PFLOP FP4（sparse），介於 RTX 5070 與 5070 Ti 之間，做開發、微調、長 prompt 處理明顯較強。
缺點：這類產品目前定價約 US$4,699 / 約新台幣 15-16萬，約比 Strix Halo 方案貴 17%。更現實的是，DGX Spark 預設跑 Linux 系統（Asahi Linux 或 NVIDIA 自家發行版），與日常辦公桌面上必備的 Windows 獨佔工程軟體或 CAD 繪圖不相容，只能鎖在機房當無頭（Headless）伺服器。如果你的工作流已經高度依賴 Windows 生態，這條路等於額外養一台專機。
適用對象：以 Linux 為主工作環境的 AI 工程師；需要跑 CUDA 深度微調的 ML 研究員；同時願意在桌面上保留另一台 Windows 機器的雙機使用者。

方案 5：AMD Strix Halo 128GB UMA 架構
這正是2025年 Computex 發表後，我一直在等待的技術甜蜜點。
技術本質：它從電路底層重新設計，將晶片與 128GB LPDDR5X 大容量記憶體透過 256-bit 寬通道直接整合，將記憶體頻寬一舉拉升至約 256 GB/s（理論峰值，實測約 212 GB/s）。它徹底打破了傳統內顯被 BIOS 韌體強制閹割（Carve-out）只能吃 2GB/8GB 的高牆，讓整台機器的 128GB 記憶體真正轉化為 CPU 與 GPU 無損共享的巨型高頻寬記憶體池。這是方案 3 永遠做不到的——因為 256 GB/s 與 90 GB/s 之間的將近3倍頻寬差距，是跑 70B 模型的生死線。
決勝點：它是一台原生支援 x86 Windows/WSL2 的電腦，意味著辦公軟體與自動化部署工具（如次世代終端 AI 工具 Claude Code）能毫無屏障地直接接手維運。在極致通路比價下將成本控在 10 萬台幣左右（參考日本通路含稅價，台灣實際價格可能不同），它用最務實的預算解決了「大模型到底能不能裝得進地端」的生死問題。
限制（誠實說）：驅動生態比 NVIDIA 不成熟。AMD Adrenalin 驅動對 Strix Halo 仍在前迭代，新版驅動有時反而會讓 Vulkan 後端失效（要準備 DDU 救援包）。
（1）沒有 CUDA：任何需要 CUDA 才能跑的微調框架（trlx、Axolotl 等）無法直接用，必須轉向 ROCm 支援 70B 密集模型。
（2）吐字速度撞頻寬牆：4-8 tok/s，適合「丟著跑、非即時」的批次任務，不適合即時對話。

第三章：模型從來不是重點，系統架構才是靈魂

在眾多AI地端模型的討論留言區中，大量的討論依然停留在「Qwen3 笨不笨？」、「GLM 還是 Gemma 比較好？」或「一定要跑 FP16 精度才行」的舊思維裡。

我想告訴大家：在真正的工業級地端實踐中，模型（Model）只是隨時可以被替換的零件。

真正決定系統生死與價值的，是整套 Local Agent Stack（地端代理技術棧）的架構設計。

很多人誤以為地端 AI 就是打開網頁跟聊天機器人（Chatbot）對話。不，那只是玩具。
真正的私有化數位助理作業系統，其核心是由 Agent 路由 + Workflow 工作流編排 + 向量庫 RAG + 本地多模態 OCR + SRE 記憶體管理所共同構建的閉環網路。

第四章：我的地端私有化數位助理架構（Local Agent Stack）

為了在 128GB 統一記憶體的物理邊界下壓榨出最大價值，我透過跟GPT, Opus4.8, Gemini Pro, Minimax3, Kimi K2.6交互對話為這套系統設計了「大小腦雙層調度 + 6 模型雙路並行」架構，從需求端完美推導出硬體元件配置：
（1）常駐層（Keep-Alive）流水線 [日常輕量大腦]
核心配置（4 個模型同時常駐，合計 ~28GB）：
Qwen3-30B-A3B (MoE) — 日常對話與文字路由主力、
Qwen2.5-VL-7B-Instruct — 視覺（報價單、ESG 報告截圖、稽核表單 OCR）、
bge-m3 — 通用中文文檔嵌入（Email、會議紀錄、一般報告）、
bge-large-zh-v1.5 — 中文財務/合規/ESG 專用嵌入（合約、CDP 問卷、稽核報告）。
調度邏輯：混合專家模型（MoE）是目前的版本答案。這支 30B 模型的「Active 3B」特性，使得它在每次 Token 生成時僅激活 30 億參數。在 256 GB/s 的頻寬下，日常對話與文字路由速度約 35-90 token/s（依量化版本而異）。
為什麼是「兩個 bge 嵌入」而不是一個：bge-m3 通用強但中文合規雙語術語對齊不夠準；bge-large-zh-v1.5 對中文財務/合規術語對齊精準 15-25%。依文件類型自動切換（合約/ESG/稽核 → bge-large-zh；其他 → bge-m3），兩個 collection 在 Qdrant 並行運作。
覆蓋任務：80% 日常問答、文件過濾、報價單版面圖像理解、工作流調度、輕量 RAG 查詢。

（2）按需層（用完即釋放）重砲 [深度審查大腦]
核心配置（依任務特性選不同模型，4個同時常駐，模型權重合計約 28GB，連同 Windows 系統、LM Studio Vulkan runtime、Docker 服務、KV cache buffer 一起，實際總佔用約 57GB）：
Qwen3-72B (dense) — 中文 ESG/合規重砲（跨年 CDP 比對、ESG 問卷長文生成、跨年制度文件審查）、
Qwen2.5-7B-Instruct — 請購/請款勾稽專用（嚴格 JSON 結構化輸出，欄位抽取精準度 95%+，LoRA 微調後可達 99%+）、
GLM-4.5-Air — 英文 EcoVadis/TCFD 框架備援，極少用。
調度邏輯：當常駐大腦發現工程師上傳了需要重大合約終審、複雜法規比對、或請購勾稽等任務時，系統會從高速 NVMe SSD 中「冷啟動」喚醒對應模型：
（1）跑 72B 時 → 卸載 30B-A3B + VL-7B + 7B 結構化模型，全力讓 72B 吃滿 ~45GB 、
（2）跑 7B 結構化抽取時 → 卸載 30B-A3B（保留 KV cache），載入 7B。
兩者不能同時跑——記憶體牆會撞。

為什麼是「6 個模型」而不是1個或3個？
「精準遵循格式」紀律：70B 智商高但「聽話度」不如 7B 專用模型。請購勾稽需要 100% JSON 結構穩定，一個欄位名拼錯整條 pipeline 會斷。
領域專精度：bge-large-zh-v1.5 對中文財務/合規術語的對齊，比 bge-m3 精準 15-25%。通用模型永遠比不上領域專用。
記憶體效率：6 個模型分層載入，比「一個 70B 全包」更省記憶體（72B 一次吃 45GB 還要 + KV cache，沒有餘裕跑日常對話）。任務分流的物理基礎：常駐層跑得快（35-90 tok/s），按需層跑得深（4-8 tok/s），兩者速度差 10 倍——架構上本來就應該分流。

各任務的「模型調度路徑」
【日常對話類】 • 日常問答 / 文件過濾 → Qwen3-30B-A3B，35-90 tok/s，品質 90%+
【視覺 / OCR 類】 • 報價單 / 截圖 OCR → Qwen2.5-VL-7B，對話級速度，80-90% 一次到位
【RAG 查詢類】 • 通用文檔 RAG → bge-m3 嵌入 + Qwen3-30B-A3B 生成，35-90 tok/s • 中文合規 / ESG RAG → bge-large-zh-v1.5 嵌入 + Qwen3-30B-A3B 生成，35-90 tok/s，品質比通用精準 15-25%
【結構化抽取類】 • 請購 / 請款勾稽（JSON 抽取）→ Qwen2.5-7B-Instruct，100+ tok/s，欄位精準度 95%+（LoRA 微調後可達 99%+）
【長文 / 深度審查類】 • 資安 / 職安制度文件起草 → Qwen3-30B-A3B 起草 → Qwen3-72B 終審（雙階段協作） • ESG 問卷 50 題（CDP / EcoVadis）→ Qwen3-72B 一次讀完整份問卷 + 公司資料，4-8 tok/s（背景跑 5-10 分鐘），可用度 90%+ • 跨年 CDP 比對 → Qwen3-72B 長 context 模式，4-8 tok/s，Qwen 中文長 context 是 2025-2026 開源第一
【英文備援】 • 英文 EcoVadis 框架補充 → GLM-4.5-Air，4-8 tok/s，備援用

128GB 記憶體預算驗證
【日常輕載】常駐 4 模型（30A3B + VL-7B + bge-m3 + bge-large-zh）一起跑，總用量約 57GB，剩餘約 60GB buffer（極寬鬆）。
【結構化抽取場景】卸載 Qwen3-30B-A3B（保留 8GB KV cache）、保留 VL-7B 跟雙 bge、載入 Qwen2.5-7B-Instruct，總用量約 50GB，剩餘約 64GB buffer。
【中文 ESG 重砲場景】完全卸載日常模型（30A3B + VL-7B + 7B 結構化）、只留 bge 嵌入組、全力讓 Qwen3-72B 吃滿約 45GB + KV cache，總用量約 82GB，剩餘 32-38GB buffer（夠撐 40k context）。
【重要約束】72B 跑背景時，不能同時開 30B-A3B 對話——記憶體牆會撞。整體 6 個模型在 128GB 預算下完全可行，日常情境比 Gemini 原版 3 模型配置還寬鬆。

🔒 鋼鐵般的「零上雲」安全資料動線
這套架構最性感的亮點，在於全流程圍繞著 Privacy by Architecture（架構即隱私）展開：
為什麼用「Privacy by Architecture」而不是「Compliance by Design」：後者是合規領域的專用詞（GDPR / HIPAA / SOC 2），暗示已經過第三方稽核。
「Privacy by Architecture」精準描述「從技術拓撲上就斷絕外洩可能」這件事，不涉及合規聲明。

Telegram 僅作為「無害遙控器」：人在外地辦公時，我透過手機 Telegram 發送控制指令（例如：「請幫我比對 NAS 裡 A 廠與 B 廠的合約」）。
Telegram 對話框中絕對不夾帶合約實體文件與任何機密文字。
Tailscale 構建網格私有隧道：本地工作站自建的自動化工作流引擎（n8n/OpenClaw）接收到指令後，透過互信的 Tailscale 虛擬私有網路，直接以唯讀權限連回我指定的本地 NAS 儲存伺服器。
真實資料絕不上雲：文件的搬運、去識別化、向量化沉積與 RAG 檢索，全量在安全的本地通道內閉環完成。這不是依賴雲端廠商的隱私合約承諾，而是從技術拓撲上徹底斷絕了洩漏風險。

遠端管道的機密分流：
（1）機密操作（看合約、跑 RAG）→ 走 Tailscale（點對點加密，不經第三方）；
（2）非機密雜事（看 Docker 狀態、重啟服務）→ 才用 Google 遠端桌面（經 Google 中轉，只給非機密操作）。

第五章：網站可靠性工程（SRE）視角下的災難復原

當大部分的地端 AI 文章還在炫耀「我的設備開機跑出了多少 token/s」時，我的部署 Runbook（操作手冊）已經將超過一半的篇幅，砸在了最硬核的 IT 維運命題：「三個月後機器在無人值守時掛掉怎麼辦？」
這套系統的真正特色，在於它具備了「人不在機器旁，也能 100% 遠端復原服務鏈」的韌性（Robustness）。在與AI討論的多輪架構疊代後，我為其注入了真正的 SRE 維運靈魂。

物理安全與無人值守自動復原的前置補丁
在遠端遙控的情境下，存在一個巨大的邏輯悖論：為了讓 Docker 隨 Windows 開機自啟動，最簡單的方案是設定「Windows 自動登入桌面」，但這無異於在辦公室留了一個實體資安漏洞——任何人接上螢幕就能看光你的電腦。
我的最終決策：由於這台機器最終會搬回家中、上鎖、用自家 WiFi，實體接觸風險極低。我採用「自動登入 + Docker Desktop 開機自啟」這個較簡單的方案（方案 A）——把「桌面門戶」的風險靠實體環境吸收，而不是靠 WSL2 系統服務的複雜度去硬擋。
誠實說：這個決策背後的取捨是——如果你的機器放在公司或共用空間，強烈建議改走 WSL2 原生 Linux Docker 服務（方案 B），完全跳過自動登入，雖然設定較麻煩，但「桌面鎖著 + 服務自動起來」兩者可以兼得。

物理級的「硬斷電測試（Hard Power-off Test）」驗收
這套系統的最終驗收標準極其殘酷：在系統處於高負載推論（如 72B 模型正在背景瘋狂進行合約 Diffing 比對）狀態下，直接執行「物理拔除主機電源線」的操作。
重新插電開機後，全程不手動敲擊鍵盤，觀察系統是否能在 3 分鐘內自動恢復全量遠端遙控與 Telegram Bot 響應。
配合我們在裝機階段立下的「最高生死紅線」——利用雲端 AI 助手 Claude Code 編排與除錯環境時可聯網，但正式灌入真實合約進行測試前，必須完全登出 Claude Code 並切斷外部連線。
這確保了整套系統從 Day 1 開始，在資安上就讓大部分資料處理流程都能維持在本地閉環中，大幅降低資料外洩風險。

結語：用務實硬體構築隱私的尊嚴

這份多達數十條防線、包含災難決策樹的 Runbook，如果作為一份單純的 AIPC 開箱文，顯得太過硬核，甚至會把一般玩家嚇跑；
但如果將其放在專業的技術與商務維度上，它完整回答了一個時代命題：如何用一台十萬台幣左右的 128GB UMA 電腦，為個人與中小企業打造一個可常態維運、可災難復原、具備高可用性的私有化 AI Agent 平台。

這套架構的核心尊嚴，在於打破了巨頭在 HBM 記憶體上的階級壟斷，讓日常的機械式勞動交給秒級響應的本地 MoE 模型，讓重大的合約審查交給排程運作的按需重砲。

把算力留給本地，把資料留給自己。
這才是 2026 年邊緣算力革命帶給真實世界，最誠實也最務實的禮物。