最近我正在規劃一套完全私有化、不依賴公有雲的 Personal AI Assistant OS,而即將到貨的 128GB Strix Halo 迷你工作站(Geekom A9 Mega),將成為這套系統的第一個實驗平台。
這篇文章不是開箱文,也不是跑分文。
我更在意的是另一個問題:
如果企業不願意把合約、報價單、ESG 文件、財務資料交給公有雲 AI,那麼在 2026 年,我們能否用十萬元等級的硬體,打造一套真正能工作的私有化數位助理系統?
這正是我準備驗證的事情。
這不僅是一台 AI 電腦,這是我自己的親手打造的私有化「數位助理作業系統」
在 AI 浪潮席捲的今天,科技社群最不缺的就是各種「硬體跑分」或「千億參數大模型」的規格狂歡。
每當有新的硬體發表,主流輿論總會陷入單純的數據比較。
然而,做為浸淫在網路基礎設施與系統整合(SI)產業多年且為AI重度使用者的我,我看待這件事的角度截然不同。
我在社群上初步分享,很多人以為這又是一篇常規的 AI PC 開箱文,甚至調侃這不過是「買不起獨顯,只能用內顯把記憶體加到最大」的妥協方案。
但,這台硬體從頭到尾都只是載體。
我真正準備打造的是,在邊緣端(Edge)完全不依賴公有雲、可常態運作、具備可遠端自動復原的高可用設計的「個人數位助理作業系統(Personal AI Assistant OS)」。
這是一場關於個人私有化算力與資安隱私的範式轉移。
第一章:我真正想解決什麼問題?(邊緣端的隱私紅線)
在日常的企業營運與高階決策中,我們每天都在被密集的「機械式專業勞動」瘋狂消耗時間:
跨年度、跨版本的商業合約 Diffing 比對(找出條款中隱藏的法律紅線與魔鬼細節);
高敏感的財務報價單、請購簽核、請款審查的勾稽與記錄,與企業資產負債表審查;
資安稽核、職安稽核、ESG稽核相關文件的準備與合規、年度CDP與EcoVadis問卷填答與跨年對比對,與法規 RAG 檢索;
大量紙本掃描件與 Config 設定檔的精準 OCR 與結構化理解。
這些任務智商要求極高,且極度缺乏效率。
我們迫切需要一個「不下班、不領薪水、且具備專家智商的數位助理」來分擔工作流。
我們當然知道雲端的 GPT-4 或 Claude Opus4.8 智商頂級,但企業的核心資產、未公開的客戶名單與合約條款,絕對不能「裸奔」上傳到公有雲。
這是一條沒有任何妥協空間的資安底線。
我需要的,是一個物理位置完全鎖定在我的機房或辦公桌上,100% 聽命於我,且在資料動線上與外部網際網路徹底隔離的私有化大腦。
第二章:物理極限下的抉擇,我評估過的五種方案
以上任務經評估後需 70B 參數級別大語言模型(LLM)在地端才能順暢運行,加上防禦 Prompt 爆量所預留的上下文緩衝區(KV Cache),硬體的物理紅線被牢牢釘死在 96GB 記憶體容量以上。
在此剛性需求下,我逐一評估了市場上的實踐路徑。
方案 1:NVIDIA RTX 專業顯卡工作站(企業重裝版)
優勢:純血 NVIDIA CUDA 生態系,記憶體頻寬極高(單卡 960 GB/s 以上、雙卡 NVLink 串聯可達 1.7 TB/s 以上),推論速度無可挑剔。
缺點:代價太過昂貴。串聯雙張 RTX Pro 6000 Ada (48GB) 或多張高階顯卡,整機資本支出(CAPEX)輕易突破 45 萬至 60 萬台幣。這屬於數據中心級別的軍火,用來做個人工作站,ROI 極難平攤。
適用對象:預算無上限、每天需要跑數百次微調(fine-tuning)實驗的研究機構或大型企業 AI Lab。
方案 2:Apple Mac Studio(多媒體極客版)
優勢:統一記憶體架構(UMA)頻寬約 400-800 GB/s(M4 Max 實測約 546 GB/s),影音解碼引擎(Media Engine)實力冠絕天下,適合短影音生成賽道。對創作者而言是極佳的工作母機。
缺點:128GB 配置定價通常在 17-19 萬台幣以上。最致命的是其生態系隔離——在 B2B 系統整合與自動化維運中,大量的 Linux 工具鏈、x86 原生編譯的 Docker 鏡像,在 macOS 下部署會遭遇無數的底層相容性天坑。對需要在辦公室跑 Windows 獨佔工程軟體或 CAD 繪圖的整合商來說,等於被迫「二選一」。
適用對象:影音創作者、Mac-only 工作流的研究者、預算較高的獨立開發者。
方案 3:傳統 DDR5 記憶體擴充方案(如 Minisforum HX370 系列微型主機)
這是「最便宜湊出大記憶體」的選項,值得單獨仔細評估:
優勢: 建置成本最低。在傳統 x86 平台上插滿大容量 DDR5 SO-DIMM(例如兩條 64GB 共 128GB),整機成本可以壓在 3-5 萬台幣以內,比方案 5 的 Strix Halo 還便宜一半。 Windows 生態 100% 相容。所有 x86 工程軟體、CAD、Office 都能直接跑,沒有任何生態轉換成本。 可同時當作一般 PC 用。這是「真實多功能電腦」——平常寫程式、跑報表、玩遊戲,緊急時也能拿來跑 AI。
缺點(致命): 記憶體頻寬鴻溝:受限於傳統雙通道 DDR5 記憶體架構,實際可用頻寬通常僅約 90 GB/s 左右(DDR5-5600 理論值約 89.6 GB/s),即便高階配置也很難突破 100 GB/s,當 70B 模型的龐大權重在這條極窄的通道反覆搬運時,吐字速度會直接退化至 1-2 token/s。一份 AI 生成的合約審查報告需要數小時才能跑完。 CPU 與 GPU 記憶體是分離的。這是最關鍵的架構缺陷——你插了 128GB DDR5 給 CPU 用,但獨顯(或內顯)那 8-16GB VRAM 仍然只有 8-16GB。70B 模型根本塞不進去——你以為有 128GB 記憶體,但實際上 GPU 只能用到 8-16GB。所謂「128GB 跑大模型」根本是行銷話術,真實能跑的上限是 13B 量化模型(剛好塞進 16GB VRAM)。 系統會卡死。即便用統一記憶體的內顯架構(如 Strix Point 890M),記憶體頻寬過窄會讓前台日常軟體(瀏覽器、Office)也跟著卡頓,因為記憶體控制器被 LLM 推論長期佔用。 長期維運 ROI 不一定好。表面上便宜 5 萬台幣,實際上跑 70B 模型的體驗是「能跑、但慢到沒人想用」。省下的錢會在「用不下去、最後改買其他方案」這個結局中付諸東流。
適用對象:只跑 13B 以下小模型的研究型玩家;對 LLM 推論速度沒需求的純學術實驗;不打算用 AI 處理真實工作的嘗鮮者。
方案 4:NVIDIA GB10 企業級邊緣盒(DGX Spark / Acer Veriton GN100)
優勢:純正的企業級 AI 計算節點,純血 CUDA 生態。兩台可用 NVIDIA ConnectX 互連成 256GB 統一記憶體(這是 NVIDIA 官方明文支援的功能),能跑 200B 級別的 MoE 模型。GB10 算力達 1 PFLOP FP4(sparse),介於 RTX 5070 與 5070 Ti 之間,做開發、微調、長 prompt 處理明顯較強。
缺點:這類產品目前定價約 US$4,699 / 約新台幣 15-16萬,約比 Strix Halo 方案貴 17%。更現實的是,DGX Spark 預設跑 Linux 系統(Asahi Linux 或 NVIDIA 自家發行版),與日常辦公桌面上必備的 Windows 獨佔工程軟體或 CAD 繪圖不相容,只能鎖在機房當無頭(Headless)伺服器。如果你的工作流已經高度依賴 Windows 生態,這條路等於額外養一台專機。
適用對象:以 Linux 為主工作環境的 AI 工程師;需要跑 CUDA 深度微調的 ML 研究員;同時願意在桌面上保留另一台 Windows 機器的雙機使用者。
方案 5:AMD Strix Halo 128GB UMA 架構
這正是2025年 Computex 發表後,我一直在等待的技術甜蜜點。
技術本質:它從電路底層重新設計,將晶片與 128GB LPDDR5X 大容量記憶體透過 256-bit 寬通道直接整合,將記憶體頻寬一舉拉升至約 256 GB/s(理論峰值,實測約 212 GB/s)。它徹底打破了傳統內顯被 BIOS 韌體強制閹割(Carve-out)只能吃 2GB/8GB 的高牆,讓整台機器的 128GB 記憶體真正轉化為 CPU 與 GPU 無損共享的巨型高頻寬記憶體池。這是方案 3 永遠做不到的——因為 256 GB/s 與 90 GB/s 之間的 將近3倍頻寬差距,是跑 70B 模型的生死線。
決勝點:它是一台原生支援 x86 Windows/WSL2 的電腦,意味著辦公軟體與自動化部署工具(如次世代終端 AI 工具 Claude Code)能毫無屏障地直接接手維運。在極致通路比價下將成本控在 10 萬台幣左右(參考日本通路含稅價,台灣實際價格可能不同),它用最務實的預算解決了「大模型到底能不能裝得進地端」的生死問題。
限制(誠實說): 驅動生態比 NVIDIA 不成熟。AMD Adrenalin 驅動對 Strix Halo 仍在前迭代,新版驅動有時反而會讓 Vulkan 後端失效(要準備 DDU 救援包)。
(1)沒有 CUDA:任何需要 CUDA 才能跑的微調框架(trlx、Axolotl 等)無法直接用,必須轉向 ROCm 支援 70B 密集模型。
(2)吐字速度撞頻寬牆:4-8 tok/s,適合「丟著跑、非即時」的批次任務,不適合即時對話。
第三章:模型從來不是重點,系統架構才是靈魂
在眾多AI地端模型的討論留言區中,大量的討論依然停留在「Qwen3 笨不笨?」、「GLM 還是 Gemma 比較好?」或「一定要跑 FP16 精度才行」的舊思維裡。
我想告訴大家:在真正的工業級地端實踐中,模型(Model)只是隨時可以被替換的零件。
真正決定系統生死與價值的,是整套 Local Agent Stack(地端代理技術棧)的架構設計。
很多人誤以為地端 AI 就是打開網頁跟聊天機器人(Chatbot)對話。不,那只是玩具。
真正的私有化數位助理作業系統,其核心是由 Agent 路由 + Workflow 工作流編排 + 向量庫 RAG + 本地多模態 OCR + SRE 記憶體管理 所共同構建的閉環網路。
第四章:我的地端私有化數位助理架構(Local Agent Stack)
為了在 128GB 統一記憶體的物理邊界下壓榨出最大價值,我透過跟GPT, Opus4.8, Gemini Pro, Minimax3, Kimi K2.6交互對話為這套系統設計了「大小腦雙層調度 + 6 模型雙路並行」架構,從需求端完美推導出硬體元件配置:
(1)常駐層(Keep-Alive)流水線 [日常輕量大腦]
核心配置(4 個模型同時常駐,合計 ~28GB):
Qwen3-30B-A3B (MoE) — 日常對話與文字路由主力、
Qwen2.5-VL-7B-Instruct — 視覺(報價單、ESG 報告截圖、稽核表單 OCR)、
bge-m3 — 通用中文文檔嵌入(Email、會議紀錄、一般報告)、
bge-large-zh-v1.5 — 中文財務/合規/ESG 專用嵌入(合約、CDP 問卷、稽核報告)。
調度邏輯:混合專家模型(MoE)是目前的版本答案。這支 30B 模型的「Active 3B」特性,使得它在每次 Token 生成時僅激活 30 億參數。在 256 GB/s 的頻寬下,日常對話與文字路由速度約 35-90 token/s(依量化版本而異)。
為什麼是「兩個 bge 嵌入」而不是一個:bge-m3 通用強但中文合規雙語術語對齊不夠準;bge-large-zh-v1.5 對中文財務/合規術語對齊精準 15-25%。依文件類型自動切換(合約/ESG/稽核 → bge-large-zh;其他 → bge-m3),兩個 collection 在 Qdrant 並行運作。
覆蓋任務:80% 日常問答、文件過濾、報價單版面圖像理解、工作流調度、輕量 RAG 查詢。
(2)按需層(用完即釋放)重砲 [深度審查大腦]
核心配置(依任務特性選不同模型,4個同時常駐,模型權重合計約 28GB,連同 Windows 系統、LM Studio Vulkan runtime、Docker 服務、KV cache buffer 一起,實際總佔用約 57GB):
Qwen3-72B (dense) — 中文 ESG/合規重砲(跨年 CDP 比對、ESG 問卷長文生成、跨年制度文件審查)、
Qwen2.5-7B-Instruct — 請購/請款勾稽專用(嚴格 JSON 結構化輸出,欄位抽取精準度 95%+,LoRA 微調後可達 99%+)、
GLM-4.5-Air — 英文 EcoVadis/TCFD 框架備援,極少用。
調度邏輯:當常駐大腦發現工程師上傳了需要重大合約終審、複雜法規比對、或請購勾稽等任務時,系統會從高速 NVMe SSD 中「冷啟動」喚醒對應模型:
(1)跑 72B 時 → 卸載 30B-A3B + VL-7B + 7B 結構化模型,全力讓 72B 吃滿 ~45GB 、
(2)跑 7B 結構化抽取時 → 卸載 30B-A3B(保留 KV cache),載入 7B。
兩者不能同時跑——記憶體牆會撞。
為什麼是「6 個模型」而不是1個或3個?
「精準遵循格式」紀律:70B 智商高但「聽話度」不如 7B 專用模型。請購勾稽需要 100% JSON 結構穩定,一個欄位名拼錯整條 pipeline 會斷。
領域專精度:bge-large-zh-v1.5 對中文財務/合規術語的對齊,比 bge-m3 精準 15-25%。通用模型永遠比不上領域專用。
記憶體效率:6 個模型分層載入,比「一個 70B 全包」更省記憶體(72B 一次吃 45GB 還要 + KV cache,沒有餘裕跑日常對話)。 任務分流的物理基礎:常駐層跑得快(35-90 tok/s),按需層跑得深(4-8 tok/s),兩者速度差 10 倍——架構上本來就應該分流。
各任務的「模型調度路徑」
【日常對話類】 • 日常問答 / 文件過濾 → Qwen3-30B-A3B,35-90 tok/s,品質 90%+
【視覺 / OCR 類】 • 報價單 / 截圖 OCR → Qwen2.5-VL-7B,對話級速度,80-90% 一次到位
【RAG 查詢類】 • 通用文檔 RAG → bge-m3 嵌入 + Qwen3-30B-A3B 生成,35-90 tok/s • 中文合規 / ESG RAG → bge-large-zh-v1.5 嵌入 + Qwen3-30B-A3B 生成,35-90 tok/s,品質比通用精準 15-25%
【結構化抽取類】 • 請購 / 請款勾稽(JSON 抽取)→ Qwen2.5-7B-Instruct,100+ tok/s,欄位精準度 95%+(LoRA 微調後可達 99%+)
【長文 / 深度審查類】 • 資安 / 職安制度文件起草 → Qwen3-30B-A3B 起草 → Qwen3-72B 終審(雙階段協作) • ESG 問卷 50 題(CDP / EcoVadis)→ Qwen3-72B 一次讀完整份問卷 + 公司資料,4-8 tok/s(背景跑 5-10 分鐘),可用度 90%+ • 跨年 CDP 比對 → Qwen3-72B 長 context 模式,4-8 tok/s,Qwen 中文長 context 是 2025-2026 開源第一
【英文備援】 • 英文 EcoVadis 框架補充 → GLM-4.5-Air,4-8 tok/s,備援用
128GB 記憶體預算驗證
【日常輕載】常駐 4 模型(30A3B + VL-7B + bge-m3 + bge-large-zh)一起跑,總用量約 57GB,剩餘約 60GB buffer(極寬鬆)。
【結構化抽取場景】卸載 Qwen3-30B-A3B(保留 8GB KV cache)、保留 VL-7B 跟雙 bge、載入 Qwen2.5-7B-Instruct,總用量約 50GB,剩餘約 64GB buffer。
【中文 ESG 重砲場景】完全卸載日常模型(30A3B + VL-7B + 7B 結構化)、只留 bge 嵌入組、全力讓 Qwen3-72B 吃滿約 45GB + KV cache,總用量約 82GB,剩餘 32-38GB buffer(夠撐 40k context)。
【重要約束】72B 跑背景時,不能同時開 30B-A3B 對話——記憶體牆會撞。整體 6 個模型在 128GB 預算下完全可行,日常情境比 Gemini 原版 3 模型配置還寬鬆。
🔒 鋼鐵般的「零上雲」安全資料動線
這套架構最性感的亮點,在於全流程圍繞著 Privacy by Architecture(架構即隱私) 展開:
為什麼用「Privacy by Architecture」而不是「Compliance by Design」:後者是合規領域的專用詞(GDPR / HIPAA / SOC 2),暗示已經過第三方稽核。
「Privacy by Architecture」精準描述「從技術拓撲上就斷絕外洩可能」這件事,不涉及合規聲明。
Telegram 僅作為「無害遙控器」:人在外地辦公時,我透過手機 Telegram 發送控制指令(例如:「請幫我比對 NAS 裡 A 廠與 B 廠的合約」)。
Telegram 對話框中絕對不夾帶合約實體文件與任何機密文字。
Tailscale 構建網格私有隧道:本地工作站自建的自動化工作流引擎(n8n/OpenClaw)接收到指令後,透過互信的 Tailscale 虛擬私有網路,直接以唯讀權限連回我指定的本地 NAS 儲存伺服器。
真實資料絕不上雲:文件的搬運、去識別化、向量化沉積與 RAG 檢索,全量在安全的本地通道內閉環完成。這不是依賴雲端廠商的隱私合約承諾,而是從技術拓撲上徹底斷絕了洩漏風險。
遠端管道的機密分流:
(1)機密操作(看合約、跑 RAG)→ 走 Tailscale(點對點加密,不經第三方);
(2)非機密雜事(看 Docker 狀態、重啟服務)→ 才用 Google 遠端桌面(經 Google 中轉,只給非機密操作)。
第五章:網站可靠性工程(SRE)視角下的災難復原
當大部分的地端 AI 文章還在炫耀「我的設備開機跑出了多少 token/s」時,我的部署 Runbook(操作手冊)已經將超過一半的篇幅,砸在了最硬核的 IT 維運命題:「三個月後機器在無人值守時掛掉怎麼辦?」
這套系統的真正特色,在於它具備了「人不在機器旁,也能 100% 遠端復原服務鏈」的韌性(Robustness)。在 與AI討論的多輪架構疊代後,我為其注入了真正的 SRE 維運靈魂。
物理安全與無人值守自動復原的前置補丁
在遠端遙控的情境下,存在一個巨大的邏輯悖論:為了讓 Docker 隨 Windows 開機自啟動,最簡單的方案是設定「Windows 自動登入桌面」,但這無異於在辦公室留了一個實體資安漏洞——任何人接上螢幕就能看光你的電腦。
我的最終決策: 由於這台機器最終會搬回家中、上鎖、用自家 WiFi,實體接觸風險極低。我採用「自動登入 + Docker Desktop 開機自啟」這個較簡單的方案(方案 A)——把「桌面門戶」的風險靠實體環境吸收,而不是靠 WSL2 系統服務的複雜度去硬擋。
誠實說:這個決策背後的取捨是——如果你的機器放在公司或共用空間,強烈建議改走 WSL2 原生 Linux Docker 服務(方案 B),完全跳過自動登入,雖然設定較麻煩,但「桌面鎖著 + 服務自動起來」兩者可以兼得。
物理級的「硬斷電測試(Hard Power-off Test)」驗收
這套系統的最終驗收標準極其殘酷:在系統處於高負載推論(如 72B 模型正在背景瘋狂進行合約 Diffing 比對)狀態下,直接執行「物理拔除主機電源線」的操作。
重新插電開機後,全程不手動敲擊鍵盤,觀察系統是否能在 3 分鐘內自動恢復全量遠端遙控與 Telegram Bot 響應。
配合我們在裝機階段立下的「最高生死紅線」——利用雲端 AI 助手 Claude Code 編排與除錯環境時可聯網,但正式灌入真實合約進行測試前,必須完全登出 Claude Code 並切斷外部連線。
這確保了整套系統從 Day 1 開始,在資安上就讓大部分資料處理流程都能維持在本地閉環中,大幅降低資料外洩風險。
結語:用務實硬體構築隱私的尊嚴
這份多達數十條防線、包含災難決策樹的 Runbook,如果作為一份單純的 AIPC 開箱文,顯得太過硬核,甚至會把一般玩家嚇跑;
但如果將其放在專業的技術與商務維度上,它完整回答了一個時代命題: 如何用一台十萬台幣左右的 128GB UMA 電腦,為個人與中小企業打造一個可常態維運、可災難復原、具備高可用性的私有化 AI Agent 平台。
這套架構的核心尊嚴,在於打破了巨頭在 HBM 記憶體上的階級壟斷,讓日常的機械式勞動交給秒級響應的本地 MoE 模型,讓重大的合約審查交給排程運作的按需重砲。
把算力留給本地,把資料留給自己。
這才是 2026 年邊緣算力革命帶給真實世界,最誠實也最務實的禮物。