在過去幾年,生成式 AI 的研究大多集中於模型本身的能力:更大的參數、更豐富的語料、更高的準確度。然而,真正要讓 AI 落地到產業環境時,挑戰往往不在「模型會不會算」,而在「模型能不能跑得起來」。
雲端(Cloud)幾乎是生成式 AI 部署的第一選擇。無論是 OpenAI、Anthropic,還是 Google Gemini,雲端都能提供強大的 GPU、彈性的擴展能力,以及快速的 API 接入。但這種方式也有弱點:
延遲問題:需要穩定的網路連線,對即時應用(如自駕車、醫療輔助診斷)並不理想。
隱私與合規:部分行業(金融、醫療、政府)對數據外流高度敏感,直接傳到雲端可能違反法規。
因此,「邊緣 AI」(Edge AI)的需求快速上升。將生成式 AI 模型壓縮、蒸餾,甚至專門訓練輕量版本,讓它能在手機、車載系統、甚至 IoT 裝置上直接運行。這樣能帶來:
低延遲:回應幾乎即時。
資料在地化:減少傳輸風險,提升隱私保障。
離線能力:在網路不穩定的環境中依然能運作。
要把 175B 參數的 GPT 類模型塞進一台手機是不可能的。因此產業界出現了幾個關鍵技術:
模型蒸餾(Distillation):用大模型「教」小模型,保留知識核心。
量化(Quantization):把浮點數精度降低(例如 FP32 → INT8),在犧牲些微準確率的情況下,大幅減少運算成本。
硬體加速:TPU、NPU、GPU,以及專用 AI 晶片的導入,讓邊緣推理變得可行。
智慧客服:企業可能選擇混合架構,基礎 FAQ 回答由邊緣模型處理,複雜問題才送到雲端大模型。
車載 AI 助理:透過邊緣生成式 AI,車輛不需要上網也能提供自然語言導航與控制。
醫療應用:部分初步影像分析可在院內伺服器完成,避免病患資料外流。
未來,我們會看到更多「雲 + 邊緣」的混合模式:雲端負責訓練和重型推理,邊緣負責即時回應與隱私敏感的場景。這種架構將是生成式 AI 真正落地的關鍵。