在過去二十多年的 IT 生涯裡,從光華商場組裝維修、賭場運維,到現在的工廠 IT 管理,我發現了一件很有趣的事情:
大多數故障排除問題,缺的其實不是知識,而是順序。
相信很多 MIS 或 IT 工程師都遇過類似場景:
凌晨三點,手機響起。
接起來後第一句話通常不是:
「請幫我分析這個問題背後的根本原因。」
而是:
「全公司不能上網了!」
或者:
「ERP 連不上!」
「Exchange 郵件掛了!」
「考勤機資料不同步!」
這時候大腦還沒完全開機。
你需要的不是長篇大論。
而是:
第一步查什麼?
第二步查什麼?
第三步查什麼?
我平常也大量使用 Claude、GPT、Gemini。
它們在許多領域都非常優秀。
但在 IT 故障排除這件事上,我經常遇到同樣的情況:
我問:
全公司無法上網,該怎麼查?
LLM 回:
網路問題可能由許多因素造成,例如 DNS、DHCP、交換器、路由器、防火牆、ISP、網路拓樸設計、ACL、VLAN 配置錯誤……
然後開始輸出數百甚至上千 Token 的分析。
問題是:
我現在不是在寫論文。
我是在排障。
如果是一位做了二十年的網管坐在旁邊。
他的回答通常是:
STEP 1
先 Ping Gateway
通?
→ STEP 2
不通?
→ 查交換器或 VLAN
接著:
STEP 2
Ping DNS
通?
→ STEP 3
不通?
→ 查 DNS Server
這就是現場排障的思維。
不是先分析所有可能性。
而是:
縮小範圍
排除變因
一步一步定位問題
我曾經看過很多新人遇到問題時:
ERP 打不開
↓
開始重灌電腦
結果最後發現:
DNS 掛了
也看過:
郵件收不到
↓
研究 Outlook 設定
研究兩個小時。
最後發現:
Exchange Server 沒啟動
其實很多故障並不難。
真正困難的是:
在壓力之下,知道下一步該查什麼。
因此我開始思考:
能不能把多年累積下來的排障流程整理出來?
讓 AI 不只是回答問題。
而是帶著使用者進行排查。
例如:
網路異常
↓
Gateway
↓
DNS
↓
DHCP
↓
Switch
↓
Firewall
↓
ISP
一步一步往下走。
而不是一次丟出二十種可能原因。
很多人看到這個工具會以為:
這是一個 AI 專案。
其實不完全是。
我認為它更像:
二十多年排障經驗
+
Decision Tree
+
Runbook
+
AI 介面
AI 只是讓互動變得更自然。
真正有價值的部分,是那些在現場踩坑累積出來的流程。
原因很簡單。
我相信:
經驗可以共享。
尤其在工廠、企業、學校、醫院等環境裡,很多 IT 人員其實面臨相同的問題。
如果這些排障經驗能夠被整理成可重複使用的工具。
那麼新人可以少走一些彎路。
資深工程師也能節省一些時間。
目前 IT Diagnostic Agent 已經支援:
後續也會持續加入:
等更多企業常見場景。
IT 工程師在故障發生時,
最需要的往往不是更多資訊。
而是下一步。
而 IT Diagnostic Agent 的目標很簡單:
在最短時間內,幫使用者找到下一步該做什麼。
https://github.com/richchang0721-boop/it-diagnostic-agent
如果你也是 MIS、網管或系統工程師,歡迎提出建議與實際案例,一起讓這個工具變得更好。