為什麼需要談?
一次「神作」不代表能上線。你要的是「平均穩、最差能接受」。
白話定義
A/B=只改一個變因做對照;穩定性=多次重跑、看平均/標準差/最差值。
常見情境
決定口吻(專業 vs 親和)
決定結構(表格 vs 條列)
決定粒度(每點 1 句 vs 2 句)
常見誤解
看最好那次就做決策
一次改一堆(無法歸因)
實用心法
10×3 法:找 10 份代表案例,每個版本跑 3 次,記平均/最差。
三維評分:正確性、完整性、可讀性,各 0–2 分(可讓不同人重複評)。
失敗集:把踩雷輸出收集成「反例庫」,下次檢核專打這些點。
檢核清單
固定測試集與打分規則有了嗎?
每次只改 1 個變因嗎?
有記錄平均、標準差與最差值嗎?
小結
可預測才可維運。穩定>偶爾很神。