Artificial Intelligence for IT Operations AIOps,是一種結合人工智慧技術,如機器學習和自然語言處理,來自動化和優化 IT 營運流程的方法。AIOps 的核心目標是透過即時資料分析、自動化反應或修復,以及預測性分析,來提升 IT 系統的效率、可靠性和可用性。
AIOps 透過收集和分析來自不同 IT 基礎設施元件的龐大資料,實現以下功能
資料收集與整合
AIOps 會收集和整合來自多個 IT 基礎設施、應用程式需求、效能監控工具和服務工單系統的資料。這些資料來源多樣,可能來自網路、日誌 (Log) 和應用程式 Request 等。
訊號與雜訊分離
AIOps 能夠從海量的資料中篩選出重要事件和模式,過濾掉不相關的雜訊,並辨識與應用程式效能和可用性相關的問題。
根本原因分析與自動反應
AIOps 可以將異常事件與其他事件資料關聯起來,定位故障原因,並提供解決方案。某些情況下 AIOps 可以不需要人類參與的情況下自動解決這些問題。
持續學習與改進
AIOps 系統會不斷學習,適應新的基礎設施變化,如由 DevOps 團隊配置或重新配置的基礎設施,從而提高處理未來問題的能力。
異常偵測與預測分析
AIOps 工具可以通過歷史資料分析,快速偵測異常行為並預測可能的系統問題,從而在問題發生前提前預防,減少系統中斷的風險。
根本原因分析
透過自動化的根本原因分析,AIOps 可以快速找到系統故障的根源,並推薦解決方案,加速排除問題的處理時間。
雲端自動化與最佳化
AIOps 在雲端環境中提供可觀測性和自動化功能,有效管理雲端應用程式的運行和擴展,確保資源的最佳化利用。
縮短問題解決時間
AIOps 能夠更快地識別和解決系統問題,減少因系統停機帶來的損失。例如 Vivy 公司的 IT 基礎設施利用 AIOps 將應用程式的修復時間縮短了 66%,從三天縮減至一天以內。
降低營運成本
自動化辨識營運問題和重複性的處理程序,減少了人工參與的需求,從而降低了營運成本。例如 Providence 公司節省了超過 200 萬美元,同時確保了應用程式在高峰期間的效能。
更高的可觀測性和更好的協作
AIOps 監控工具中的整合有助於跨 DevOps、ITOps 和安全功能進行更有效的跨團隊協作。更好的可觀測性、溝通和透明度使這些團隊能夠改善決策並更快地回應問題。例如 Dealerware 公司為其基於容器化架構帶來了更多的可觀測性,從而提高了流量高峰期間的應用程式效能,且減少延遲 98%。