iTop 問題管理(Problem Management)簡介

2024 iThome 鐵人賽

DAY 30

IT 管理

iTop：開源 ITSM 與 CMDB 解決方案系列第 30 篇

16th鐵人賽 itsm itop problem

Ivan Cheng

2024-10-13 08:20:56

3545 瀏覽

分享至

問題管理是識別和管理 IT 服務事故原因的流程，旨在識別和管理 IT 基礎架構中的根本原因，以防止問題引起的重複事件。其目標是找出並解決造成一個或多個事故的根本原因，以及在問題尚未完全解決前提供臨時的替代解決方案或變通措施。

我們先來看看 iTop 標準的 Problem Life Cycle 長怎樣。

把人物角色放上去，是不是比較容易理解了。

通常由部門的主管來擔任問題管理員的角色，負責建立問題並且指派給熟悉該領域的主任工程師或資深工程師，因為他們才是精通該問題的專家。針對潛在或已經發生的事故進行深入分析，找出問題的根本原因並解決，以避免類似事件再次發生。

真實案例分享：Terminal Quit Unexpectedly
事故描述：某位使用者反應透過遠端桌面連線至終端機伺服器，開啟 Excel 工作時發生不定時斷線問題，嚴重影響工作進度。

Service Desk Team 很快地就將該 Incident 指派給該服務的維運團隊，於是就展開了以下的對話。

Application Team：該使用者連線到的終端伺服器也都正常運作，看看其他線上用戶不都跑得好好的，是不是網路問題啊。

Network Team：我們查了該辦公區域負責連線的交換機，沒有發生任何的封包遺漏，而且反應時間都正常，我們的網路沒有問題。

Service Desk Team：我們也是照著標準作業流程，使用同一個映像檔安裝作業系統的，之前的設備也都沒有狀況。

問題管理員可以透過 Problem management 的 New Problem，建立與指派問題。

General Information

Caller：請求的人員
Status：狀態可分為 New、Assigned、Resolved 與 Closed。
Product：發生問題的產品。
Title：問題的標題
Description：問題的描述

Qualification

Impact：影響的範圍可選擇 Person、Department 或 Service。
Urgency：緊急程度，優先處理相關度最高、最有價值的問題。

More Information

Service：發生問題的服務，例如 Desktop Support。
Service Subcategory：發生問題的子服務，例如 Application Error Resolution。

指派給熟悉該領域的專家，因為他們擁有足夠深度與廣度的專業知識與技能，能夠深入問題的核心進行分析。

問題和事故之間的主要區別在於，事故必須盡快解決，以縮短服務不可用的時間，而問題則著重於找出根本原因。在根本原因未確定之前，通常會提供一個替代解決方案來幫助解決相應的重複性事件。

我們可以將相關的 CIs 與問題進行連結。

也可以將相關的 Incident 與問題進行關聯

分析步驟

首先找到該台電腦的 MAC Address
登入 DHCP 伺服器剖析日誌檔，找到當下該 MAC 到底發配了哪個 IP 。
再登入 HAProxy 伺服器剖析日誌檔，透過 IP 找到當下的 Session 紀錄，該筆紀錄明確表明中斷是發生在使用者端，而非伺服器端。

藉由 Term Code 便可得知是從哪一方斷開的，例如 CD 代表是使用者端不預期的中斷資料傳輸。

The client unexpectedly aborted during data transfer. This can be caused by a browser crash, by an intermediate equipment between the client and haproxy which decided to actively break the connection, by network routing issues between the client and haproxy, or by a keep-alive session between the server and the client terminated first by the client.