iT邦幫忙

2024 iThome 鐵人賽

DAY 16
0
IT 管理

Troubleshooting - 隔空抓藥的日常與實務技巧系列 第 16

Day 16 - PTSD of Live Troubleshooting - 除了技術以外實務上還需要注意的細節

  • 分享至 

  • xImage
  •  

Troubleshooting這個字,聽起來是個積極的字眼。但是該做到什麼程度你的同事、老板甚至你公司的業務都很難具體給出個明確的定義。因為一但和客人要來認真計較起合約與保固內容,往往是兩敗俱傷。

只要你的客人夠有名氣,花了足夠的錢,都能花所有的不可能為可能。到時候站出來說不行的人,又很可能事後成為那個被客訴的對象。

因此第一線的工程師往往就是那個,在內部還沒討論出troubleshooting該做到什麼程度時,你就先擋一擋。

今天就是這種慘痛的案例。

穩當當的工程師K,人身處美國穩當當分公司,負責美國區域的技術支援服務。客服工程師的莫非定律就是客人總會在你要下班前突然發信來問你問題,K也不例外。

目前時間是下午五點,客人A一來信就表示,這是個十萬火急(severity 1),而且影響重大(extreme high)的問題。客人A賣給客人B的機器突然失效,目前無法開機,而且已經停擺了兩個小時,就算是將機器上的電源線重插拔也無法解決。

K的腦海中基於不想加班的本能,迅速的有如使用ChatGPT一般,自動生了成標準電源失效的客服文本。洋洋灑灑就是四個基於系統上所有電源線與電源供應器的基本troubleshooting步驟以及交叉驗證流程,並加上完整的使用者活動調查的範例。目的是將這台機器掛掉前的2 - 4小時所有人為非人為因素讓客人B列出。

務求詳細調查清楚問題發生的原因以及目前詳細的狀況,順便看能不能找到一個能順利開機的方法。

另一方面,由於快要下班了,恰好台灣區總公司的同事也差不多已經上線,同時向總公司的同事G請求火力支援。

沒想到信才寫到一半,就發現客人A已經用公司代表號打電話來求救了,只好趕緊把寫一半的信先寄給G同事,並接起電話。

電話中,客人A表示除了電源供應器的備品正在準備外,其他信上建議的動作都已經做了,仍然無法將機器順利開機。

而且,不知道什麼原因,無法連入機器的管理系統,因此也沒有任何的HW log可以提供參考。最後開始試探性的詢問,客人B想"邀請"K一起參加會議,這樣處理問題起來比較"即時"。K當然表示自己還需要查詢一些資料,並與同事討論,之後會再回信。

電話講完後,已經是七點了,K的身邊已經沒有任何同事。總公司的G同事也表示,目前沒聽說過有發生類似的問題,還是先以更換電源供應器以及相關的零件為主。

在K想著要怎樣才能讓客人做一個段落,然後他可以快點回家的同時,雪上加霜的消息也跟著來到,客人B表示備用的電源供應器2個都換上了,還是沒有辦法解決開機的問題。因此客人A決定建議客人B換電源模組,然後連絡的工作會交接給客人這邊下一個時區的工程師。

沒想到K才收到這消息沒多久,客人A下個時區的工程師立馬送出了請K加入會議邀請的通知。

WTF! K本來正想著把換電源模組的注意事項跟SOP交出後就要閃人的,沒想到對方也沒有要讓他閃人的意思,硬是要拖他下水。

K只好硬著頭皮先上去瞧瞧,裡頭有邀請K參加會議的客人和他們的自己的客戶,為了方便稱呼這裡的end customer就稱為客人。

客戶對於更換電源模組的指示感到有點擔心,因此交代想讓K上來當面問一些細節。幸好討論的過程不是很久,半小時後,就把K放走了。

時間已經來到了K的晚上八點,再善良的人也已經意識到再這樣下去不行了!

立馬電腦關機跳上車子,殊不知,車子還沒開到停車場的出口,Outlook便又跳出客人送來的會議通知邀請!

What!這是什麼奪命連環call嗎?K立馬用IM連絡總公司的G同事,在這個節骨眼上,是該尋求幫助的時候了!

「Hey Bro! 那個會議可以交給你嗎,OK?」

G看著電腦上的多國時鐘,還有剛剛看完的來龍去脈,就算知道這會是場持久戰也只能坦然接受了。

G立馬主動連絡客人,表示再來的支援由這邊接手,並加入了會議。

G加入會議時,裡頭有兩位客人A的工程師,一位是轉換時區後接手的工程師,簡短的打了聲招呼後,就繼續和客人B解釋我們再來的計畫,客人B表示電源模組如果更新後無法解決問題的話,希望先準備好備案,因為這裡的一切變更都需要向其他像網路人員或是基礎建設人員取得授權,所以中間需要的東西先提前準備好比較不會延遲作業。G向RD討論了客人B的疑問後,便表示在troubleshooting資源有限的情況就也只能先換主機板試試。

討論完畢後,客人B便去準備進行更換,然後會議就陷入了一片沈默。由於客人B這邊不只一個人加入會議,也不清楚那些人還在會議裡,而那些人只是離開電腦。此時,已經是G的午餐時間,客人端的晚上9點,G只好一邊吃著同事幫忙買的午餐一邊standby。

吃到一半,客人B這邊突然出聲了,電源模組更換後目前已經可以開機了,等待他們再做詳細的檢查後應該就沒問題了。

呼!真是鬆了一口氣,然而客人B卻在此時表示,希望G可以留在會議中,等到完全確認沒問題後再下線。不然他們怕又遇到問題時,臨時找不到人做決定。

G想著,都已經能開機了,應該也就再一下下的時間吧,加上客人A後來也搭話說希望G留下,只好迫於壓力下留著。

G一邊滑著手機,一邊等待消息,隨著時間過去,G也分心開始處理手上其他工作。

突然又有人出聲了,客人B說目前機器雖然可以開機,但是管理介面的帳號密碼無法登入,想詢問管理介面有沒有重置密碼的方式。

昏倒!真的是一波又平,一波又起,只是好端端的換個硬體怎麼會導致管理介面無法登入,又再花了一個小時的時間和對方做確認,G一邊和RD傳訊息,一邊和客人開會討論,RD最後認為還是換主機板比較快,因此客人的情況實在不符合平常的狀況。

此時,又是另一段長時間的等待,主機板的更換比起電源供應器與電源模組更加的耗時,所有的伺服器零組件幾乎都安裝在上頭或是與其相連接。因此這個大工程耗費了將近2個小時才完成,幸運的是主機板換完之後,管理介面登入的問題也已經解決了,只是這個會議的時間已經來到了將近8個小時,客人目前在做虛擬主機開機的動作以及相關網路的連通性測試。

G的主管聽說他開了一個很長的會也過來關心了。

「嘿,你怎麼會還沒開完?」
「這個客人一直堅持要我們在會議上陪他做troubleshooting以及等待更換HW的動作,我結束不了T_T」

「已經快要下班了,你這樣是要陪他耗到幾點呀?客人那邊現在是幾點?」
「我看一下哦....晚上......12點?!」

此時客人A這邊,另一個一直沒有說話的工程師突然發聲了。

「由於時間的關係,我會繼續接手這個會議,謝謝」

主管提醒G,趁現在一起下線,這種技術支援的方式太不合理了。

於是G也一起發聲:「既然開機問題和管理介面登入的問題都解決了,那麼我這邊也先下線了,後續有問題的話我們可以在信中討論」

客人B沒有出聲,可能還在處理主機那邊的工作,客人A這邊接手的工程師表示,非常感謝G的支援,便放他離開了。

會議結束之後,G和主管以及負責客人A的業務開了一個會,決定要向對方抗議這件事情。

畢竟合約之中並沒有提到需要做如此長時間的電話技術支援,而且會議中很明顯客人B不太信任客人A的提議。

很多K和G已經建議過客人A的內容,客人B又在會議中向K和G再三確認後,才願意執行。

從此之後,K和G每每想到這個案例,都還是會拿出來開玩笑。


上一篇
Day 15 - 人終有一死,機器終有一壞(伺服器大部分解開始!)
下一篇
Day 17 - Hardware 不穩,PSOD/BSOD頻發,CPU一直壞?你有聽過Microcode嗎?[上集]
系列文
Troubleshooting - 隔空抓藥的日常與實務技巧30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言