最後一個案例,這次輪到工程師的反擊了。
Hi 穩當當公司你好,
近期有一台你們的主機,就算OS閒置的時候,還是會一直發出嘈雜的刺耳聲,由於在FW 15的說明文件中有提到一個關於風扇轉速相關的修正,於是我們嘗試過將主機的FW從13升級到15的版本,但是對於問題沒有明顯幫助。另外,我們在系統的sensor裡發現,6個風扇中有2個風扇的轉速為零,但是關機更換後依舊無法改善這個問題。因此目前正決定要更換fanboard,請協助提供fanboard以及更換fanboard的SOP。
謝謝
工程師J一邊看著這封信,一邊想著,真是個上道的客人。寫信來詢問之前已經先把FW以及HW都做過了troubleshooting,最後自己還做了初步的判斷並主動來申請對應的零件與更換的SOP。
但是像這種同時有2個風扇一起壞掉的機率不太常見,尤其是更換後依舊無法運轉更印證了客人最後的判斷,也許是其他的零件有問題。
於是J和RD透過電腦分享fanboard的SOP,並一起討論fanboard更換的流程。
J:「所以把那6個風扇移除掉,螺絲拆開就可以換了對吧?」
RD:「對呀,但是我剛想到一件事,他們換上去的fanboard最好檢查一下上頭的FW版本哦,太舊的話也建議一起更新。」
J:「什麼?fanboard也有FW哦?」
RD:「哈,不要擔心,我等等給你一份SOP,有檢查的方法以及更新的方式和tool」
J:「謝啦!」
...
..
.
過了一會兒,J又找上了RD。
J:「哈囉,我剛看著你的SOP,總覺得好像那裡怪怪的耶?」
RD:「怎麼說?」
J:「我看SOP裡,6個風扇的機器和客人的長的不太一樣耶」
RD:「SOP裡包含了1U和2U的機器呀,1U的機器是6個風扇,2U的機器,只有4個風扇,你說的不一樣是指什麼?」
J:「我看客人的機器應該是2U才對耶!等我一下,我查查這台機器手邊的舊資料」
於是J憑著以前建檔的資料,利用everything快速搜尋了一下這台主機以往有沒有回報過什麼問題。
J:「有了,這台機器半年前因為CPU插槽故障有請他們換過主機板。」
RD:「有一種可能是,因為我們1U和2U的機器主機板是共用的,也許他們更換時使用了帶有錯誤FW設定的主機板,因此從換上去的那時候開始,就一直處於風扇sensor數量異常的情況了。」
J:「我覺得這樣才能解釋為什麼有2個風扇一直處於沒有轉速的情況,因為實際上根本沒有那些風扇的存在!那麼需要請客人更換成正確的主機板嗎?還是那些FW設定可以事後修改?」
RD:「這個FW設定是可以透過額外的FW tool來修改啦,修改後記得重開機就好,問題不大!」
於是J趕緊把這個重要的發現告訴客人,並提供了對應的FW tool以及command讓客人修改成正確的設定。
想不到客人立馬就回信說,程式執行錯誤,請我們檢查提供的檔案。
J跟RD一看執行錯誤的畫面才發現,原來客人的作業系統不是linux,所以FW tool無法正常執行。
但是RD表示這個FW tool由於當初是設計給產線使用的,因此只有linux版本。
正當J在苦思怎麼開口"建議"客人在原本的機器上變出一個linux來執行這個FW tool的同時,J突然瞄到了剛剛查詢everything的視窗裡,有個客人profile的檔案。
由於每個客人來信的間隔不定,有些profile半年到一年才會更新,於是J一邊思索著裡頭記錄了什麼,一邊打開來看,突然看到一個備註寫在"其他"的地方。
其他:客人端有開發自己的mini iso作為簡易硬體檢測環境使用(linux base)
這個將近快兩年前的備註竟然救了現在的自己一命,立刻寫信詢問客人目前這個mini iso是否還有在使用。
事後這個問題便是透過將FW tool複製到客人的mini iso中執行後順利解決。
有趣的一個點是,當客人發現提供的FW tool無法執行時,他們反而沒有把linux與mini iso這兩件事聯想在一起,而是J提出這個建議後,他們才意識到這是個可行的做法。可見除了對於客人的環境以及工具有足夠的了解之外,與客人之間能使用共通的術語溝通,的確能省下許多時間成本與減少誤會。
最後,客人驚訝於這麼久之前留下的問題,J竟然在短時間內就釐清背後的緣故以及找到合適客人的做法,最後捎給J以下的信。
Hi J,
Fantasic! That's a speedrun of troubleshooting!
Thanks.
這個瞬間,J突然覺得自己平常積累的一切努力,在客人身上獲得了回報!