很多資淺或是剛入行的工程師,常常在看老手處理問題,troubleshooting的速度以及下判斷的精準度令人咋舌。除了那些因為經驗已經遇過的問題可以立馬回答的出來以外,光看錯誤的log或是發生的徵兆,就能夠將問題大概和主機的那一部分軟硬體有關精準的抓出來。
但是有一種情況就連老手都很難處理,那就是客人自己帶著強烈的主觀來回報問題,表面上是跟你請教討論,實質上是想讓你證明他的猜測,並配合他們做後續的處理。有時不光只是猜測,客人自己還花了大把時間先做了數次甚至數小時的實驗。但是這些實驗與猜測其實在沒有先與廠商討論過的前提下,有時往往不見得有幫助,甚至還會造成後續troubleshooting的負擔。
今天要講的案例,便是這樣的故事。
某個BLUE MONDAY,客服工程師K收到了一封來自客人H的信,一開頭就把配合這個客人的業務的小姐姐也加上了。
看著文章落落長又段落分明就知道,肯定不是什麼好差事。
信裡提到,他們的工程師發現穩當當公司的伺服器在搭配使用P牌PSU的1212-1L v3時,效能有明顯低落的問題。
然後就是一個表格來表示他們的測試結果,表格下方還附上2張PSU的全身照,試圖增加說服力。
恩?表格下方怎麼有個備註,"only v3 work normal performance when mixed v5 and v3"。
難不成客人是在機器上混用不同型號的PSU嗎?這聽起來問題就很大耶!
再往下看客人立馬強調,"照片上的PSU是相同型號的P牌1212-1L,只是一張是v3,另一張是v5"
K突然想起,以前的確也有相同PSU但是隨著廠商來料時,會不同版(通常是進版)的情況發生,的確這種混用的情況也不少。看來還是需要了解一下表格中的測試結果然後把信看完才有辦法轉述問題給RD知道與討論。
從表格上的測試結果看來,客人拿了兩台穩當當的伺服器來做PSU的實驗,測試的手法是跑hdparm -tT來存取機器上的硬碟。但是表格上首先將v5的PSU在server T & Q移除電源線後,server T的低能就變低落了;第二次針是v3的PSU只在server Q移除電源線,效能也變低落,那為什麼備註寫著v3的PSU是正常的啦?這個實驗到底想表達什麼....兩台不同的機器結果不同,第二次的實驗還只有針對某一台測試。
K長嘆一口氣後,忍著性子把信嘗試著看完,沒想到客人最後竟然用更多的測試結果來了個總結。
看著這份更長的表格,以及不知道對方拿什麼機器來做測試,K下定決心把這個表格當作信件的開頭了。
心裡並想著,我自己都看不太懂客人想表達什麼了,這種東西拿去找RD討論的話似乎等著被罵臭頭,這裡稍微記錄一下好了:
1.同時裝上v3 or v5時,效能都是正常
2.2個v3時,拔除一個效能會下降
3.v3 + v5時,拔除v3效能會下降
4.單獨使用v3,效能不好
在得出上面結論的同時,K感受到了這是一個"針對"v3 PSU的實驗,因為實驗過程少了2個v5並拔除其中一個的測試,似乎表示著客人沒有要了解只拔除2個v5的其中一個會有什麼結果,並拿來和v3做比較。而且最後客人還已經得出了一個單獨使用v3效能不好的測試結果。
果然這樣的結論,與客人最後的訴求也息息相關。
「總而言之,我們的工程師覺得v3 PSU有問題」「請幫忙判斷比較好的做法是更換PSU或是升級PSU FW」
K落入了一個兩難的困境,雖然很想兩手一攤找RD求救,但是這個資訊量爆炸而且充滿了問號的信件內容實在是需要先向客人做些初步的釐清,於是他回頭看了看,認為目前最大的疑問如果客人認為使用v3效能會不好的話,為什麼混用時,拔除v3只留下v5也會有這個這個現象呢?
信件發出的同時,也順帶向客人確認了一下最後的測試是穩當當的那一台伺服器做的測試。
星期二、星期三、星期四過去了,都沒收到客人的回應。
「這麼簡單的問題,照理來說客人做了這麼多測試,應該不需要花這麼久的時間確認吧?」K心裡這麼想著,一邊吃他的早餐。在最後一口奶茶喝完前,客人回信了。
「不好意思,之前的信件裡有一個錯誤的部分」
「%$^@&!^@&%」K已經不知道在心裡重複了這些符號幾次。
這唯一的不合理處暫時得到澄清,便立馬找RD來商量一下,看是不是有遇過什麼類似的問題或者能跟廠商確認一下他們的v3 & v5 在 FW & HW上有做了那些設計變更,也許像客人說的升級個PSU FW就沒事了也說不定?
RD同時也交代下,要讓客人統計一下他們手上v3的PSU數量,以及協助我們觀察下發生效能問題時,CPU的頻率有沒有什麼異常的狀況,因為效能問題與PSU的節流功能(throttle)聽起來滿有相關性,當PSU的節流功能觸發時,CPU的頻率同時也會受到影響。
「該不會踩到了什麼FW bug導致PSU throttle的功能有什麼異常吧?」聽起來像是個熟悉的套路,客人用了有問題的FW好一陣子才發現異常,仔細一查又得出異常的現象都集中在特定FW版本,再合理不過了。
這次客人的回應倒是非常迅速,彷彿早就把答案準備好,等著我們來發問一樣。
不過聽到答案的K可是下巴都差點掉了,客人手上v3的PSU數量是6700個。而且不問還不要緊,客人還很"好心"的告訴我們,v2的PSU也有相同問題,但是v4和v5沒事,型號都是相同的P牌1212-1L。
內部會議上,本來會以為一片愁雲慘霧,結果RD帶著好消息回來了!
RD表示,server Q的設計本身就是依循PSU的標準,並支援冗餘(redundancy)模式。在此模式下只要有任何一個PSU的電源線被拔除,就會對系統效能做節流,所以v3 PSU的行為是正常的。至於v5 PSU為什麼沒有這個行為,目前還在等廠商內部做進一步確認。
於是K帶著很複雜的心情寫著這些RD帶來的"好消息",並發給了客人。
想不到,這次回信的人變成了客人的業務。
先前信裡的資訊是要表達v3 PSU的行為一切正常,你們沒有任何對策是嗎?如果是這樣的話,我要求一封代表穩當當公司正式的信件作為對我們手上6700個v3 PSU運作的擔保。
謝謝。」
哇,搞成這樣好像讓客人認為我們在甩鍋了!
這樣的信件在內部是很有影響力的,業務立馬召集了各路英雄們展開下一次的自救會議。
突然K發現會議上來了個沒看過的人。
「大家好,我是負責和P牌公司接洽的電源工程師E,經由廠商內部確認後,P牌的1212-1L目前只有v3的版本哦。
沒有所謂的v4甚至v5」
!!!!!!!!
「K,先前信件中雖然客人有提供過兩款PSU的照片,但是畫面太小了不是很清楚,你可以幫我們向客人要他口中v3和v5 PSU的近照嗎?」
這有什麼問題,人還在會議中的K立馬就用手機發了封簡短的信件,告訴對方目前有個重要的資訊需要確認,請客人提供照片過來。
在大家還在做各方猜測的同時,K已經收到了客人的回信,幾個RD也圍上前來。
v3的PSU上寫著型號:P牌 1212-1L v3
v5的PSU上寫著型號:P牌 1212-1L1 v5
沒想到所謂的v3 和v5 根本從頭到尾都是兩個不同的PSU型號。
而且電源工程師E立馬就說出了,我記得1212-1L1是不支援節流功能的。因此兩個PSU的行為會完全不同。
雖然在場的所有人都有一種我們到底在瞎忙什麼的OS,但是K這時候提醒大家,不知道在幾封信裡頭,客人一再的跟我們強調「相同型號」。此時,大家鳥獸散,並口中唸唸有詞「說好的相同型號咧…」