iT邦幫忙

2024 iThome 鐵人賽

DAY 22
0
IT 管理

Troubleshooting - 隔空抓藥的日常與實務技巧系列 第 22

Day 22 - 硬體問題的眉眉角角,許多你最好不要遇到,但是遇到了也不稀奇的問題(產品生命周期導致的issue)

  • 分享至 

  • xImage
  •  

也許是個性使然吧,身處服務客人的第一線為了有更多的手法能按捺客人,總是會希望想方設法的盡可能了解產品所有發生問題的原因與經過,有一段時間也曾和許多經手的PM合作的非常緊密。加上服務過的客人大大小小都有,遇到的問題也是千奇百怪。

除了那些傳統的設計錯誤,有一類絕對是廠商最頭大的,那就是產品上大小零組件的世代交替。

通常機器在研發階段使用的會是main source,等到準備量產前會和2nd source一起做驗證,確保量產後如果main source因為各種如缺料或是停產的原因,導致無法繼續生產時,便可使用2nd source來繼續製造產品。

理想上2nd source與main source都是經過驗證,因此品質與表現應該是相同的。但是實際上往往並非如此,因此才會有今天這篇文章的誕生。

下面提供兩個平行世界的案例供大家參考。

1. main source 出錯

穩當當公司的客製化A產品被客人回報在使用了約一到兩年後,出現了不正常關機後便無法再開機的現象。不論客人配合RD做了多少電源相關的檢查,以及更換電源供應器或是CPU都沒有辦法解決,最後更換產品上的電源模組後才能正常開機。由於數量眾多,目前電源模組已經退回給RD以及工廠同時進行分析。

事發約一個月後,穩當當公司的B產品也發現類似問題,經客服工程師多方調查,的確也是都在使用過一陣子後發生無法正常開機的情形。由於客製化的A產品與B產品是不同產品線,因此第一時間兩組人馬沒有互相交換資訊,直到高層人員發現陸續有C和D產品也遇到相同現象,才安排品質小組的人做了內部調查,統整所有的資料。

最早的客製化A產品後來經過RD分析後,可能和電源IC廠商有關,因此將數個電源IC退回給廠商分析。

經過約一個月的分析,只得到了這幾個電源IC可能有產品老化的問題,並沒有從品管的角度上採取任何進一步的動作。

一直到使用A產品的客人協同穩當當公司一起做出相關的法律聲明,電源IC廠商才願意接受更多的樣本,並安排做更全面的檢查與分析。

在又過了兩個月後,最終電源IC廠商承認他們的IC在某幾個製造日期的批次上有品質問題,因此IC會提早老化導致產品的電源失效。

這個問題由於是在產品量產後的約一年多發生,此電源IC是main source,初期只有禁用廠商承認的特定批次的main source。但是好景不常,再過了一年多,使用A產品的客人又開始回報類似的問題出現,這次很快的便將發生問題的電源IC再次做退回廠商分析,雖然已經是不同批次的main source,依然還是會有同樣老化的問題。

因此穩當當公司內部決議在製造端將main source棄用,立即全面將電源IC切換到2nd source。之後便再也沒有類似的情況在其他產品發生。

2. 2nd source 出錯

如果你以為main source出事了,還有2nd source可以扛,那你可要小心了。

穩當當公司的災難又要來了。

熱銷產品S由於市場反應良好,賣了好幾年還是持續有新的訂單,眼看S的下一代產品都出了還是有人抱著S不放。

但是賣的再好的產品也是會遇到一個問題.....零件停產。

上頭有一個重要的硬碟控制卡即將停產,幸好它的下一代產品在S還是能夠繼續使用。

於是RD們想著,那就把S加進去,請整合測試人員做些基本的檢查就可以了,畢竟功能和效能與前一代產品沒有太大差異。

新的硬碟控制卡開始販售,前期也沒有太大的問題發生。

直到某個買了很多產品S,並拿來做大量讀寫與複雜計算的客人開始反應,他們的機器會有作業系統當機的問題,不清楚是不是最近更新了作業系統造成的。

初期客服工程師與客人來回做了一些確認,由於客人有從作業系統的工程師那邊拿到一些OS的錯誤分析報告。因此大家忙著討論上頭的錯誤訊息,並做一些設定上的調整,但是依舊無法解決這個隨機發生的問題。

爾後,在一次與客人討論的過程中,客人突然自己提及了,這些發生問題的產品似乎都是新購買的,但是由於客人的機房有多個據點,只有2個據點的產品會有隨機發生的狀況,於是大家開始著手比較據點間產品的差別。

這2個據點相較於其他據點,相對單純,之前並沒有任何機器,因此採購的都是搭載新的硬碟控制卡的產品S。

而新據點1,發生問題的數量最多,新據點2則只有一台,兩個據點購買的產品數量都是20台。

最後一個不同的因素只有新據點1的機房溫度,由於本身條件的關係,只能設定在25度,有別於其他的機房溫度都是22度,但是兩者都在機器正常的運作溫度中運行。

最後作業系統的工程師那邊找到了一個關鍵的log,硬碟控制卡過熱導致作業系統卡死。

硬碟控制卡的溫度的確不在產品S的BMC監控中,因此從一開始就被忽略了。

而且硬碟控制卡當時在2nd source的測試中,由於產品S已經脫離正常的產品開發周期,處於量產後的時期。

在之前的案例中,產品經理那邊也沒有過硬碟控制卡需要在量產後針對環境溫度高低做相關的驗證,才導致了這次的問題發生。 最後只好在不更換2nd source的前提下對產品做散熱的改善,才解決了這次危機。


上一篇
Day 21 - BMC event log 自學不求人[下] (BMC SEL LOG 重點提示)
下一篇
Day 23 - 不熟悉的東西要如何troubleshooting,畫分界限與將問題做正確的推動[上]
系列文
Troubleshooting - 隔空抓藥的日常與實務技巧30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言