請問各位網路高手還有那些方式能找出網路不穩的問題,以上發生的問題是時有時無,沒有一定的規律,有時一個小時有好幾次monitor server發node down的狀況,有時都沒問題
我先做一個確認
unreacheable指的是monitor的設備去ping某個節點時,因為節點失敗所造成的
如果是我,我會先登入monitor設備,然後進行traceroute,把所有經過的節點找出來
然後,在monitor設備上再起一些程續,就是去PING所有經過的節點,假設共有10個節點
觀察一陣子後,當又發生PING不通時,我就去看這些程續,看哪一個程續(節點)PING不通
假設路徑在第4個節點發現PING不通,那麼就去檢查第四個節點所在的設備,當然,第5到10
的節點就不用看了,第4個不通,後面都不會通了,當第四個節點的問題解決後,我還會繼續
進行監測,有可能有問題的節點不止一個,直到第10個節點都正常後才會結束,當然,如果
你的monitor設備可以用traceroute去監控就不用起10個PING的程續啦。
因為你PO文沒有提到細節,而只有PING不到目的地,而且也沒有提到這些目的地是哪些
是否有特定哪幾個IP,從你3種monitor軟體上是否在同時間,出現PING不到相同IP的訊息
如果三個軟體都對同一IP發出訊息,那麼表示有可能三個軟體前往該IP的途中,會經過同一個
節點,而這個節點就有可能是問題的所在。
先找出問題是發生在什麼地方,什麼設備,哪個界面,你才能針對該介面的相關設定去做修護
到底是讓界面本身的實體故障,還是其他設備的更動,造成該界面出現問題。
以上希望對你有幫助
感謝你的回覆,就你的回覆我說明一下狀況.
1.3種monitor程式出現ping不通到某些IP時,並沒有全部都出現一樣的IP
2.只有用monitor程式才會發生ping不通,自己使用windows ping時,都是通的,所以使用traceroute就不會看到不通的地方
3.難找出問題就是因為a.偶發,b.使用人工去ping設備都是通的
再次感謝你的回覆
我會建議,先確認Switch沒問題
曾經遇到的狀況,是因為累積灰塵太多,加上隔熱不好,把她清理之後,上下有隔開,就恢復正常了
我在小企業,沒標準機櫃,或許不適合你的狀況
另外也遇到過Cisco Router故障造成間歇性遺失封包,會突然變得超慢或是斷線,但是大部分時間正常,換掉才正常‧
只有用monitor程式時才會發生,而且PING不通的節點很隨機,那會不會是monitor程式本身的問題啊,在出現PING不通時,是持續PING不通,還是只有一下下,這段時間是否公司有發生網路障礙問題呢?是否要向三個程式的公司反應一下。
機房環境也會通到這種問題,有時不良的設備,老舊的設備,都更容易熱當的。
程式部份:因為你說你能在PERL寫PING HOST,那可以改成traceroute嗎?或直接新增
放個一兩天,看會不會發生,如果有,大概可以把範圍縮小,一般來說,管理設備都會有LOG檔
如果找到問題設備,再去看LOG檔,看是發生啥事。
(難道是機房太冷,設備"加冷筍"抖了一下所以PING不通嗎XD....說笑了)
回bigcandy and pisceseros
1.在switch設備上查過log,並無異常up/down
2.switch除了查異常up/down和CRC Error之外還有別的方式看看出switch異常嗎?
3.Monitor 軟體分數不同廠商,要同時出錯不太可能,加上ping host本來是設定ping一次,之後改成ping三次,但問題一樣存在
問題確定是在SW上嗎?我覺得要先想出辦法找出問題所在,我想你可以修改monitor程式PING的目的IP,改成PING原本IP途中會經過的節點,從倒數第2個開始,然後往回PING,時間的話就看是要測幾天,如果有10點,就在MONITOR設備上起9個程續吧!
這方式不錯,我試看看