iT邦幫忙

0

[網路問題]網路不穩定

目前有幾個monitor軟體在monitor機房的網路,1.HP SIM,2. perl(自己寫ping host),3.IBM Director
最近常發生以上三個軟體都會發出Server ping不到的狀況(node down、System is unreachable..)
因為機房網段眾多,網路設備多為cisco switch(6509、2950、2960、3750...)
要如何從中找出網路不穩定是那個設備造成的
已經使用過的方式如下:
1.測試用windows ping 某些server,ping的封包從小到大,都無封包lose的狀況
2.使用netflow軟體查看網路應用層封包狀況,無異常
3.使用cacti查看各cisco port流量無異常
4.使用wireshark查HP SIM Monitor Server的封包狀況(並無大量的broadcast,基本上有大量的broadcast應該也會被cisco disable port)

請問各位網路高手還有那些方式能找出網路不穩的問題,以上發生的問題是時有時無,沒有一定的規律,有時一個小時有好幾次monitor server發node down的狀況,有時都沒問題

圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

1 個回答

6
pisceseros
iT邦新手 3 級 ‧ 2011-07-29 11:57:29
最佳解答

我先做一個確認

unreacheable指的是monitor的設備去ping某個節點時,因為節點失敗所造成的

如果是我,我會先登入monitor設備,然後進行traceroute,把所有經過的節點找出來

然後,在monitor設備上再起一些程續,就是去PING所有經過的節點,假設共有10個節點

觀察一陣子後,當又發生PING不通時,我就去看這些程續,看哪一個程續(節點)PING不通

假設路徑在第4個節點發現PING不通,那麼就去檢查第四個節點所在的設備,當然,第5到10

的節點就不用看了,第4個不通,後面都不會通了,當第四個節點的問題解決後,我還會繼續

進行監測,有可能有問題的節點不止一個,直到第10個節點都正常後才會結束,當然,如果

你的monitor設備可以用traceroute去監控就不用起10個PING的程續啦。

因為你PO文沒有提到細節,而只有PING不到目的地,而且也沒有提到這些目的地是哪些

是否有特定哪幾個IP,從你3種monitor軟體上是否在同時間,出現PING不到相同IP的訊息

如果三個軟體都對同一IP發出訊息,那麼表示有可能三個軟體前往該IP的途中,會經過同一個

節點,而這個節點就有可能是問題的所在。

先找出問題是發生在什麼地方,什麼設備,哪個界面,你才能針對該介面的相關設定去做修護

到底是讓界面本身的實體故障,還是其他設備的更動,造成該界面出現問題。

以上希望對你有幫助

看更多先前的回應...收起先前的回應...
javaaobo iT邦新手 5 級 ‧ 2011-07-29 12:03:03 檢舉

感謝你的回覆,就你的回覆我說明一下狀況.
1.3種monitor程式出現ping不通到某些IP時,並沒有全部都出現一樣的IP
2.只有用monitor程式才會發生ping不通,自己使用windows ping時,都是通的,所以使用traceroute就不會看到不通的地方
3.難找出問題就是因為a.偶發,b.使用人工去ping設備都是通的
再次感謝你的回覆

我會建議,先確認Switch沒問題
曾經遇到的狀況,是因為累積灰塵太多,加上隔熱不好,把她清理之後,上下有隔開,就恢復正常了
我在小企業,沒標準機櫃,或許不適合你的狀況

另外也遇到過Cisco Router故障造成間歇性遺失封包,會突然變得超慢或是斷線,但是大部分時間正常,換掉才正常‧

只有用monitor程式時才會發生,而且PING不通的節點很隨機,那會不會是monitor程式本身的問題啊,在出現PING不通時,是持續PING不通,還是只有一下下,這段時間是否公司有發生網路障礙問題呢?是否要向三個程式的公司反應一下。

機房環境也會通到這種問題,有時不良的設備,老舊的設備,都更容易熱當的。

程式部份:因為你說你能在PERL寫PING HOST,那可以改成traceroute嗎?或直接新增

放個一兩天,看會不會發生,如果有,大概可以把範圍縮小,一般來說,管理設備都會有LOG檔

如果找到問題設備,再去看LOG檔,看是發生啥事。

(難道是機房太冷,設備"加冷筍"抖了一下所以PING不通嗎XD....說笑了)

javaaobo iT邦新手 5 級 ‧ 2011-08-01 08:21:05 檢舉

回bigcandy and pisceseros
1.在switch設備上查過log,並無異常up/down
2.switch除了查異常up/down和CRC Error之外還有別的方式看看出switch異常嗎?
3.Monitor 軟體分數不同廠商,要同時出錯不太可能,加上ping host本來是設定ping一次,之後改成ping三次,但問題一樣存在

問題確定是在SW上嗎?我覺得要先想出辦法找出問題所在,我想你可以修改monitor程式PING的目的IP,改成PING原本IP途中會經過的節點,從倒數第2個開始,然後往回PING,時間的話就看是要測幾天,如果有10點,就在MONITOR設備上起9個程續吧!

javaaobo iT邦新手 5 級 ‧ 2011-08-01 12:00:50 檢舉

這方式不錯,我試看看

我要發表回答

立即登入回答