我是資深菜鳥工程師,又碰到腦筋轉不過來的怪問題了。
有一台 Rocky 8 的主機,在我設定好相關的安全機制後 (GCB) ,一切正常,相同的動作做過十來次了,當把機器交給使用者去安裝他們的系統後,突然有一天被告知無法登入,在試著用 Putty 或是從 Console 去連線,都有出現登入的提示,只是在輸完帳號按了 Enter 後就完全沒有回應了,因為無法登入,所以只好重開機,重開機後就可以登入,只是接下來不確定什麼時候又會再發生。
雖然無法登入主機,但是主機本並沒有當機,上面的對外服務 (網頁吧) 還是正常的,所以也只有在要登入主機時,才會知道又不能登入了。
想請問這個問題要如何抓?怎麼監控?沒有頭緒跟方向呀!(抓頭)
謝謝!
給你一個方向吧。
這個問題我曾經碰過。
就是容量空間爆了。
但這邊要小心一件事。
我這邊雖然指的是空間爆了。
但不一定是你的工作區空間爆了。
如果你還能登入,你得檢查一下一些對應的磁區空間。
像是一些 tmps 。
大多數這些切出來的容量都很小。
而登入有可能會暫用這些地方。(這得看您的系統而定)
總之,就檢查一下這些暫存區的容量。是否也被用爆了。
如果有的話,或許你得擔心你的機器有人正在侵入了。
不過,這只是我以前的經驗。但我並不確定你是不是也是同一種問題。
給你參考一下。
記憶體吃爆、硬碟吃爆,CPU吃爆都有可能發生類似的問題。
經驗上,有案例像是虛擬記憶體交換的參數,
有人上網看一些優化文章說要設 vm.swappiness = 0 ,
務實上就有機會觸發問題,引發有機會不定時CPU吃爆。
最好平常有資源監控策略,除了Log可以看還可以查看當下之前幾分鐘,各項資源是如何。
這時代太多沒學好基礎直接套框架快速開發出師的碼農工程師,
程式資源常常莫名其妙炸掉的。遠離黑鍋,監控要有。
現在麻煩的是,不知道怎麼去查找問題,messages、audit.log外還有什麼可以看的?
主要的服務是在 docker 裡面,當登入無回應發生時,docker 裡的服務還是正常的。
登入無回應指的是 ssh 及 console 都一樣。
謝謝!
有高手說可以去查看 journal 的 log ,對方表示,就算 messages 會因為某些因素中斷,但是 journal 不會,可是實際去看,好像也會中斷,實在想不出來要怎麼去抓問題。
昨天重開機,上班時間正常,睡一個覺起來,又連不進去了。
嘆~~~~
狀況更新,因為有部份的主機本機防火牆設定得很嚴,進出都有阻擋,偏偏這台的防毒軟體 (deep security) 的規則沒有設,在測試時把防毒軟體關掉,問題就不會發生,所以就想到會不會是防火牆的問題,在把規則加上後,目前四天了,一切正常。
防毒軟體的規則有 IN 跟 OUT ,我猜是因為出不去,久了就出問題了。
嗯,有時候幫人測試,習慣上有一個項目就是
防毒軟體開關前後比較。
這防毒真的只有你自己知道了,
通常遇到這部分,若防毒不歸自己管,想排錯,跨部門更麻煩。
我是負責裝機及設定好一切基本設定,包含防毒軟體的安裝。
只是使用主機的部門他們會自行設定本機防火牆,他們使用的幾十台主機都有這兩條給防毒軟體用的規則,誰曉得這台機器他們就特別把這個規則給拿掉了,另外也沒想到,防毒軟體要跟主控台溝通,竟然會因為防火牆的阻擋而導致系統有問題。