桃園機場的當機事件深為IT一份子的我們該如何看待
我看NEWS說是壞了三顆HD 一個主機板然後搞了48HR
很巧的是又剛換廠商,有沒有人有內部消息大家來討論一下
看了以上發表也稍為瞭解了一下原因,我猜想大概是系統設備太老舊,雖然一次壞3顆HDD有點誇張,但也不是完全沒發生過,只能說承接的廠商很倒楣吧!自己以前也曾在中正機場(舊名)擔任過外包廠商值勤工作,非常瞭解其中的甘苦.除了要24hr待命外,還要承受很大的壓力,畢竟關係到國家門面,不能不即時處理到好!
就此次事件來說,要再次發生類似的事應該還是會有!
原因是:
1.機場的許多電腦硬體設備維護大部份都是外包的,而且招標價低者得,許多廠商為要搶標將 價錢壓低,殊不知便宜很難有好的服務! (我們以前什麼都不懂,就要我們去值班了,有問題再打電話問,而且薪水也不高)
2.很多設備其實非常老舊,能用就用,換了反而有問題,廠商會覺得等下次換廠商維護,再由他們去煩惱吧!
3.缺乏良好的資訊規劃,所以會有多好的備援規劃,我是滿懷疑的!基本上官僚還是存在的!大部份事情都是外包在做,他們只負責監督!(那些公務員薪水和加班費實在很讓人羨慕)
PS.就我們所用EMC Storage,通常硬體一有問題,EMC廠商就會自己通知我們,而且馬上處理!
要等到壞3顆HDD,其實是不大可能的!當然這跟Storage規劃有很大的原因!做raid 5,raid6
是否有熱備援HDD? (當然我們是要花錢買MA合約的,花錢就是等於買保險)
我只知道,同一天我在我公司的機房陪大同搞了12小時,然後神通也掛了
雖然是兩個不同事件XDD
不過我也是換哈滴.....Orz
還好我們家不是用EMC的storage
在Plurk上面有看到一些有趣的說法
http://www.plurk.com/p/canum
當下有幾個疑問:
1.No HA ?
2.同時壞三顆???這個真的是有誇張到...
3.沒有緊急救援機制?
4.災難重建會不會久了點?
3.沒有緊急救援機制?
4.災難重建會不會久了點?
在舊系統的情況下是有可能發生的, 請參考
每日一問在你的職場生涯中,遇過(或聽過)最恐怖的IT慘劇?的最佳解答.
個人是覺得,三顆HDD不可能同時壞吧,可能是大同知道要交接嗎?所以正常使用下就不更換?
^^
FYI
http://1-apple.com.tw/latest_news/index.cfm?Fuseaction=RNewsArticle&RArtID=34966&ShowDate=20090105
引述
根據了解,原負責維修入出境電腦的廠商在去年約滿不再續約,新的廠商元月起進駐,今天是上班首日就發生如此嚴重的當機事件,且連備份系統都一併故障當機,是否有其他因素,或者有心人士從中搞鬼,值得相關單位深入追查。980105
其實都是人的問題, 當大家都不想當壞人得罪人的時候, 潛在問題就會日益增多, 當某一天問題爆發的時候, 往往就是一發不可收拾的狀況.
負責一線維護的工程師發現有可能出現問題的硬碟, 提報更換的時候, 主管會不會簽? 主管的主管會不會簽? 舊系統的硬碟一顆動輒數萬元新台幣, 控制卡一片可能是六位數, 硬碟跟控制卡換下去所有的利潤就統統沒有了. 月會的時候工程部門會不會被檢討? 答案是肯定會的. 所以只要東西沒壞就不要動他, 大家省事.
但是問題是這樣子的作法是不是正確的呢? 以短期來看是正確的, 但是長期來看肯定是錯誤的. 只是, 有多少人願意拿自己的職位去爭取看不見的公司利益呢?
如果主管的肩膀不夠硬, 上面不支持的話, 類似的問題還會再繼續發生的.
很高興訪問到章魚哥、派大星和海綿寶
對於此事件的看法。
===悲觀的章魚哥的想法===
甲方:真倒楣,上了新聞又被釘
廠商舊:真難過,案子沒了
廠商新:真無奈,合約都沒簽就要做事
===樂觀的派大星的想法===
甲方:反正是廠商的錯,與我無關
廠商舊:活該,誰叫你不續約
廠商新:這下子有機會調高合約金額了
===旁觀的海綿寶的想法===
每次通關時都會心急地看著查驗官
慢條斯理地打開護照
看你一眼
刷個護照
按個鍵
再看你一眼
再按個鍵
慢動作蓋個章
再慢條斯理地合上護照
然後面無表情地還你護照
(也難為他們了, 每天要重覆做這動作幾百次, 無聊透了)
這次因故回到人工作業
相信所有查驗人員都精神百倍
額外多了許多運動量
應該算是意外的收穫吧
「官僚害人,莫此為甚。」,IT 人當然該引以為戒,如果連腦袋都外包出去了,機場跑道撒滿乖乖都不會有用地.... , 一切都是 mindset.
機場跑道灑滿乖乖的話....飛機就通通掛了
乖乖本身是易脆物, 飛機壓過去應該沒關係吧?.... (茶)
不是壓過去的問題,是會被吸入到引擎中,就掛點了
乖乖裡面有附小玩具,可能還是有危險性
一堆 IT 人突然開始熱烈討論跑道上撒滿乖乖之後,飛機會如何了呢.... (暈)
tom6507大,我覺得被吸入引擎的,應該是下來啄食乖乖的鳥類...
塞住飛機引擎的,只怕是吃多了乖乖之後的鳥屎.... Orz
其實塞住引擎的是去打獵的獵人
也可能是去賞鳥的鳥人...
某機艙廣播:「各位女士、先生們,我們將在此稍做停留,對於所造成的延誤,深感抱歉,請各位留在座位上, 扣緊安全帶, 別擠到靠窗的座位上賞鳥, 謝謝您的合作....」
"別擠到靠窗的座位上賞鳥, 謝謝您的合作......"
是擔心飛機翻過去嗎?
很難吧,除非都站在機翼上
某機艙繼續廣播:「各位女士、先生們,我們只在此做"暫時"停留, 請肚子餓的旅客別下機吃乖乖, 飛機上會提供餐點, 如果您是對乖乖有特殊偏好, 飛機上也有販售, 如果您對跑道上的乖乖有所堅持的話, 請您和服務人員聯絡, 我們將為您打包, 如果您還是堅持在跑道上吃乖乖的氣氛, 那我們將不保證您的人身安全, 您的旅遊平安險也將不會幾付, 謝謝您的合作....」
此時,就看見座艙長自己打開了機艙門,拉開了逃生用充氣滑梯,自行溜下去吃乖乖了
乖乖, 還真是奇觀。
更神奇的是
飛機飛到一半.機長廣播說
因為我們沒有帶到 午餐/乖乖
現在我們必須倒回去.
不然我們會沒有東西吃的
不吃乖乖就發火~~~吃了就乖乖
http://easysoft.twelife.com 速達軟件 免費會計系統免/費進銷存系統軟體/免費POS軟體/永久免費使用
純粹分享scottchen大大在其他發問中提供的的連結
http://www.plurk.com/p/canum
剛好與本發問有一小點關連= =
系統整合廠商: 昨天去桃園機場拿回移民署備品, 聽到大同的OP(以下簡稱OP)跟移民署的人(以下簡稱某A)對話如下:
某A:「你們元旦不是有來加班嗎?」
OP:「對啊!我們元旦那天有來加班,作一作一堆人就肚子餓了! 想說機房的一些雜物先收一下,於是就把機房的乖乖收下來吃掉......」
某A:「不會吧!?你們把那些乖乖吃掉了喔!?」
OP:「對啊!就想說反正我們今年也沒有標到.........」
於是.......
1/3 第二航廈的 E10K 當機,系統切換到一航廈主機
1/5 早上五點多,一航廈 EMC storage 當機,DB crash..........
11:30,榮登奇摩頭條! 13:00,內政部長至機場巡視.......
那個硬碟壞3顆導致全部機場當機,純屬官方鬼扯,據我了解,是被駭客清掉資料庫的,是資安問題
1.系統架構哪一家廠商設計的?換廠商維護有沒有交接清楚?
2.備援HD掛了系統就掛了,顯然沒有第二套機制?
3.第一時間沒有專業評估,直接就動手幹了再說,結果就是看運氣囉
其實以這樣標案狀況,哪時候生效應該在合約上要加註交接項目,並且需於時效內完成交接事宜,否則雙方面廠商都需負起系統問題責任,不然就如同這樣狀況,雙方面一皮球,大同說我們已經完成履約,神腦說我們來沒簽約呢?這時候會是誰的問題呢?
所以一般我會加註於契約內限定廠商交接事項,一方面對自己有保障,也防止廠商打太極拳。
另外一般會一次壞3顆HDD,說實在的可能會有,但是機率太低囉。只能說政黨輪替時都會有過渡期了,電腦廠商也會有這樣狀況唷...........
這大概也可以寫小說了吧!XDD
前幾天走在路上,聽見路人說....
有第三廠商涉入。
在USER、大同和神通均無法處理的時候,
XX電腦派工程師到移民署(也需是該系統的最初建置廠商)
然後他的業務跟神通談,說工程師已經在這裡了,簽了單(不知是指合約還是採購單還是其他阿哩不打的有價值的單據)之後工程師才會做事情....
然後...說好把一切對外說明是大同未交接完成。
可憐的大同,去年已經賠了一千多萬了吧。
沒有看他們是誰也沒有問...
小弟大約都在淺水,但這問題我很有興趣 (小弟好朋友就在神X)
除了系統架構還沒百分之百掌握之外,還有就是當時規劃架構很差
就像tecksin大大說的一樣,不敢花錢
我看過最猛德Storage規劃是先做多個Raid 5再作Raid 6再來把其他群組做Raid 0再作raid 6 (反正超多層,根本就是用錢砸出來的)
重點要支援熱插拔,原因是,你可以保證在系統還可以運作的時候就把資料rebuild回來
小弟沒各位先進那麼高竿 不過想說說心得 大家看過就算了 一個國家的出入境大門 如果設備造成如此損傷是乎有點太 LOW 國家難道沒有錢想支援好的人馬嗎? 從一些影片大家都可以了解 出任境管中心 網管單位間赴重責大任 政府怎麼可以忽視 個人認為能擔任國家單位網管 功力應該也不差 只能怪 可能沒有強而有力的肩膀上司 為他們爭取 而且向來 IT單位各位勞苦功高的IT人 任何單位公司都是遇到問題了才嚴厲指責要求 平常沒出事 確都無視該單位的重要 向敝人公司 前年遇道 SERVER掛點 因為原先送呈 維護保固合約沒下文 按例 也只能協商請維護廠商緊急調貨(HP 原廠如沒簽保固合約 要等約1個月才到貨) 先完成維護復原上線 貨款我來想辦法 廠商也大力支援協助 正在維護倒回資料 老闆就跑來 霹靂啪啦 劈頭就罵 難道我們公司沒錢嗎?? 是該該維護公司技術太差嗎? 害我對前來支援的工程師 萬分抱歉!! 心裏也只能感慨 IT人的悲哀 !! 我就想說對ㄚ就是一定非等到 見棺材才會掉淚 各位看官可知 隔日一修完 資料也完全復原 我二話不說 請廠商報 主機續約保護費用 馬上送呈 當天就批了 何苦咧! 得等到系統出問題 才願意簽核採購申請! 我想類似因素 應該也境管網管心中痛吧!! 不管外包廠商素質如何 我還是要向 辛苦加班 完修的各位委外工程師與敬輓網管中心人員 獻上敬意 畢竟他們也曾受莫大的壓力與與論批判 也許只是代罪羔羊吧!!
據我了解,第一與第二航站的境管電腦系統係互為備援, 萬一兩地系統皆掛點, 還可切換回台北的主機, 因此, 我個人看法應追查下列原因
1.當天為何第二航站的電腦當掉, 為何要去第一航站抓取與匯入入出境資料? 這樣的備援機制適當嗎?
2.當因不明原因導致第一與第二航站都掛點時, 為何沒連回台北主機?
3.Business Continuity Plan(BCP)是不是都沒確實演練啊?
電腦,系統,軟體,硬體只要壞了...
超過一天沒有修復...
使用者大多數都會感覺是慢的...
如果讓boss知道...
你一定會懷疑你的工作能力...
小弟看到這則新聞有幾個感想:
1.雖然有人質疑是不是原廠商搞的鬼,但小弟以前也碰過這種狀況(隔了一個禮拜說資料庫毀損,懷疑我們沒拿到合約搞鬼),真的是秀才遇到兵,還好所有交接都很清楚,對方也無法提出任何證據才不了了之! (好吧,我承認是我把機房的乖乖吃掉的... >_<)
2.如果真是三號硬碟故障,五號才前往處理,這樣的維護廠商效率有點XXX,且事後說前廠商沒交接清楚or對系統還未上手芸芸,都是推託責任之詞: 不清楚系統就簽約,活該找罪受!
3.雖然政府採價格標的方式非常可議,但追根究柢,誰把價格搞爛了? 還是資訊業者自己:太多沒專業的就拼價格,搞到最後大家都沒利潤,實在很可悲!
4.國家大門搞這種烏龍,真的很丟臉!
看完各位大大的大作~~小的馬上實地採訪了幾個MSN上的同好得到以下回答
http://www.plurk.com/p/canum (來自台中大里仁X醫院的訪談)
2009/1/12 下午 01:58:12 謹言慎行 x華 出入境管理局 當機事件
2009/1/12 下午 01:58:36 x華 謹言慎行 哈,我看過了
2009/1/12 下午 01:58:44 X華 謹言慎行 還不就是因為乖乖被吃掉了咩
2009/1/12 下午 01:58:46 謹言慎行 X華 噗
2009/1/12 下午 01:58:49 謹言慎行 X華 很好笑丫
2009/1/12 下午 01:58:54 謹言慎行 X華 你們有沒有拜
2009/1/12 下午 01:59:04 X華 謹言慎行 我們沒拜
2009/1/12 下午 01:59:49 X華 謹言慎行 所以我們主管還問真的有人拜嗎,一問之下,發現每個人待過的公司還真的都有拜
2009/1/12 下午 01:59:56 謹言慎行 X華 !嚇
2009/1/12 下午 02:00:21 謹言慎行 X華 那我們今年要考慮一下了>"<
2009/1/12 下午 02:00:57 X華 謹言慎行 嘿ㄚ
2009/1/12 下午 02:01:11 謹言慎行 X華 真是太神奇了
2009/1/12 下午 02:01:27 X華 謹言慎行 嘿ㄚ
來自x都科技的訪談
2009/1/12 下午 01:52:26 謹言慎行 Gary http://www.plurk.com/p/canum
2009/1/12 下午 01:58:39 謹言慎行 Gary 出入境管理局 當機事件
2009/1/12 下午 02:01:23 Gary 謹言慎行 哈
2009/1/12 下午 02:01:38 謹言慎行 Gary 好笑吼 你們家要不要拜一下ccc
2009/1/12 下午 02:02:21 Gary 謹言慎行 有~我們客戶都有放乖乖
得到一個結論
你家還沒拜乖乖嗎. . ..老師在說你有沒有在聽 >"<
沒有. .. .要過年了 等等下班要去買乖乖....希望不會缺貨
我覺得,當然,電腦的東西,不外乎有折舊的問題,哪時要壞掉,都很難說,因此要如何正確、即時與不間斷的取用資料,是在建製時的規劃之一。
一、建製備援與HA的機制,是為了讓資料能不間斷與即時的取用。
二、安全防護,是為了保障資料的安全性,畢竟,政府機關的資料,都是有關人民的資料,所以安全的防護是一定要有。
三、人員的訓練,其實這環就是比較難推行的,因為人不管是在系統導入時或系統上線時變數最大的一環,所以適當的訓練與鼓勵是必需要。
以此次的結果來比對之前的911雙子星來說,為什麼恐怖組織要對雙子星下手,因為看準了資料的重要性,只要所以的經濟資料都沒了,那國家就有可能陷入混亂與崩潰當中。但為什麼美國可以在短短的時間之內復原,並繼續持續的運作,那就是”備援的機制”,馬上回復到前一天的狀況。
四、當然,如果真有擔心的話,設備委外維護也是其中一個考量的方法之一。但此時就必需要了解到委外廠商的選擇:1.國際的知名度2.核心能力(專業領域)3.是否有相關職場的經驗4.財務能力5.後備支援力(指的是他們財團的後面的支援的Power)6.服務態度7.是否有專案相關的CASE經驗8.配合度9.合約
其實如果真擔心成本的關係,考量到全面性的推行系統與設備的改良需要大量的費用,這就是效益考量的問題,是要維持原狀好呢:可以減少資訊成本的費用,以及推行的困難解決的時間。還是要全面推行而減少錯誤的造成。
現今的資訊科技是持續的創新,目前最夯的Virtual技術,我相信是可以為擔心的問題而解決的方法之一,成本與效能的平衡點。
所以以上的結論,無庸置疑,系統設備的更新是必要的,政府幾關的資訊化已經是目前的趨勢,流程之再造也是不可避免的,不過,為了下次再發生能快速的啟動備援,做到資訊透通化,是刻不容緩。
電腦設備維護合約適合採低價得標制嗎? 也許對公務人員是省事, 但也許不是最有利的。
值得思考一下。
當然,對執行者來說,是很方便,不過還是有可能會有弊端,前面的程序都很正常,但後面還是會有走捷徑的廠商,往往就失去內控裡真正採購的流程與意義。像民間企業,都會經過多方評估,在詢求各廠商來做介紹與報價,再討論看哪一些廠商是符合所需,當然,後續的 動作(殺紅眼的Cut cost),就交給上頭的來做^ ^,必竟我們只是後勤的IT人員。
不過就公務人員來說,很多時候都不是資訊人員能夠決定的,因為就算是資訊最高的CIO or CKO的決策,還是會經過層層的關卡,因為政府機關,大家都知道的,流程的冗長、複雜,不是CIO or CKO說做就做。
所以如果真要說電腦設備維護合約以競標的方式,我覺得OK,不過選擇能競標的廠商這關就要很重視,要提出相關之證明(如同我上說的條件),才能加入競標的資格。
PS.以上所說的,還是要在一個前提下,那就是預撥出來的”資訊費用”,真得就是”資訊費用”,那才真正可以去執行其它的動作。必竟,沒錢什麼都不用說了,這也是IT的苦處,要馬兒跑的好,又不給馬兒吃草,這是不可能的。
依小弟的經驗~
通常這個情況下,幾乎是人員專業度不夠的問題
小弟分享一下,我遇過的類似情況
狀況一:
在RAID5下,一號硬碟故障,0號硬碟備援啟動
但是0號硬碟備援啟動失敗,便會造成兩顆硬碟同時亮燈,有"乖乖"時,此時系統仍能正常運作,不過大部分已經處於當機狀態,且重開機,系統啟動失敗
這個時候,萬一判斷硬碟故障的順序錯誤,在系統重建時,則會造成三顆硬碟同時亮燈且故障
狀況二:
直接亮三顆硬碟燈號,此時通常為RAID卡或是其他硬體問題,若是這種狀況,怎樣也不會造成資料毀損,除非同時換三顆硬碟=.=ll
狀況三
少部分的情狀下,兩顆硬碟同時故障,而備援硬碟無法啟動,造成三顆硬碟故障
狀況四
駭客入侵或是大同惡搞.....
不過新聞出現時,第一時間還是覺得駭客入侵的機率比較大=.=