這兩天比較「刺激」的新聞,大概就屬桃園機場的移民署境管電腦系統當機的事情吧。
昨天的新聞裡面寫的是,資料庫主機的48顆硬碟其中有8(?)顆硬碟及一片控制面板故障所導致。從1/5凌晨五點開始出狀況,根據各大媒體報導,所有的境管資料先是負責管理外籍旅客的資料先故障,接著本國籍旅客的資料也無法讀取,然後兩套「備援」系統也跟著無法運作,因此才會造成36小時大當機事件。說真的,移民署長謝立功表示,事發原因應該是硬碟損壞,目前「完全」排除人為破壞的可能性。
簡單描述了一下這件事件的現象與官方說法,我不知道各位看官有什麼想法,但是說真的,一套Production System加上2套Redundant System會先後當機的機率能有多高?
我們可以仔細想一下,48顆硬碟有多顆硬碟同時損壞的機率有多少,同時還有控制面板失效?如果說,這些事情的確屬實,那麼我們只能說移民署對於資料庫主機系統的維護真的是爛到一個地步,居然可以容許存放所有歷史資料的機器可以這樣放著爛。維護廠商當然也要負責,不過根據報載,新的維護廠商神通是在今年1/1才開始履約...這讓人有一點點奇怪的幻想呢。
不管起因是如同官方講法:硬碟故障,或是私下猜測的人為因素,第一個讓人懷疑的就是主系統與備援系統都故障,如果不是設備過於老舊,就很明顯的應該是人為操作上的疏失。大家都遇過硬體毀損的狀況,如果真的是硬碟毀損到無法運作,理當應該是一次掛點,而不會像報載裡面所講的「不同系統輪流失效」,除非是切開成不同資料主機跟系統,那也不太可能因為硬體而統一掛點啊!!
討論這件事情暫時到這邊打住,因為相關內容還有些不方便寫出來。
不過我們回頭想想,過去2008一年談了很多資訊安全的相關問題,但是幾乎都著重在資訊安全、網路安全跟系統安全這幾個部分,但是卻很多人忽略實體安全跟委外的安全,這次機場事件,先不論對國際形象的影響多大,但是在業界裡面這根本就是一個笑話。
為了避免硬碟毀損,老早就有多種RAID機制,為了避免系統故障,所以安裝了備援系統,為了避免資料遺失或毀損,所以有資料庫備份還原機制...有了這些安全機制,卻還是發生了36小時的空窗期....
系統是彼此連結的,牽一髮而動全身,今天機場系統影響的只是出入境,如果哪天發生警察系統失效的狀況,會不會造成更大的暴動呢?
36小時的空窗期,其實聽起來很像是「手動」將磁帶備份資料倒回去資料庫之內。如果真的是這樣,那麼不論新舊維護廠商都應該要負責,特別是舊的維護廠商,為什麼會移交一套接近崩潰的系統,而沒有落實契約內容。不過說這邊沒有人為因素....實在是讓人猜想不透啊....
沒有留言:
張貼留言