您好!歡迎訪問中國儲能網!
您的位置: 首頁  > 首屏 > 儲能市場4 > 數據中心

史上最怪異的幾大數據中心事故

作者:中國儲能網新聞中心 來源:數據中心運維管理 發布時間:2019-09-30 瀏覽:
分享到:

中國儲能網訊:  衣荷華州火災、三星大火、桑迪颶風、失控的SUV四驅汽車、甚至太陽風暴……本文介紹的這幾種隨機性事件讓數據中心運營者夜不能寐。雖然是“小概率”事件,卻因為其災難性后果而不能不防。企業的災難恢復計劃是否準備好處理這些突如其來的奇怪事件呢?他山之石,可以為鑒,希望本文可以給各位數據中心運營者敲響警鐘。

衣荷華州火災

2014年2月18日下午,那也是衣荷華州平時制作全州工資單的工作日,主數據中心發生了一場電氣火災。衣阿華州首席信息官Robert von Wolffradt在GovTech.com上發布的一篇博客中回憶道,IT工作人員事先根本普沒有料到會發生這種事,他們之前一直在為預報當天晚上會來襲的那場暴風雪準備應急計劃。

火警在下午3點拉響后,數據中心斷了電,整幢大樓里面煙霧彌漫,工作人員只好疏散。火警觸發了數據中心以天然氣為燃料的FM-200滅火系統,大火被控制在壁掛式瞬態電壓抑制盒(如上圖)里面。該裝置控制著進入數據中心的電流,因過熱而熔化。該州的總務管理團隊拉了一條旁路,幾小時電又恢復了。

電力恢復正常后,大門可以打開,風扇可以開啟,大樓可以通風,不過警察和消防人員不愿意允許IT工作人員回到大樓。火災發生后過了三個半小時,州政府官員確定可以重新進入數據中心

Wolffradt不得不決定是否可以繼續處理該州付給公民和供應商的1.62億美元連同員工工資。全體工作人員馬上展開工作,清理掉了數據中心的殘留物,IT工作人員在晚上9點之前恢復了存儲連接網絡、防火墻和網絡核心系統。如果不更換瞬態電涌抑制盒,重新開啟這些系統會讓設備處于險境。Wolffradt于是決定無論如何要更換抑制盒,不過他為備用數據中心配備了人手,作為一項防范措施。

到了晚上11點,另外的系統恢復上線,包括服務臺和交通運輸部在即將到來的暴風雪中監測橋梁和公路所需的攝像頭。

另外恢復的還有財務系統和虛擬化應用軟件。到了晚上,額外的系統投入運行,到了早上備用數據中心不需要接過處理全州工資的工作。Wolffradt回憶道:“我們在那次事件當中充分利用了國土安全部的語音通知系統,兩次向政府部門主管和重要的工作人員通報最新情報。”他特別指出,數據中心火災過后,傳聞四起;因此,CIO必須與其他責任方經常溝通。隨著事態的進一步發展,他本人隨時向州長和重要政府官員匯報情況。

Wolffradt在博文中透露的一個教訓是,讓主要的企業系統放在彼此不同的地方,比如將電子郵件放在與工資單不同的設施(數據中心)。另一個教訓就是:一旦發生火災,總務管理和人力資源部門“是你最好的朋友”,會幫助你順利渡過難關。他寫道,想恢復數據中心運營,最棘手的障礙之一就是,說服警察和消防人員:IT工作人員可以重新進入數據中心。數據中心所在的大樓里面共有1000名州雇員,大多數人等待的時間比IT工作人員還長,等警報解除后,才重新進入大樓。

三星大火

不,這里說的不是什么新智能手機的名稱,而是三星遭遇的大火。

2014年4月20日,韓國果川市一幢辦公樓的中間層燃起了大火。大火是從三星在這幢大樓的SDS數據中心開始冒出來的。ZDNet韓國特約撰稿人Jaehwan Cho在其推特帳號(@hohocho)上發布了來自韓國聯合通訊社的圖片,圖片顯示煙霧和火焰從大樓側面冒出來,熱浪導致碎片從外面不斷墜落下來。

據Data Center Knowledge報道,三星的IT工作人員和大樓住戶迅速被疏散,只有一名工作人員因墜落的碎片而受到割傷、擦傷及其他輕傷。

那場大火導致三星設備(包括智能手機,平板電腦和智能電視)的用戶們無法訪問他們一直試圖獲取的數據。在果川市第二個數據中心的恢復系統恢復服務之前,廣大設備用戶一度數小時無法訪問內容,最后三星工作人員只好開博客致歉。

電纜管道著火

2009年7月3日,西雅圖費舍爾廣場一個配電室的火災導致Authorize.net支付門戶網站、微軟必應旅游服務、Geocaching.com服務、Dotster域名注冊服務、主機托管服務提供商AdHost以及另外幾十個網站癱瘓。第二天早上才恢復供電。

《普吉特海灣商業雜志》報道,Geocaching和AdHost到第二天上午10點才恢復運行,而其他服務網站花了更長時間才恢復如初。據《普吉特海灣商業雜志》報道,那場大火顯然是從燒壞的電纜管道(見上圖)開始冒出來的,害得費舍爾通信公司(Fisher Communications)估計花費了1000萬美元的維修和設備更換費用。

桑迪颶風:發電機故障

2012年10月下旬,桑迪颶風一路席卷弗吉尼亞州、特拉華州、馬里蘭州和新澤西州時,曼哈頓與美國東沿岸大部分地區一樣失去了電力。海水風暴潮隨之而來,沖上了街道,導致曼哈頓下城區和三州鄰接地區的另外許多地方頓時陷入一片汪洋。

在曼哈頓下城區布羅德大街75號即Peer 1主機托管公司的所在地,這無疑是災難恢復規劃人員的噩夢。雖然備用發電機可以隨時搬到遠高于水位線的大樓18層,但是涌入大樓大堂、灌滿地下室的那場風暴潮毀掉了放在那里的應急發電機燃油泵送系統。一旦浸泡在水下,系統電路不再工作。(紐約在9?11事件后實施的一項規定是,限制貯存在辦公樓的燃油量)。因此,發電機開始用完供應有限的燃油后,這家公司無法獲得新補充的燃油。就在幾名員工設法趕到數據中心、幫助防止任何數據丟失的同時,Peer 1建議客戶在數小時內有計劃地關閉系統。

Peer 1不是關閉設施,而是成立了一支救援隊,運送發電機所需的燃油。燃油擺放在街上(見上圖),一路手遞手送到17樓,也就是發電機的儲油罐所在地方。儲油罐及油泵可以將燃油輸送到這層樓上方的發電機。Peer 1的客戶(包括SquareSpace這家網站開發公司和Fog Creek Software這家在線項目管理軟件供應商)為這支25個成員的救援隊提供了人力,在10月30日晚直至10月31日,將燃油送到了樓上的發電機。

到10月31日午飯時間,他們終于灌滿了儲油罐,總算有機會休息一下,吃的午飯是靠步行經過布魯克林大樓送過來的(由于曼哈頓街道堵塞)。Peer 1的災難恢復方案當中既沒有包括需要成立救援隊,也沒有包括步行送午飯。但這場颶風沒有導致服務停運。

SUV導致的停運

2007年11月13日,Rackspace的主機托管業務和在達拉斯同一個數據中心運行的成立才不久的Mosso Cloud公司因一輛失控的SUV而停運了數小時。

這輛大型四輪驅動汽車的司機是名糖尿病患者,他當時昏倒在方向盤前。這輛車不是突然轉向街道邊沿,而是完全加速直行,在丁字路口沒有轉彎,它沖下來后撞上了一幢大樓,這幢大樓里面正好放著Rackspace數據中心的電力變壓器,結果一下了斷了電。

就在切換過程連接電力公司的備用市電的時候,大樓的冷卻系統停了下來。計算處理過程沒有受到干擾,因為計算設備靠正是為這類突發事件而部署的應急電池繼續運行。電力公司接到急救人員正從一輛一頭撞到變壓器設備的汽車中搶救司機這個消息后,關閉了通向該數據中心的所有電力,結果擾亂了Rackspace的備用市電,于是數據中心的工作人員為大樓的冷卻器啟動了重啟過程。

電池電力再次啟動,應急發電機立馬開始運轉起來,而災難恢復方案要求這樣。盡管這次事件以及電網兩次停電,數據中心的處理到目前為止沒有受到中斷。然而,冷卻系統的大型冷卻器的多步驟啟動過程在重啟進行到一半受到了干擾,事實證明要不是進一步排查故障,不可能讓一些系統重啟。

Rackspace總裁Lew Moorman在事件后不久發布的博文中告訴客戶:“兩臺冷卻器沒有重啟,導致數據中心過熱。”計算設備散發的熱量足以讓溫度直線上升,于是Rackspace的管理人員實施了“分階段關閉設備的方法,以免設備損壞”,客戶數據因而丟失。

停電一直持續到晚上10點50分,此時事件已過去了5小時。軟件即服務提供商37signals(Rackspace為這家公司提供主機托管服務)告知自己的客戶:“這一連串的糟糕事件不僅擊跨了我們的系統,還擊跨了我們數據中心先進的備用系統。我們會竭盡全力進一步分散我們的系統,以便讓將來諸如此類的任何停運事件更少發生。”除了加大失去客戶的風險外,這起事件據稱還讓Rackspace退款350萬美元,損失慘重。

焊工引起的癱瘓

2015年1月9日,由于一名焊工的吹管不小心引燃了旁邊的建筑材料,原準備作為亞馬遜網站未來數據中心的一幢大樓發生了火災。這場大火很快變成了維吉尼亞州阿什本一處地方的三級大火。幾英里開外的地方也能見到滾滾濃煙。亞馬遜發言人告訴美國廣播公司新聞網駐地方辦事處:這場大火造成約10萬美元的損害,不過補充說“沒有影響亞馬遜運營的風險”,因為該數據中心還沒有投入使用。

太陽風暴

萬一嫌火災、洪水和四輪驅動車事故還不夠鬧心,總是會出現這種小概率事件:太陽風暴襲擊地球大氣層。太陽耀斑過后有時會出現所謂的太陽風暴,來自太陽表面的日冕物質噴射會沿著與之前的太陽耀斑同樣的軌跡,遠離太陽表面。

這一連串事不常發生,但是一旦發生,太陽耀斑似乎會為噴射清理出一條路線,以便高速噴射到太空。隨著帶電粒子接近地球大氣層,它們會因高速而形成強磁性。磁場會誘導長長的導電材料,比如導電電纜。管道和電話系統提供了另外的長長導電體,能夠捕捉到電荷。

這種威脅對倫敦勞埃德保險公司(Lloyds of London)來說足夠嚴重,于是發布了一份風險評估報告:《北美電網面臨的太陽風暴風險》。

據這份報道聲稱:“電力可靠性面臨的一個嚴重威脅就是磁暴――太陽風暴在地球大氣層的上層引起的嚴重干擾……它們誘導的電流會讓電網系統出現過載,從而引發電壓崩潰,或者更糟糕的是,損壞數量眾多的價格不菲的特高壓變壓器。”

1989年,加拿大就遭遇了這樣一起太陽風暴,電涌導致變壓器損壞,結果魁北克水力發電公司的電網陷入癱瘓。據估計,1859年美國發生的一起規模較小的太陽風暴(名為卡林頓事件)讓幾名正在作業的報務員觸電,并且導致幾個電報局著火。1989年的那起事件導致東北電力協調委員會和中大西洋地區委員會的斷路器和防護裝備失效,幾乎讓成員電網出現連鎖反應式崩潰。電涌損壞發電機的升壓變壓器后,新澤西州的一家核電廠不得不停止運行。而在2012年也發生過一場太陽風暴。

結束語

雖然所有這些場景讓最身經百戰的數據中心運營者也嚇出一身冷汗,不過好消息是,本文中提到的所有企業組織都設法從任何災難恢復方案根本預料不到的一連串事件后迅速恢復了過來。

關鍵字:數據中心

中國儲能網版權聲明:凡注明來源為“中國儲能網:xxx(署名)”,除與中國儲能網簽署內容授權協議的網站外,其他任何網站或者單位如需轉載需注明來源(中國儲能網)。凡本網注明“來源:xxx(非中國儲能網)”的作品,均轉載與其他媒體,目的在于傳播更多信息,但并不意味著中國儲能網贊同其觀點或證實其描述,文章以及引用的圖片(或配圖)內容僅供參考,如有涉及版權問題,可聯系我們直接刪除處理。其他媒體如需轉載,請與稿件來源方聯系,如產生任何版權問題與本網無關,想了解更多內容,請登錄網站:http://www.ckjqme.icu

相關報道

深度觀察

美国职业美式足球即时比分