超強臺風(fēng)“山竹”剛剛過去4天,香港地區(qū)在第一個工作日已陸續(xù)復(fù)產(chǎn)復(fù)業(yè)復(fù)市。有誰敢相信,“山竹”襲來的當(dāng)天,香港天文臺的10號風(fēng)球信號整整掛足了10個小時。
根據(jù)香港中華電力當(dāng)天新聞稿稱,其供電系統(tǒng)在“山竹”的襲擊下,40萬伏特及13萬2千伏特架空天線受到嚴(yán)重影響,導(dǎo)致約40000個客戶供電中斷。在這里新天域互聯(lián)小編給大家做個小科普,中華電力(中電)負(fù)責(zé)香港九龍、新界區(qū)的電力供應(yīng),而港燈電力(港燈)負(fù)責(zé)香港港島地區(qū)的電力供給,雙方分工分明。舉個例子來說,位于香港新界區(qū)葵興ITECH TOWER 2的新天域互聯(lián)數(shù)據(jù)中心,就只能使用到中電的電路系統(tǒng)。
圖:取自中電官網(wǎng)
中電一直維持世界級的供電系統(tǒng),可靠度達 99.999% 以上。如此穩(wěn)定的可靠度有賴中電輸配電網(wǎng)絡(luò)采用環(huán)形配置,為客戶提供雙重電源。中電更透過設(shè)備完善的系統(tǒng)控制中心,以先進技術(shù)實時監(jiān)控各輸配電網(wǎng)絡(luò)的情況,其中包括13,900座變電站以及長達14,500公里的高壓電纜。中電完備的系統(tǒng)控制中心及專業(yè)的外勤隊伍,提供7*24*365緊急服務(wù),確保供電服務(wù)日夜無間。
圖:取自中電官網(wǎng)
眾所周知,數(shù)據(jù)中心等電信類設(shè)施對穩(wěn)定電力也有著很高的依賴性,而停電正正命中它們的要穴。
據(jù)Uptime Institute對全球1000家數(shù)據(jù)中心運營商和IT從業(yè)者進行的數(shù)據(jù)中心行業(yè)調(diào)查顯示,在2014年,25%至46%的受訪者都曾遭受斷電對業(yè)務(wù)造成影響。 簡單列舉幾個案例:
● 2014年7月5日,位于弗羅里達的維基百科數(shù)據(jù)中心發(fā)生斷電事故,導(dǎo)致全球范圍宕機。
● 2015年9月20日,亞馬遜AWS一個數(shù)據(jù)中心遭遇停電事故,旗下Netflix,Tinder,Airbnb等應(yīng)用程序的在線服務(wù)受到了影響。
● 2017年5月27日,英國航空公司從Heathrow和Gatwick起飛的所有航班,原因是機房故障導(dǎo)致其全球運營嚴(yán)重中斷。
數(shù)據(jù)中心的主要功能,是為它所包含的關(guān)鍵任務(wù)應(yīng)用程序提供穩(wěn)定的正常運行。根據(jù)2016年Ponemon Institute的調(diào)查,UPS系統(tǒng)故障仍然是導(dǎo)致計劃外數(shù)據(jù)中心宕機的首要原因。
2017年Uptime Institute拉斯維加斯的研討會上指出,在已公開的停電事故當(dāng)中,其中62%是由于IT設(shè)備服務(wù)供應(yīng)商的問題。而如今“上云”成為大家迫不及待的選擇,不僅需要信賴大品牌的能力,還要注重上云的方式和機房的硬件設(shè)備,如:機房五大系統(tǒng)的保障、雙活機房,服務(wù)器、存儲等配置情況及品牌;
● 嚴(yán)格按照數(shù)據(jù)中心建造標(biāo)準(zhǔn)來建設(shè);
● 選用可靠的電力系統(tǒng)裝置和冷卻系統(tǒng)裝置等;
● 異地容災(zāi)、異地快照、異地還原、鏡像災(zāi)備;
● 對數(shù)據(jù)中心設(shè)備進行實時監(jiān)控;
● 根據(jù)專業(yè)機構(gòu)建議對硬件進行合理升級。
軟件硬件雙劍合璧才能使服務(wù)器發(fā)揮最大穩(wěn)定效用。
● 可通過DCIM管理軟件對供電系統(tǒng)進行智能化管理;
● 定時進行軟件備份,按照既定時間進行數(shù)據(jù)備份;
● 確保網(wǎng)絡(luò)安全,建立運維文檔和流程控制;
Uptime Institute研討會上同樣指出,至少38%的斷電情況是人為導(dǎo)致的。那么究竟什么是人為因素呢?以下幾點屬于管理過失問題:
● 設(shè)計妥協(xié)。數(shù)據(jù)中心一定要按照高等級標(biāo)準(zhǔn)進行數(shù)據(jù)中心建設(shè),尤其針對供配電系統(tǒng)、制冷系統(tǒng)等關(guān)鍵基礎(chǔ)設(shè)施產(chǎn)品的應(yīng)用提出嚴(yán)格要求,始終保證不妥協(xié);
● 培訓(xùn)預(yù)算削減。數(shù)據(jù)中心的持續(xù)穩(wěn)定運行離不開優(yōu)質(zhì)運維人員的全力支援,除了新員工完整的培訓(xùn)流程一定要做好外,老員工的定期培訓(xùn)也是十分有必要,畢竟IT知識日新月異;
● 裁員。裁員就意味著數(shù)據(jù)中心沒有足夠的人員支撐運行,無論是日常維護還是緊急情況處理,這些都需要足夠又穩(wěn)定的人員;
● 預(yù)防性維護。管理者必須對數(shù)據(jù)中心里的每班當(dāng)值人員進行充分的緊急情況培訓(xùn),多模擬安全測試,準(zhǔn)備好災(zāi)難應(yīng)急方案;
● 缺乏專業(yè)機房人才。邀請專業(yè)人員或公司加入到團隊當(dāng)中,加強高可用的數(shù)據(jù)中心管理體系;
● 選擇成本最低的供應(yīng)商。無論是自建機房還是租用托管服務(wù)器,企業(yè)都必須根據(jù)自己實際情況,選擇最好的硬件,最好的環(huán)境,最好的設(shè)備。
● 定期演練
有時候即便預(yù)防措施做齊了,還是會發(fā)生斷電,這個時候,新天域互聯(lián)給大家一點建議:
● 首先在場人員必須先確認(rèn)停電的線路,停電時刻等信息;:
● 按照災(zāi)難應(yīng)急方案進行,第一時間通知各個相關(guān)部門;
● 對數(shù)據(jù)中心里的設(shè)備進行檢查,如服務(wù)器、UPS系統(tǒng)、核心系統(tǒng)等等;
● 對數(shù)據(jù)中心進行有效的散熱處理;
● 工單記錄;
● 部件檢查完畢時,區(qū)分優(yōu)先恢復(fù)的步驟實施,確保用電功率情況正常;
● 啟動發(fā)電機,檢測發(fā)電輸出電流通斷,待發(fā)電機運行穩(wěn)定,按順序啟動制冷系統(tǒng)、主UPS的市電輸入、客服系統(tǒng)、備用UPS的市電輸入;
● 發(fā)電機啟動后,值班同事需將降溫系統(tǒng)關(guān)閉,逐一檢查所以設(shè)備是否正常;
● 派專人現(xiàn)場值守,及時與油品供應(yīng)商溝通。
史上最強“山竹”臺風(fēng)來襲,正是考驗一個數(shù)據(jù)中心應(yīng)變能力,基礎(chǔ)設(shè)施是否過關(guān)的最佳時機。在山竹抵港的十個小時里,新天域互聯(lián)并未因停電而導(dǎo)致宕機事故的發(fā)生,整個數(shù)據(jù)中心井然有序,服務(wù)器持續(xù)高效運行,這源于新天域互聯(lián)所采用的電氣系統(tǒng),冷卻系統(tǒng)和備用柴油發(fā)電機均為2N冗余,能有效應(yīng)對停電情況發(fā)生;更源于工作人員365天如一日的為用戶提供最為高品質(zhì)的服務(wù)。