宇塵網(wǎng)絡(luò)工程師大大實(shí)在忙,這期小編就科普一篇機(jī)房運(yùn)維人員如何著手運(yùn)維工作。一來讓入行的小白們了解運(yùn)維主要干什么,二來希望有志成為運(yùn)維工程師的小伙伴吸收相關(guān)的技術(shù)經(jīng)驗(yàn),做好入行準(zhǔn)備。
首先拜機(jī)柜,有問題不可怕,但是千萬不要總是出問題
閑話不說,讓我們?yōu)t瀟灑灑的長(zhǎng)知識(shí)吧:
數(shù)據(jù)中心運(yùn)維的工作主要是對(duì)數(shù)據(jù)中心各項(xiàng)管理對(duì)象進(jìn)行系統(tǒng)的計(jì)劃、組織、協(xié)調(diào)與控制,是信息系統(tǒng)服務(wù)有關(guān)各項(xiàng)管理工作的總稱,具體包括對(duì)機(jī)房環(huán)境基礎(chǔ)設(shè)施部分的維護(hù),系統(tǒng)與數(shù)據(jù)維護(hù),管理工具的使用,人員的管理等方面。
一、善于做好工程文檔記錄
數(shù)據(jù)中心的主機(jī)安裝,配置優(yōu)化、組建網(wǎng)絡(luò)、設(shè)備互聯(lián)等都需要通過文檔的形式進(jìn)行記錄,以便出現(xiàn)故障能夠快速排查。同時(shí)以記錄文檔的形式進(jìn)行工作交接更謹(jǐn)慎。還有通過日積月累的文檔記錄對(duì)于工作經(jīng)驗(yàn)來說也是一種沉淀,對(duì)優(yōu)化數(shù)據(jù)中心的運(yùn)維能力也有了數(shù)據(jù)支撐。文檔主要分四類:一是數(shù)據(jù)中心內(nèi)部架構(gòu)文檔,比如:組網(wǎng)介紹、設(shè)備互連關(guān)系、IP分配情況、空調(diào)系統(tǒng)、機(jī)電系統(tǒng)、布線系統(tǒng)等的基本狀況;二是數(shù)據(jù)中心管理文檔,比如:機(jī)房管理制度、機(jī)房值班和交接制度、機(jī)房巡檢制度、設(shè)備操作規(guī)范制度,安全防護(hù)制度等等。三是數(shù)據(jù)中心改造,優(yōu)化工程文檔。比如:升級(jí)指導(dǎo)書、網(wǎng)絡(luò)變更計(jì)劃書、應(yīng)急措施指導(dǎo)、軟件回退方案等等。四是數(shù)據(jù)中心運(yùn)維的經(jīng)驗(yàn)文檔。比如:網(wǎng)絡(luò)中斷問題分析、現(xiàn)有機(jī)房環(huán)境評(píng)估、如果進(jìn)行業(yè)務(wù)不丟包切換等等。這些文檔可以給初入行業(yè)的新人一個(gè)可靠的參考指南,迅速上手。
二、業(yè)務(wù)備份判斷
數(shù)據(jù)中心需要24小時(shí)連續(xù)運(yùn)行,除了一些外力因素,譬如惡意攻擊等行為導(dǎo)致的服務(wù)器故障外,還有數(shù)據(jù)中心內(nèi)部的一些不可抗因素,對(duì)數(shù)據(jù)業(yè)務(wù)的備份水平不僅是對(duì)企業(yè)用戶的一個(gè)保障,也是一個(gè)數(shù)據(jù)中心實(shí)力的體現(xiàn)。小到服務(wù)器、網(wǎng)絡(luò)到存儲(chǔ),大到數(shù)據(jù)中心,都需要有備份,包含軟件的備份和硬件的備份。通過備份,可以在數(shù)據(jù)中心運(yùn)行出問題時(shí),及時(shí)做業(yè)務(wù)調(diào)整,確保業(yè)務(wù)無中斷或者短時(shí)中斷。如今的數(shù)據(jù)中心可以做到多數(shù)據(jù)中心相互備份,以防以數(shù)據(jù)中心為單位的整體故障出現(xiàn)時(shí)業(yè)務(wù)中斷。一般這種情況是基本不可能出現(xiàn)的。當(dāng)然,數(shù)據(jù)的備份要消耗相當(dāng)?shù)膬?chǔ)存空間和增加管理難度。所以如何對(duì)業(yè)務(wù)備份進(jìn)行判斷,使備份行為更加有序是每個(gè)運(yùn)維工程師需要思考和提升的。
三、學(xué)習(xí)在線監(jiān)測(cè)數(shù)據(jù)
機(jī)房?jī)?nèi)的各個(gè)關(guān)鍵設(shè)備和關(guān)鍵設(shè)備所需要的環(huán)境因素共同構(gòu)成了機(jī)房的整個(gè)生態(tài)系統(tǒng),各個(gè)系統(tǒng)的協(xié)同工作才能保障整個(gè)生態(tài)系統(tǒng)的穩(wěn)定、有序運(yùn)轉(zhuǎn)。而傳統(tǒng)的數(shù)據(jù)中心會(huì)為各個(gè)設(shè)備配備專人進(jìn)行值守,通過定期巡查和手抄記錄來對(duì)數(shù)據(jù)中心各設(shè)備的運(yùn)轉(zhuǎn)情況進(jìn)行監(jiān)控。如此的管理方式,一是加重了數(shù)據(jù)中心的管理成本。二是技術(shù)人員并不能做到百分百的精準(zhǔn)管控,對(duì)出現(xiàn)故障的排查及時(shí)性沒有太大用處。同時(shí)機(jī)房重地,人員的頻繁流動(dòng),對(duì)機(jī)房生態(tài)環(huán)境的維護(hù)有害而無利。把UPS、配電柜、散熱空調(diào)、煙感、恒濕度、門禁系統(tǒng)通過數(shù)據(jù)可視化來實(shí)現(xiàn)集中監(jiān)控。在線監(jiān)測(cè)是確保數(shù)據(jù)中心無故障運(yùn)行的保證,有效的在線監(jiān)測(cè)可以減少數(shù)據(jù)中心故障發(fā)生對(duì)業(yè)務(wù)造成影響。
四、周期性的機(jī)房巡檢
運(yùn)維人員還需要進(jìn)行周期巡檢,包括對(duì)各種設(shè)備的檢查,環(huán)境的檢查,電源、空調(diào)設(shè)備的檢查,填寫日常巡檢記錄表,檢修記錄,作業(yè)操作表等等。通過以往記錄的數(shù)據(jù)進(jìn)行綜合分析,一旦某些數(shù)據(jù)有波動(dòng)或者異常,應(yīng)該及時(shí)采取有效措施,避免隱患引發(fā)故障。通過周期巡檢也可以對(duì)整個(gè)數(shù)據(jù)中心有個(gè)全面的了解,一旦要進(jìn)行系統(tǒng)改造或者擴(kuò)容等工作,有了前期這些巡檢數(shù)據(jù)參考,制定的改造或擴(kuò)容方案才更有針對(duì)性。千萬不要以為周期巡檢只是記錄一些設(shè)備運(yùn)行的基本參數(shù),通過這些參數(shù)可以看到整個(gè)數(shù)據(jù)中心的運(yùn)行狀態(tài)。對(duì)于一個(gè)剛從事運(yùn)維的新手來說,通過周期巡檢可以迅速了解到數(shù)據(jù)中心的各個(gè)環(huán)節(jié),獨(dú)立展開維護(hù)工作。
總的來說,以上四個(gè)方面是運(yùn)維人員主要的工作內(nèi)容,一個(gè)數(shù)據(jù)中心長(zhǎng)期穩(wěn)定運(yùn)行也有賴于這四部分工作完成的水平。當(dāng)然,數(shù)據(jù)中心運(yùn)維好了,數(shù)據(jù)中心有了良性的收益成果。小編打賭,年終獎(jiǎng)你最多。