數(shù)據(jù)中心屬重要的場所,數(shù)據(jù)中心的安全包括數(shù)據(jù)中心的園區(qū)、數(shù)據(jù)中心的建筑、數(shù)據(jù)中心中的各功能場所以及運行的設施,確保數(shù)據(jù)中心物理環(huán)境的安全,才能有效的保障運行在數(shù)據(jù)中心的各系統(tǒng)和信息的安全。
一 安全管理
數(shù)據(jù)中心屬重要的場所,數(shù)據(jù)中心的安全包括數(shù)據(jù)中心的園區(qū)、數(shù)據(jù)中心的建筑、數(shù)據(jù)中心中的各功能場所以及運行的設施,確保數(shù)據(jù)中心物理環(huán)境的安全,才能有效的保障運行在數(shù)據(jù)中心的各系統(tǒng)和信息的安全。因此需要建立安全管理體系。本講介紹數(shù)據(jù)中心的安全管理。
1、數(shù)據(jù)中心安全等級
數(shù)據(jù)中心的安全首要任務就是場地的安全,因此需要對數(shù)據(jù)中心內(nèi)不同功能的區(qū)域按照其重要性劃分安全區(qū)域和安全等級,嚴格控制這些區(qū)域的訪問和操作。
按照重要性安全區(qū)域分為核心、重要、普通和公共四個區(qū)域,安全等級劃分為一級到四級,見表1。 圖片
2、數(shù)據(jù)中心的安全值守
①數(shù)據(jù)中心應配置專職安全保衛(wèi)人員,安全保衛(wèi)人員應設置在園區(qū)和數(shù)據(jù)中心出入口。對高等級的數(shù)據(jù)中心的核心區(qū)域宜設置安全保衛(wèi)崗;
②高壓配電室、消防和安防控制室、動力環(huán)境監(jiān)控室應安排專職專業(yè)人員值守;
③上述區(qū)域應滿足24小時值守要求。
3、數(shù)據(jù)中心的訪問控制管理
圖片
①需要訪問控制的區(qū)域設置門禁,重要的場所宜設置安保人員值守;
②設置人員訪問的級別權限;
③所有人員應佩戴身份標識;
④未經(jīng)授權的人員要訪問安全區(qū)域,需要申請,并通過審批,需要全程陪同。
4、數(shù)據(jù)中心的安全保護
不同的安全區(qū)域設置安全防范措施,安全防范措施包括:設置安保人員值守、安全監(jiān)控、入侵報警,出入口管理、電制巡更等,各子系統(tǒng)具備聯(lián)動。其中,
①對A級數(shù)據(jù)中心的機房實施無盲區(qū)攝像監(jiān)控;
②數(shù)據(jù)中心視頻監(jiān)控記錄時間不少于三個月;
③數(shù)據(jù)中心的門禁記錄不少于一年。
5、人身安全
人身保護器材包括:空氣呼吸器或氧氣呼吸器、安保人員的防爆、防襲擊、逃生器材等,消防系統(tǒng)包括火災探測、報警、滅火、疏散通道、疏散指示燈、門禁與消防的聯(lián)動、應急照明等。實施對危險品和實施的安全管理,危險品和實施的管理包括:
①工程施工中的乙炔、氧氣瓶、電焊機;
②柴油、燃氣(對三聯(lián)供的數(shù)據(jù)中心);
③鉛酸電池、鋰電池;
④壓力容器。
6、操作安全
數(shù)據(jù)中心應明確日常操作、故障處理、應急處理、施工等工作的安全要求,制定操作安全管理制度,控制操作帶來的安全風險。
運行維護人員必須按照操作手冊進行操作。有風險的操作和施工應得到批準,且應在非生產(chǎn)時間或對運行影響最小的時段進行,重要時段嚴禁進行有風險的操作及施工。對有風險的操作應實行雙人臨崗,操作時實施復核和相互監(jiān)督。有風險的操作包括電力系統(tǒng)倒閘、雙路電源切換、發(fā)電機并機切換、UPS手動放電測試、網(wǎng)絡線路切割等。
安裝和維修人員在進行設備安裝或維修時,應穿著或佩戴安全保護裝備。
二 質量管理
數(shù)據(jù)中心應建立運行維護的體系,并貫穿數(shù)據(jù)中心運行的全生命周期,本講重點介紹數(shù)據(jù)中心運維的質量管理,數(shù)據(jù)中心接收、運行維護、數(shù)據(jù)中心運行監(jiān)督等管理。
1、數(shù)據(jù)中心接管與分界
①數(shù)據(jù)中心運維團隊接管
數(shù)據(jù)中心全生命周期包括規(guī)劃設計、施工建造和投產(chǎn)后的運行維護。按照數(shù)據(jù)中心全生命周期的管理,運維團隊應該需要參與數(shù)據(jù)中心的規(guī)劃、設計、施工、調(diào)試和驗收,了解和掌握數(shù)據(jù)中心的建設才能更好的做好投產(chǎn)后的運維,但是大部分的數(shù)據(jù)中心建設與運維是分離的,那么數(shù)據(jù)中心運維團隊至少應(或者宜)在數(shù)據(jù)中心工程竣工驗階段介入,參與組織工程竣工測試驗證,完成竣工和技術文檔的檢查和接收,這樣可以全面的掌握設計、施工和交付時各系統(tǒng)的狀況。
測試驗證的內(nèi)容應包括單機或單系統(tǒng)測試驗證、系統(tǒng)聯(lián)調(diào)測試驗證、帶載測試驗證和故障模擬驗證。
測試驗證包括建設方自行組織的測試驗證,也包括第三方專業(yè)檢測評估機構的測試驗證。竣工和技術文檔包括規(guī)劃和設計資料、施工竣工圖、設備清單和采購合同、設備出廠技術說明書、操作手冊、維護手冊、各系統(tǒng)設計說明、驗收測試文檔、報審資料、質保期各廠商聯(lián)絡方式和技術支持人員的信息等。
②數(shù)據(jù)中心運維的工作范圍、界面與職責
數(shù)據(jù)中心運維團隊在接管數(shù)據(jù)中心的運維時還有一項重要的工作應明確工作范圍、界面劃分和職責。
界面劃分主要是指數(shù)據(jù)中心與外部能源、網(wǎng)絡等供應方的分工及數(shù)據(jù)中心各部門之間的分工。與外部的分工界面包括外部供電、供水、消防、安防、網(wǎng)絡運營商等的分工界面和職責,內(nèi)部分工界面包括內(nèi)部供電、供水、空調(diào)、消防、安防、監(jiān)控、網(wǎng)絡等各部門的維護界面和相應的職責。
2、建立運行維護質量管理體系
運行維護質量管理體系應體現(xiàn)在數(shù)據(jù)中心運行的全過程中,運行維護質量體系包括:
①制定質量管理目標,管理目標應包括系統(tǒng)穩(wěn)定運行的可用性、服務響應和解決時效、應急保障的能力、服務等級協(xié)議、運行成本控制、能效等指標;
②運行維護服務效率與質量保障計劃;
③團隊和各崗位的職責;
④運行維護相關的制度和流程;
⑤用戶滿意度。
3、數(shù)據(jù)中心運行維護管理
數(shù)據(jù)中心的運行維護管理應遵循:“以安全運行為綱、預防為主”的目標,運行維護質量管理包括:日常的監(jiān)控、維護保養(yǎng)、風險控制。
①日常的監(jiān)控與巡檢
日常監(jiān)控包括:
·通過DCIM系統(tǒng)實施監(jiān)控各系統(tǒng)的運行狀態(tài);
·現(xiàn)場巡視:主要由基礎設施監(jiān)控和操作的人員在線檢查并記錄基礎設施的運行數(shù)據(jù),包括各系統(tǒng)運行環(huán)境、設備外觀、指示燈、運行狀態(tài),電壓、電流、水壓、漏水、溫濕度、消防鋼瓶氣壓等;做好運行值班、交接班、任務工單、巡檢的記錄。
·對A級數(shù)據(jù)中心(或按照自身的管理要求)應安排24h運行維護值班,每日每個班次現(xiàn)場巡檢次數(shù)不應少于1次。消防和安全防范系統(tǒng)應24h保持正常工作狀態(tài),不得隨意中斷。
②健康性檢查
健康性檢查主要由基礎設施運維工程師或產(chǎn)品的技術人員在線檢查和紀錄設備的運行參數(shù)、容量、設定值、日志、歷史記錄,形成日、月、季、年度的檢查分析報告,發(fā)現(xiàn)異常及時處理。
③預防性維護
預防性維護主要由基礎設施運維工程師、產(chǎn)品供應商的技術人員為主,做好檢查計劃,準備耗材和備品備件,以離線方式檢查設備的性能是否達到要求,部件是否需要維護或更換,并按照產(chǎn)品的技術要求進行保養(yǎng),做好檢查和維護保養(yǎng)紀錄,出具月度、年度檢查和維護保養(yǎng)的報告。
④主備系統(tǒng)輪巡
主用機與備用機輪流循環(huán)運行是確保:
·確保每臺設備運行時間均衡并得到應有休息;
·將線上運行的設備轉為線下維護,進行設備的性能檢查、清潔(洗)、更換耗材和易損件,通過維護保養(yǎng),確保設備的各部件完好。
主備機輪巡適用于數(shù)據(jù)中心中2(N+1)或N+X的系統(tǒng),包括設備、管道、線路等。如UPS、柴發(fā)、冷機、水泵、板換、冷塔、末端空調(diào)、雙回路的管道等。
⑤性能調(diào)優(yōu)
對系統(tǒng)運行參數(shù)和運行模式實施調(diào)優(yōu),其目的時根據(jù)不同負載、不同季節(jié)進行系統(tǒng)運行參數(shù)和運行模式的調(diào)整,確保系統(tǒng)持續(xù)運行在一個可靠、穩(wěn)定和良好的工作狀態(tài),同時保持系統(tǒng)在安全、節(jié)能、高效的工作狀態(tài)下運行。
⑥應急預案與演練
制定各種場景的應急預案,進行應急演練,有效提升故障的處理能力,減少服務中斷的時間和損失。
4、數(shù)據(jù)中心運行維護的方式
數(shù)據(jù)中心運行維護質量管理分為在線維護、離線維護和風險控制。
在線維護的質量管理包括現(xiàn)場巡檢、遠程監(jiān)控、參數(shù)調(diào)整、切換操作等,提前發(fā)現(xiàn)系統(tǒng)潛在問題和不足,實施必要的運行模式和參數(shù)調(diào)整。
離線維護的質量管理包括按照產(chǎn)品的技術要求對設備進行預防性維護和保養(yǎng),以及對運行中發(fā)現(xiàn)的問題及時處理和解決,確保系統(tǒng)中的所有設備保持良好狀態(tài)。
風險控制的質量管理是通過主動查找、提前預防、過程控制、應急預案、應急演習等全過程控制,提前規(guī)避和控制可能出現(xiàn)的問題和風險,杜絕運營事故的發(fā)生。
5、數(shù)據(jù)中心運行維護監(jiān)督
數(shù)據(jù)中心應建立運行維護質量管理的監(jiān)督、檢查及考核制度,監(jiān)督和檢查運行維護服務工作的質量,制定量化考核管理指標,改進和完善運行維護的服務質量和效率。
數(shù)據(jù)中心應對維保服務單位的服務計劃、服務響應時間、服務質量和服務人員的能力進行評估。
三 容量與能效管理
數(shù)據(jù)中心運行維護除了做好各系統(tǒng)的正常運行,還需要關注各系統(tǒng)(包括空間)負載使用率是否達到設計要求和運行效率是否最優(yōu),本講重點介紹數(shù)據(jù)中心的容量管理和能效管理。
1、容量管理
對于每一個數(shù)據(jù)中心在運行維護中都需要掌握數(shù)據(jù)中心各系統(tǒng)(包括物理空間)容量的使用情況,容量管理包括:電力容量、制冷容量、機房空間容量,有條件的數(shù)據(jù)中心還可擴展到網(wǎng)絡端口和帶寬、承載業(yè)務運行的電子設備處理能力的容量管等。對容量管理的目的有兩方面,一是確保各系統(tǒng)運行在最佳的帶載能力下運行,二是防止超載引發(fā)故障,造成服務中斷和損失。
①電力容量應計量到總電力、變壓器、動力設備電力、照明及輔助區(qū)電力、UPS容量、精密列頭柜和每個機柜的電力容量使用情況;
②制冷系統(tǒng)容量應計量到總的制冷、機房區(qū)域的制冷、宜計量到機架制冷量使用情況;
③機房空間容量應計量到總的空間容量、區(qū)域空間容量、每個機柜的空間容量使用情況。
數(shù)據(jù)中心通過容量管理實現(xiàn)對數(shù)據(jù)中心運行管理的預測,提高數(shù)據(jù)中心物理空間的利用率,電力資源的利用率,科學和精細化規(guī)劃數(shù)據(jù)中心的擴容和發(fā)展。
數(shù)據(jù)中心應建立容量管理的電子化管理平臺和采集工具,設置容量的預警閾值,實現(xiàn)智能化的運行容量、使用率、剩余容量監(jiān)測和統(tǒng)計分析。
2、能效管理
數(shù)據(jù)中心是耗能大戶,國家高度關注數(shù)據(jù)中心的能源消耗情況,并出臺了對能耗管控指南和限制,同時各省也陸續(xù)出臺的相關政策,對數(shù)據(jù)中心的能耗指標提出了更高的要求,數(shù)據(jù)中心不僅僅注重設計和建造時的能效和節(jié)能措施,更需要做好運行維護生命周期中的能效精細化管理,確保在運行中的能耗達到和優(yōu)于設計的指標。因此需要從以下幾個方面來做好數(shù)據(jù)中心能效管理。
①能效管理的范圍
數(shù)據(jù)中心的能效管理時應覆蓋數(shù)據(jù)中心運行中涉及的所有能源范圍,明確能源管理的邊界。
數(shù)據(jù)中心的能源范圍和邊界包括:電力、燃氣、燃油、外部冷熱源等;能源的來源應包括:公共電網(wǎng)、數(shù)據(jù)中心自備電源、外部燃氣管網(wǎng)、市政自來水管網(wǎng)、自備水井、地表水;附屬可再生能源、冷熱電三聯(lián)供系統(tǒng),還有數(shù)據(jù)中心產(chǎn)生的廢熱再利用。數(shù)據(jù)中心能源管理邊界包括能源的輸入和輸出兩部分,邊界與數(shù)據(jù)中心支持的系統(tǒng)關系見圖1。 圖片
②數(shù)據(jù)中心的能效指標
數(shù)據(jù)中心能效衡量指標包括:
·電能使用效率(PUE或EEUE)——衡量數(shù)據(jù)中心總體能源使用效率(數(shù)據(jù)中心電能使用率(PUE)=數(shù)據(jù)中心總耗電/IT設備耗電);
·水的使用效率(WUE)——衡量數(shù)據(jù)中心水資源使用效率(數(shù)據(jù)中心水使用效率(WUE)=數(shù)據(jù)中心全年用水量/IT設備的耗能。WUE的單位為L/kWh);
·空調(diào)使用效率(CLF)——衡量數(shù)據(jù)中心制冷的使用效率(數(shù)據(jù)中心制冷效率(CLF)=數(shù)據(jù)中心空調(diào)系統(tǒng)的耗能/IT設備的耗能);
·可再生能源使用效率(RER)——衡量數(shù)據(jù)中心使用可再生能源的效率(可再生能源使用效率(RER)=可再生能源供電量/數(shù)據(jù)中心總耗電量)。
衡量的指標應以一年為一個標準周期。
③數(shù)據(jù)中心能效的采集與計量
數(shù)據(jù)中心應建立電子化能效管理平臺,采用自動化的監(jiān)控系統(tǒng)和智能儀器儀表實時采集相關系統(tǒng)、設備的能耗。
采集和測量的數(shù)據(jù)應滿足以下要求:
·完整性要求:涵蓋數(shù)據(jù)中心運行環(huán)境中各系統(tǒng)的能耗,并做到連續(xù)采集、測量和紀錄各系統(tǒng)的能耗,做到各系統(tǒng)的能耗數(shù)據(jù)不缺失;
·顆粒度要求:可按照設備、系統(tǒng)、區(qū)域、時間統(tǒng)計能耗;
·精細度要求:可按照時、天、周、月、季、年統(tǒng)計,如無特殊說明,可按照春季(3月~5月)夏季、(6月~8月)秋季、(9月~11月)、冬季(12月~2月)劃分。
數(shù)據(jù)中心的能效采集和測量方法:數(shù)據(jù)中心應至少將以下位置選為測試點并設置電能計量儀表,滿足能效采集、計量的要求,數(shù)據(jù)中心電能消耗測量點見圖2。 圖片
·數(shù)據(jù)中心總電能消耗的測量位置應為變壓器低壓上側(見圖中A點);
·當列頭配電柜無隔離變壓器時,數(shù)據(jù)中心信息設備電能消耗的測量位置應為不間斷電源輸出端供電回路(見圖B點);
·列頭配電柜帶隔離變壓器時,數(shù)據(jù)中心信息設備電能消耗的測量位置應為PDU輸入端供電回路(見圖中C點);
·采用機柜風扇作為輔助降溫時,數(shù)據(jù)中心信息技術(IT)設備電能消耗的測量位置應為IT負載供電回路(見圖中D點);
·IT設備能耗測試點為UPS輸出端供電回路,且UPS負載還包括UPS供電的制冷、泵時,制冷、泵能耗應在IT能耗中扣除(扣除圖中B1、B2點測得的電量);
·對數(shù)據(jù)中心設有自發(fā)電裝置(柴油、燃氣、風力、太陽能等)時,所有發(fā)電機饋電回路的電能應計入總輸入電量;
·空調(diào)系統(tǒng)的能耗測試點為E1、B1、B2、E4;
·數(shù)據(jù)中心照明系統(tǒng)的電能消耗測量點為E2;
·其他系統(tǒng)能耗主要指數(shù)據(jù)中心內(nèi)部機房區(qū)、監(jiān)控區(qū)、基礎設備的通風系統(tǒng)、給排水系統(tǒng)、安全防范系統(tǒng)、火災報警系統(tǒng)、機房環(huán)境及設備監(jiān)控系統(tǒng)、電子化的綜合布線智能管理系統(tǒng)等能耗。
④數(shù)據(jù)中心能效分析與優(yōu)化
數(shù)據(jù)中心能效管理應對采集和計量的能耗數(shù)據(jù)實施統(tǒng)計和分析,實現(xiàn)對區(qū)域、系統(tǒng)、設備的能耗的分析,實現(xiàn)實時、日、月、季、年的能效數(shù)據(jù)的統(tǒng)計。并按照要求生成設備、系統(tǒng)、區(qū)域和時間段的能耗分析報告。
數(shù)據(jù)中心應根據(jù)能耗分析報告實施能效評價,能效評價包含:數(shù)據(jù)中心綜合能效、設計能效符合度、空調(diào)系統(tǒng)能效、水資源能效、供電系統(tǒng)能效、局部能效、綠色節(jié)能等方面的評價,有條件的數(shù)據(jù)中心也可包括IT設備(系統(tǒng))運行的效率評價。
數(shù)據(jù)中心能效測評可以自行評估,也可聘請專業(yè)的第三方機構對能源使用效率進行專項評估。
數(shù)據(jù)中心應建立能效優(yōu)化的管理機制,管理層應定期召開能效狀況的分析會,找出存在的主要問題并提出改進建議,解決和落實能效改進和優(yōu)化的措施。