在世界經(jīng)濟數(shù)字化轉(zhuǎn)型的大勢驅(qū)動下,電力行業(yè)到了數(shù)字產(chǎn)業(yè)化、產(chǎn)業(yè)數(shù)字化的歷史轉(zhuǎn)折點。
智能電表采集頻次達到分鐘級,生產(chǎn)調(diào)度系統(tǒng)采集頻次達到秒級,電力的生產(chǎn)和消費過程中,產(chǎn)生了億萬級的數(shù)據(jù)。據(jù)統(tǒng)計,僅廣東電網(wǎng)數(shù)據(jù)總量就有約4000TB,而且保持著20%以上的年增速。
如何用好、管好、維護好電力數(shù)據(jù),讓電力數(shù)據(jù)發(fā)揮最大的價值,成為了行業(yè)共同思考的問題。
人工運維帶來的隱患 成為決定數(shù)據(jù)中心生命周期永遠的痛
翻閱近年來的宕機事件,不難發(fā)現(xiàn)數(shù)據(jù)中心運維存在著共通的、永遠的痛處:
剛剛過去的2020年,谷歌公司服務在凌晨3點47分中斷,導致旗下YouTube、Gmail、Google Drive、Google Search等服務出現(xiàn)異常,全球多個國家及地區(qū)用戶無法正常使用,直到當?shù)貢r間早上8點左右,相應的故障才陸續(xù)恢復。 事后,谷歌官方出具的調(diào)查報告顯示:
宕機的原因是“internal storage quota issue”,即內(nèi)部存儲配額問題,與數(shù)據(jù)中心存儲運維有著脫不開的干系。 數(shù)據(jù)中心80%的故障來自人為風險,數(shù)據(jù)中心從業(yè)務部署到運行再到新業(yè)務擴充,都要進行大量手動配置,不但工作量大還存在操作失誤風險,無疑一顆定時炸彈,隨時可能引爆。
碰到系統(tǒng)升級,更是讓運維人員頭痛,數(shù)據(jù)中心要求7*24小時在線,如果貿(mào)然對設備進行重啟升級,必然會造成大面積的業(yè)務中斷,這是數(shù)據(jù)中心不能承受的。
另外,在運維的監(jiān)控管理上,數(shù)據(jù)中心需要工作人員24小全程值班,但是24小時值班的不可能全是技術骨干、高工,同時,人都存在犯錯的概率。一旦數(shù)據(jù)中心出現(xiàn)緊急狀況,值班員恢復操作或技術專家在沒有掌握所有運行參數(shù)的情況下指導操作,不僅會處理效果不佳,更可能造成二次故障。
億萬數(shù)據(jù) 對電力數(shù)據(jù)中心的自動化、信息化水平提出了新的挑戰(zhàn)
人工運維給數(shù)據(jù)中心帶來的巨大隱患,在電力行業(yè)等公共服務領域尤為突出,更對數(shù)據(jù)中心運維的自動化、信息化水平提出了新的挑戰(zhàn)。
一方面,是面向流程自動化的頂層設計挑戰(zhàn):
數(shù)據(jù)中心的運維作為業(yè)務運行的核心支撐,運維自動化的核心價值就在于使能業(yè)務流程的數(shù)字化以及自動化。而從電力行業(yè)的現(xiàn)狀來看,需要有從上而下的基于運維自動化的業(yè)務流程設計,這也將成為釋放數(shù)據(jù)中心管理和運維效率的一大挑戰(zhàn)。
另一方面,是面向云時代的運維新挑戰(zhàn):
隨著數(shù)字新技術在電力行業(yè)廣泛應用,數(shù)據(jù)中心有一個繞不開的話題是云化轉(zhuǎn)型。數(shù)據(jù)中心云化帶來了資源池化共享、業(yè)務快速發(fā)放、自動化部署等諸多好處的同時,也給運維帶來了新的挑戰(zhàn)。
傳統(tǒng)運維只能看到設備通斷和靜態(tài)指標,出現(xiàn)問題很可能是業(yè)務部門早于信息部門知道,故障定位和業(yè)務恢復延時嚴重。面對云化的數(shù)據(jù)中心,傳統(tǒng)的運維方式不僅自身感到力不從心,更越來越無法滿足業(yè)務需求。
最后,是面向智能運維的技能轉(zhuǎn)型挑戰(zhàn):
從傳統(tǒng)到智能,運維人員需要超越以IT為中心的技能集合,實現(xiàn)以面向業(yè)務和全技術棧為中心的技能集合進行更新,進而有機會投入到智能數(shù)據(jù)挖掘、業(yè)務編排等高價值工作中去。因此,讓運維人員從繁雜的事務性工作解脫出來就顯得尤為重要了。
用更先進、更可靠的管理方式和支撐系統(tǒng),確保電力生產(chǎn)和消費數(shù)據(jù)的實時監(jiān)控、安全運行,讓電力行業(yè)數(shù)據(jù)中心從人工運維走向智能運維,成為了業(yè)界關鍵訴求。
數(shù)據(jù)作為智能時代最重要的資產(chǎn),每一個比特的丟失都可能造成不可承受之痛。數(shù)據(jù)從被采集到使用,再到產(chǎn)生價值,存儲是其生命周期中最主要的存在狀態(tài),存儲也因此被稱為數(shù)據(jù)中心的底座,其管理和運維的重要性不言而喻。
華為DME 開啟廣西電力數(shù)據(jù)中心存儲智能運維新時代
華為DME助力廣西電力數(shù)據(jù)中心搭建存儲智能運維能力,在與廣西電力的溝通過程中,我們發(fā)現(xiàn),廣西電力數(shù)據(jù)中心存儲由于缺乏統(tǒng)一、智能的管理平臺,在存儲設備數(shù)量不大時,運維壓力還可以接受,但隨著存儲設備的不斷增加,運維的復雜度呈現(xiàn)指數(shù)級上升。
“基于華為DME的智能存儲管理平臺以及相應的服務,可以說非常符合我們電力行業(yè)對于存儲統(tǒng)一運維管理的構想,進而大大提升我們的數(shù)據(jù)中心的運維效率。”廣西電力公司運維中心運維工程師表示
華為DME圍繞電力行業(yè)數(shù)據(jù)中心存儲的運維痛點,以三大能力持續(xù)提升廣西電力數(shù)據(jù)中心存儲的管理和運維效率。
融合能力:使得客戶的日常運維管理操作都能集中在一個管理界面完成,避免多軟件平臺,多界面跳轉(zhuǎn),降低學習成本,提升管理效率。
更重要的是,華為DME提供的自動化的資源發(fā)放能力讓運維人員從繁瑣的手工操作與腳本開發(fā)驗證中釋放出來,減少手工誤操作,讓運維人員有更多的精力思考業(yè)務的優(yōu)化。
智能能力:實現(xiàn)運維從被動式到主動式的轉(zhuǎn)變。除了基本的統(tǒng)一告警、統(tǒng)一監(jiān)控能力外,DME提供的“策略檢測”能力幫助客戶基于自己的運維經(jīng)驗設置主動檢測策略,便于主動發(fā)現(xiàn)問題。
“端到端性能分析”與“端到端TOPO”能力在一個界面展示SAN網(wǎng)絡的所有IO路徑上的各個對象的性能指標與運行狀態(tài),以便幫助客戶快速定位問題。
開放能力:通過提供標準接口對接云生態(tài),持續(xù)對接上層系統(tǒng),為后續(xù)智能運維平臺融入業(yè)務平臺實現(xiàn)業(yè)務流程自動化提供堅實基礎。
我們處在一個變革的時代,一個數(shù)字化互聯(lián)互通的時代,一個信息流稍縱即逝的時代,電力行業(yè)數(shù)據(jù)中心存儲智能運維極簡Style,你PICK好了嗎?
評論