導語 BIM IDC從2017年1.0版本,歷經(jīng)一次1.1版本更新,迭代至2020年2.0版本。從基于設(shè)備父子關(guān)系定位數(shù)據(jù)中心配電設(shè)備故障的根因,到探索全設(shè)備拓撲關(guān)系及IDC仿真模擬,并最終在2020年實現(xiàn)了基于數(shù)據(jù)中心全生命周期內(nèi)各項數(shù)據(jù)的采集清洗,訓練出一套基于大數(shù)據(jù)分析、專家判斷、物理關(guān)系搭建的根因分析模型。 歷時3年,我們逐步完成了7D-BIM概念的現(xiàn)場落地?;跀?shù)據(jù)中心系統(tǒng)圖、設(shè)備屬性與告警信息構(gòu)建BIM數(shù)據(jù)庫;在此基礎(chǔ)上構(gòu)建拓撲結(jié)構(gòu),實現(xiàn)三級分層(物理層[配電、空調(diào)系統(tǒng)]、管控層[告警]、能量層[電流電量,水流水量]);進而建立一套完整的神經(jīng)網(wǎng)絡(luò)系統(tǒng)(獲取運行數(shù)據(jù)、反饋運行狀態(tài)、發(fā)出控制指令);通過智能、多維度的綜合分析,實現(xiàn)快速診斷、準確定位故障并給出有效的專家修復(fù)建議。 00 靈魂拷問:機房高溫后,你該怎么辦? 2020年6月11日上午09:46:01,系統(tǒng)發(fā)現(xiàn)一條列間空調(diào)送風溫度高的告警。該類型告警在數(shù)據(jù)中心機房極為常見,末端高溫往往是基礎(chǔ)設(shè)施故障發(fā)生后的最直接表象。作為運維同學,你計劃做哪些操作來應(yīng)對機房高溫呢? 是調(diào)整列間空調(diào)風機轉(zhuǎn)速迅速降溫?還是檢查水閥開度?或者迅速前往冷機房查看冷機是否有異常?再之后呢? 在龐雜的數(shù)據(jù)中心基礎(chǔ)設(shè)施系統(tǒng)里,引發(fā)末端危機的根本原因常會出其不意,有時你可以依據(jù)常年運維積累的經(jīng)驗,判斷出一個迅速解決表象問題的方法,但故障的根因,你是否有把握每次都判斷準確并且解決? 帶著同樣的疑問,我們于2017年提出了《BIM IDC智造更好運維V1.0》產(chǎn)品解決方案,歷經(jīng)三年產(chǎn)品打磨與迭代,升級至V2.0版本,并于2020年5月在騰訊天津濱海數(shù)據(jù)中心全面落地。 BIM IDC V2.0版本落地 本文將從V2.0版本的產(chǎn)品對比、技術(shù)更新、理論分析等多角度闡述該產(chǎn)品在現(xiàn)場的應(yīng)用詳情,解析BIM IDC在數(shù)據(jù)中心運維領(lǐng)域應(yīng)用的智能解決方案。 01 V2.0版本有何不同? 1.1 拓撲關(guān)系升級 從V1.0版本的設(shè)備父子關(guān)系至V1.1二維拓撲關(guān)系建立;V2.0版本在前期探索基礎(chǔ)上,基于數(shù)據(jù)分析,輸出了設(shè)備間不同層級交錯的復(fù)雜拓撲關(guān)系,精確繪制數(shù)據(jù)中心不同設(shè)備間的關(guān)聯(lián)關(guān)系。 V2.0 基于數(shù)據(jù)分析輸出設(shè)備復(fù)雜拓撲關(guān)系 1.2 根因分析升級 V1.1版本搭建了基于數(shù)據(jù)中心設(shè)備間物理關(guān)系、邏輯關(guān)系的告警根因判斷模型,可用于分析數(shù)據(jù)中心常見故障場景,但不能分析未知故障場景或進行拓撲關(guān)系較復(fù)雜系統(tǒng)下的根因判斷。 于是V2.0版本應(yīng)用數(shù)據(jù)分析,依托騰訊天津濱海數(shù)據(jù)中心2年歷史運營數(shù)據(jù),搭建出一套智能根因分析模型——當數(shù)據(jù)中心發(fā)生告警時,系統(tǒng)將彈出AI分析結(jié)論,供現(xiàn)場工程師參考。 V2.0 基于大數(shù)據(jù)根因分析 1.3 提出影響因子模型 V2.0版本不再局限于設(shè)備關(guān)系,深入探索到單個設(shè)備內(nèi)各個測點參數(shù);研究設(shè)備輸入和輸出參數(shù)對內(nèi)和對外影響關(guān)系,深挖測點與測點影響因子,搭建一套輔助于根因分析的影響因子模型。幫助現(xiàn)場工程師快速發(fā)現(xiàn)故障設(shè)備,準確定位到引起設(shè)備故障的測點參數(shù),縮短故障處理時間。 V2.0 影響因子模型頁面 1.4 MDC模型升級 該版本細化微模塊內(nèi)部結(jié)構(gòu),由模塊級繪圖升級至MDC內(nèi)機架、服務(wù)器及監(jiān)控。當前版本可展示MDC單機架實時功耗、服務(wù)器及微模塊內(nèi)溫濕度等參數(shù),還可依據(jù)客戶需求添加監(jiān)控測點數(shù)據(jù)。 V2.0 MDC模型頁面 1.5 告警系統(tǒng)升級 不僅在告警二維頁面彈出告警內(nèi)容,點擊定位按鈕跳轉(zhuǎn)到模型頁面可快速聚焦到告警設(shè)備,幫助工程師確認現(xiàn)場告警的實際物理位置。同時V2.0版本增加了告警分析按鈕,轉(zhuǎn)入智能分析頁面后,可根據(jù)系統(tǒng)運算的根因分析結(jié)果,快速判斷造成該告警產(chǎn)生的根本原因。 V2.0 告警與告警定位頁面 揮別傳統(tǒng)的二維頁面告警內(nèi)容集成,該版本可在BIM模型上全部點亮某時刻數(shù)據(jù)中心產(chǎn)生的告警;可速覽機房內(nèi)尚未關(guān)閉告警或未解決故障的全部告警設(shè)備及其位置。輔助一線運維工程師迅速發(fā)現(xiàn)當前機房整體存在的運維風險及機房尚未解決的隱患。 V2.0 機房全部設(shè)備告警高亮模型顯示 02 平臺展示 平臺新增智能分析功能,根據(jù)運維需求,增加大數(shù)據(jù)分析接口和運算。而關(guān)于平臺主頁,V2.0版本修改了工作臺頁面,顯示數(shù)據(jù)采集量、MDC微模塊總電能、IT負載TOP5,實時告警數(shù)量、基礎(chǔ)設(shè)施監(jiān)控第三方通信失敗數(shù)量,告警歷史記錄。針對不同運維團隊使用習慣,可修改展示頁面模塊,增加現(xiàn)場人員需要監(jiān)控的數(shù)據(jù),滿足使用者速覽機房工況的需求。 圖2.1 數(shù)據(jù)中心系統(tǒng)截圖 V2.0模型在V1.0基礎(chǔ)上優(yōu)化完善了數(shù)據(jù)中心全部模型構(gòu)建(如圖2.2),可在BIM模型中漫游,便于新用戶快速了解機房實景。針對疫情期間,遠程辦公場景,漫游功能可輔助遠程辦公的工程師在家完成對機房現(xiàn)場運維的部分要求。 圖2.2 BIM渲染頁面 智能分析頁面是V2.0版本新增內(nèi)容,也是項目研究的重點模塊。該模塊基于BIM技術(shù)和騰訊數(shù)據(jù)中心歷史數(shù)據(jù)分析,實現(xiàn)重要設(shè)備預(yù)測及告警設(shè)備根因判斷與解析;同時該模塊引入設(shè)備間輸入輸出影響因子模型,計算設(shè)備影響因子,輔助智能分析結(jié)果的判定,進一步判斷計算結(jié)果的準確性。 智能分析工作臺 根因分析工作臺 數(shù)據(jù)中心運維人員眾多,每招聘一個新人均需做細致的培訓與帶教工作,如何讓新員工迅速了解數(shù)據(jù)中心基礎(chǔ)環(huán)境及各項設(shè)備參數(shù)、不同設(shè)備間物理關(guān)系與邏輯關(guān)系等,是數(shù)據(jù)中心管理者十分關(guān)注的問題。 平臺單獨增加一項用于教學的仿真管理功能,助力新員工快速了解數(shù)據(jù)中心各專業(yè)架構(gòu),并可通過模擬實操環(huán)境來練習。例如,仿真管理模塊可模擬雙路市電停電時,現(xiàn)場設(shè)備切換,開關(guān)投切,計算設(shè)備開啟所需延遲時間等等;便于新員工在執(zhí)行變更演練時,進行提前模擬,發(fā)現(xiàn)操作中可能發(fā)生的風險和隱患。 教學功能對于一個數(shù)據(jù)中心的長久運營是十分關(guān)鍵的,做好知識傳承,方法論輸出,經(jīng)驗總結(jié),可以使數(shù)據(jù)中心維持在一個不斷更新且向上的過程中——讓新人不新,老人不老。 仿真模擬:全部失壓啟動柴發(fā)視頻演示 03 智能分析平臺概述 (與北工大聯(lián)合發(fā)布) 為彌補冷水機組在故障診斷領(lǐng)域的缺失,20世紀90年代后期,美國采暖、制冷與空調(diào)工程師學會(ASHRAE)開展的RP1043項目滿足了冷水機組的故障診斷的需求。Comstock 和 Braun 在項目中通過調(diào)查和實驗創(chuàng)建了用于冷水機組故障診斷的數(shù)據(jù)集 。 本項目基于數(shù)據(jù)中心運維中存在的故障診斷痛點,結(jié)合當前最前沿的人工智能機器學習技術(shù),開發(fā)出一套智能分析平臺,該階段項目著重分析制冷系統(tǒng)健康狀態(tài)參數(shù)與其根因分析。 數(shù)據(jù)中心制冷系統(tǒng)是一個高度非線性的復(fù)雜系統(tǒng),其反映系統(tǒng)運行機理和狀態(tài)的監(jiān)測數(shù)據(jù)呈現(xiàn)出海量、多模態(tài)、不確定性、涌現(xiàn)性、多源異構(gòu)性和價值低密度性等“大數(shù)據(jù)”特性和時間序列相關(guān)性特征。雖然傳統(tǒng)的基于數(shù)據(jù)驅(qū)動的故障診斷方法在智能故障診斷方面已經(jīng)取得了很大的進展,但是在先驗知識較少的復(fù)雜故障分析中,預(yù)測精度不高,使得該方法無法適應(yīng)工業(yè)互聯(lián)網(wǎng)2.0時代這種普遍存在 “大數(shù)據(jù)”特性的故障診斷需求。 本期項目選取了具有更好的逼近復(fù)雜函數(shù)能力的深度學習算法作為冷水機組故障診斷的方法,包含多隱層結(jié)構(gòu),以實現(xiàn)數(shù)據(jù)特征的逐層轉(zhuǎn)換,保證最有效地信息提取與特征表達。 根據(jù)騰訊天津濱海數(shù)據(jù)中心3號樓制冷系統(tǒng)和測點分析,共選取制冷系統(tǒng)49個維度特征變量數(shù)據(jù)作為根因分析研究范圍,獨創(chuàng)性地提出基于卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)的混合神經(jīng)網(wǎng)絡(luò)進行故障診斷的方法,該方法融合了一維卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)在時間序列特征提取上的優(yōu)勢。 3.1 訓練方法及步驟 步驟1:通過傳感器收集不同工況條件下的數(shù)據(jù)樣本,并建立多維故障樣本。 步驟2:通過z-score對樣本進行標準化。 步驟3:將數(shù)據(jù)集分為訓練、驗證和測試樣本。 步驟4:用訓練樣本訓練混合模型。 步驟5:分別以3級嚴重度的故障作為模型的輸入,驗證算法的有效性和靈敏度。 3.2 診斷指標 評價診斷效果的指標一般是準確率,其定義為對于給定的樣本,正確被診斷為故障的樣本占總樣本的比例。但是該指標在正負樣本不平衡的情況下表現(xiàn)的效果不理想。 例如有9900個正樣本,100個負樣本,如果模型把所有正樣本都預(yù)測為正,那么準確率為99%,雖然準確高,但是僅用該指標不具有說服力,因為不能充分比較模型的優(yōu)劣。因此本研究采用多評價指標綜合反映模型性能,包括準確率(Accuracy)、精確度(Precision)、召回率(Recall)、綜合評價指標(F-measure)。 3.3 智能分析成果 智能分析模塊可以完成模型的訓練以及實時故障診斷及數(shù)據(jù)預(yù)測。系統(tǒng)可針對用戶需要預(yù)測的重要數(shù)據(jù)進行5分鐘、30分鐘、2小時或1天的預(yù)測。 如圖3.1,預(yù)測冷凍水出水溫度,當前為12.3℃,智能分析模塊預(yù)測一天后出水溫度為12.39℃。 圖3.1 重要測點數(shù)值預(yù)測 對于平臺產(chǎn)生的告警,智能分析模塊可實時給出根因分析判斷結(jié)論,輔助現(xiàn)場工程師快速定位故障產(chǎn)生的根本原因,幫助一線運維工程師迅速甄別機房眾多告警的“罪魁禍首”。對于歷史數(shù)據(jù)較少的用戶,考慮數(shù)據(jù)量不足情況下,模型訓練結(jié)果準確性有待考證,我們在根因分析結(jié)果上特別追加一條專家判斷功能——即當專家用戶不認同智能分析結(jié)果時,可手動輸入專家或現(xiàn)場工程師處理故障后的正確結(jié)論(如下圖3.2所示);專家結(jié)論輸入系統(tǒng)后,幫助模型動態(tài)調(diào)整,周而復(fù)始進行訓練,直至最終輸出用戶認可的準確模型。 圖3.2 專家判斷選擇框 針對測點數(shù)值預(yù)測,產(chǎn)品對其增加了預(yù)測值的預(yù)警功能,即平臺可早于真實環(huán)境5分鐘或30分鐘或一天時間,對超出正常值運行范圍的設(shè)備發(fā)出預(yù)警提示。點擊“查詢該測點曲線”,可以查看該測點運行狀態(tài)曲線圖,輔助現(xiàn)場工程師對有預(yù)警設(shè)備加強巡檢,或提前檢查,盡早排除風險消除隱患。 圖3.3 測點預(yù)測頁面及真實值與預(yù)測值對比曲線 3.4 案例解析 回到文章開篇提到的2020年6月11日上午09:46:01的故障,現(xiàn)場運維人員發(fā)現(xiàn)一條列間空調(diào)送風溫度高的告警故障后,點擊根因分析按鈕,系統(tǒng)彈出根因判斷結(jié)果為:冷水機組蒸發(fā)小溫差異常。此結(jié)果可提醒工程師是否該檢查冷機有無臟堵,是否該清洗冷機。 如圖3.4所示,除系統(tǒng)自動彈出分析結(jié)果外,下方還設(shè)有制冷系統(tǒng)設(shè)備間關(guān)聯(lián)關(guān)系及影響因子連線圖,根據(jù)影響因子占比以及同一時間段內(nèi)告警,經(jīng)綜合判斷可得出冷機蒸發(fā)小溫差極有可能為觸發(fā)列間空調(diào)送風溫度高的直接原因。 圖3.4 根因分析案例 V2.0版本采樣數(shù)據(jù)相對于十年運營的數(shù)據(jù)中心來說還很渺小,基于兩年歷史數(shù)據(jù)而搭建的模型仍需不斷采集真實的實時數(shù)據(jù)進行自我訓練與修正。隨著該系統(tǒng)在天津濱海數(shù)據(jù)中心的全面落地和應(yīng)用,專家判斷與實踐經(jīng)驗的結(jié)合,將給予AI持續(xù)的引導,根因分析和影響因子模型也將更加準確。 未來數(shù)據(jù)中心能否做到無人值守,實現(xiàn)全面的自動化,或許在V2.0版本的落地中,可以找到一些可能的答案。 04 BIM IDC還能做什么? BIM IDC V2.0產(chǎn)品已在騰訊天津濱海數(shù)據(jù)中心ECC服務(wù)臺落地使用,我們不僅用歷史數(shù)據(jù)打造了準確率高達97%的預(yù)測模型,同時也將數(shù)據(jù)中心的真實運行數(shù)據(jù)及專家意見持續(xù)不斷的輸入系統(tǒng),來矯正模型精度,完善模型。 而在DCIM、DCOM相關(guān)平臺開發(fā)錯綜復(fù)雜的市場上,BIM IDC還能做些什么? 從V1.0至V2.0版本,產(chǎn)品已從創(chuàng)新研發(fā)走進行業(yè)應(yīng)用。接下來,我們將引入能耗分析平臺,幫助高能耗數(shù)據(jù)中心的管理者,隨時發(fā)現(xiàn)數(shù)據(jù)中心可節(jié)能的空間,協(xié)同政府相關(guān)單位向綠色、可持續(xù)發(fā)展的道路上更進一步。 而設(shè)備健康狀態(tài)評估模型將是下一步研究重點。借用BIM技術(shù),我們將在數(shù)據(jù)中心全生命周期的初期,對全部設(shè)備進行建模和屬性錄入,記錄運行設(shè)備在全生命周期內(nèi)的狀態(tài),以此輔助解決我們運營中的難題——即當數(shù)據(jù)中心運行5年、10年后,到底需要更換哪些設(shè)備?大修哪些設(shè)備?有沒有可能延長某些設(shè)備的使用壽命,減少不必要的維修成本和采購成本?這都是我們長久運營中所要面對的運行安全、成本節(jié)省的相關(guān)問題。 圖4.1 設(shè)備健康狀態(tài)評估設(shè)計初稿 此外,針對前期版本中我們研究的根因分析,仿真模擬,未來仍有很大的提升空間。在不斷迭代的根因分析模型中,數(shù)據(jù)中心是否可以真正實現(xiàn)無人化值守?是否可以更加真實的模擬實際變更中的每一個場景與操作步驟?甚至像真人操作一樣,模擬全部變更流程?在AI來襲的大時代下,數(shù)據(jù)中心從業(yè)者應(yīng)該如何轉(zhuǎn)型?數(shù)據(jù)中心的下一次變革,又將在何時到來? 參 考 文 獻 [1] Krizhevsky A , Sutskever I , Hinton G . ImageNet Classification with Deep Convolutional Neural Networks[J]. Advances in neural information processing systems, 2012, 25(2) [2] 羅晨嫻. 基于稀疏自編碼器的空調(diào)制冷系統(tǒng)故障診斷研究[D] |
|