本文來自“數(shù)據(jù)中心服務(wù)器智能故障診斷系統(tǒng)”,從云和數(shù)據(jù)中心的發(fā)展趨勢、產(chǎn)業(yè)互聯(lián)網(wǎng)時代的智能化運營需求和TIFDS故障診斷系統(tǒng)進行分析。
隨著云技術(shù)的普及,尤其是“新基建”,“數(shù)字化轉(zhuǎn)型”等需求驅(qū)動著數(shù)字經(jīng)濟的高速發(fā)展,服務(wù)器在CDC數(shù)據(jù)中心的部署規(guī)模也呈指數(shù)級增長。隨之而來的運維管理復(fù)雜度和難度也越來越大,而傳統(tǒng)的海量服務(wù)器數(shù)據(jù)中心的故障運營也面臨著更大的挑戰(zhàn)和更高昂的成本,從最初的腳本運維、工具運維到平臺運維演進至今,人力已接近極限,越來越無法滿足快速修復(fù)故障和恢復(fù)業(yè)務(wù)運行的要求。
大規(guī)模數(shù)據(jù)中心運維存在如下的痛點問題:
1. 機器故障后,重要的日志信息不全,無法自動準確進行故障部件定位;
2. 故障診斷效能較低,服務(wù)器出現(xiàn)問題后主要基于人工分析和經(jīng)驗判斷結(jié)果,自動化與智能化程度不高。
3. 成本高時效性差,人工經(jīng)驗分析依賴大量運維人力投入并導(dǎo)致較長的運維時間(MTTR),影響業(yè)務(wù)的快速恢復(fù)。
4. 由于診斷結(jié)果的明確化率低,引起二次故障維修比例較高,導(dǎo)致額外數(shù)據(jù)遷移成本和業(yè)務(wù)影響。
TIFDS (Tencent&Inspur Fault Diagnosis System) 故障診斷系統(tǒng)是服務(wù)器健康監(jiān)管技術(shù)及故障預(yù)警診斷技術(shù)的總稱,旨在實現(xiàn)運維工作任務(wù)由人工離線分析向自動智能在線識別的方向發(fā)展,建立一套以帶外BMC為中心的自動化故障診斷系統(tǒng),提升服務(wù)器故障預(yù)警能力、故障診斷明確率、以及停機維護效率,減少非計劃停機時間,提升服務(wù)器全生命周期的健壯的RAS特性(可靠性,可用性及可維護性)。
該系統(tǒng)依托騰訊超過100萬臺服務(wù)器的維護數(shù)據(jù),深度定制了服務(wù)器事件日志,通過AI技術(shù)對服務(wù)器運營數(shù)據(jù)進行實時的分析,從而實現(xiàn)了對CPU,內(nèi)存、硬盤,PCIe等設(shè)備的自動化預(yù)警,將服務(wù)器故障診斷自動明確化率提升至95%以上。
宕機類故障診斷
TIFDS可以覆蓋由于IERR(Internal Error)和非IERR造成的系統(tǒng)宕機故障,并精準地定位出故障部件,如CPU,內(nèi)存,主板,PCIe外插卡,存儲等設(shè)備。服務(wù)器運行過程中一旦發(fā)生異常,TIFDS系統(tǒng)會立刻響應(yīng)并準確診斷出故障的部件,將故障問題原因、故障部件具體位置、部件型號信息、維修建議等信息及時上報至運維管理系統(tǒng)。運維管理系統(tǒng)可自動生成維修工單,運維人員根據(jù)維修建議,需要更換部件信息,快捷更換故障部件或者依據(jù)TIFDS指導(dǎo)排除故障,迅速使機器恢復(fù)健康狀態(tài)。傳統(tǒng)的以小時計算維修時間級別壓縮至分鐘級別。極大提升運維效率,實現(xiàn)云業(yè)務(wù)快速恢復(fù)。
非宕機類故障診斷
TIFDS系統(tǒng)通過BMC實時監(jiān)控服務(wù)器系統(tǒng)上遍布各處的電壓、電流、溫度傳感器信息,實時監(jiān)控電源、風(fēng)扇、以及各部件的工作狀態(tài)和工作負荷情況;根據(jù)可在線更新的告警閾值、預(yù)警閾值和故障判定規(guī)則,可實現(xiàn)對服務(wù)器中存在風(fēng)險的位置進行故障預(yù)警、故障告警或故障判定,并時刻上報智能運維系統(tǒng)。
故障預(yù)警與隔離
TIFDS可以對服務(wù)器內(nèi)所有部件進行全生命周期的壽命和運行狀態(tài)進行跟蹤,通過機器學(xué)習(xí)的算法對高風(fēng)險的部件提前進行預(yù)警,降低服務(wù)器在高負荷運行狀態(tài)下的突然失效。另外對已發(fā)生故障的部件,TIFDS可以按部件類別做出相應(yīng)的隔離措施處理,避免單一非必要部件故障影響整機系統(tǒng)的運行。
TIFDS是騰訊云運維監(jiān)控系統(tǒng)中的重要組成部分,是服務(wù)器帶外數(shù)據(jù)的主要來源,在內(nèi)存,CPU,PCIe等部件的故障監(jiān)控,失效預(yù)測,大規(guī)模告警上有極大貢獻。通過定制化的日志自動適配騰訊云備件系統(tǒng),給騰訊云健康管理系統(tǒng)增加參考維度,并基于帶內(nèi)帶外日志開發(fā)出線上診斷系統(tǒng),深度的定制化模式和簡單易用的維護工具使整個運維系統(tǒng)能更加智能,高效。
編輯:黃飛
-
服務(wù)器
+關(guān)注
關(guān)注
13文章
9777瀏覽量
87806 -
數(shù)據(jù)中心
+關(guān)注
關(guān)注
16文章
5208瀏覽量
73437
原文標題:數(shù)據(jù)中心服務(wù)器智能故障診斷系統(tǒng)
文章出處:【微信號:AI_Architect,微信公眾號:智能計算芯世界】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
銳捷助互聯(lián)網(wǎng)數(shù)據(jù)中心網(wǎng)絡(luò)自動化、可視化運維
基于數(shù)據(jù)中心服務(wù)器的新接口測試設(shè)計

基于大數(shù)據(jù)的高能效數(shù)據(jù)中心服務(wù)器研究

自動化運維重要里程碑,騰訊數(shù)據(jù)中心服務(wù)臺的正式啟用
如何才能提高數(shù)據(jù)中心服務(wù)器的效率

數(shù)據(jù)中心正從云時代向AI時代進化
傳統(tǒng)香港服務(wù)器數(shù)據(jù)中心正在面臨哪些挑戰(zhàn)
數(shù)據(jù)中心服務(wù)器安全白皮書

數(shù)據(jù)中心服務(wù)器功率一般多大 數(shù)據(jù)中心服務(wù)器操作系統(tǒng)三大類包括
韓國大帶寬服務(wù)器的數(shù)據(jù)中心位置
分布式運維管理平臺解決大型數(shù)據(jù)中心運維難題的案例

如何選擇數(shù)據(jù)中心服務(wù)
浪潮信息升級數(shù)據(jù)中心服務(wù)器故障智能診斷AIOps技術(shù)
愛普生SG2520HHN晶振數(shù)據(jù)中心服務(wù)器的理想解決方案

評論