序言 “狼來了”
"叮咚!CPU使用率超過90%!"
"叮咚!內存占用達到80%!"
"叮咚!連接池資源空閑數低于5%!"
凌晨3點,我們的老演員,運維工程師小李,再次被釘釘機器人中監控的Prometheus的告警吵醒,他盯著手機屏幕,眼神呆滯,本著“小心駛得萬年船,不可讓一個故障漏網”的原則,他還是艱難地對抗了睡意,把所有系統健康指標進行逐一排查,如期所料,又是一起誤報。
“悠悠蒼天,何薄于我?這玩意監控了個寂寞呀。”
告警對于廣大運維人員來說,真的是又愛又恨,不用長時間監控系統有異常之后通知運維人員,極大的節省了時間,但隨著設備規模的大量增加,原本較少誤報突然呈現了爆炸式的增長,從而使得“狼來了”式的告警逐漸降低了運維人員的警惕閾值,從而使得正真的故障狼來了之時,運維人員可能還蒙在鼓里,毫無反應。
AI時代,是否有更好的解決方案?熱烈歡迎本場的主角“AI智能體”上線。
AI智能體,通常是指能夠感知環境、自主決策并執行動作以實現特定目標的一類人工智能系統。該系統結合了感知、推理、學習和行動能力,可以獨立或在人工協同指導下完成任務。
那么如何通過構建AI智能體來處理Prometheus的告警呢?基本可以遵循如下的功能模塊來處置。
▍一、感知模塊
負責接收和處理來自環境的各類信息,為后續決策提供所需的數據支持。該部分的準確性和敏感度會直接影響到后續的處理。常見的感知模塊一般可以使用如下方式:
文本感知:NLP模型(BERT/GPT)
圖像感知:CV模型(YOLO/ResNet)
語音感知:ASR系統
▍二、認知引擎
負責記錄相關故障處置的上下文信息及對應處置經驗。按照信息存活時間及相關信息的固化特征可以分為:
短期記憶:對話上下文管理(LSTM/Transformer)
長期記憶:一般使用知識圖譜、向量數據庫
在構建對應的認知記憶過程需要遵循嚴格的標準,比如在AI智能體在處理Prometheus告警時,需要考慮如下的因素:
歷史性:異常指標是否在相同周期內出現
全局性:異常指標在集群架構下影響力
價值性:何種嚴重程度需要提示為告警,把小李從床上拉起來
基礎信息:持續時間、嚴重程度
關聯關系:服務組來源信息
同時對于告警的處置結果執行方式也分為三個星級:
一星告警:"嗯。"(記錄日志完事)
二星告警:"嗯?"(發個Slack消息)
三星告警:"啊!"(打電話+發短信+在辦公室拉防空警報)
▍三、決策中心
該模塊通過綜合考慮各種因素,運用邏輯推理和概率統計等方法,做出最優決策。在大模型逐漸成熟的當下,該部分主要由各大模型來扮演,如DeepSeek、GPT等,相關介紹材料很多,在此不再贅述。
▍四、執行模塊
依據決策中心提供的處理意見完成對應處理工作,設計的核心是完成與相關業務系統的交互與聯動,通常可以通過如下方式完成:
API調用:OpenAPI規范封裝
RPA操作:Playwright/Airflow集成
執行模塊是最終呈現處置的關鍵部分,最終來衡量AI智能體在過程中非人工介入程度,與工具的對接的豐富度及耦合度決定了執行的準確性。
▍五、反饋系統
實現系統的持續自我優化,通過計算關鍵指標(如任務完成率、耗時)來進行效果評估。常見的模型更新:
在線學習:Bandit算法實時調整策略
離線訓練:每周全量數據retraining
終章 “不看廣告,看療效”
▍第一回合:CPU使用率告警
Prometheus:"報!CPU沖到95%了!"
AI:"淡定,這是每日報表生成時間,你家CPU在996呢"
結果:標記為"預期波動",Slack發個已處理消息
▍第二回合:磁盤空間不足
Prometheus:"急急急!/var只剩5%了!"
AI:"(查看歷史記錄)發現這個分區每周三都會這樣...等等,日志輪轉腳本又睡懶覺了?"
結果:自動觸發日志清理腳本,并在Jira創建工單:"日志輪轉腳本又雙叒叕偷懶了"
▍第三回合:數據庫連接池耗盡
Prometheus:"藥丸!連接池100%了!"
AI:"(0.1秒內掃描全鏈路)前端流量激增→促銷活動忘了限流→這不是故障,這是KPI在發光啊!"
結果:自動擴容數據庫實例+@市場部:"親,下次搞活動記得提前說哦~"
寫在最后:AI不是終點,而是起點
記住:
再智能的AI也干不過寫bug的程序員
再精準的過濾也擋不住老板的突發奇想
最好的監控系統也永遠有一個會罵“這什么破AI”的幕后運維小李
在完成該文章的過程中,消耗了作者4杯咖啡和12次對Prometheus的告警的親切問候。
審核編輯 黃宇
-
cpu
+關注
關注
68文章
11063瀏覽量
216526 -
AI
+關注
關注
88文章
34810瀏覽量
277241 -
智能體
+關注
關注
1文章
291瀏覽量
11027
發布評論請先 登錄
CFCF2025光連接大會——武漢昊衡科技OLI光纖微裂紋檢測儀,守護光纖網絡的"安全衛士"

人形機器人為什么要定制? ——揭秘工業場景的&quot;千面需求&quot;

倉儲界的&quot;速效救心丸&quot;,Ethercat轉PROFINET網關實戰案例

電纜局部放電在線監測:守護電網安全的&amp;quot;黑科技&amp;quot;

煉油廠開閉所局放監測:為能源樞紐裝上&amp;quot;智能安全閥&amp;quot;

隧道管廊變壓器局放在線監測:為地下&amp;quot;電力心臟&amp;quot;裝上智能聽診器

新品情報局 | 自來水廠都在搶的&amp;quot;水質CT機&amp;quot;——凱米斯FUV-408如何用一道光省下百萬運維費?

【硬核測評】凌華DAQE雙雄爭霸:工業數據采集界的&amp;quot;速度與激情&amp;quot;實戰解析

傳統產線VS智能工控:華頡科技如何用模塊化設計撕掉&amp;quot;電老虎&amp;quot;標簽?

&quot;看不見的運維&quot;才是真智能!物聯技術讓光伏電站自己&quot;看病&quot;

力合微電子攜手中山古鎮政府開啟&amp;quot;智光互聯&amp;quot;新紀元 共筑全球智能照明產業高地

創新驅動未來:大為錫膏為高精尖散熱器技術注入&amp;quot;強芯&amp;quot;動力

OCTC發布&quot;算力工廠&quot;!力促智算中心高效規劃建設投運

軟通動力攜手華為啟動&quot;智鏈險界&quot;計劃,強化生態鏈接共啟保險AI新時代

評論