女人荫蒂被添全过程13种图片,亚洲+欧美+在线,欧洲精品无码一区二区三区 ,在厨房拨开内裤进入毛片

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

提高IT運維效率,深度解讀京東云基于自然語言處理的運維日志異常檢測AIOps落地實踐

京東云 ? 來源:jf_75140285 ? 作者:jf_75140285 ? 2025-05-22 16:39 ? 次閱讀

基于NLP技術對運維日志聚類,從日志角度快速發現線上業務問題

日志在IT行業中被廣泛使用,日志的異常檢測對于識別系統的運行狀態至關重要。解決這一問題的傳統方法需要復雜的基于規則的有監督方法和大量的人工時間成本。我們提出了一種基于自然語言處理技術運維日志異常檢測模型。為了提高日志模板向量的質量,我們改進特征提取,模型中使用了詞性(PoS)和命名實體識別(NER)技術,減少了規則的參與,利用 NER 的權重向量對模板矢量進行了修改,分析日志模板中每個詞的 PoS 屬性,從而減少了人工標注成本,有助于更好地進行權重分配。為了修改模板向量,引入了對日志模板標記權重的方法,并利用深度神經網絡(DNN)實現了基于模板修正向量的最終檢測。我們的模型在三個數據集上進行了有效性測試,并與兩個最先進的模型進行了比較,評估結果表明,我們的模型具有更高的準確度。

日志是記錄操作系統等 IT 領域中的操作狀態的主要方法之一,是識別系統是否處于健康狀態的重要資源。因此,對日志做出準確的異常檢測非常重要。日志異常一般有三種類型,即異常個體日志、異常日志序列和異常日志定量關系。我們主要是識別異常個體日志,即包含異常信息的日志。

一般來說,日志的異常檢測包括三個步驟: 日志解析、特征提取和異常檢測。解析工具提取的模板是文本數據,應將其轉換為數字數據,以便于輸入到模型中。為此,特征提取對于獲得模板的數字表示是必要的。在模板特征提取方面,業界提出了多種方法來完成這一任務。獨熱編碼是最早和最簡單的方法之一,可以輕松地將文本模板轉換為便于處理的數字表示,但是獨熱編碼是一種效率較低的編碼方法,它占用了太多的儲存空間來形成一個零矢量,而且在使用獨熱編碼時,忽略了日志模板的語義信息。除了這種方便的編碼方法外,越來越多的研究人員應用自然語言處理(NLP)技術來實現文本的數字轉換,其中包括詞袋,word2vec 等方法。雖然上述方法可以實現從文本數據到數字數據的轉換,但在日志異常檢測方面仍然存在一些缺陷。詞袋和 word2vec 考慮到模板的語義信息,可以有效地獲得單詞向量,但是它們缺乏考慮模板中出現的每個模版詞的重要性調節能力。此外,深度神經網絡(DNN)也被用于模板的特征提取。

我們的模型主要改進特征提取,同時考慮每個標記的模版詞語義信息和權重分配,因為標記結果對最終檢測的重要性不同。我們利用兩種自然語言處理技術即PoS和命名實體識別(NER),通過以下步驟實現了模板特征的提取。具體來說,首先通過 FT-Tree 將原始日志消息解析為日志模板,然后通過 PoS 工具對模板進行處理,獲得模板中每個詞的 PoS 屬性,用于權重向量計算。同時,通過 word2vec 將模板中的標記向量化為初始模板向量,并利用權值向量對初始模板向量進行進一步修改,那些重要的模版詞的 PoS屬性將有助于模型更好地理解日志含義。對于標記完 PoS 屬性的模版詞,詞對異常信息識別的重要性是不同的,我們使用 NER 在模版的 PoS屬性中找出重要性高的模版詞,并且被 NER 識別為重要的模版詞將獲得更大的權重。然后,將初始模板向量乘以這個權重向量,生成一個復合模板向量,輸入到DNN模型中,得到最終的異常檢測結果。為了減少對日志解析的人力投入,并為權重計算做準備,我們采用了 PoS 分析方法,在不引入模板提取規則的情況下,對每個模版詞都標記一個 PoS 屬性。

解析模板的特征提取過程是異常檢測的一個重要步驟,特征提取的主要目的是將文本格式的模板轉換為數字向量,業界提出了各種模板特征提取方法:

One-hot 編碼:在 DeepLog 中,來自一組 k 模板ti,i∈[0,k)的每個輸入日志模板都被編碼為一個One-hot編碼。在這種情況下,對于日志的重要信息ti 構造了一個稀疏的 k 維向量 V = [ v0,v1,... ,vk-1] ,并且滿足j不等于i, j∈[0,k),使得對于所有vi= 1和 vj = 0。

自然語言處理(NLP):為了提取日志模板的語義信息并將其轉換為高維向量,LogRobust 利用現成的 Fast-Text 算法從英語詞匯中提取語義信息,能夠有效地捕捉自然語言中詞之間的內在關系(即語義相似性) ,并將每個詞映射到一個 k 維向量。使用 NLP 技術的各種模型也被業界大部分人使用,如 word2vec 和 bag-of-words 。

深度神經網絡(DNN):與使用 word2vec 或 Fast-Text 等細粒度單元的自然語言處理(NLP)不同,LogCNN 生成基于29x128codebook的日志嵌入,該codebook是一個可訓練的層,在整個訓練過程中使用梯度下降進行優化。

Template2Vec:是一種新方法,基于同義詞和反義詞來有效地表示模板中的詞。在 LogClass 中,將經典的加權方法 TF-IDF 改進為 TF-ILF,用逆定位頻率代替逆文檔頻率,實現了模板的特征構造。

一段原始日志消息是一個半結構化的文本,比如一個從在線支付應用程序收集的錯誤日志讀取為: HttpUtil-request 連接失敗,Read timeout at jave.net。它通常由兩部分組成,變量和常量(也稱為模板)。對于識別個體日志的異常檢測,目的是從原始日志解析的模板中識別是否存在異常信息。我們的模型使用 PoS 分析以及 NER 技術來進行更精確和省力的日志異常檢測。PoS 有助于過濾標記有不必要的 PoS 屬性的模版詞,NER的目標是將重要性分配給所有標記為重要的 PoS 屬性的模版詞。然后通過模板向量和權向量的乘積得到復合模板向量。

我們的日志異常檢測模型包括六個步驟,即模板解析、 PoS分析、初始向量構造、基于NER的權重計算、復合向量和最終檢測。檢測的整個過程如圖1所示:

wKgZPGgu4quAFNMLAAGcFpIi-Rc194.png

第一步:模板解析

初始日志是半結構化的文本,它們包含一些不必要的信息,可能會造成混亂或阻礙日志檢測。因此,需要預處理來省略變量,比如一些數字或符號,并提取常量,即模板。以前面提到的日志消息為例,原始日志HttpUtil-request 連接[wx/v1/pay/prepay]的模板失敗,Read timeout at jave.net??梢蕴崛椋?HttpUtil 請求連接 * 失敗讀取時間為 * 。我們使用簡單而有效的方法 FT-Tree 來實現日志解析,我們沒有引入復雜的基于規則的規則來去除那些不太重要的標記,比如停止詞。

第二步:PoS 分析

上一步的模版解析結果只有英語單詞、短語和一些非母語單詞保留在解析好的模板中,這些模版詞具有各種 PoS 屬性,例如 VB 和 NN。根據我們對大量日志模板的觀察,一些 PoS 屬性對于模型理解模板所傳達的意義很重要,而其他屬性可以忽略。如圖3所示,解析模板中的單詞“ at”在理論上是不必要的,相應的 PoS 屬性“ IN”也是不必要的,即使去掉 IN 的標記,我們仍然可以判斷模板是否正常。因此,在我們得到了 PoS 向量之后,我們可以通過去掉那些具有特定 PoS 屬性的模版詞來簡化模板。剩余的模版詞對于模型更好地理解模板內容非常重要。

wKgZO2gu4q2AWveWAAX9AD1mZHo788.png

第三步:初始模板向量構造

在獲得 PoS 矢量的同時,模板也被編碼成數字向量。為了考慮模板的語義信息,在模型中使用 word2vec 來構造模板的初始向量。該初始向量將與下一步得到的權重向量相乘,得到模板的復合優化表示。

第四步: 權重分析

首先對模板中的模版詞進行 PoS 分析處理,剔除無意義的模版詞。至于其余的模版詞,有些是關鍵的,用于傳達基本信息,如服務器操作、健康狀態等。其他的可能是不太重要的信息,比如動作的對象、警告級別等等。為了加大模型對這些重要模版詞的學習力度,我們構造了一個權重向量來突出這些重要的模版詞。為此,我們采用了 NER 技術,通過輸入已定義的重要實體,學習挑選標記為重要實體的所有模版詞。該過程如圖所示:

wKgZPGgu4q6AcxjHAAJDE6jLBuQ142.png

CRF 是 NER 通常使用的工具,它也被用于我們的模型識別模版詞的重要性。也就是說,通過向模型提供標記為重要的模版詞,模型可以學習識別那些未標注的日志的重要的模版詞。一旦模板中的模版詞被 CRF 識別出來,相應的位置就會賦予一個權重值(2.0)。因此,我們得到一個權向量 W。

第五步:復合向量

在獲得權重向量 W 之后,通過將初始向量 V’乘以權重向量 W,可以得到一個表示模板的復合優化向量 V。重要的模版詞分配更大權重,而其他的模版詞分配更小的。

第六步:異常檢測

將第五步得到的復合矢量 v 輸入到最終全連接層中,以便進行異常檢測。完全連通層的輸出分別為0或1,表示正?;虍惓!?/p>

?模型評估

我們通過實驗驗證了該模型對日志異常檢測的改進效果。采用了兩個公共數據集,以及一套我們內部數據集,來驗證我們模型的實用性。我們將自己的結果與業界針對日志異常檢測提出的兩個Deeplog 和 LogClass模型進行了比較。

CANet 的框架是用 PyTorch 構建的,我們在35個訓練周期中選擇新加坡隨機梯度下降(SGD)作為優化器。學習速度設定為2e4。所有的超參數都是從頭開始訓練的。

(1)數據集:我們選取了兩套公共集和一套公司內部數據集進行模型評估,BGL 和 HDFS 都是用于日志分析的兩個常用公共數據集:HDFS:是從運行基于 Hadoop 的作業的200多個 Amazon EC2節點收集的。它由11,175,629條原始日志消息組成,16,838條被標記為“異?!?。BGL:收集自 BlueGene/L 超級計算機系統 ,包含4,747,963條原始日志消息,其中348,469條是異常日志。每條日志消息都被手動標記為異?;蛘哒?。數據集 A:是從我們公司內部收集來進行實際驗證的數據集。它包含915,577條原始日志消息和210,172條手動標記的異常日志。

(2)base模型:我們將自己的模型在三個數據集上,與兩個業界最先進的模型(DeepLog和LogClass)進行比較:DeepLog:是一個基于深度神經網絡的模型,利用長短期記憶(LSTM)來實現檢測。DeepLog 采用一次性編碼作為模板向量化方法。LogClass:LogClass 提出了一種新的方法——逆定位頻率(ILF) ,在特征構造中對日志文字進行加權。這種新的加權方法不同于現有的反文檔頻率(IDF)加權方法。

(3)模型評估結果:我們從Precision、Recall和F1-score三個方面評估兩個base模型和我們的模型的異常檢測效果,在 HDFS 數據集上,我們的模型獲得了最高的 F1得分0.981,此外,我們的模型在召回方面也表現最好。LogClass 在Precision上取得了最好的成績,比我們的稍微高一點。在第二套數據集BGL上,我們的模型在召回率Recall(0.991)和 F1-score (0.986)方面表現最好,但在Precision上略低于 LogClass。在第三套數據集 A 上三個模型的性能,我們的模型實現了最佳性能,其次是 LogClass。

wKgZO2gu4q-APdg-AAOKVt8ONsg086.png

wKgZPGgu4rCAE8xqAAD6_vIEZmA627.png

在所有的數據集中,我們的模型具有最好的 F1得分和最高的召回率,這意味著我們的模型造成的不確定性更小。

?Natural Language Processing-based Model for Log Anomaly Detection. SEAI.

?ieeexplore檢索:https://ieeexplore.ieee.org/abstract/document/9680175

wKgZO2gu4rGAYSEmAAMCJ_U9umg130.png

wKgZO2gu4rOALZG1AAbpV8J0J6U076.jpg

?Themis智能運維平臺智能文本分析功能視圖:(http://jdtops.jd.com/)

wKgZO2gu4raAMMDTAAjdroK8RAw109.png

?團隊介紹:

京東科技從2018年開始建設智能運維,基于京東多年一線運維經驗,以大數據和人工智能技術為抓手,形成以應用為中心的一體化智能運維解決方案。利用京東內部歷年大促場景的數據積累,對算法進行不斷的優化訓練,在監控、數據庫、網絡、資源調度等多個縱向場景取得突破,可移植性強,自研通用化智能基線算法學件10+,自研通用化異常檢測算法學件10+,場景化異常檢測算法方案5+,具備多種自研通用化根因定位算法學件,可以自動觸發多維實時根因定位 ,從上萬維度屬性值中定位到根因維度,自研5種以上增量式學習模板提取與相關分析算法學件,運維知識圖譜內涵蓋節點30W+,以應用為中心向外延伸出的圖譜關系達90W+,賦能根因分析快速精準查詢調用。發表IEEE國際會議論文(AIOps方向)8篇,申請40余項智能運維專利。

審核編輯 黃宇

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 自然語言處理

    關注

    1

    文章

    628

    瀏覽量

    14043
  • IT運維
    +關注

    關注

    0

    文章

    5

    瀏覽量

    3170
  • AIOps
    +關注

    關注

    0

    文章

    9

    瀏覽量

    1245
  • 京東云
    +關注

    關注

    0

    文章

    172

    瀏覽量

    122
收藏 人收藏

    評論

    相關推薦
    熱點推薦

    AI集成管理平臺的架構與核心構成解析

    在數字化轉型浪潮下,企業IT基礎設施規模不斷擴大,系統架構日益復雜,傳統依賴人工的模式面臨著響應速度慢、故障定位難、成本高等諸多挑戰。Gartner在2016年首次提出
    的頭像 發表于 06-12 17:04 ?88次閱讀

    提高IT效率,深度解讀京東AIOps落地實踐異常檢測篇)

    基于深度學習對時序指標進行異常檢測,快速發現線上業務問題 時間序列的異常
    的頭像 發表于 05-22 16:38 ?341次閱讀
    <b class='flag-5'>提高</b>IT<b class='flag-5'>運</b><b class='flag-5'>維</b><b class='flag-5'>效率</b>,<b class='flag-5'>深度</b><b class='flag-5'>解讀</b><b class='flag-5'>京東</b><b class='flag-5'>云</b><b class='flag-5'>AIOps</b><b class='flag-5'>落地</b><b class='flag-5'>實踐</b>(<b class='flag-5'>異常</b><b class='flag-5'>檢測</b>篇)

    儲能平臺在換電站的應用 有效提高效率

    儲能平臺在換電站的應用是新能源汽車能源補給領域的重要創新,通過數字化技術優化換電站的能源管理、
    的頭像 發表于 03-19 14:00 ?370次閱讀

    數據驅動的光伏:平臺如何提升發電效率

    ? ? 近年來,光伏行業的迅猛增長促使光伏電站的規模持續擴張,從而使得管理的核心地位愈發顯著。以往依賴人工進行的巡檢以及粗放的管理手段,不僅效率低下,而且易于忽略潛在隱患,造成發電量的減少和成本
    的頭像 發表于 02-21 10:49 ?348次閱讀
    數據驅動的光伏<b class='flag-5'>運</b><b class='flag-5'>維</b>:平臺如何提升發電<b class='flag-5'>效率</b>?

    智慧光伏管理系統助力光伏降本增效

    數據,對異常情況進行預警和診斷,并采取相應的措施進行修復和維護,從而提高光伏電站的效率和可靠性,降低成本,延長設備壽命。 智慧光伏
    的頭像 發表于 01-03 17:00 ?454次閱讀
    智慧光伏<b class='flag-5'>運</b><b class='flag-5'>維</b>管理系統助力光伏<b class='flag-5'>運</b><b class='flag-5'>維</b>降本增效

    分布式光伏平臺助力光伏電站運營

    分布式光伏平臺能夠實現對光伏電站的實時監測、數據分析、故障診斷和管理等功能,提高發電
    的頭像 發表于 12-09 16:22 ?729次閱讀
    分布式光伏<b class='flag-5'>運</b><b class='flag-5'>維</b><b class='flag-5'>云</b>平臺助力光伏電站運營

    自然語言處理與機器學習的關系 自然語言處理的基本概念及步驟

    Learning,簡稱ML)是人工智能的一個核心領域,它使計算機能夠從數據中學習并做出預測或決策。自然語言處理與機器學習之間有著密切的關系,因為機器學習提供了一種強大的工具,用于從大量文本數據中提取模式和知識,從而提高NLP系
    的頭像 發表于 12-05 15:21 ?1839次閱讀

    自然語言處理與機器學習的區別

    是計算機科學、人工智能和語言學領域的分支,它致力于使計算機能夠理解、解釋和生成人類語言。NLP的目標是縮小人類語言和計算機之間的差距,使計算機能夠處理和生成
    的頭像 發表于 11-11 10:35 ?1436次閱讀

    光伏電站管理系統與傳統模式對比分析

    ?????? 光伏電站管理系統與傳統模式對比分析 ?????? 隨著全球對可再生能源的關注度不斷提升,光伏電站作為綠色能源的重要組成部分,其
    的頭像 發表于 11-08 16:14 ?751次閱讀
    光伏電站<b class='flag-5'>運</b><b class='flag-5'>維</b>管理系統與傳統<b class='flag-5'>運</b><b class='flag-5'>維</b>模式對比分析

    設備數據接入管理平臺實現什么功能

    方式,還為企業帶來了前所未有的效率與智能化水平。本文將深入探討設備數據接入管理
    的頭像 發表于 09-24 14:14 ?489次閱讀

    儲能平臺如何優化充放電策略

    潛在問題。 例如,當電池溫度異常升高時,平臺會立即發出警報,人員可以迅速采取措施,防止電池過熱引發安全事故。 遠程控制 支持遠程操作,可實現對儲能設備的遠程啟停、參數調整等功能。這大大提高
    的頭像 發表于 08-26 17:59 ?1356次閱讀
    儲能<b class='flag-5'>運</b><b class='flag-5'>維</b>平臺如何優化充放電策略

    光伏電站管理系統實現電站智能與管理

    的運營效率和發電量,陜西公眾智能監測自主研發了光伏電站管理系統,幫助光伏電站實現智能化與管理,
    的頭像 發表于 08-16 16:48 ?865次閱讀
    光伏電站<b class='flag-5'>運</b><b class='flag-5'>維</b>管理系統實現電站智能<b class='flag-5'>運</b><b class='flag-5'>維</b>與管理

    自然語言處理模式的優點

    得到了廣泛的應用,如搜索引擎、語音助手、機器翻譯、情感分析等。 1. 提高信息獲取效率 自然語言處理技術能夠快速地從大量文本數據中提取關鍵信息,幫助用戶節省查找和篩選信息的時間。例如,
    的頭像 發表于 07-03 14:24 ?1183次閱讀

    神經網絡在自然語言處理中的應用

    旨在探討神經網絡在自然語言處理中的應用,包括其背景、核心概念、算法原理、實踐案例以及未來發展趨勢和挑戰。
    的頭像 發表于 07-01 14:09 ?869次閱讀

    集成管理系統的應用價值

    限于以下幾點: 1.提高效率: 集成可以消除部門之間的信息孤島,實現信息共享和協作,進而提高工作效率。各個部門之間可以更快速地共享數據、資源和信息,減少重復勞動,
    的頭像 發表于 06-20 14:42 ?481次閱讀
    主站蜘蛛池模板: 沂南县| 莱阳市| 丽江市| 宜丰县| 布尔津县| 宜宾县| 乌拉特前旗| 栾城县| 兴国县| 长顺县| 淳化县| 黔西| 临清市| 海丰县| 安新县| 大同市| 阿拉善盟| 仙居县| 齐齐哈尔市| 南召县| 驻马店市| 太康县| 潢川县| 广灵县| 钟山县| 汝南县| 客服| 南投县| 赫章县| 上思县| 都昌县| 蕉岭县| 龙海市| 土默特左旗| 永寿县| 宁德市| 安泽县| 扎囊县| 鄂州市| 博湖县| 保靖县|