對于數(shù)據(jù)人尤其是數(shù)據(jù)產(chǎn)品和分析師,最難排查(頭疼)的問題就是指標為什么升/降/沒數(shù),一旦業(yè)務(wù)方提出這種問題就意味著有大半天的時間要花在確認指標口徑+計算邏輯+埋點采集上,而且要同時跟業(yè)務(wù)方、分析師、數(shù)據(jù)產(chǎn)品、數(shù)倉甚至是負責埋點的開發(fā)溝通,所以對于業(yè)務(wù)達到一定復(fù)雜度和指標達到一定量級的情況下,采用人肉運維的方式顯然是事倍功半的,搭建一套指標監(jiān)控體系來保證產(chǎn)出數(shù)據(jù)的時效性和數(shù)據(jù)質(zhì)量才是正解。
由于搭建指標監(jiān)控體系要做的工作實在太多,本文我們重點討論幾個場景,在這些場景下我們數(shù)據(jù)產(chǎn)品經(jīng)理能夠發(fā)揮哪些作用。
以一個實際場景case舉例,聊聊當數(shù)據(jù)出現(xiàn)異常波動時監(jiān)控體系是如何發(fā)揮其作用的。
業(yè)務(wù)小李同學(xué)發(fā)現(xiàn),昨天App首頁的人均停留時長日環(huán)比上漲了40%,于是小李找到分析師和數(shù)據(jù)產(chǎn)品詢問指標下降的原因。
此類問題相信各位數(shù)據(jù)人都不陌生,大家的反應(yīng)都是先和業(yè)務(wù)確認最近是否產(chǎn)品有過升級或者策略調(diào)整,如果沒有的話就要排查數(shù)據(jù)流轉(zhuǎn)的各個環(huán)節(jié)是否有問題,以下圖為路線,我們分析在這些環(huán)節(jié)是否能前置的做些監(jiān)控和定位工作。
01
數(shù)據(jù)同步
不管是埋點數(shù)據(jù)和還是業(yè)務(wù)數(shù)據(jù),最終都是以一張張日志表的形式同步到數(shù)倉ODS層,如果是數(shù)據(jù)同步有缺失,可以查看數(shù)據(jù)拉取服務(wù)、埋點日志解析、ETL等過程是否異常,可以將上述注意點整理一個checklist,做成任務(wù)每天例行檢查,能做到對以上異常情況的定位也就初步完成了數(shù)據(jù)同步環(huán)節(jié)的監(jiān)控。數(shù)倉同學(xué)經(jīng)排查并未看到執(zhí)行失敗的任務(wù),可以確定數(shù)據(jù)同步環(huán)節(jié)是正常的。
02
調(diào)度監(jiān)控
其實調(diào)度監(jiān)控和任務(wù)管理有著很密切的聯(lián)系,最終目的都是為了把這些任務(wù)有序的運行起來,調(diào)度系統(tǒng)的設(shè)計可以重點考慮以下幾個特性:
那么如何通過產(chǎn)品化的形式展示當前任務(wù)的調(diào)度狀態(tài)呢?一般大家都會選擇用血脈圖來展示,數(shù)據(jù)產(chǎn)品在設(shè)計血脈圖的展現(xiàn)形式時,可以考慮不僅能展示作業(yè)組、節(jié)點、表名、字段名、運行狀態(tài)等,還要考慮能將業(yè)務(wù)實體,也就是指標與調(diào)度信息進行關(guān)聯(lián)。 當然能做到這個粒度依托與數(shù)倉治理的程度,如果數(shù)倉規(guī)范和治理做的沒那么精細,我們可以抓重點來做:比如梳理一些重要指標的調(diào)度關(guān)系,先把這些重要指標的調(diào)度監(jiān)控做起來,這樣也是比較容易看到成效的。
此時我們查看血脈圖可以看到總停留時長這個指標是執(zhí)行成功狀態(tài),且依賴的作業(yè)也是執(zhí)行成功的狀態(tài),而我們要排查的人均停留時長指標是總停留時長指標的派生指標,這樣我們可以得出結(jié)論并非是調(diào)度任務(wù)出現(xiàn)問題,接下來可以排查是否是運行指標的任務(wù)出了問題。
03
任務(wù)管理
看到這兒會發(fā)現(xiàn)我們越來越接近指標層了,而隨著指標數(shù)量越來越多、指標口徑越來越復(fù)雜,就會出現(xiàn)下面令人頭疼的問題:
----任務(wù)不能在計劃時間內(nèi)完成
----下游依賴的任務(wù)已經(jīng)執(zhí)行了但上游任務(wù)還沒跑完,這時候沒有數(shù)據(jù)下游任務(wù)報錯
----兩個任務(wù)并行執(zhí)行影響數(shù)據(jù)結(jié)果
排查任務(wù)錯誤原因越來越麻煩、各種依賴關(guān)系越來越復(fù)雜、最后排查問題就要從一團團亂麻中理出已跟麻繩。
而為了保證指標產(chǎn)出的準確性,就必須要求生成這些指標的任務(wù)按照上下游依賴有序進行,最終能確保按時生成指標。
為了保證指標產(chǎn)出的監(jiān)控性,要做到對導(dǎo)入任務(wù)的監(jiān)控,具體有支持查看導(dǎo)入任務(wù)的執(zhí)行紀錄、執(zhí)行狀態(tài)、失敗原因等,這樣當指標數(shù)據(jù)未產(chǎn)出時可以通過導(dǎo)入任務(wù)的執(zhí)行狀態(tài)來分析問題。
而為了保證指標的時效性我們可以配置指標負責人、運維人員、SLA來保證,當任務(wù)執(zhí)行時間超過SLA觸發(fā)報警機制。
接下來回到我們排查人均停留時長這個問題,已知他的原子指標總停留時長的作業(yè)是沒問題的,那么我們分析這個指標的計算邏輯:
人均停留時長=總停留時長/DAU
我們看到上游產(chǎn)出DAU的任務(wù)失敗了,后經(jīng)開發(fā)排查,是因為DAU的表里有個小時表執(zhí)行失敗了,導(dǎo)致DAU算的數(shù)據(jù)偏少,進而人均停留時長數(shù)據(jù)異常增長。
04
指標檢驗
最后就是對指標數(shù)據(jù)進行檢驗,在導(dǎo)入任務(wù)執(zhí)行完產(chǎn)出數(shù)據(jù)后,如何驗證產(chǎn)出的數(shù)據(jù)符合預(yù)期呢?我們可以給指標的波動范圍設(shè)計閾值(一般是日環(huán)比和周同比的形式),關(guān)于閾值如何設(shè)定,有的團隊可能采用業(yè)務(wù)方提供的波動值來作為閾值,但這種判斷容易受主觀思維影響,從數(shù)據(jù)的角度出發(fā)可以考慮取以往的指標波動均值作為參考閾值,這樣我們在閾值的設(shè)定上是比較科學(xué)的。
如果是業(yè)務(wù)調(diào)整帶來的波動,那在計劃調(diào)整的時候肯定是有個預(yù)期的波動值,我們只需要在調(diào)整后及時在報表展示平臺添加好提示,同時也檢查下數(shù)據(jù)波動和業(yè)務(wù)的預(yù)期是否一致,這樣也會降低一些因業(yè)務(wù)調(diào)整帶來的口徑波動解釋成本
在指標校驗環(huán)節(jié)我們發(fā)現(xiàn)人均停留時長這個指標已經(jīng)超過了設(shè)置的20%的閾值,所以業(yè)務(wù)同學(xué)收到了報警,然后就開始了我們文章一開始出現(xiàn)的那一幕。
指標監(jiān)控體系看似是對指標的監(jiān)控,實際上是對整個數(shù)據(jù)生產(chǎn)流程的監(jiān)控,但本文只是簡單的講了這幾個環(huán)節(jié),排查實際問題中并不只是這些環(huán)節(jié)會有問題,比如數(shù)據(jù)同步環(huán)節(jié)發(fā)現(xiàn)解析到的埋點日志很少,那么我們要排查是否埋點出現(xiàn)異常;調(diào)度監(jiān)控除了血脈圖還有元數(shù)據(jù)管理平臺等等。。。
總之數(shù)據(jù)采集到數(shù)據(jù)可視化是個漫長且復(fù)雜的鏈路,對于企業(yè)級的指標監(jiān)控系統(tǒng),這些事還遠遠不夠,不同公司面臨的困難不一樣,方法也不一樣,思考如何制定適合自己業(yè)務(wù)和技術(shù)現(xiàn)狀的監(jiān)控方案,這樣才能更好的落地實施。
編輯:jq
-
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
7252瀏覽量
91699 -
APP
+關(guān)注
關(guān)注
33文章
1586瀏覽量
74115 -
SLA
+關(guān)注
關(guān)注
1文章
54瀏覽量
18501
原文標題:淺談如何建設(shè)指標監(jiān)控體系
文章出處:【微信號:DBDevs,微信公眾號:數(shù)據(jù)分析與開發(fā)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
SCTF星通時頻的品質(zhì)管理體系
廣凌標準化考場建設(shè)方案:監(jiān)控攝像頭構(gòu)筑考試公平的 “數(shù)字天眼”

設(shè)備電力能耗監(jiān)控系統(tǒng)解決方案

使用Prometheus與Grafana實現(xiàn)MindIE服務(wù)可視化監(jiān)控功能

芯盾時代助力企業(yè)數(shù)據(jù)安全體系建設(shè)
城市地下綜合管廊智能互聯(lián)運營監(jiān)控系統(tǒng)建設(shè)研究

軟通動力中標亦莊控股司庫管理系統(tǒng)建設(shè)項目
鴻利智匯ISO 56005國際標準體系建設(shè)項目啟動
東軟集團助力藥品智慧監(jiān)管體系建設(shè)
測試右移之——監(jiān)控告警中心優(yōu)化與建設(shè)策略
智慧隧道建設(shè)的重點內(nèi)容有哪些
淺談電力監(jiān)控系統(tǒng)在廠房電力工程中的設(shè)計與應(yīng)用

評論