01. 數字化轉型與可觀測的關系
在數字化轉型的浪潮中,我們面臨著將“線下業(yè)務線上化”及實現“業(yè)務快速創(chuàng)新迭代”的迫切需求,這也進而要求支撐業(yè)務的應用系統(tǒng)更加敏捷、可擴展性更高。
因而,分布式、云原生是企業(yè)應用架構的發(fā)展方向。
分布式架構下,各種IT對象如消息隊列、緩存、分布式數據庫等層出不窮,并且組件間的調用關系錯綜復雜。
此時,傳統(tǒng)IT監(jiān)控只能提供資源層面的狀態(tài)警告,無法提供分布式應用故障診斷所需的更多有效信息,因此,一個面向應用面向故障的全棧可觀測方案越來越成為企業(yè)IT運維的迫切需求。
02. 30年過去,終迎來第二代監(jiān)控——可觀測
IT監(jiān)控作為IT運維之眼,是IT運維第一個建設的工具,追溯IT監(jiān)控工具歷史,已有30年之久。傳統(tǒng)IT監(jiān)控的發(fā)展,主要是在監(jiān)控對象以及在監(jiān)控能力(如指標、Log、Trace)的不斷擴展,發(fā)展至今,已形成眾多從IaaS到SaaS層的監(jiān)控工具。據Gartner市場調研數據顯示,超過70%的中大型企業(yè)擁有10個以上的IT監(jiān)控工具,以滿足各種IT監(jiān)控需求。
監(jiān)控工具越來越多,但每個監(jiān)控工具卻只能揭示業(yè)務和應用的部分問題,且工具能力重合、工具數據互為煙囪,這導致用戶難以聯(lián)動整合所有監(jiān)控,面向整個業(yè)務和應用進行全面的故障診斷。
傳統(tǒng)工具發(fā)展的這些瓶頸和問題在可觀測體系中得到了完美解決。
傳統(tǒng)監(jiān)控與可觀測的主要區(qū)別如下:
簡單來講,監(jiān)控主要聚焦在感知,可觀測還聚焦于問題出現之后診斷分析和隱患發(fā)現。
03. 基于四大支柱數據設計可觀測體系
要做到面向應用、面向故障的可觀測,我們需要為整個應用系統(tǒng)的生產運行拓撲進行建模,并將應用所有相關組件的各種觀測數據進行有機聚合,因此,可觀測體系設計的核心理念在于對Metirc、Log、Trace、Topology這四大支柱數據進行統(tǒng)一采集、統(tǒng)一治理和有機聚合。
這幾個數據之間的關系如下:
基于上述理念,可抽象可觀測的數據模型如下:
基于此設計,我們可以自動構建應用橫縱向全景拓撲,感知應用故障點。
根據故障點實現上游故障影響分析和下游故障根因溯源。
04. 可觀測成熟度模型
可觀測既包含了傳統(tǒng)監(jiān)控的技術,又包含了基于數據和AI的統(tǒng)一數據治理與智能根因分析以實現端到端的監(jiān)控與分析的能力。可觀測體系的建設不是一蹴而就的,也不是將傳統(tǒng)監(jiān)控體系推倒重來,而是一個基于科學建設路徑和方法逐步演進的過程。
可觀測成熟度模型如下:
L1【基礎可觀測】
L2【應用可觀測】
L3【因果可觀測】
L4【主動可觀測】
L5【業(yè)務可觀測】
05. 可觀測平臺功能設計
可參考下圖進行可觀測平臺的功能設計:
06. 可觀測平臺建設過程
建設重點1——觀測元數據建模治理【Topology】
建設重點2——指標體系建模治理【Metric】
建設重點3——統(tǒng)一日志管理【Log】
可觀測平臺需要提供統(tǒng)一的、豐富的日志采集、清洗、檢索與展示能力以覆蓋各類設備日志管理需求。
建設重點4——APM實現故障追蹤【Trace】
APM是分布式系統(tǒng)的關鍵監(jiān)控能力,通過APM可以對應用的四個黃金指標進行監(jiān)控,可以對服務件、服務與組件間的調用狀態(tài)進行監(jiān)控,還可以實現對服務接口級、方法級的故障發(fā)現與診斷分析。
建設重點5——實現告警的全生命周期治理【Alert】
基于統(tǒng)一告警中心的建設,實現一條告警的全生命周期流轉閉環(huán)管控。
建設重點6——基于AI與LLM的智能可觀測【AI】
通過集成AI能力實現動態(tài)閾值、告警聚合收斂、時序預測、日志聚類分析、多維下鉆與根因定位等智能可觀測能力。
基于LLM可以構建可觀測智能小助手,如展示告警詳情:
挖掘告警相關故障信息:
獲取故障推薦和交互式故障自動化處理:
建設重點7——基于應用可觀測向上構建業(yè)務可觀測【Business】
在數字化時代,業(yè)務的穩(wěn)定生產運行都會反饋到應用系統(tǒng)的各項運行指標上,運維的最核心目標也是保障業(yè)務的穩(wěn)定生產運行。
當我們實現了應用可觀測后,基于應用可觀測能力去構建面向上層各類業(yè)務活動、業(yè)務場景的可觀測,就會水到渠成且事半功倍。
業(yè)務觀測領域中,最重要的是對各類業(yè)務交易場景以及各個應用系統(tǒng)的業(yè)務黃金指標進行監(jiān)控,例如銀行,有各種支付、轉賬、查額、還款等場景,這些交易的交易鏈路如何自動構建,如何監(jiān)測每一筆交易的效率和質量,如何在交易異常的情況下迅速找到問題點并進行解決,是業(yè)務可觀測的重點建設內容。
業(yè)界基于業(yè)務監(jiān)控的有三大技術:APM的交易鏈路自動構建與黃金指標監(jiān)測、應用標準化日志的交易鏈路自動構建與黃金指標監(jiān)測、網絡流量鏡像分析的交易鏈路自動構建與黃金指標監(jiān)測。
三者各有優(yōu)劣點,如基于APM的技術面臨著全量采集給應用帶來的性能壓力、基于日志則需要應用進行標準化日志輸出的改造、基于網絡流量則面臨著網絡丟包、數據量巨大和云原生SDN架構下的流量采集技術壁壘等問題。企業(yè)需要根據自己的實際情況選擇合適的技術。
最后,業(yè)務可觀測的技術還需要能夠聯(lián)動應用可觀測,從而實現從業(yè)務指標到具體問題資源對象聯(lián)動起來的根因定位。
07. 可觀測平臺三年建設計劃建議
前面提到,可觀測不是將現有監(jiān)控推倒重來,而是基于現狀進行規(guī)劃建設。對于大部分傳統(tǒng)企業(yè)而言,可參考以下三年建設計劃:
第一年:感知&治理
第二年:定位&業(yè)務
第三年:智能&擴展
申請演示