欧美日本国产一区,国产农村妇女毛片精品久久莱园子,国产精品视频一区二区三区,777gn亚洲综合国产

首頁

/

IT可觀測產(chǎn)品剖析——告警全生命周期管理

發(fā)布日期:2024-07-18 15:14:23

分享到

01. 告警事件管理三個(gè)階段

1)告警事件管理三大階段

告警事件的全生命周期管理可以分為三大階段:事前、事中、事后。其中事前核心關(guān)注的是預(yù)防以及發(fā)現(xiàn)問題;事中核心關(guān)注的是快速發(fā)現(xiàn)和解決問題,確保業(yè)務(wù)連續(xù)性,降低損失;事后核心關(guān)注的是問題的復(fù)盤、知識沉淀積累以及持續(xù)優(yōu)化業(yè)務(wù)系統(tǒng),確保業(yè)務(wù)健康運(yùn)行。


2)告警事件管理關(guān)鍵指標(biāo)

業(yè)界最常用定義告警事件本身全生命周期的核心指標(biāo)包含MTBF(故障前平均時(shí)間)、MTTR(平均恢復(fù)、修復(fù)、響應(yīng)或解決時(shí)間)、MTTF(平均故障時(shí)間)和MTTA(平均確認(rèn)時(shí)間),這一系列指標(biāo)可以幫助技術(shù)團(tuán)隊(duì)了解故障發(fā)生的頻率以及事件恢復(fù)的速度。

嘉為藍(lán)鯨告警中心(以下簡稱“告警中心”)基于CMDB模型和實(shí)例,以告警事件為中心,圍繞告警接入、告警豐富、告警收斂、告警處理&通知以及告警分析對企業(yè)業(yè)務(wù)系統(tǒng)告警統(tǒng)一管理。以下為一條告警在告警中心的全生命周期的流轉(zhuǎn)路徑。


02. 告警中心產(chǎn)品功能

功能點(diǎn)1:告警接入

告警中心支持Zabbix、Prometheus、VMware、華為云、阿里云等20余種常見監(jiān)控系統(tǒng)的標(biāo)準(zhǔn)化插件,開箱即用快速對接不同類型的監(jiān)控系統(tǒng)。此外還支持通過REST API方式對第三方系統(tǒng)推送的告警進(jìn)行接入。


功能點(diǎn)2:告警豐富

  • 插件清洗:在接入不同系統(tǒng)的告警時(shí),會根據(jù)插件中定義的數(shù)據(jù)清洗邏輯將關(guān)鍵的告警字段內(nèi)容進(jìn)行輸出;
  • 常規(guī)豐富方案:若輸出的告警內(nèi)容不滿足標(biāo)準(zhǔn)格式要求,可進(jìn)一步使用常規(guī)豐富方案對告警字段內(nèi)容進(jìn)行替換、提取、調(diào)整的操作;
  • CMDB豐富方案:告警中心可以聯(lián)動CMDB,根據(jù)對象模型實(shí)例關(guān)聯(lián)關(guān)系,自動將CMDB中的配置信息豐富到告警詳情內(nèi)容中。
告警詳情信息
常規(guī)豐富方案
CMDB豐富方案


功能點(diǎn)3:告警收斂

對于企業(yè)中的告警風(fēng)暴以及各類告警誤報(bào)漏報(bào)的場景,告警中心具備成熟的告警收斂解決方案。包含自動去重算法、告警抑制、告警屏蔽、告警合并。這些收斂方案可根據(jù)不同的業(yè)務(wù)場景進(jìn)行靈活配置使用,告警壓縮占比高達(dá)90%以上。


① 自動去重算法

內(nèi)置自動去重會根據(jù)一條告警的告警源ID、告警對象、告警指標(biāo)以及告警等級四個(gè)字段信息使用哈希算法生成告警事件ID,相同ID的告警將被系統(tǒng)自動去重處理。

② 告警防抖抑制

防抖抑制主要針對抖動較高的指標(biāo)例如CPU使用率,網(wǎng)卡流量等可以通過配置在一定周期內(nèi)出現(xiàn)多少次才會產(chǎn)生一條有效告警。

防抖抑制方案


③ 關(guān)聯(lián)聚合抑制

可以根據(jù)自定義字段進(jìn)行相同的告警進(jìn)行抑制,例如:當(dāng)業(yè)務(wù)名稱、告警對象、告警指標(biāo)、告警等級都一樣的告警可以認(rèn)為是同樣的告警,通過這些字段對原始告警進(jìn)行組合條件判斷,相同則被抑制掉。

關(guān)聯(lián)聚合方案


④ 時(shí)間屏蔽

時(shí)間屏蔽通常會在企業(yè)系統(tǒng)維護(hù)期內(nèi)、業(yè)務(wù)系統(tǒng)需要的時(shí)候?qū)Ω婢M(jìn)行集中屏蔽,避免大量告警產(chǎn)生和通知。

時(shí)間屏蔽方案


⑤ 依賴屏蔽

依賴屏蔽,顧名思義即通過自定義依賴關(guān)系,或根據(jù)CMDB中模型之間的關(guān)聯(lián)關(guān)系進(jìn)行屏蔽告警策略的配置。

例如當(dāng)一臺服務(wù)器的網(wǎng)卡發(fā)生告警時(shí),此時(shí)該服務(wù)器上的交換機(jī)肯定也會產(chǎn)生一條告警。針對這類場景我們就可以根據(jù)這些對象的關(guān)聯(lián)關(guān)系配置對應(yīng)的依賴屏蔽策略,這樣就可以減少干擾告警的產(chǎn)生。

依賴屏蔽方案


⑥ 告警合并

告警合并功能針對企業(yè)中由于某一個(gè)故障導(dǎo)致產(chǎn)生大量與之相關(guān)的告警的場景進(jìn)行合并處理。

例如,當(dāng)某一業(yè)務(wù)領(lǐng)域的交易率偏低時(shí),這往往可能歸因于多種因素,如該業(yè)務(wù)所依賴的服務(wù)CPU使用率居高不下、服務(wù)響應(yīng)時(shí)間顯著延長等。當(dāng)這些因素的告警信號同時(shí)觸發(fā)時(shí),為了提高處理效率,可以將它們整合為一條綜合性的有效告警。

告警合并方案


功能點(diǎn)4:告警處理

在經(jīng)過一系列的告警收斂方案后,運(yùn)維人員只需要關(guān)注和處理那些有效的告警。告警中心提供人工&自動處理方案,加快企業(yè)運(yùn)維人員對告警事件的響應(yīng)以及處理速率。此外,告警中心還具備豐富的通知渠道覆蓋PC端以及移動端,讓企業(yè)相關(guān)人員第一時(shí)間收到通知,及時(shí)感知系統(tǒng)問題。

① 自動關(guān)閉

針對一些可能并不影響系統(tǒng)的核心功能或并不是緊急問題的告警,比如:測試機(jī)器的性能告警、非工作日無需處理的告警。通過自動關(guān)閉策略可以減少對告警管理的工作量。

自動關(guān)閉策略


② 自動分派

可以根據(jù)運(yùn)維管理要求自動將告警分派以及通知到對應(yīng)的人/組/值班人員。

例如,當(dāng)服務(wù)器宕機(jī)或者性能異常時(shí),告警中心會自動分派給負(fù)責(zé)服務(wù)器維護(hù)的運(yùn)維團(tuán)隊(duì);當(dāng)遇到交換機(jī)、路由器、網(wǎng)絡(luò)設(shè)備故障告警時(shí),系統(tǒng)將自動分派給網(wǎng)絡(luò)運(yùn)維團(tuán)隊(duì)。

自動分派策略


③ 自愈處理

告警中心支持告警自愈處理能力,例如常見的自愈場景有服務(wù)器重啟、日志清理、磁盤清理等。根據(jù)這些場景,可以分別使用對應(yīng)的腳本去執(zhí)行自愈流程。并且支持自愈流程參數(shù)的填寫,可快速執(zhí)行自愈腳本對故障進(jìn)行處理。

自愈處理策略


④ 自動轉(zhuǎn)工單

支持內(nèi)置對接ITSM以及第三方工單系統(tǒng),實(shí)現(xiàn)告警產(chǎn)生到生成工單的自動化處理方案。并且支持工單模版的創(chuàng)建,可以快速套用模版對工單參數(shù)進(jìn)行快速填寫,方便運(yùn)維人員及時(shí)創(chuàng)建事件工單、變更工單等,加速告警故障問題的流轉(zhuǎn)。

自動轉(zhuǎn)工單策略


功能點(diǎn)5:告警通知

告警中心具備強(qiáng)大的告警通知能力,包含靈活的告警通知頻率的配置、多樣的告警通知渠道、自定義通知模版設(shè)置等。

① 通知頻率

針對那些重要且緊急的告警,例如主機(jī)CPU使用率、磁盤使用率、網(wǎng)絡(luò)不可達(dá)等核心關(guān)注的監(jiān)控項(xiàng),一旦觸發(fā)警報(bào),系統(tǒng)應(yīng)被配置為立即發(fā)送緊急通知;當(dāng)無人響應(yīng)時(shí),系統(tǒng)將按照一定周期進(jìn)行循環(huán)通知、響應(yīng)后告警持續(xù)未關(guān)閉的循環(huán)通知。

而對于那些相對不那么緊急,但仍需關(guān)注的預(yù)警信息,例如網(wǎng)絡(luò)帶寬使用率在70%左右達(dá)到預(yù)警時(shí),這種告警可以延遲進(jìn)行通知。

告警通知頻率


告警通知渠道

支持多樣的通知渠道配置如常見的郵件、短信、ESB微信、語音、釘釘、企微/釘釘移動端、企微/飛書/釘釘群機(jī)器人、針對值班大屏使用的頁面語音播報(bào)功能。

告警通知渠道


③ 告警通知模版

針對不同的通知場景可以自定義配置通知模版,可以按照企業(yè)告警通知要求進(jìn)行配置,讓告警更快更詳細(xì)地通知到對應(yīng)負(fù)責(zé)人。

告警通知模版配置


功能點(diǎn)6:告警分析

① 關(guān)聯(lián)拓?fù)?/strong>

聯(lián)動CMDB,根據(jù)對象模型以及實(shí)例自動拉取CMDB的拓?fù)潢P(guān)系圖,并在產(chǎn)生告警的節(jié)點(diǎn)上標(biāo)紅處理,直觀地了解故障上下游關(guān)聯(lián)關(guān)系,快速定位故障影響范圍。

告警關(guān)聯(lián)拓?fù)?/span>


② 告警報(bào)表

內(nèi)置多類型、樣式的統(tǒng)計(jì)報(bào)表模塊,可直觀查看告警統(tǒng)計(jì)數(shù)據(jù)以及各個(gè)人員的MTTA、MTTR指標(biāo)情況。

告警報(bào)表


③ 輔助分析

告警中心支持對接知識庫以及工單系統(tǒng),可以在告警產(chǎn)生后快速匹配關(guān)聯(lián)的解決方案以及關(guān)聯(lián)的歷史變更工單,輔助運(yùn)維人員對故障進(jìn)行定位以及處理。

告警輔助分析模塊


功能點(diǎn)7:智能處理

告警中心基于大模型算法能力,進(jìn)一步加強(qiáng)告警處理的能力,降低運(yùn)維門檻,加速故障處理速度和效率。

① 關(guān)聯(lián)知識庫

目前內(nèi)置運(yùn)維知識庫,開箱即用。可批量導(dǎo)入知識庫文件,基于大模型算法對知識庫內(nèi)容進(jìn)行監(jiān)督學(xué)習(xí)訓(xùn)練,實(shí)現(xiàn)將告警內(nèi)容與知識庫進(jìn)行匹配,并且按照匹配度高低進(jìn)行展示。

自動關(guān)聯(lián)知識庫


② 智能助手

使用大模型生成式AI能力,支持ChatGPT、LLaMa2等模型,通過對話式方式進(jìn)行故障定位分析和推薦處理方案的建議。

智能小助手

免費(fèi)申請演示

聯(lián)系我們

服務(wù)熱線:

020-38847288

QQ咨詢:

3593213400

在線溝通:

立即咨詢
查看更多聯(lián)系方式

申請演示

請登錄后在查看!