為應(yīng)對(duì)數(shù)字化轉(zhuǎn)型的挑戰(zhàn),提升整體的IT運(yùn)營(yíng)和運(yùn)維能力,金融行業(yè)數(shù)據(jù)中心管理體系也在一直發(fā)展、完善。我們認(rèn)為大體分為兩大階段,即狹義數(shù)據(jù)中心監(jiān)控管理,到廣義數(shù)據(jù)中心監(jiān)控管理階段。其中廣義的數(shù)據(jù)中心監(jiān)控管理,更多是含從業(yè)務(wù)價(jià)值視角的全領(lǐng)域的建設(shè)。通過建立完善的監(jiān)控告警管理規(guī)范,結(jié)合監(jiān)控告警工具,可以提高系統(tǒng)的穩(wěn)定性和可靠性,減少故障的發(fā)生和影響,提升業(yè)務(wù)價(jià)值。
某大型保險(xiǎn)公司基于嘉為藍(lán)鯨告警中心,構(gòu)建了完善的告警管理規(guī)范,打造告警全生命周期管理體系,實(shí)現(xiàn)業(yè)務(wù)可用性提升。
01. 業(yè)務(wù)場(chǎng)景
該公司在多年的監(jiān)控建設(shè)過程中,已陸續(xù)實(shí)現(xiàn)了網(wǎng)絡(luò)設(shè)備監(jiān)控、系統(tǒng)基礎(chǔ)監(jiān)控、中間件數(shù)據(jù)庫(kù)監(jiān)控、云平臺(tái)監(jiān)控、應(yīng)用監(jiān)控、動(dòng)環(huán)監(jiān)控,所有的監(jiān)控告警管理規(guī)范和工具都由數(shù)據(jù)中心管理員進(jìn)行管理,各領(lǐng)域管理崗和外包人員負(fù)責(zé)接收和處理監(jiān)控過程中產(chǎn)生的告警。由于監(jiān)控系統(tǒng)分散、涉及角色多,數(shù)據(jù)中心管理員較難進(jìn)行規(guī)范管理。
缺乏專業(yè)工具支撐,告警的產(chǎn)生、流轉(zhuǎn)、處理過程中需要耗費(fèi)時(shí)間較長(zhǎng),響應(yīng)和處理效率低下,對(duì)業(yè)務(wù)連續(xù)性使用會(huì)產(chǎn)生一定影響。同時(shí)因?yàn)楦黝I(lǐng)域管理崗較為分散,對(duì)于告警的處理效率、人力成本等很難進(jìn)行評(píng)估和量化。
02. 分析痛點(diǎn)
該公司有規(guī)范的管理流程,但缺少工具支撐管理,導(dǎo)致在實(shí)際業(yè)務(wù)場(chǎng)景中存在以下痛點(diǎn):
1)工具無(wú)法匹配管理規(guī)范
基于企業(yè)對(duì)告警的管理規(guī)范,5級(jí)及以上的告警都能自動(dòng)生成事件工單且由對(duì)應(yīng)的人員處理,且會(huì)根據(jù)告警治理過程對(duì)規(guī)范進(jìn)行優(yōu)化,需要通過配置才能靈活適配規(guī)范。
2)告警信息不規(guī)范
由于監(jiān)控系統(tǒng)多樣性以及建設(shè)的時(shí)間較早,導(dǎo)致告警信息不規(guī)范,很多告警甚至缺少關(guān)鍵信息。
3)告警無(wú)法收斂導(dǎo)致工單過多
現(xiàn)有系統(tǒng)中,產(chǎn)生的告警60%以上都是重復(fù)告警。這些無(wú)效和重復(fù)的告警會(huì)導(dǎo)致創(chuàng)建的事件工單量大、告警通知量大,且需要在人工處理階段花大量時(shí)間對(duì)重復(fù)的工單進(jìn)行判斷關(guān)聯(lián)。事件單數(shù)量過多也不符合管理規(guī)范。
4)無(wú)法適配交易時(shí)間
金融業(yè)的業(yè)務(wù)系統(tǒng)跟交易時(shí)間關(guān)聯(lián)較大,因變更和交易關(guān)閉時(shí)間,也會(huì)產(chǎn)生一些無(wú)效的告警,需要根據(jù)交易時(shí)間判斷告警有效性。
5)變更導(dǎo)致告警風(fēng)暴
變更過程或者變更過后,會(huì)產(chǎn)生大量告警,需要自動(dòng)對(duì)變更產(chǎn)生的告警進(jìn)行屏蔽。
03. 解決方案
1)結(jié)合告警管理規(guī)范,落地最佳實(shí)踐
根據(jù)該公司的組織架構(gòu)和管理規(guī)范,結(jié)合業(yè)務(wù)場(chǎng)景,通過配置和對(duì)接第三方系統(tǒng),對(duì)整個(gè)告警生命周期管理實(shí)現(xiàn)了閉環(huán)。
2)結(jié)合CMDB實(shí)現(xiàn)告警豐富及告警動(dòng)態(tài)分派
通過關(guān)聯(lián)CMDB數(shù)據(jù),實(shí)現(xiàn)告警信息的豐富和完善,并根據(jù)CMDB實(shí)例中的負(fù)責(zé)人信息,實(shí)現(xiàn)了告警動(dòng)態(tài)流轉(zhuǎn),保證告警通知的及時(shí)性和準(zhǔn)確性。
3)根據(jù)交易日歷和變更進(jìn)行告警收斂
根據(jù)交易日歷和ITSM變更工單,修改告警收斂策略的時(shí)效性或者創(chuàng)建新的收斂策略,通過自動(dòng)化手段盡可能地減少無(wú)效告警。
04. 成果展示
1)結(jié)合CMDB實(shí)現(xiàn)告警動(dòng)態(tài)分派
2)根據(jù)ITSM變更工單創(chuàng)建告警屏蔽
3)交易日歷控制抑制策略是否生效
05. 建設(shè)成效
06. 場(chǎng)景適用性
嘉為藍(lán)鯨告警中心適用于告警生命周期管理的場(chǎng)景,結(jié)合企業(yè)告警管理規(guī)范,總結(jié)出企業(yè)最佳落地實(shí)踐。適用于金融行業(yè)及其他更廣泛行業(yè)進(jìn)行告警高效處理、標(biāo)準(zhǔn)化實(shí)現(xiàn)業(yè)務(wù)系統(tǒng)持續(xù)可用的場(chǎng)景。適用有以下業(yè)務(wù)場(chǎng)景需求的企業(yè):
SRE轉(zhuǎn)型:銀行SRE模式推廣策略
查看詳細(xì)
從設(shè)備到數(shù)據(jù):存儲(chǔ)監(jiān)控的關(guān)鍵與實(shí)踐
查看詳細(xì)
AI破圈爆火!殊不知運(yùn)維才是幕后“定海神針”!
查看詳細(xì)
AI賦能DevOps:智能排錯(cuò)、代碼修復(fù)與需求生成,打造高效開發(fā)新范式!
查看詳細(xì)
LLMOps+DeepSeek:大模型升級(jí)一體化運(yùn)維
查看詳細(xì)
DeepSeek賦能企業(yè)研發(fā):DevOps+AI 新時(shí)代再升級(jí)!
查看詳細(xì)
申請(qǐng)演示