01. 場景簡述
采用WeOps的監(jiān)控能力,結(jié)合Exchange專家定制的專用化監(jiān)控方案,實時監(jiān)測服務(wù)器磁盤、郵件系統(tǒng)關(guān)鍵指標(biāo),異常告警,提醒管理員及時處理(支持自動化處理),配置后(近3個月),故障頻率從1~2月一次,降到“零”故障。
02. 故事背景
1)郵件系統(tǒng)運維要求
周大福Exchange郵件系統(tǒng)維系著全集團(包括順德、武漢、香港和深圳等四大區(qū))的協(xié)同辦公,如分店與分店、分店與后勤的公告、文件、通知等,其重要性不言而喻,集團要求郵件系統(tǒng)可用性不低于99.99%,基本上不允許出現(xiàn)故障。
2)故障現(xiàn)象
今年上半年曾先后發(fā)生幾起郵件投遞失敗的重大事故,受影響的用戶多達上千人,IT運維團隊為此也受到嚴厲的責(zé)罰。
3)故障原因
最終定位到根因為部分Exchange郵件系統(tǒng)服務(wù)器由于郵件量的增加,導(dǎo)致磁盤空間不足,觸發(fā)了系統(tǒng)的反壓機制,導(dǎo)致部分郵件無法正常投遞,一直停留在隊列中。
4)故障困擾
周大福郵件系統(tǒng)服務(wù)器數(shù)量多達40+臺,且后端服務(wù)器的磁盤數(shù)較多(8-10個盤),盡管每天都在進行例行檢查,發(fā)現(xiàn)磁盤不足及時擴充,但是擴多了浪費,擴少了很快又滿,總是容易出現(xiàn)疏漏。令運維人員頭疼的是,公司門店常有促銷活動,需要大量帶附件的郵件群發(fā),這容易導(dǎo)致服務(wù)器的磁盤空間在前后兩次巡檢之間劇增達上百GB,造成故障,因此,事故接二連三的發(fā)生……
03. WeOps應(yīng)對及效果
1)實時監(jiān)測Exchange郵件系統(tǒng)所有數(shù)據(jù)盤的磁盤空間,提前預(yù)警
① 對Exchange郵件系統(tǒng)40+臺服務(wù)器批量安裝代理,實時監(jiān)測磁盤空間的變化情況;
② 新建Exchange郵件系統(tǒng)儀表盤,通過折線圖方式展示所有數(shù)據(jù)盤的磁盤空間使用情況;
③ 基于本次故障的經(jīng)驗,對所有數(shù)據(jù)盤的“磁盤空間使用率” 設(shè)定嚴格的監(jiān)控策略,并通過短信、郵件、微信等途徑通知到相關(guān)人員處理。
當(dāng)磁盤空間超過80%時,觸發(fā)“預(yù)警”級別告警;
當(dāng)磁盤空間超過85%時,觸發(fā)“致命”級別告警;
④ 除對郵件系統(tǒng)的磁盤使用率、CPU、內(nèi)存等基礎(chǔ)指標(biāo)監(jiān)測外,還對郵件隊列、重試投遞隊列、客戶端連接數(shù)等關(guān)鍵應(yīng)用指標(biāo)進行檢測,及時感知異常,保障郵件系統(tǒng)穩(wěn)健運行。
2)WeOps實現(xiàn)效果
① WeOps監(jiān)控告警配置完成后,未再出現(xiàn)郵件投遞失敗的事故
04. 場景適用性
該郵件系統(tǒng)監(jiān)控的場景,適用于絕大部分企業(yè)的運維場景。WeOps監(jiān)控,幫助企業(yè)早于業(yè)務(wù)發(fā)現(xiàn)問題,提升核心系統(tǒng)的可用性。
SRE轉(zhuǎn)型:銀行SRE模式推廣策略
查看詳細
從設(shè)備到數(shù)據(jù):存儲監(jiān)控的關(guān)鍵與實踐
查看詳細
AI破圈爆火!殊不知運維才是幕后“定海神針”!
查看詳細
AI賦能DevOps:智能排錯、代碼修復(fù)與需求生成,打造高效開發(fā)新范式!
查看詳細
LLMOps+DeepSeek:大模型升級一體化運維
查看詳細
DeepSeek賦能企業(yè)研發(fā):DevOps+AI 新時代再升級!
查看詳細
申請演示