欧美日本国产一区,国产农村妇女毛片精品久久莱园子,国产精品视频一区二区三区,777gn亚洲综合国产

可觀測(cè)體系落地實(shí)踐:運(yùn)維從戰(zhàn)略管理到工具落地

發(fā)布日期:2023-02-17 16:50:16

分享到

近年來(lái),可觀測(cè)性建設(shè)已經(jīng)成為企業(yè)數(shù)字化轉(zhuǎn)型的高熱話題,但大多數(shù)企業(yè)在實(shí)踐落地過(guò)程中往往會(huì)發(fā)現(xiàn),以往的建設(shè)模式并不能夠在企業(yè)中發(fā)揮良好的作用,單純的引入產(chǎn)品或工具已經(jīng)沒(méi)有辦法達(dá)到建設(shè)需求。本期我們邀請(qǐng)到嘉為藍(lán)鯨運(yùn)維產(chǎn)品負(fù)責(zé)人宋蘊(yùn)真,從戰(zhàn)略管理,到組織度量,最后再到工具應(yīng)用層面對(duì)可觀測(cè)落地實(shí)踐進(jìn)行深度剖析,自上而下對(duì)可觀測(cè)落地建設(shè)進(jìn)行梳理,帶您一步步深入探索可觀測(cè)性的落地實(shí)踐


01. 戰(zhàn)略目標(biāo):服務(wù)于業(yè)務(wù)

數(shù)字化轉(zhuǎn)型是一個(gè)長(zhǎng)期過(guò)程,早期企業(yè)IT運(yùn)維主要還是面向物理設(shè)備,而隨著技術(shù)架構(gòu)的不斷發(fā)展,運(yùn)維對(duì)象逐漸向虛擬化、云化趨勢(shì)發(fā)展,軟件架構(gòu)逐漸向SOA、云原生等架構(gòu)轉(zhuǎn)變。業(yè)務(wù)的線上化趨勢(shì)下,傳統(tǒng)IT運(yùn)維往往無(wú)法及時(shí)感知和處理問(wèn)題,企業(yè)運(yùn)維處于黑盒化狀態(tài),在此背景下,運(yùn)維管理體系需要向自動(dòng)化、智能化轉(zhuǎn)型,以服務(wù)于快速發(fā)展的企業(yè)業(yè)務(wù)

在數(shù)字化轉(zhuǎn)型過(guò)程中,運(yùn)維的核心目標(biāo)就是保障業(yè)務(wù)的連續(xù)性,IT運(yùn)維整體的轉(zhuǎn)型戰(zhàn)略目標(biāo)也需要始終服務(wù)于業(yè)務(wù),在不同的建設(shè)階段通過(guò)不同方法和手段,快速的發(fā)現(xiàn)問(wèn)題、解決問(wèn)題可觀測(cè)是IT數(shù)字化轉(zhuǎn)型宏偉目標(biāo)的其中一步,通過(guò)可觀測(cè)體系的建設(shè),不斷提煉運(yùn)維數(shù)據(jù)價(jià)值,幫助和驅(qū)動(dòng)業(yè)務(wù)部門決策,并在這個(gè)過(guò)程中對(duì)IT組織進(jìn)行持續(xù)的度量和改進(jìn),最終更好的推進(jìn)企業(yè)數(shù)字化轉(zhuǎn)型宏偉目標(biāo)的實(shí)現(xiàn)。


1)可觀測(cè)建設(shè)的核心目標(biāo)與挑戰(zhàn)

可觀測(cè)的建設(shè)是服務(wù)于業(yè)務(wù)的,首先需要細(xì)分并明確可觀測(cè)建設(shè)的核心目標(biāo)。

  • 更少的線上問(wèn)題:當(dāng)業(yè)務(wù)出現(xiàn)問(wèn)題時(shí),往往不是獨(dú)立存在的,可能會(huì)引起上下游的組織、業(yè)務(wù)、人員出現(xiàn)更多的問(wèn)題,導(dǎo)致組織的效率低下或運(yùn)維成本增加,而通過(guò)可觀測(cè)建設(shè),減少問(wèn)題的出現(xiàn),能夠解放他人,讓更多的人員能夠投入到其他工作中,實(shí)現(xiàn)降本增效。
  • 更短的問(wèn)題恢復(fù)時(shí)間:IT業(yè)務(wù)幾乎無(wú)法避免問(wèn)題的出現(xiàn),SLO也不可能是100%,如何提早發(fā)現(xiàn)問(wèn)題,更快的解決問(wèn)題,或者采取自動(dòng)化的方式處理重復(fù)工作,從而將運(yùn)維人員自己解放出來(lái),投入到更加價(jià)值的工作中,也是可觀測(cè)的核心目標(biāo)之一。
  • 更好的用戶體驗(yàn):業(yè)務(wù)最終是面向用戶的,通過(guò)可觀測(cè)的建設(shè),提高系統(tǒng)穩(wěn)定性和可用性,保障良好的用戶體驗(yàn),真正服務(wù)于用戶。
  • 控制好成本:生產(chǎn)成本的控制往往也離不開可觀測(cè),企業(yè)的降本增效需要IT能夠快速感知資源狀態(tài),從而合理度量和分配IT資源,實(shí)現(xiàn)精益生產(chǎn)。

與此同時(shí),云原生技術(shù)下的IT系統(tǒng)日益復(fù)雜,歷史系統(tǒng)、工具難以一時(shí)替換,而國(guó)產(chǎn)替代、自主可控又提出了新的要求,實(shí)現(xiàn)目標(biāo)的挑戰(zhàn)也越來(lái)越大:

  1. 海量:面向大集群、多中心的集中觀測(cè),技術(shù)挑戰(zhàn)、系統(tǒng)可用性挑戰(zhàn)高。
  2. 歷史包袱、煙囪林立:監(jiān)控工具多,相互獨(dú)立,數(shù)據(jù)分散,管理復(fù)雜,煙囪林立。
  3. 工具聯(lián)動(dòng)弱:運(yùn)維工具難以互聯(lián)互通,監(jiān)控處置慢,人員協(xié)同差,運(yùn)維效率低,告警模式單一,無(wú)故障根源分析能力。
  4. 分布式系統(tǒng)日益復(fù)雜:運(yùn)維對(duì)象日趨復(fù)雜,IT技術(shù)架構(gòu)變化大,IT對(duì)象井噴式增長(zhǎng)。
  5. 兼顧歷史與未來(lái):既要能夠納管古老的IT對(duì)象,又要能夠納管先進(jìn)的云原生、信創(chuàng)對(duì)象。
  • 運(yùn)維對(duì)業(yè)務(wù)的感知不足:運(yùn)維側(cè)往往被動(dòng)響應(yīng)問(wèn)題,需要從問(wèn)題導(dǎo)向逐漸向主動(dòng)地規(guī)劃導(dǎo)向演進(jìn)。


02. 戰(zhàn)略拆分:?jiǎn)栴}處理的生命周期

確立總體服務(wù)與業(yè)務(wù)的戰(zhàn)略目標(biāo)后,需要對(duì)目標(biāo)進(jìn)行一步步的拆分。通常情況下可觀測(cè)應(yīng)用場(chǎng)景主要集中在處理IT運(yùn)維問(wèn)題上,而運(yùn)維人員在工作中真正遇到故障時(shí)主要包括故障的發(fā)現(xiàn)、定位和恢復(fù)過(guò)程,但除了這些故障處理工作之外,故障提前預(yù)防以及故障事后復(fù)盤根治也是故障全生命周期中的重要環(huán)節(jié)。

在不同的生命周期階段可觀測(cè)性也會(huì)有不同的關(guān)注點(diǎn),我們需要把各個(gè)階段的目標(biāo)進(jìn)行細(xì)化,最終實(shí)現(xiàn)貫穿故障全生命周期的閉環(huán)處理,從而減少故障的發(fā)生頻率和故障恢復(fù)時(shí)間,提高運(yùn)維整體效能。


1)預(yù)防階段

預(yù)防階段主要關(guān)注以下幾個(gè)方面,來(lái)降低故障發(fā)生的頻率,做好預(yù)防階段的規(guī)劃也是提高SLA的最根本的手段,通常這類規(guī)劃不會(huì)單獨(dú)由運(yùn)維來(lái)執(zhí)行,而是需要整體團(tuán)隊(duì)協(xié)同配合,共同達(dá)成的目標(biāo)。

2)軟件架構(gòu)設(shè)計(jì):

● 技術(shù)選型:選擇相對(duì)主流、穩(wěn)定的基礎(chǔ)組件來(lái)構(gòu)建生產(chǎn)系統(tǒng)。

● 易維護(hù)性:建立自身產(chǎn)品的可觀測(cè),工具支持快速告警,支持干預(yù),易恢復(fù)。

● 高可用設(shè)計(jì):冗余設(shè)計(jì)與建立容災(zāi)機(jī)制。

● 事務(wù)性:處理好分布式事務(wù),保障數(shù)據(jù)一致性。

● 可擴(kuò)展:對(duì)能力進(jìn)行抽象與配置驅(qū)動(dòng),實(shí)現(xiàn)擴(kuò)展性。

3)容災(zāi)與災(zāi)切:

● 容災(zāi):通過(guò)采取預(yù)防性措施,在系統(tǒng)發(fā)生故障時(shí)能夠順利恢復(fù),從而避免系統(tǒng)癱瘓。常見的容災(zāi)措施包括備份和恢復(fù)、冗余、負(fù)載平衡等

● 災(zāi)切:在系統(tǒng)發(fā)生故障時(shí),快速的切換到備用系統(tǒng),避免業(yè)務(wù)中斷。通常需要在容災(zāi)措施的基礎(chǔ)上進(jìn)行,需要對(duì)備用系統(tǒng)進(jìn)行定期測(cè)試和維護(hù)

4)預(yù)警機(jī)制:

● 定指標(biāo):利用觀測(cè)指標(biāo)作為預(yù)警指標(biāo),可以是資源使用率或特定日志

● 設(shè)閾值:合理設(shè)置觸發(fā)閾值,考慮好檢測(cè)周期與指標(biāo)周期的匹配

● 建流程:為不同級(jí)別的事件設(shè)計(jì)相應(yīng)的處置流程,對(duì)于跨部門問(wèn)題處理要建設(shè)問(wèn)題支持工單流程。

5)混沌工程(測(cè)試):

● 目的:通過(guò)測(cè)試確保軟件質(zhì)量,通過(guò)混沌工程提高軟件質(zhì)量

● 方法:混沌工程通過(guò)模擬現(xiàn)實(shí)世界的混沌環(huán)境,來(lái)測(cè)試軟件的可靠性和可用性,而測(cè)試則是通過(guò)執(zhí)行特定的測(cè)試用例,來(lái)檢驗(yàn)軟件是否能夠滿足需求。

● 落地:大多數(shù)企業(yè)的業(yè)務(wù)規(guī)模下,我們需要做好測(cè)試工作,保障業(yè)務(wù)正常運(yùn)轉(zhuǎn)。只有在一些互聯(lián)網(wǎng)企業(yè),針對(duì)大型分布式系統(tǒng)時(shí)可能才會(huì)涉及到混沌工程的建設(shè)。

6)問(wèn)題處置階段

在日常處置問(wèn)題的階段,運(yùn)維人員主要關(guān)注兩個(gè)核心指標(biāo):MTBF,MTTR

MTBF:故障預(yù)防、故障根治階段的度量指標(biāo),需要持續(xù)提升,拉長(zhǎng)故障發(fā)生的間隔周期。

MTTR:包含故障發(fā)現(xiàn)、定位、恢復(fù)時(shí)長(zhǎng)。故障發(fā)生時(shí)需要有良好的多團(tuán)隊(duì)協(xié)作機(jī)制,快速定位初因,故障預(yù)案執(zhí)行迅速且不引發(fā)二次故障。

在這一階段運(yùn)維人員可以從監(jiān)控、告警、流程、自動(dòng)化以及管理機(jī)制等多個(gè)方面著手處理,其核心目標(biāo)就是將平均故障恢復(fù)時(shí)間(MTTR)盡可能降低,保障業(yè)務(wù)的連續(xù)性:

  • 發(fā)現(xiàn):通過(guò)監(jiān)控,日志,鏈路等工具及時(shí)發(fā)現(xiàn)問(wèn)題。
  • 定位:通常會(huì)有大量告警產(chǎn)生,需要對(duì)告警進(jìn)行抑制、降噪,對(duì)問(wèn)題進(jìn)行降維,對(duì)部分問(wèn)題還需要與其他團(tuán)隊(duì)協(xié)同定位,同時(shí)對(duì)于一些關(guān)鍵問(wèn)題需要建立及時(shí)上升的機(jī)制。
  • 根因:定位到問(wèn)題以后,基于時(shí)間、關(guān)系進(jìn)行更深一步降噪,對(duì)各類指標(biāo)進(jìn)行明細(xì)排查,同時(shí)通過(guò)日志、鏈路等工具的聯(lián)動(dòng)確認(rèn)根因。
  • 恢復(fù):恢復(fù)階段除了手動(dòng)的操作以外,類似應(yīng)用發(fā)布場(chǎng)景下,可以將發(fā)布操作,發(fā)布回滾等一些可復(fù)用場(chǎng)景進(jìn)行自動(dòng)化能力的積攢,以提高故障恢復(fù)效率。
  • 記錄:通過(guò)問(wèn)題本身的記錄,協(xié)作卡點(diǎn)的記錄,對(duì)問(wèn)題做一些簡(jiǎn)單的閉環(huán),以支撐后續(xù)在復(fù)盤階段更加深入的分析故障根治。


7)事后根治與復(fù)盤

故障的根治并不代表能夠徹底消除故障,而是通過(guò)事后的復(fù)盤和一些處理手段的總結(jié),能夠盡量減少同類故障的發(fā)生,同時(shí)在過(guò)程中通過(guò)對(duì)人員的管理和考核手段,做好良好的文化建設(shè),避免“追責(zé)”、“甩鍋”、“自黑”、“賣慘”等不良文化,進(jìn)行團(tuán)隊(duì)可持續(xù)性優(yōu)化和改進(jìn)。

  • 在實(shí)際生產(chǎn)中,可以采取以下措施:
  • 如實(shí)記錄,留下經(jīng)驗(yàn)記錄。能夠?yàn)閳F(tuán)隊(duì)提供相關(guān)場(chǎng)景和案例進(jìn)行學(xué)習(xí)和參考。
  • 對(duì)用戶(客戶)有交代,能夠給用戶營(yíng)造出團(tuán)隊(duì)的專業(yè)感。
  • 對(duì)續(xù)規(guī)避措施的持續(xù)跟進(jìn)和對(duì)改進(jìn)效果的檢查也需要依賴故障詳細(xì)信息。
  • 通過(guò)事后復(fù)盤,提煉出易用性,易維護(hù)性,健壯性等方面的潛在需求。


03. 組織管理:可度量考核

可觀測(cè)建設(shè)并不只是軟件或者工具的建設(shè),在實(shí)際落地過(guò)程中,最終面向工具的還是“人”。除了工具的建設(shè),可觀測(cè)的組織文化建設(shè)也是必不可少的。而是否對(duì)組織進(jìn)行了合理規(guī)劃、組織之間是否能夠高效協(xié)同配合,是否建立了可度量的考核體系,對(duì)提升企業(yè)整體運(yùn)維水平也起著十分關(guān)鍵的作用。


1)組織劃分

首先需要明確在故障處理全生命周期中,需要哪些組織的參與,通常我們的組建思路會(huì)分為上下兩部分:

2)向上

應(yīng)用運(yùn)維部門,這類組織面向的運(yùn)維對(duì)象是多方面的,并不會(huì)專精于某一個(gè)對(duì)象之中,通常會(huì)偏向職能層面。

  • 監(jiān)控值班組:負(fù)責(zé)監(jiān)控系統(tǒng)的運(yùn)行情況,及時(shí)發(fā)現(xiàn)問(wèn)題并采取必要的應(yīng)對(duì)措施
  • 故障處理組:負(fù)責(zé)接收故障報(bào)告并快速解決問(wèn)題
  • 升級(jí)維護(hù)組(運(yùn)維開發(fā)):負(fù)責(zé)安排軟硬件升級(jí)和維護(hù)工作(自主可控時(shí)可轉(zhuǎn)型運(yùn)維開發(fā))
  • 技術(shù)支持組:負(fù)責(zé)為用戶提供技術(shù)支持,幫助用戶解決使用過(guò)程中遇到的問(wèn)題

3)向下

數(shù)據(jù)中心運(yùn)維。更多組建的是對(duì)象專家團(tuán)隊(duì),分別對(duì)各類資源去設(shè)計(jì)組織,確保團(tuán)隊(duì)的專業(yè)性,針對(duì)相應(yīng)問(wèn)題能夠有效提供解決方法。

  • 應(yīng)急響應(yīng)組:監(jiān)控值班+響應(yīng)支撐部門的問(wèn)題
  • 計(jì)算設(shè)備:專業(yè)化負(fù)責(zé)服務(wù)器等計(jì)算資源的運(yùn)維、故障處置與優(yōu)化
  • 網(wǎng)絡(luò)設(shè)備:存儲(chǔ)專業(yè)化負(fù)責(zé)網(wǎng)絡(luò)資源的運(yùn)維、故障處置與優(yōu)化
  • 存儲(chǔ)設(shè)備:專業(yè)化負(fù)責(zé)各類存儲(chǔ)組件的運(yùn)維、故障處置與優(yōu)化

4)組織協(xié)同配合

組織間的協(xié)同與配合在許多企業(yè)中是較為棘手的,部分企業(yè)并沒(méi)有針對(duì)團(tuán)隊(duì)協(xié)同做相關(guān)的建設(shè),通常是靠人際關(guān)系來(lái)推動(dòng)問(wèn)題的解決,而建立良好的協(xié)作機(jī)制與完善的問(wèn)題處理流程能夠大大提升企業(yè)組織效率,并實(shí)現(xiàn)可推廣的組織文化。

這里我們以組織間協(xié)作的常見流程ITR(issue to resolved)為例:

在常規(guī)問(wèn)題處理過(guò)程中,要做好信息化的ITR流程記錄,同時(shí)做好基于真實(shí)記錄的度量,為后續(xù)的考核與改進(jìn)提供有力的依據(jù)。

在緊急問(wèn)題處理下,做好問(wèn)題的上升,快速將無(wú)法解決的反饋到更加專業(yè)的團(tuán)隊(duì)中,使得問(wèn)題能夠得到更有效的處置,從而更快速的完成問(wèn)題閉環(huán)。

5)能力要求與績(jī)效考核

通常績(jī)效考核也是企業(yè)IT組織較為頭痛的問(wèn)題。在績(jī)效考核上,核心是要持續(xù)不斷的做好日常工作的過(guò)程度量,從而才能夠量化考核決定績(jī)效指標(biāo),最終影響提現(xiàn)在激勵(lì)上。

同時(shí)整個(gè)過(guò)程的度量可以用于人員的職級(jí)評(píng)定的重要指標(biāo)依據(jù),管理者需要做好資源的調(diào)配與激勵(lì)規(guī)劃,同時(shí)在組織中要推動(dòng)技術(shù)帶頭人不斷賦能工程師,團(tuán)隊(duì)內(nèi)部互相扶持進(jìn)步,實(shí)現(xiàn)整體團(tuán)隊(duì)的前進(jìn),從而形成良好的組織管理閉環(huán)。


04. 工具應(yīng)用——匹配戰(zhàn)略戰(zhàn)術(shù)

1)可觀測(cè)工具:

在故障發(fā)現(xiàn)和恢復(fù)的第一階段,仍然是監(jiān)控告警等觀測(cè)工具,對(duì)原始三大支柱數(shù)據(jù):日志數(shù)據(jù)、指標(biāo)數(shù)據(jù)、鏈路數(shù)據(jù)進(jìn)行采集分析處理,基于這些基礎(chǔ)數(shù)據(jù),做好監(jiān)控告警策略的配置,實(shí)現(xiàn)事件的監(jiān)控與發(fā)現(xiàn)。

2)自動(dòng)化工具:

在故障處理的中期階段,主要是自動(dòng)化的工具體系,在這一過(guò)程中積累一些自動(dòng)化能力,實(shí)現(xiàn)簡(jiǎn)單故障的自愈,復(fù)雜問(wèn)題可以同時(shí)結(jié)合人為判斷和以往經(jīng)驗(yàn)沉淀進(jìn)行處理,建立故障處置能力。一般來(lái)說(shuō)自動(dòng)化工具體系最好是與監(jiān)控、告警等觀測(cè)工具相互結(jié)合使用,更高效的完成故障處理。

3)流程流轉(zhuǎn)工具:

對(duì)于一些不確定的、無(wú)法解決的復(fù)雜的問(wèn)題,難以在IT組織內(nèi)完成閉環(huán)的,可以通過(guò)流程體系的建設(shè),做好故障的流轉(zhuǎn)與問(wèn)題的上升。可觀測(cè)工具、自動(dòng)化工具與流程體系的相互融合以達(dá)到故障的全生命周期管理。

4)組織管理:

最后是結(jié)合上文對(duì)組織度量和考核的建設(shè),對(duì)涉及到的HR系統(tǒng)、度量與BI能力、ITSM等進(jìn)行相應(yīng)的配套優(yōu)化,以度量數(shù)據(jù)為基礎(chǔ),以變化為導(dǎo)向制定考核指標(biāo),從而實(shí)現(xiàn)有效的組織管理

可觀測(cè)的落地是一個(gè)龐大的工程,本期我們僅僅只從部分維度分享了關(guān)于戰(zhàn)略管理到工具落地的相關(guān)經(jīng)驗(yàn),對(duì)于監(jiān)控告警指標(biāo)設(shè)計(jì)、日志管理、應(yīng)用體驗(yàn)優(yōu)化等更加細(xì)分的內(nèi)容,我們將在可觀測(cè)系列直播中進(jìn)行更加深入的分享,如果您感興趣或有相應(yīng)建設(shè)需求,歡迎聯(lián)系我們!

免費(fèi)申請(qǐng)演示

聯(lián)系我們

服務(wù)熱線:

020-38847288

QQ咨詢:

3593213400

在線溝通:

立即咨詢
查看更多聯(lián)系方式

申請(qǐng)演示

請(qǐng)登錄后在查看!