欧美日本国产一区,国产农村妇女毛片精品久久莱园子,国产精品视频一区二区三区,777gn亚洲综合国产

首頁

/

如何基于IT事件全生命管理周期,提升業務連續性?

發布日期:2023-02-17 17:01:00

分享到

進入數字化時代,IT架構面臨的復雜性越來越高,業務連續性管理這項IT最基本的工作,也成為了很多行業或企業IT運維的最核心任務;業務連續性管理是一個持續不斷提升的過程,圍繞“快速發現事件→快速響應事件→快速定位與處理事件→減少事件發生”的事件生命周期閉環,結合一體化運維平臺,是提高業務連續性保障水平的一種好思路


01. IT運維的趨勢與挑戰

當前,各行各業正如火如荼持續推進自身業務和管理模式的數字化轉型。數字化轉型在提升客戶體驗、加快業務創新交付、為運營提能增效方面確實可以為企業帶來重要價值;但與此同時,企業數字化轉型給IT運維帶來極大挑戰,數字化轉型推動新技術、新場景的快速迭代,讓運維面臨的復雜度、不確定性因素加大,企業業務連續性面臨更大挑戰和不確定性。


02. ITIL事件生命周期

ITIL將IT服務管理分為十個核心流程和一項管理職能。這十個核心流程分別是服務級別管理、IT服務財務管理、能力管理、IT服務持續性管理、可用性管理、配置管理、變更管理、發布管理、事件管理、問題管理,一項管理職能是服務臺

ITIL V3中把事件定義為“任何可被發現或辨別的事情,此類事情對于基礎設施的管理或IT服務的交付有重要意義,以及有助于評估可能導致服務出現的偏差。” 與ITIL V3相比,ITIL 4給出的定義更清晰,事件(Incident)是指服務的意外中斷或服務質量的降低。

在ITIL中,IT事件管理是IT基礎架構管理策略的一部分,包括監控、調查、上報和響應IT平臺上發生的事件。在ITIL 事件管理生命周期中,ITIL 提供了一個七步流程來處理事件:

步驟一:事件識別

這是服務臺第一次意識到問題的時候。用戶可能會檢測到與用戶體驗相關的事件,并提出投訴。另一方面,技術事故通常是在日常監控中發現的。

步驟二:事件記錄

一旦確定了事件,服務臺就應該將其記錄下來。他們通常會要求確定事件的人的姓名、發現的日期和時間以及對錯誤的描述。然后服務臺將進行事件分類。這是一種確定問題類型的方法。事件分類有兩個目標:使服務臺能夠查找任何趨勢,并通知事件優先級。事件優先級是確定解決方案緊迫性的過程。這通常被定義為“高”、“中”或“低”,并基于受影響用戶的數量和事件造成的破壞程度。

步驟三:事故調查與診斷

這是解決事件的第一步。受影響的用戶與服務臺的一名成員討論該事件,以查看是否有立即解決的方法,或者他們是否可以快速識別問題。如果服務臺的假設成功,則問題已解決,可以直接跳到步驟 5。但是,如果沒有立即修復,事件將需要進入下一階段。

步驟四:事件分配或升級

由于需要進一步工作,服務臺會將事件分配給現場技術人員或經過認證的支持人員,他們將尋找解決方法,然后調查事件原因。

步驟五:事件解決

顧名思義,此步驟涉及服務臺確認事件已解決。

步驟六:事件結束

此時,事件被視為已結束,流程結束。

步驟七:用戶滿意度調查

組織可能會要求用戶在問題解決后完成一份簡短的問卷,以確定他們是否對服務交付感到滿意。這是識別事件管理過程中任何問題的好方法,例如無用的服務臺員工或不滿意的解決方案。同時,壓倒性的積極反饋是提高員工士氣的好方法,它可以幫助識別在工作中表現出色的團隊成員。

將上述事件生命周期的七步流程抽象為快速發現事件、快速響應事件、快速定位與處理事件,但這些環節偏事件發生后的事后應對處理環節,可以再補充偏事前的減少事件發生環節,形成完整的事件生命周期如下圖,下文主要圍繞下圖事件生命周期展開解析如何提升業務連續性。


03. 圍繞事件生命周期提升業務連續性

1)快速發現事件

以前,通常是根據最終用戶和IT專家的信息來報告大多數事件,這種獲取信息的方法仍被廣泛使用,但是現在一個好的實踐建議是自動發現和報告事件。可以在事件發生后和開始影響用戶之前立即被發現。這種方法具有多種好處:

  • 事件較早發現縮短了服務不可用或降級的時間;
  • 更高質量的初始數據支持事件正確的響應和解決,包括自動解決,也稱為故障自愈;
  • 一些事件可能在影響與客戶約定的服務質量之前得到解決,從而提高用戶滿意度;
  • 與事件相關的成本可能會降低。

總體來看,事件主要從服務臺與監控體系而來,用戶反饋到服務臺屬于被動發現,監控體系屬于主動發現,監控體系又包括針對IT資源對象的指標監控、針對應用系統的調用鏈監控和針對資源與應用的日志監控。

被動發現維度,可以通過提升用戶報障渠道的便利性從而提升事件發現的及時性,比如電話、郵件、IM入口、應用系統嵌入入口、工單系統等;主動發現維度,通過提升監控對象的覆蓋率、指標的及時性、告警的有效性等促進快速主動發現事件故障。


2)快速響應事件

所有的事件都應該被完整地記錄下來,無論是由服務臺受理的還是由監控告警自動生成的。所有與事件相關的信息都應該被記錄下來形成一份完整的歷史記錄,這樣如果其它支持組查詢事件時他們能夠獲得所有相關信息來幫助他們。事件需要被分配合適的事件類型代碼。這樣,準確的事件類型就被記錄下來。通過事件類型或頻率確定趨勢,用于問題管理、供應商管理和其他IT服務管理活動,這一點十分重要。

在一些用戶只是尋求某種信息的事件(服務請求)中,服務臺可以很快的解決這種服務請求。對于服務臺無法處理的事件,為了實現快速響應,需要快速精準的分配給一線支持人員。派單規則可結合值班管理與配置管理,步驟可參考比如示例:

  • 根據告警對象從配置管理CMDB里找到對應的業務系統
  • 根據業務系統找到對應的值班單位、值班組及崗位
  • 找到該值班單位對應的值班人員(符合該值班組及崗位的)并派工單
  • 如果該崗位沒人值班,則將工單派至值班經理
  • 如果有多個符合條件的人員,則隨機派給一個符合條件的值班人員

如果一線支持人員也難以快速解決問題,則需要進行事件升級。事件升級包括職能性升級與管理性升級兩類:

職能性升級:即將一個事件從一線轉到二線及以上的支持,這樣可以得到更多的專業技術、時間或者資源來解決事件。職能性升級也可能發生在協議規定的時間到期后,事件仍然沒有解決的情況;

管理性升級:即將事件單升級到更高級別的管理人員,以協調必需的資源來解決事件。管理性升級也可以發生在事件解決流程的任何時刻。


3)事件快速定位與處理

事件管理是記錄和解決事件問題的過程。事件管理的首要目標是盡快將運營恢復到正常狀態,并將對業務運營的影響降到最低。在這個過程中,問題定位與恢復速度往往是重中之重。甚至通常是先通過臨時修復而不是永久解決方案來解決,稍后才會進行永久性修復。

如何做到事件快速處理和業務快速恢復呢?需要從故障快速分析和故障快速處理兩個維度著手。


① 故障快速排查分析定位

基于監控數據進行綜合分析:結合時序指標(metric)、日志(log)、調用鏈(trace),將收集到的所有數據通過數據標簽體系進行關聯,在一套界面上展示所有的信息,從而快速定位問題;

結合配置管理CMDB拓撲進行關聯分析:按照應用或對象進行事件聚合,展示告警事件的詳情與關聯拓撲,快速排障;

基于歷史經驗進行定位:借助沉淀到ITSM知識庫中積累的知識經驗輔助分析,知識庫需要持續運營;


② 故障快速處理恢復

對故障進行分類分級處理,針對不同類型故障采用不同處理方法,比如代碼缺陷引發的故障采用回滾操作、組件異常故障采用高可用集群切換或組件重啟、微服務調用復雜場景的故障采用限流降級等手段

使用故障自愈手段,故障自愈是采用"故障自動化處理"解決方案,提升企業的服務可用性和降低故障處理的人力投入,實現故障自愈從“人工處理”到“無人值守”的變革。通過自動化處理節省人力投入,通過預定的恢復流程讓恢復過程更可靠,通過并行分析達到更快的故障定位和恢復。

一句話總結:實時發現告警,預診斷分析,自動恢復故障,并打通周邊系統實現整個流程的閉環。故障自愈常見快速恢復手段包括進程啟停、清磁盤、主備切換等。

另外,借助ITIL最佳實踐,快速恢復的實現手段還包括:

集中會診:尤其是出現重大故障時,技術專家要聚集起來,集中解決故障,恢復服務。

事件模型:對于經常發生的問題,可以定義事件模型進行記錄。

減少事件發生:“上醫治未病,中醫治欲病,下醫治已病”,實際上,為了更好的增強業務連續性、提升IT服務質量、提升企業客戶滿意度,應該盡量減少事件的發生才是上策。

如何減少事件發生呢?可以從提升變更質量、加強問題管理、巡檢體系建設、提升災備演練與自動化切換能力著手。


① 強化變更管理

80%的故障都是變更引起。ITIL4將變更支持實踐中定義的最大化成功服務和產品的變更主要表現在以下三個方面:確保已正確評估風險、授權進行變更、管理變更時間表。促成變更的五個主要活動是:記錄、計劃、批準、執行、回顧

記錄:包括在公共位置記錄或記錄變更內容,以便所有利益相關者都能了解變更的原因和優先級。記錄有助于審查,評估,評估變更的優先級。

計劃:包括調整任務以及準備資源和組件。計劃階段的目標是確保成功進行變更,同時將對現有服務和組件的影響降到最低。

審批:是進行變更需要正式授權。 授權的級別取決于變更和公司的文化,高風險的變更與規避風險的文化相結合可能需要更多的利益相關者批準。

執行:主要是變更的實施。按照所有利益相關者記錄的議定時間表和步驟執行和實施變更。溝通至關重要。客戶、員工和其他用戶需要知道短期和長期的變化期望。執行可以在演練環境中進行驗證,測試對于確保功能和非功能需求至關重要,盡管測試級別可能會根據變更類型而有所不同。

回顧:為了提升變更的效率與減少變更的出錯率,變更會遵循計劃的變更時間表,在變更工具平臺(比如變更自動化系統、發布自動化系統)進行自動變更。如果變更出錯,需要執行回滾計劃。


② 升級問題管理

與事件管理強調事件恢復的速度不同,問題管理強調的是找出事件產生的根源,從而制定恰當的解決方案或防止其再次發生的預防措施。

問題管理流程在運作過程中需要與其他多個流程進行信息上的溝通。它需要根據事件管理、容量管理、配置管理、服務級別管理等流程提供的信息制定解決方案和應急措施;同時它所產生的解決方案和變更請求等信息又需要輸入事件管理和變更管理流程的運作過程。


③ 巡檢體系建設

如何保證信息系統的安全穩定運行,及時發現和消除信息系統隱患是對企業信息系統運維人員的巨大挑戰。自動化巡檢的應用提升了信息系統運行的可靠性,減輕了運維人員的工作壓力,對大型復雜信息系統的運維工作模式具有重要示范意義。

通過對機房基礎環境設備、網絡設備、主機、數據庫及中間件系統等實現巡檢,自動收集各種巡檢項指標,及時發現系統缺陷和故障,為不同角色的運維人員提供統一的工作平臺。巡檢體系包括對巡檢對象實現全方位的健康性檢測和告警,包含軟硬件基本信息、系統配置、安全配置、系統運行狀態和系統性能狀態等方面的檢查。


④ 災備演練管理

一般來說,災備的級別可以分為數據級、應用級和業務級三個級別。無論數據級還是應用級,都只是災備建設的技術手段。災備建設作為一項系統工程,遠遠超出了這個技術范疇。要想災備系統在關鍵時刻能發揮應有的作用,完善的災備應急預案、定期的災備演練、自動化的災備切換和恢復能力不可缺少。


04. 事件生命周期管理最佳實踐

嘉為藍鯨一體化運維PaaS平臺,基于藍鯨平臺打造,實現企業一體化運維,覆蓋配置管理中心(CMDB)、可觀測中心、IT服務管理中心(ITSM)、自動化運維中心和多云管理中心的企業運維場景,并為客戶提供了強大的擴展能力,滿足當前及未來運維管理所需。

嘉為藍鯨可觀測中心,通過監控、告警、日志實現故障發現、故障處理和故障復盤;覆蓋基礎設施、應用、云原生等企業各類IT對象,并實現告警治理、指標治理、監控統一、可視化統一的整體解決方案,并與配置管理中心、IT服務管理中心、自動化運維中心無縫集成,實現事件生命周期閉環管理,包括告警收斂、告警關聯定位、告警自動轉工單、故障自愈等。

同時,通過嘉為藍鯨自動化運維中心的變更管理、應用自動化發布、自動化巡檢、災備切換自動化,以及IT服務管理中心的問題管理,減少事件故障發生的概率。

進入數字化時代,IT架構面臨的復雜性越來越高,業務連續性管理這項IT最基本的工作,也成為了很多行業或企業IT運維的最核心任務;業務連續性管理是一個持續不斷提升的過程,圍繞”快速發現事件→快速響應事件→快速定位與處理事件→減少事件發生”的事件生命周期閉環,結合一體化運維平臺,是提高業務連續性保障水平的一種不錯思路。

免費申請演示

聯系我們

服務熱線:

020-38847288

QQ咨詢:

3593213400

在線溝通:

立即咨詢
查看更多聯系方式

申請演示

請登錄后在查看!