文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

互联网故障管理体系建设,看这一篇就够了

2024-12-24 18:42

关注

1、ITIL中的定义

故障:①非计划性的IT服务中断,或者IT服务性能的下降。②配置项的失效,即便没有影响到服务。

故障管理:对所有故障进行处理的流程。

故障管理的目标:尽快恢复服务到正常运行,并且最小化对业务运营的不利影响,从而尽可能地保证服务质量和可用性的水平。

2、业界较完善定义

故障:除用户方环境或者用户自身操作引起的外,其他无论什么原因导致服务中断、服务品质下降或者用户服务体验下降。

故障管理:围绕故障生命周期采取的一系列活动和流程,包括故障等级定义、故障发现、故障响应、故障应急、故障恢复、故障复盘及持续改进。

故障管理的目标:预防可预知的问题,快速恢复不能预知的问题,不再重复已发生的问题。

二、为什么要做故障管理

无论是理论还是实践,均证明故障只要有发生的可能,它总会发生。所以为了保障业务稳定性,需提前发现、解决风险,及时发现、定位原因、快速恢复故障,同时要确保改进措施有效落地、避免故障重复发生,我们需要建立一个规范可遵循、闭环的故障管理体系。

三、故障管理怎么做

故障管理就是围绕故障全生命周期管理,形成体系闭环、持续改进。

无论是理论还是实践,均证明故障只要有发生的可能,它总会发生。所以为了保障业务稳定性,需提前发现、解决风险,及时发现、定位原因、快速恢复故障,同时要确保改进措施有效落地、避免故障重复发生,我们需要建立一个规范可遵循、闭环的故障管理体系。

1、故障等级定义

1.1 故障序列

故障管理部门(例如质量部门、NOC、运维管理部门等)可根据实际情况定义故障序列,以下为目前业界可参考的序列,一类序列一般分为4级,级别数字越小严重程度越高。

1.2 故障定级

以P序列举例:

故障定级建议分为通用型和业务型两类,业务线型故障定级标准不得低于通用型故障定级标准。

通用型故障等级由故障管理部门定义,可包含受影响用户数、受影响商家数、客诉增量、资金损失等通用指标。通用型故障场景在业务线型故障场景未覆盖情况下兜底。

业务型故障等级由故障管理部门联合业务团队基于用户视角共同定义,以下为业务型故障定级举例。公司内部工具也可按照此模板定义故障级别以纳入故障管理。

2、监控告警

核心是业务监控关联故障等级定义做到故障及时发现。

告警本身要做到智能告警以提升告警准确率,例如智能阈值、智能基线、根因算法等。

3、故障应急

问题升级为故障后,由故障管理部门及时通告故障信息,拉起故障处理群/电话会议,协调、跟进、监督故障处理直至恢复。

由于故障管理部门需要7X24应急响应,有条件的公司可以参考google的SRE、阿里的GOC组建团队,成员分布不同时区,实现日出而作,日落而息。

4、故障恢复

故障发生后的第一要务是恢复业务,预案、重启、降级、隔离、切流、饱和式应急等,都是可选的方案。

5、故障复盘

5.1、故障复盘时效

为确保问题、风险能够得到足够重视,并及时制定改进措施,建议P1P2级别故障1个工作日内完成复盘,P3P4故障3个工作日完成复盘,其他序列故障可参考P序列时效性。

5.2、故障复盘准备工作

为提升复盘会议效率,故障管理人(复盘会议主持人)应该在会议之前整理如下信息:

5.3、故障复盘重要关注点

6、持续运营

持续运营是个广义的概念,除了故障数据各种维度晾晒、经验传承、文化宣导外,最主要的是通过故障数据分析,识别故障各个生命阶段的薄弱点、风险点,针对薄弱点、风险点有专项改进。

比如多次未灰度直接发布引起重大故障,变更制度、变更平台是否可强管控;故障恢复主要依赖代码发布导致恢复慢,是否可打造及时恢复文化,针对常见故障场景是否能沉淀快恢预案等。

四、对故障管理工作者的建议

故障管理路长且艰,以下给故障管理同学的建议,希望共勉。

1. 积极主动、认真负责

2. 敢于质疑

3. 自我提升

故障管理者不是统计、记录文员,要以架构师严格要求自己,能够指出故障各个阶段存在的问题,并能够独立承担对应优化专项。

 

来源:高效运维内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯