文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

一个运维的存在感:微盟36小时事件,我们该反思什么?_IT技术周刊第618期

2024-12-24 19:26

关注

   今日,微盟发布有关微盟系统故障通告。通告指出,2月23日19点,系统监控报警,服务出现故障,大面积服务集群无法响应,生产环境及数据遭受严重破坏。

  此外该公司旗下SaaS业务服务出现故障,预测对有关业务带来一定负面影响。

  目前,公司正进行生产环节和数据修复工作,预计2月25日晚24点前生产环境将修复完成,所有新用户可恢复服务;预计2月28日晚24点前老用户数据修复可以完成。

  此次事故经调查系微盟研发中心运维人员贺某所为,贺某于2月23日晚18点56分通过个人VPN登入公司内网跳板机,因个人精神、生活等原因对微盟线上生产环境进行恶意破坏。目前,宝山公安局已将贺某刑事拘留,犯罪嫌疑人承认犯罪事实。

  反思:频繁吃一堑,如何长一智

  在谈反思之前,在此次事件中有几个问题我们还要关注一下,为什么这么长时间还没恢复?

  为什么一个人可以有这么大的破坏性?

  从公告中,我们可以看到,到目前为止,仍在进行中的恢复动作就是做数据恢复。

  所以有网友说不难推断,这次故障被破坏最严重的就是生产系统的数据库,而且一定是核心库,或许应用环境也被破坏掉了,否则影响不会像现在这么大。

  1. 数据恢复这么晚,说好的灾备呢?

  说道数据回复的时间长可能是以下几个原因造成的:

  这个事件非常不幸,就是传说中删库跑路的操作,而且极有可能是直接做了rm -rf或者fdisk这样的基本不可逆转文件删除操作,更极端可能是主备一起干掉了。

  数据库备份没有做好。可能压根就没有备份,只能从磁盘文件系统维度恢复;有全量备份,但是无增量备份,全量有可能是一个月、一周,三天等等,这中间的增量备份没做。

  不管哪一种,只要是数据库备份机制不完善,没做过完整的恢复验证,真正要恢复的时候一定会花大量的时间找回数据。

  2. 论一个人的破坏性?

  从这次事件看,微盟这种规模的公司不太可能像大公司,一下招很多运维或DBA,然后每个运维和DBA都严格按照不同业务授权,也就是每个DBA只能访问有限的业务库。

  小公司的成本不支持这种做法,而且招了这么多人也没这么多事情可以干。

  所以,对于绝大多数中小型公司来说,普遍和必然的现象就是,一个运维或DBA管整个系统,并且拥有整个系统所有主机的最大权限,比如root。

  说做好权限管控,要分层分级等等,这些玩法只针对大公司有效,因为大公司有钱,有量,有事情干,招一批人,分分工,分分权限,各管各的,完全没问题。对微盟这种类型的公司基本不可行。

  3. 避免问题,我们可以做什么?

  以上2个问题主要集中在运维人员权限太大,方便做了极端操作;公司没有有效的备份恢复机制。针对这两个问题,网上也有网友列出了自己的想法,小编罗列了几点。

  使用云产品,微盟虽然跑在云上,但是很显然并没有直接使用云数据库产品,应该是用了云的裸金属或者是虚拟机,然后在服务器上自己搭建的MySQL数据库。因为从我们使用的经验看,当前任何一家公有云厂商的数据库产品,都会有比较完善的自动备份和恢复机制,而且根本没有机会去执行rm -rf 和 fdisk这样极端的操作。

  做好备份。如果真心觉得自己有能力自建,那一定做好全量备份,增量备份,延迟备份,全量备份要多机房,异地备份,因为数据是核心资产,应用全删了还可以重新部署。

  关于权限控制,中小型企业如果真的没法做到最小授权,建议上个主机安全管控软件,或者堡垒机,各个云厂商都有,类似rm -rf 、fdisk、drop等等这样的高危命令是可以实时拦截掉的。

  技术人自觉才是保护用户数据的最后防线

  最近几年,由于技术人员故意或者有意造成的事故不计其数。2018 年 3 月,Stack Overflow 发布了他们的开发者调查报告,并首次提出了有关道德的问题。对于“开发人员是否有义务考虑代码的道德影响”这个问题,有近 80%的人回答“是”。不过,只有 20%的人认为他们最终在为不道德的代码负责,40%的人会在被要求的情况下写不道德的代码,只有 50%的人表示在发现不道德的代码时会举报。

  如果代码对世界的影响不大,那么这也许就不成问题。打个比方,如果你写了一个对 100 个人不利的算法,虽然这事不怎么光彩,但产生的影响也是有限的。但是,如果你在拥有数亿用户的 Facebook、Google、微信上做同样的事情,结果就会很严重。

  对于开发者来说,光是每天写业务代码就已经让人心力交瘁了。更何况不管在国内还是国外,技术在大部分时候都是为业务服务,开发者的话语权是拗不过盈利这条大腿的。但是,遵守职业道德是最后的底线,如果技术人员做不到这一点,那保护用户数据的最后一道防线就会崩塌。

  所以,技术人的自我修养,在纷繁复杂科技产物的当下显得更加关键。

 

来源:51CTO内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯