文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

Kubernetes探针踩坑记

2024-12-24 16:07

关注

本文转载自微信公众号「Dotnet Plus」,可以通过以下二维码关注。转载本文请联系Dotnet Plus公众号。

1. 荒腔走板

最近一两个月生产K8s集群频繁出现短时503 Service Temporarily Unavailable,还不能主动复现,相当郁闷,压力山大。

 

HTTP 5xx响应状态码用于定义服务端错误。

2. 排查记录

 

进入k8s集群节点,确实部分节点的时钟对齐服务未启动,不定时出现比北京时间慢2,3分钟的情况,这个确实可以解释时间差导致的impala连接认证失败。

 

3.思考和推演

故障现场每次只有impala连接问题,我也搞不懂impala连接问题竟然会导致webapp service下线。

我们的webapp兼具toB和toC业务,站点强依赖mongodb、弱依赖于impala:impala即使连不上,只是不能查,站点sso+订单相关的写入操作应该还可用。

回想起前几天看到的k8s探针,糟糕,我们的就绪探针好像探测了impala

  1. // ASP.NetCore上暴露的的探测逻辑:impala && mongodb 
  2. services.AddHealthChecks() 
  3.        .AddCheck(nameof(ImpalaHealthCheck), tags: new[] { "readyz" }) 
  4.        .AddCheck(nameof(MongoHealthCheck), tags: new[] { "readyz" }); 
  5.         
  6. app.UseHealthChecks("/readyz", new HealthCheckOptions 
  7.   { 
  8.       Predicate = (check) => check.Tags.Contains("readyz"
  9.   }); 

强烈推测:就绪探针3次探测impala失败, Pod将会被标记为Unready, 该Pod将从webapp服务负载均衡器移除, 不再分配流量,导致nginx无实际意义的后端服务,站点503。

迅速找一个beta环境,断开impala连接,验证猜想。

 

4.问题回顾

bugfix不是我正向推断出来的,而是纯靠经验推演出来的,倒不是有明确推断思路,也算给大家提前踩坑了。

docker的健康检查只能探测,Kubernetes存活、就绪探针不仅有探测,还有决策能力。

这里我们的k8s就绪探测使用策略出现了问题:

 

探测到webapp弱依赖impala有问题,就下线了整个webapp服务,应该只探测强依赖,强依赖有问题,才表明容器未就绪,这也是就绪探针的初衷。

 

来源:Dotnet Plus内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯