文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

更优雅的 Kubernetes 集群事件度量方案

2024-12-02 11:37

关注

 大家好,我是张晋涛。

群里有个小伙伴问了我上图中这个问题,如何度量滚动升级这个过程的时间。

这个问题可以抽象为一种通用需求,适用于多种场景。

现有方案

Kubernetes 已经提供了很方便的办法来解决此问题,也就是我回复中谈到的,通过 event 来度量即可。

比如,我们在 K8S 中,创建一个 deployment,看看这个过程中的 event 信息:

  1. ➜  ~ kubectl create ns moelove 
  2. namespace/moelove created 
  3. ➜  ~ kubectl -n moelove create deployment redis --image=ghcr.io/moelove/redis:alpine 
  4. deployment.apps/redis created 
  5. ➜  ~ kubectl -n moelove get deploy 
  6. NAME    READY   UP-TO-DATE   AVAILABLE   AGE 
  7. redis   1/1     1            1           16s 
  8. ➜  ~ kubectl -n moelove get events 
  9. LAST SEEN   TYPE     REASON              OBJECT                        MESSAGE 
  10. 27s         Normal   Scheduled           pod/redis-687967dbc5-gsz5n    Successfully assigned moelove/redis-687967dbc5-gsz5n to kind-control-plane 
  11. 27s         Normal   Pulled              pod/redis-687967dbc5-gsz5n    Container image "ghcr.io/moelove/redis:alpine" already present on machine 
  12. 27s         Normal   Created             pod/redis-687967dbc5-gsz5n    Created container redis 
  13. 27s         Normal   Started             pod/redis-687967dbc5-gsz5n    Started container redis 
  14. 27s         Normal   SuccessfulCreate    replicaset/redis-687967dbc5   Created pod: redis-687967dbc5-gsz5n 
  15. 27s         Normal   ScalingReplicaSet   deployment/redis              Scaled up replica set redis-687967dbc5 to 1 

可以看到我们主要关注的一些事件均已经有记录了。但是总不能每次都通过 kubectl 这么来看吧,有点浪费时间。

我之前的一种做法是在 K8S 中写了一个程序,持续的监听&收集 K8S 集群中的 event ,并将它写入到我另外开发的一套系统中进行存储和可视化。但这种方法需要做额外的开发也并不普适。这里我来介绍另一个更优的解决方案。

更优雅的方案

K8S 中的这些事件,都对应着我们的一个操作,比如上文中是创建了一个 deployment ,它产生了几个 event , 包括 Scheduled , Pulled ,Created 等。我们将其进行抽象,是不是和我们做的链路追踪(tracing)很像呢?

这里我们会用到一个 CNCF 的毕业项目 Jaeger[1] ,在之前的 K8S生态周报 中我有多次介绍它,Jaeger 是一款开源的,端对端的分布式 tracing 系统。不过本文重点不是介绍它,所以我们查看其文档,快速的部署一个 Jaeger 即可。另一个 CNCF 的 sandbox 级别的项目是 OpenTelemetry[2] 是一个云原生软件的可观测框架,我们可以把它跟 Jaeger 结合起来使用。不过本文的重点不是介绍这俩项目,这里暂且略过。

接下来介绍我们这篇文章的用到的主要项目,是来自 Weaveworks 开源的一个项目,名叫 kspan ,它的主要做法就是将 K8S 中的 event 作为 trace 系统中的 span 进行组织。

部署 kspan

  1. --- 
  2. apiVersion: v1 
  3. kind: ServiceAccount 
  4. metadata: 
  5.   name: kspan 
  6. --- 
  7. apiVersion: rbac.authorization.k8s.io/v1 
  8. kind: ClusterRoleBinding 
  9. metadata: 
  10.   creationTimestamp: null 
  11.   name: kspan-admin 
  12. roleRef: 
  13.   apiGroup: rbac.authorization.k8s.io 
  14.   kind: ClusterRole 
  15.   name: cluster-admin 
  16. subjects: 
  17. - kind: ServiceAccount 
  18.   name: kspan 
  19.   namespace: default 
  20. --- 
  21. apiVersion: v1 
  22. kind: Pod 
  23. metadata: 
  24.   labels: 
  25.     run: kspan 
  26.   name: kspan 
  27. spec: 
  28.   containers: 
  29.   - image: docker.io/weaveworks/kspan:v0.0 
  30.     name: kspan 
  31.     resources: {} 
  32.   dnsPolicy: ClusterFirst 
  33.   restartPolicy: Always 
  34.   serviceAccountName: kspan 

可以直接使用我这里提供的 YAML 进行部署测试,但注意上述配置文件别用在生产环境下, RBAC 权限需要修改 。

它默认会使用 otlp-collector.default:55680 传递 span ,所有你需要确保有这个 svc 存在。以上所有内容部署完成后你大概会是这样:

  1. ➜  ~ kubectl get all 
  2. NAME                                  READY   STATUS    RESTARTS   AGE 
  3. pod/jaeger-76c84457fb-89s5v           1/1     Running   0          64m 
  4. pod/kspan                             1/1     Running   0          35m 
  5. pod/otel-agent-sqlk6                  1/1     Running   0          59m 
  6. pod/otel-collector-69985cc444-bjb92   1/1     Running   0          56m 
  7.  
  8. NAME                       TYPE        CLUSTER-IP     EXTERNAL-IP   PORT(S)                                          AGE 
  9. service/jaeger-collector   ClusterIP   10.96.47.12            14250/TCP                                        60m 
  10. service/kubernetes         ClusterIP   10.96.0.1              443/TCP                                          39h 
  11. service/otel-collector     ClusterIP   10.96.231.43           4317/TCP,14250/TCP,14268/TCP,9411/TCP,8888/TCP   59m 
  12. service/otlp-collector     ClusterIP   10.96.79.181           55680/TCP                                        52m 
  13.  
  14. NAME                        DESIRED   CURRENT   READY   UP-TO-DATE   AVAILABLE   NODE SELECTOR   AGE 
  15. daemonset.apps/otel-agent   1         1         1       1            1                     59m 
  16.  
  17. NAME                             READY   UP-TO-DATE   AVAILABLE   AGE 
  18. deployment.apps/jaeger           1/1     1            1           73m 
  19. deployment.apps/otel-collector   1/1     1            1           59m 
  20.  
  21. NAME                                        DESIRED   CURRENT   READY   AGE 
  22. replicaset.apps/jaeger-6f77c67c44           0         0         0       73m 
  23. replicaset.apps/jaeger-76c84457fb           1         1         1       64m 
  24. replicaset.apps/otel-collector-69985cc444   1         1         1       59m 

上手实践

这里我们先创建一个 namespace 用于测试:

  1. ➜  ~ kubectl create ns moelove 
  2. namespace/moelove created 

创建一个 Deployment

  1. ➜  ~ kubectl -n moelove create deployment redis --image=ghcr.io/moelove/redis:alpine 
  2. deployment.apps/redis created 
  3. ➜  ~ kubectl -n moelove get pods  
  4. NAME                     READY   STATUS    RESTARTS   AGE 
  5. redis-687967dbc5-xj2zs   1/1     Running   0          10s 

在 Jaeger 上进行查看:

点开看详细内容

可以看到,和此创建 deploy 有关的 event 均被归到了一起,在时间线上可以看到其耗时等详细信息。

总结

本文介绍了如何结合 Jaeger 利用 tracing 的方式来采集 K8S 中的 events ,以便更好的掌握 K8S 集群中所有事件的耗时点,更易于找到优化的方向及度量结果。

本文转载自微信公众号「MoeLove」,可以通过以下二维码关注。转载本文请联系MoeLove公众号。

 

来源:MoeLove内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯