文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

解决K8S中Pod无法正常Mount PVC的问题

2024-12-03 00:23

关注

今天发现一个Pod一直处于ContainerCreating状态,通过Describe查看,发现以下错误。

  1. Warning  FailedMount  15s        kubelet, node-2    MountVolume.WaitForAttach failed for volume "pvc-504feeb6-ae42-45ba-996b-5e8e1039b601" : rbd image kube/kubernetes-dynamic-pvc-bbfd3466-9f2f-11ea-8e91-5a4125e02b87 is still being used 

意思就是说该Pod启动需要挂载PVC,但是这个PVC目前正被使用。可以确定的是除了这个Deployment之外,没有其他Deployment在使用这个PVC,那这是为什么呢?

我们先来看看如果一个Pod需要挂载卷,在创建Pod的过程中,卷的整个流程如下:(1)第一步是先创建卷 (2)第二步在节点上挂载卷 (3)将卷映射到Pod中

在删除Pod的时候,卷的卸载过程和上面正好相反。所以初步怀疑是在删除Pod的时候,原节点由于某些原因从节点上卸载卷失败,我们来具体排查一下。

通过上面Pod的错误信息,我们可以获取到如下有用信息

  1. rbd image kube/kubernetes-dynamic-pvc-bbfd3466-9f2f-11ea-8e91-5a4125e02b87 is still being used 

我们可以从上面的信息获取到rbd的镜像信息,拆分如下:

我们通过ceph命令可以获取到该镜像被哪个节点使用,如下:

  1. # rbd info kube/kubernetes-dynamic-pvc-bbfd3466-9f2f-11ea-8e91-5a4125e02b87 
  2. rbd image 'kubernetes-dynamic-pvc-bbfd3466-9f2f-11ea-8e91-5a4125e02b87'
  3.  size 100 GiB in 25600 objects 
  4.  order 22 (4 MiB objects) 
  5.  snapshot_count: 0 
  6.  id: fb236b8b4567 
  7.  block_name_prefix: rbd_data.fb236b8b4567 
  8.  format: 2 
  9.  features: layering 
  10.  op_features:  
  11.  flags:  
  12.  create_timestamp: Tue May 26 17:03:15 2020 
  13.  access_timestamp: Tue May 26 17:03:15 2020 
  14.  modify_timestamp: Tue May 26 17:03:15 2020 

主要关注block_name_prefix的值。

然后通过以下的命令获取到具体的节点:

  1. # rados listwatchers -p kube rbd_header.fb236b8b4567 
  2. watcher=192.168.100.181:0/154937577 client.194364 cookie=18446462598732840971 

其中,将从block_name_prefix获取到的值将rbd_data修改为rbd_header,然后通过以上命令获取即可。

从上面输出的信息可以看到这个rbd镜像被挂载到192.168.100.181主机上,这时候我们需要切换到该主机进行具体的操作。

查看具体的文件系统挂载信息

  1. ls /dev/rbd/kube/kubernetes-dynamic-pvc-bbfd3466-9f2f-11ea-8e91-5a4125e02b87 -l 
  2. lrwxrwxrwx 1 root root 11 7月  27 09:04 /dev/rbd/kube/kubernetes-dynamic-pvc-bbfd3466-9f2f-11ea-8e91-5a4125e02b87 -> ../../rbd4 

可以看到这个rbd镜像被挂载到/dev/rbd4上,我们可以直接通过rbd unmap命令卸载,如下:

  1. # rbd unmap /dev/rbd4 

不过我这里并没有这么容易,当我在卸载的时候报如下错误。

  1. # rbd unmap /dev/rbd4 
  2. rbd: sysfs write failed 
  3. rbd: unmap failed: (16) Device or resource busy 

一看到这个问题,就想到有时候在umount的时候,也会遇到Device busy,所以第一反应是使用lsof,看是否能找到哪个进程占用了,如下:

  1. # lsof 2>/dev/null | grep rbd4 

但是我并没有找到任何进程,二脸懵逼.....

最后只有疯狂百度了,找到了两种解决方式。(1)通过rbd unmap -o force进行强制卸载 (2)通过grep 'rbd4' /procmountinfo来查找进程PID

当把这个rbd镜像从原节点卸载过后,就可以看到Pod可以正常启动了。

写在最后

由于我是使用的Deployment来管理的有状态应用,正常使用StatefulSet不会出现这种问题,那使用Deployment该如何避免这种问题呢?

这两种方式都有利有弊,具体情况需要使用者去权衡。

本文转载自微信公众号「运维开发故事」,可以通过以下二维码关注。转载本文请联系运维开发故事公众号。

 

来源:运维开发故事内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯