文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

Kubeflow使用Kubernetes进行机器学习的方法

2023-06-04 17:48

关注

本篇内容主要讲解“Kubeflow使用Kubernetes进行机器学习的方法”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“Kubeflow使用Kubernetes进行机器学习的方法”吧!

女主宣言

Kubeflow是Google推出的基于kubernetes环境下的机器学习组件,通过Kubeflow可以实现对TFJob等资源类型定义,可以像部署应用一样完成在TFJob分布式训练模型的过程。本文简单的介绍了Kubeflow及其安装流程。

1

背景简介

在介绍Kubeflow之前, 先简单介绍下真正的机器学习模型服务上线都需要经历哪些阶段,如下图所示:

Kubeflow使用Kubernetes进行机器学习的方法

上图的每种颜色代表对一个阶段的处理,可以看出一个机器学习模型上线对外提供服务要经过:数据清洗验证,数据集切分, 训练,构建验证模型, 大规模训练,模型导出,模型服务上线, 日志监控等阶段。Tensorflow 等计算框架解决了最核心的部分问题,但是距离生产化,产品化,以及企业级机器学习项目开发,还有一段距离。比如: 数据收集, 数据清洗, 特征提取, 计算资源管理, 模型服务, 配置管理, 存储, 监控, 日志等等。

2

Kubeflow核心组件简介

  • jupyter 多租户NoteBook服务

  • Tensorflow/[PyTorch] 当前主要支持的机器学习引擎

  • Seldon 提供在Kubernetes上对机器学习模型的部署

  • TF-Serving 提供对Tensorflow模型的在线部署,支持版本控制及无需停止线上服务,切换模型等功能

  • Argo 基于Kubernetes的工作流引擎

  • Ambassador 对外提供统一服务的网关(API Gateway)

  • Istio 提供微服务的管理,Telemetry收集

  • Ksonnet Kubeflow使用ksonnet来向kubernetes集群部署需要的k8s资源

Kubeflow利用Kubernetes的优势

  • 原生的资源隔离

  • 集群化自动化管理

  • 计算资源(CPU/GPU)自动调度

  • 对多种分布式存储的支持

  • 集成较为成熟的监控,告警

将机器学习各个阶段涉及的组件以微服务的方式进行组合并以容器化的方式进行部署,提供整个流程各个系统的高可用及方便的进行扩展。

Kubeflow使用Kubernetes进行机器学习的方法

3

Kubeflow 部署安装

服务器配置

  • GPU卡型号: Nvidia-Tesla-K80

  • 网卡: 千兆(注意:在进行对大数据集进行训练时,千兆的网卡会是瓶颈)

cephfs服务配置

网卡:万兆(注意:通过ceph对数据存储时,ceph集群需要与Kubernetes同机房,否则延迟会对加载数据集的影响非常高)

软件环境

  • kubernetes version: v1.12.2(注意: 需要安装kube-dns)

  • kubeflow version: v0.3.2

  • jsonnet version: v0.11.2

安装ksonnet

Kubeflow使用Kubernetes进行机器学习的方法

安装Kubeflow

Kubeflow使用Kubernetes进行机器学习的方法

当上面的所有安装步骤都正常完成之后,先查看kubeflow在kubernetes集群deployment资源对象的启动状态:

Kubeflow使用Kubernetes进行机器学习的方法

通过状态我们发现现在服务启动正常,在查看下各个deployment下各个服务的pod的状态:

Kubeflow使用Kubernetes进行机器学习的方法

现在服务都是正常的,接下来让我们通过Ambassador来访问kubeflow部署到k8s集群中的各个组件。

访问Kubeflow UIs

由于Kubeflow使用Ambassador作为kubeflow统一的对外网关,其它的内部服务都是通过使用它来对外提供服务。具体如下图所示:

Kubeflow使用Kubernetes进行机器学习的方法

接下来我们使用kubectl的port-forwarding来对Ambassador Service进行端口转发,在本地对Kubeflow进行访问:

Kubeflow使用Kubernetes进行机器学习的方法

通过浏览器进行本地localhost:8080访问:

Kubeflow使用Kubernetes进行机器学习的方法

通过Kubeflow UIs可以针对不同的功能进行使用,如使用Jupyter Notebook进行对应用的全过程计算:开发、文档编写、运行代码和展示结果。也可以访问TF-operator来对基于Tensorflow的模型进行多机多卡的分布式训练。

Kubeflow使用Kubernetes进行机器学习的方法

4

总结

现在国外的Google,微软,亚马逊,Intel以及国内的阿里云,华为云等等公司都在发力Kubeflow,并结合kubernetes对多种机器学习引擎进行多机多卡的大规模训练,这样可以做到对GPU资源的整合,并高效的提高GPU资源利用率,及模型训练的效率。并实现一站式服务,将机器学习服务上线的整个workflow都在Kubernetes平台实现。减轻机器学习算法同学的其它学习成本,专心搞算法。这势必给Devops的同学带来更高的挑战。

到此,相信大家对“Kubeflow使用Kubernetes进行机器学习的方法”有了更深的了解,不妨来实际操作一番吧!这里是编程网网站,更多相关内容可以进入相关频道进行查询,关注我们,继续学习!

阅读原文内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯