文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

字节跳动开源大模型训练框架veGiantModel ,性能最高提升6.9倍

2024-12-02 04:38

关注

自然语言处理是人工智能研究的一个重要领域,旨在帮助计算机理解、解释和运用人类语言。近些年,自然语言处理在应用方面取得了较为显著的突破,主要是归功于 Bert、GPT、GPT-3 等预训练语言模型的普及。可以说,预训练语言模型已经成为人工智能领域的基础设施。由于大模型的算法表现更加出众,预训练语言模型在近几年呈现出迅速向大模型发展的趋势。然而,模型体积的快速增长也对现有的训练系统带来了不小的挑战,主要体现为显存压力、计算压力和通信压力。

针对现有训练系统在大模型训练场景下的上述挑战, 字节跳动应用机器学习团队提出了大模型训练框架 veGiantModel。

veGiantModel的中文名称叫做火山引擎大模型训练框架,是基于开源深度学习框架 PyTorch 、并在 Megatron 和 DeepSpeed 两大开源主流训练框架的基础之上构建的高性能大模型训练框架。

veGiantModel 可同时支持数据并行、算子切分、流水线并行 3 种分布式并行策略,并支持自动化和定制化的并行策略;基于字节自研的高性能异步通讯库 ByteCCL,veGiantModel 的训练任务吞吐相比其他主流开源框架有 1.2 倍到 3.5倍的提升,并且提供了更友好、灵活的流水线支持,降低了模型开发迭代所需要的人力;另外,veGiantModel 可在 GPU 上高效地支持数十亿至上千亿参数量的大模型,对网络带宽要求也更低,在私有化部署时无 RDMA 强依赖。

与 Megtraon 和 DeepSpeed 的对比测试显示,veGiantModel 的性能表现最好、受网络带宽影响最小,在Tesla V100上较上述两者有1.2 倍到3.5倍的提升,在 Ampere A100上最高可提升6.9倍。


veGiantModel开源 地址:

​https://github.com/volcengine/veGiantModel​​​

火山引擎机器学习平台 公测地址:

​https://www.volcengine.com/product/ml-platform​


来源:51CTO内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯