文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

应对AI模型训练的网络挑战:智算网络负载均衡创新解读

2024-11-29 20:17

关注

1 大模型对智算网络提出新挑战

随着AI模型参数的规模越来越大,从千亿增长到万亿、十万亿级,客户将面临数亿美元的投入,以及长达数周乃至数月的训练周期,训练难度和成本与日俱增。网络作为计算集群重要的组成部分,也面临着巨大的挑战。

在AI场景中,计算和网络是一个紧耦合系统,模型的训练过程是计算和通信紧密耦合的。随着AI模型参数规模、AI训练集群规模增大,AI并行训练技术从TP(Tensor Parallelism)、PP(Pipeline Parallelism)、DP(Data Parallelism)到EP(Expert Parallelism)、CP(Context Parallelism)的演进,AI模型训练过程中的通信开销比重也会越大。

2 智算网络中AI训练的流量特征

区别于传统通用计算网络中流量通信关系复杂多变,以小包为主的流量特征,AI分布式训练通信过程产生的流量具有以下明显的特征:

特征1:以同轨通信为主。AI计算流量呈现空间分布特征,通信关系是明确的,主要是相同轨道内GPU卡进行通信,不同轨道之间的GPU卡不必要或很少通信。

图表 1 8卡GPU服务器2维通信示例

特征2:“少流”+“大流”。由于通用计算主要是短连接,每个服务器的流数量可达数千条;而AI服务器是长连接,每个GPU上的流数量仅为x~xx条,所以称为“少流”。相比通用计算以小流为主,网络吞吐较低,AI服务器的流量以大流为主,通常传输数据量大于GB,所以称为“大流”。

特征3:周期性、同步突发。相比通用计算通信的不确定性,产生大量的随机流。AI模型训练过程中,通信具有非常强的周期性,AI训练每轮迭代的通信模式通常是一致的,每轮迭代,不同节点间的流量同步。

图表 2模型训练的流量实例

3 智算网络存在的负载均衡问题

当前主流数据中心网络架构通常采用Spine/Leaf的CLOS架构,各层级之前存在多条路径互联,在确保数据可达的基础上,也充分考虑了多链路冗余确保可靠性,提升数据中心网络的利用率及避免流量拥塞。通用计算场景数据中心网络通常会采用ECMP(Equal-Cost Multi-Path)流量均衡技术,意思是等价多路径路由,即存在多条到达同一个目的地址的相同开销的路径,网络设备按照自有的Hash根据流量N元组计算多路径下一跳。由于通用计算以“多流”、“小流”为主,能够得到较好的负载均衡效果。

ECMP是一种较为简单的负载均衡策略,在以大流(流数量少,单流带宽大)为主的AI训练场景,传统ECMP哈希机制很难保证将少量的流均匀hash到多个出端口,此时就会造成链路上流量负载不均,即部分链路上存在空闲,部分链路上满吞吐,甚至拥塞丢包,导致冲突流的传输时间恶化,有效带宽下降(N流冲突,下降为1/N)。

在AI分布式训练场景,多个GPU卡之间集合通信的完成时间由最慢节点的完成时间决定,单个冲突流会导致整个集合通信完成时间被拖长,进而影响AI训练迭代完成时间。因此网络负载不均衡会导致AI网络有效吞吐降低:AI训练节点规模越大,网络层数越多,单流带宽越大,越容易出现网络拥塞和丢包,AI网络有效吞吐越低,对AI训练性能影响越大。

图表 3 传统Hash方案导致网络拥塞,有效吞吐降至10%-60%

4 业界智算集群参数面网络级负载均衡思路浅析

AI参数面网络负载不均衡是影响AI网络性能的关键问题,已经成为业界共识。为解决这个问题,业界通常有以下几种做法:

1)ECMP hash方案,业界常见做法为通过调整报文的UDP端口号,匹配网络设备自有的hash算法将流量尽量hash均匀。这种方法复杂度高,涉及大量人工调优,而且只能在特定条件下解决Leaf交换机上行hash不均的问题,并不能解决全局hash不均导致的spine交换机下行拥塞的问题;另外,网络本身因故障导致拓扑变化时,UDP源端口分配算法也需要做出快速适配,因UDP端口的分配是计算团队实现,网络拓扑的变更响应是网络团队实现,故也会出现配合困难负载持续不均的问题;业界实践证明采用逐任务人工调优也仅能达到70%的有效吞吐。

2)自适应路由方案,在网络拥塞时进行动态选路调优。自适应路由是一种被动响应的调优方式,根据拥塞感知方式分为动态负载均衡DLB(Dynamic load balancing)和全局负载均衡GLB(Global load balancing)两种方式。DLB采用本地拥塞感知方式,只根据本地拥塞情况进行调优,由于其局部性并不能达到全局最优;GLB可以根据全局拥塞信息指导本地流量调优,由于调优决策还是分布式的,无法避免出现流量调整后二次或者N次拥塞,无法保证全局最优。自适应路由除了基于N元组的流量粒度进行负载均衡,还可以基于子流flowlet和逐包粒度进行负载均衡。

●子流Flowlet均衡:是逐流均衡的演进,它依赖于子流之间时间间隔GAP值的正确配置来实现均衡,但由于网络中全局路径及时延信息不确定,因此GAP值无法准确设置。GAP值较小会存在接收端侧乱序的问题,GAP值较大则基本等同于逐流均衡。

●逐包均衡:基于报文粒度做负载均衡,理论上均衡度更好,但实际在接收端侧存在大量乱序问题,严重依赖网卡的乱序重排能力,当前几乎无应用案例。逐包均衡方案商用部署还面临在误码/丢包、网络时延增大等场景下出现性能劣化的鲁棒性问题,大规模组网场景逐包均衡加剧拥塞扩散问题等其他诸多挑战需要一一克服解决。目前,业界只有英伟达在特定的网卡(BlueField3)+特定交换机(Spectrum)可以支持基于以太架构的逐包转发,或者使用全栈IB方案如CX系列网卡+Quantum IB系列交换机可以实现,无论是英伟达以太架构还是IB架构本质都是一套全栈的技术体系,客户需要付出极大的代价才能享受逐包转发带来的收益。

为了解决AI参数面网络负载不均衡问题,业务各个厂商、客户都在负载均衡这个方向创新,方案呈现百花齐放的状态,这些创新总体都是为了解决负载不均的问题,一些AI实践经验不足、技术能力有限的厂商着手解决Leaf上行拥塞问题;头部厂商和客户均瞄准网络级(Leaf-Spine & Leaf-Spine-Core)Network Scale Load Balance问题设计方案。基于AI通信的流量特征,从全网的角度解决负载均衡问题,完美的解决了传统ECMP hash的随机性和局部性问题,从源头上解决了网络拥塞问题,可以实现整网有效吞吐接近理论带宽,极大提升AI集合通信性能,进而大幅提升AI训练效率。

NSLB-Static:首先引入静态网络级负载均衡方案NSLB-Static,该技术通过网络控制器根据拓扑信息对接入端口进行逻辑分组和编号,报文进入交换机进行路由转发查表发现出端口为等价多链路时,根据接入端口逻辑编号用确定性规则替代传统基于报文五元组hash转发。从全局保证来自每块AI卡的集合通信流量按照确定性的路径进行转发,可以完全解决Leaf交换机上行hash不均问题,并且可解决主流场景的全局hash不均问题,消除spine交换机的拥塞。华为公司的RailGroup特性,华三公司的LBN特性,云厂商的UDP端口号方案均属于此类机制,可以较好的解决Leaf上行负载不均问题。

图表 4 NSLB-Static确定性转发示意

以下是NSLB-Static进行集合通信性能(allreduce)测试时的数据,测试结果接近满吞吐:

表1:allreduce测试结果

NSLB-CP:AI大模型浪潮兴起,AI算力资源持续处于紧缺状态。AI大模型训练需要大集群,AI集群通常接近满负荷长时间运行,且一个AI集群中多个任务同时训练已成为常态。在大集群中训练大模型,慢节点,掉卡等各种故障频发,会导致任务重调度。随着时间推移,每个AI任务的计算节点会逐渐碎片化接入到不同的Leaf交换机下。多任务、多通信域、碎片化等场景可能会造成Spine下行拥塞的问题。

对于大模型多任务训练场景,NSLB进一步引入控制面动态网络级负载均衡方案NSLB-CP,实现调度器、网络控制器、交换机动态协同。该方案在网络控制器NCE-Fabric纳管AI参数面网络后,先进行拓扑信息收集和网络基线化建模。在调度器进行AI任务调度时,网络控制器通过API接口从AI系统获取AI训练任务、通信域、集合通信算法和RANK编排信息,通过集中算路算法从上帝视角一次性完成AI训练所有通信阶段的路径规划,并与预规划路径进行比较,一次性完成冲突流量的路径调整,从而避免整个AI训练过程中的拥塞问题,实现无阻塞转发,保证网络有效吞吐基本达到理论值。

图表 5 NSLB-CP方案示意图

多任务碎片化场景,128卡集群采用HCCL test 测试AllReduce集合通信性能,NSLB-CP相比ECMP算法带宽最大提升53%。

多任务碎片化场景,128卡集群训练LLaMA2大模型,NSLB-CP相比ECMP最大提升9.88%。

另外要强调一点的是,对三层CLOS组网,流量拥塞点增加倍数级以上,实现完全负载均衡难度较两层CLOS组网上升几个数量级,业界目前还没有通用性比较好的网络解决方案,通常是通过业务侧做特定调度和编排约束等方式规避。

当前业界最大容量盒式设备组建两层Clos架构网络可以支持8K算力底座,针对万卡集群使用两层盒式交换机无法组网,因此推荐框盒组网架构支持大规模算力集群,具备规模大、设备数量少,部署快捷,训练效率高。网络性能高且不需要复杂的人工调优、互联成本低、可靠性高的特点。

除运营商外,北美的Meta也采用框盒方案建设AI集群。早年Meta率先在通用DCN内引入多层盒盒组网的fat tree架构。但是Meta的AI集群在采用多层盒盒组网时遇到了很多问题,包括:多层网络的hash问题无法解决、故障域大、接入采用光膜块故障率高、成本高的问题;因此Meta当前已经将AI集群转向了不同于通用DCN的框盒架构:接入交换机采用12.8T的Leaf交换机,一个Leaf交换机通过DAC电缆接入本柜内的16*H100卡,Leaf交换机上行接入到16台框式Spine交换机。这样可以采用两层组网构建大的AI集群,两层组网hash问题相对3层组网更易于优化,而且节省了接入光模块,降低成本的同时,提升了可靠性。

结语

在探索解决智算网络中大规模AI模型训练的网络挑战的道路上,技术创新是推动进步的关键动力。通过网络架构的不断优化与创新技术应用,我们不仅能够确保网络的有效吞吐接近理论值,还能为AI训练效率带来质的飞跃。未来,随着AI技术的持续进化和网络技术的进一步发展,我们有理由相信,更加高效、可靠的智算网络将为人工智能的未来发展提供坚实的基础设施支持,开启更多可能性。

阅读原文内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯