中国信通院云计算与大数据研究所总工程师 郭亮(左)
华为数据通信产品线副总裁 赵志鹏(中)
科大讯飞AI工程院副院长 王金钖(右)
白皮书指出,近年来AI算法已迈入万亿参数大模型时代,算力需求增长近十万倍, AI大规模计算需要高效协同数万张AI处理器,需要持续优化网络,提高并行计算效率;且由于AI处理器成本高昂,亟需搭建零丢包高吞吐的高性能网络,充分释放AI处理器效率;同时,AI大模型训练周期长,万卡集群流量规模达到数10万条,需要有效的运维手段,降低平均故障间隔时间
基于以上挑战,星河AI网络解决方案提出了以下几个创新点:
高性能:采用NSLB(AI加速器)技术,将网络吞吐提升至98%,AI训练效率提高20%;
高可靠:应用DPFR(业务无感自愈)技术实现故障链路亚毫秒级切换,确保故障应用无感知;
可运维:提供可视化运维方案,高精度采集数据,实现网络一键式故障诊断,训中排障效率提升90%;
大规模:支持万卡集群训练,算力规模是业界的4倍;
开放性:提供超融合以太方案,可完全复用以太生态,相比业界性能基本持平,运维成本降低30%。
当前,AI模型发展已从万千小模型走向了百模千态的大模型时代,星河AI网络解决方案针对网络新需求,持续优化网络架构,革新网络技术,为构建面向AI大模型的高性能训练网络提供参考,推动人工智能技术的发展和进步。
目前,星河AI网络已在全球100+企业部署商用。面向未来,华为希望与众多合作伙伴一起,推动技术的发展和应用场景的拓展,实现人工智能技术的可持续发展和社会的共同繁荣。