而智能算力的生产、分发、调度离不开人工智能公共算力开放创新平台等基础设施的支撑。同时,我国算力分布不均衡,各地的智算中心、超算中心需要联动,促进东部地区灵活使用西部的算力,推动全国一体化协同创新体系快速形成。
在此背景下,天翼云推出智能计算平台“云骁”,提供智算、超算、通算多样化算力服务,这也是运营商首个云智超一体化算力平台。依托天翼分布式架构云底座和海量计算、存储、网络资源,“云骁”可提供软硬一体的解决方案,实现高阶算力供给、资源高效利用、多种能力服务一站式提供,助力行业数字化转型、降低企业创新成本。
基于云网融合优势以及天翼云多年的技术沉淀,“云骁”在算力底座、算效提升、算力异构、算力布局四个方面取得了新突破。具体而言,借助天翼云4.0底座,“云骁”打造了高性能算力底座,包括GPU裸金属及云主机、HPFS并行文件系统、RDMA网络等底座能力,统一支持智算和超算服务;针对超大规模分布式集群训练进行一系列技术优化,实现高达80%以上超高线性加速比算效提升;支持多种主流AI框架与高性能计算任务管理器,支持多种CPU与GPU的多样化异构算力;支持智能算力全网分级部署,构建从中心到区域,再到边缘的多级训练推理体系。
目前,“云骁”已在多个行业场景落地应用,赋能企业快速发展。在汽车制造行业,吉利汽车基于天翼云智能计算平台“云骁”,构建起HPC专属云资源池,大幅提升了算力速度、存储空间、网络响应,其计算速度能达到每秒千万亿次,能计算普通PC机和服务器不能完成的大型、复杂课题。目前,吉利汽车平均做一次模拟测试的时间从10小时缩短到6小时,HPC排队队列的减少,有效增加了方案验证的数量,快速输出结果,也保障了决策的快速输出。
此外,天翼云智能计算平台还为智能语音服务、人工智能研究机构等客户,进行训练和微调大模型。“云骁”提供分布式训练一站式解决方案,融合GPU拓扑感知、亲和调度、高IO并行文件系统等底层技术,支持多种模型训练方式,兼容主流AI框架,扩展定制业界主流分布式训练方案,提升训练数据量,缩短模型交付周期;提供定制化算法框架,采用代码生成等方式,内置提供丰富的算子,简化数据集导入、特征工程处理、预训练模型依赖等步骤,提升AI训练开发效率;针对大模型分布式环境下的训练,显存优化方面使用ZeRo等技术,打破显存与内存的隔阂,降低训练的显存开销。
凭借技术创新和在资源、平台、应用等核心能力方面的表现,日前天翼云智能计算平台率先顺利通过中国信息通信研究院《可信算力服务 平台技术能力要求 第3部分:智算平台》评估,成为业内首批通过该项评估的云服务商。
随着数字化经济发展和产业变革持续推进,天翼云将加强科技创新,不断提高云网算力技术与服务水平,完善智算基础设施,与业界伙伴携手探索算力应用模式,赋能千行百业数智化发展,全面助推数字中国建设。