今年以来,大模型应用的深入推进为人工智能产业带来新机遇,人工智能产业呈现出应用场景多元化拓展、数据体量爆发式增长等态势,这对支撑大规模智能计算的基础设施提出更高要求。天翼云推出的智算基础设施平台“云骁”,依托天翼分布式架构云底座和海量计算、存储、网络资源,基于天翼云操作系统TeleCloudOS4.0,为用户提供软硬一体的解决方案,可实现高阶算力供给、资源高效利用、多种计算能力服务一站式提供,大幅提升数据加载、训练和推理效率,满足智算、超算、通算多样化算力服务需求。
“云骁”构建了高性能存储与网络服务。在存储方面,“云骁”基于块存储服务、并行文件服务、分布式文件服务以及对象存储服务,为客户提供端到端的存储解决方案。在网络方面,“云骁”提供百GB带宽RDMA无损网络,实现计算节点以及计算存储之间数据的快速传递;支持存算分离高速网络自动化部署以及多租户网络隔离技术,实现数据安全隔离,保障用户数据安全;支持多场景存储访问,满足用户对高速访问并行文件存储、云上对象存储等多种应用场景的综合需求。
整体来看,“云骁”具有算力整合、算力调度加速、算力运营管理等能力。在算力整合方面,“云骁”为模型开发、训练、推理、算力加速、算力运维等场景提供软硬一体解决方案;在算力调度加速方面,实现基于硬件网络的拓扑感知调度、故障感知调度,从而提高通信效率和训练效率,同时通过数据加速、单机计算加速和显存优化、分布式并行加速、通信优化等加速技术,加速AI训练推理效率,降低客户成本;在算力运营管理方面,支持训练和推理过程中的效率分析和优化,提供全面的日志和监控,方便用户运维和全流程观测。
为提升智算服务能力,“云骁”打造了先进的服务架构,可实现微服务拆分,满足用户便捷部署、高可用、负载均衡等需求;具备Region、AZ、集群、多租户等多层级资源管理、供给能力,便于用户调用资源;支持通过Web UI以及API等多样化方式接入,提供个性化接入服务。此外,“云骁”内置全自研任务管理、调度系统,便于用户进行统一管理和调度。其中,自研任务系统兼具多场景、全流程任务管理能力;自研任务控制器支持常用智算任务的编排控制;自研调度器支持多种调度策略,支撑用户便捷化调用智算能力,赋能各类智慧应用建设。
目前,“云骁”已在多个行业场景落地应用,推动企业快速发展。在大模型行业,“云骁”为思必驰提供AI基础设施层服务,赋能思必驰进一步缩短语音识别训练时间周期并降低算力成本。此外,“云骁”还为人工智能研究机构、汽车等客户进行大模型训练和微调,助力降低科研创新成本。