云原生促进基础设施变革,实现极致弹性和资源效能
近年来,随着云计算的飞速发展,云原生技术迅速崛起,越来越多的企业认识到云原生是加速企业IT基础设施和业务变革的最佳路径。百度云原生杰出研发架构师郑然在演讲中表示,2021年,百度业务全面实现了全栈云原生基础设施架构的进阶。百度以弹性为基础设施变革的核心要素,底层是高速可编程网络,配合深度定制的百度太行服务器、AI服务器,以及以高密存储、高性能存储为核心的分布式存储系统,通过统一的虚拟化网络、虚拟计算、服务器构建统一的资源池,结合云原生技术建立了一套高效混合云产品技术形态。
云原生带给业务应用的最直观感受就是高弹性,而如何把弹性能力发挥到极致,让资源利用率提升和IT成本降低也一直是这里的重要课题。论坛上,百度基础架构部资深工程师张慕华和百度基础架构部资深系统工程师李志就介绍了百度的混部调度和潮汐算力两大核心技术。
混部调度的核心,是通过将在线、离线等不同类型的业务混合调度在同一台机器上,在保障业务质量的前提下,让资源利用率达到最优,降低业务成本。目前,百度在离线混部服务器规模超过30万台,是在国内率先实现大数据整体云原生化的容器批量计算平台。
在混部技术应用之后,就需要构建极致的离线填谷能力,让资源利用更极致。百度通过潮汐算力方案,将整体夜间闲时的资源利用率提高了1.5倍,并同时自主满足部分业务场景30%的新增资源需求。
郑然表示,2021年,百度业务就通过全栈云原生基础设施架构的进阶,使得资源利用率提升超过45%,单位IT成本下降超过30%。
积极布局算力基础设施 创新优势不断增强
云计算时代,数据量的暴增与更细粒度算力的需求,给数据中心带来了新的挑战。百度基础架构部主任架构师王雁鹏认为,未来的数据中心将由三部分构成:负责逻辑控制、系统管理、生态兼容的CPU;实现科学计算、矩阵计算、AI计算、数据并行计算的GPU,以及解决所有数据中心基础设施和数据相关计算问题的DPU。
在DPU的定位下,百度推出了“太行”系列产品。太行DPU 1.0解决了虚拟化功能卸载的问题,明年即将上线的2.0版本将实现数据路径硬件加速。王雁鹏表示,希望下一代DPU能够真正成为数据中心的大脑,支持海量细粒度的计算实例、硬件全面解耦池化、各个层次的通信接口,实现“Cloud Native IO Engine”的愿景。
AI技术的飞速发展,对异构算力的需求越来越多。百度从2012年开始,基于业务场景,软硬结合开始构建AI计算平台的核心技术,完成了从AI服务器、AI虚拟化、AI云原生的三大核心能力的架构升级。百度基础架构部异构计算负责人黎世勇表示,基于云原生技术,百度构建了业界领先的推理集群和训练集群,使得整个异构算力规模达到了近10亿EFlops,基于完全虚拟化技术,整体集群的效率也达到了非常高的水平。在泛AI化战略下,异构计算从传统的赋能AI服务发展到赋能推荐系统、大数据,在各个业务场景获得了成倍的性能提升。
经过多年积累,百度超大规模的异构集群主要具备了三大能力:在硬件层,AI超级计算机X-Man持续优化,实现单机最强算力供给;在系统软件层,多芯编译器构建高效的并行计算,通信库ECCL将通信瓶颈最小化,高性能AI并行文件系统BPFS让数据吞吐最大化,最后通过与PaddlePaddle相结合,将底层算力充分发挥出来;在集群层,孔明调度器给各种训练任务、特别是超大规模的预训练任务分配最合适的算力。
首创仿生学蜂巢式ARM架构云,“磐玉”蜂巢服务器全新发布
随着中心云向分布式云的发展,企业正在把越来越多的算力往边缘迁移,使用就近算力,以获得更敏捷的响应和更优的用户体验。ARM算力和ARM云,正是顺应了这一发展趋势。百度也在本次分论坛上重磅发布“磐玉”蜂巢服务器。
据百度ARM云业务负责人陶孝禹介绍,“磐玉”蜂巢服务器基于ARM架构打造,是业界首创的基于仿生学的蜂巢式ARM架构云,拥有仿生算力、高能效比、高性价比、高密设计等四大核心优势,可以应用在智慧城市、智慧医疗、智慧教育、智慧金融、智慧文娱等行业的数字化转型过程中。
如今,云原生作为行业智能化升级下一代基础设施的重要价值正愈发突显。百度将结合自身多年沉淀的技术能力,全面融入百度云产品,赋能客户伙伴,一起加速实现企业IT基础设施和业务架构的现代化变革。