AI计算大有可为,软硬协同来应对
回顾过去十几年,计算一直是推动技术发展的核心驱动力。根据信通院去年发布的《中国算力发展指数白皮书》,“算力是生产力,算法是生产关系,数据是生产资料”,算力、算法、数据构成了数字经济时代的生产基础。算力带来数据处理能力的不断提升,网络发展也随之进步。因此,可以说计算和网络是算力发展的双引擎。
计算的发展让更多新场景新业态成为可能,并得到大规模推广。周磊提到百度百舸时,再次说起云计算的三大新趋势:
● 首先,算力异构化,支持异构的各种算力,包括支持CPU、GPU以及各种领域内的定制芯片;
● 其次,计算部署位置分布式化,大量计算分布在大型数据中心、各种边缘端;
● 最后,AI应用越来越普适化,已在金融、智慧城市、视频、农业等领域广泛应用。
由于服务器集群规模的扩张加上接入带宽的跃升,网络基础设施面临挑战也越来越大。王佩龙就此提出了自己的看法,网元设施的发展经历了“硬件到软件,再回到硬件”的历程,随着摩尔定律失效,业界再次把目光放到了硬件。当前百度智能云“致力于发展软硬件结合的网络基础设施,通过DPU和可编程硬件网关,将CPU上的虚拟化开销卸载到硬件上,为计算和存储提供更大的带宽接入能力和更低的网络时延”。
算力提升的背后,也离不开技术底座的支持。目前,AI的算力需求比之前提升了几个数量级,甚至以后还要再提升1000倍。在此背景下,王雁鹏强调,“计算机体系架构从通用计算CPU时代,到并行GPU时代,正向DSA时代(DSA,即特定领域架构)演进”。仅CPU、GPU都不能满足如此大的算力需求,会出现更多的车PU、AI PU、视频PU,即使CPU也会有ARM、RISC-V等区别,因此支持“一云多芯”非常必要。
同时,数字化浪潮持续加速,产业转型不断带来惊人的机遇。张然则认为,要在这场变革中取得领先很大程度上取决于“技术架构的创新”。英特尔 “IPU”(IPU,即基础设施处理单元)正是诞生于这一挑战的架构性新产品,通过把基础设施任务的相关开销全部从服务器中卸载到基础设施处理单元上,以便优化整体性能。此外,英特尔对未来数据中心的看法和百度高度一致,就是为用户提供更高的安全性,要释放更多算力,增加带宽,降低延时。
“百舸”争流,云绕“太行”
面对算力需求大爆发,AI应用逐渐普及等市场变化,百度智能云推出了百度百舸AI异构计算平台,提供业界领先的AI原生云计算服务。百度百舸由AI计算、AI存储、AI加速、AI容器四大部分组成,具有高性能、高弹性、高速互联等能力。其中AI存储基于傲腾技术,实现大训练集训练4倍速提升。在AI计算部分,今年全面升级了计算实例对于RDMA高速网络的支持能力,全新发布的RDMA网络增强型实例能够支持挂载弹性RDMA网卡,能够实现实例灵活接入RDMA网络,大幅提升不同实例之间、多实例GPU之间、实例到存储之间的网络性能表现,能够提升AI、HPC、缓存数据库、大数据等场景的整体性能。百度百舸平台使用多机网络互联来实现分布式计算,其服务器搭配自研DPU,提供高带宽低时延的RDMA网络,同时支持GDR(GPU Direct RDMA)技术,可支撑大规模异构计算集群的海量算力。
而这些核心性能的优化,离不开百度智能云自研DPU对虚拟化架构的重构。百度智能云对DPU2.0的核心定位是“Cloud Native IO Engine”。云架构下的核心问题就在于数据中心东西向流量大增,IO的负担太大。因此重点需要解决在多租户、细粒度算力形态、后端解耦的硬件资源池架构下,海量的IO数据搬移、通信、处理、安全等等问题。重新定义软硬件边界,百度太行DPU2.0主要包含5大关键技术:
● 软件定义虚拟化,支持万级虚拟设备;
● 网络硬件加速,由软件转发变成硬件转发;
● 高性能的RDMA网络,用自研协议解决流控、拥塞等问题;
● 存算分离硬件加速,通过超大资源池打平本地和远程的区别;
● 云管控硬件通道,保证各形态计算实例共池,实现热迁移、热升级、热插拔等特性,支持千亿级模型训练。
长期以来,百度与英特尔在产品和技术上相互影响、一起进步。以目前在售最新的第五代云服务器实例为例,它搭载了英特尔为百度定制的最新一代的IceLake CPU 8350c,基频2.6GHz,睿频3.1GHz,算力部分较第四代云服务器实例单核性能提升20%,整机性能提升50%。在性能提升的同时单实例价格降低5%,整体性价比大幅提升。在性价比提升的同时,第五代实例支持不重启的热升降级能力,能够在用户关键业务不中断的情况下实现计算性能的纵向扩展。另外,百度智能云基于英特尔Tofino可编程交换芯片,对可编程硬件网关进行了全面升级,将单集群带宽能力从几百G跃升为几十T,单个网元的转发时延从30us降至1us级别;单Tbps能耗下降90%以上。
算力供需多元化,技术赋能无终点
产品和技术的出发点离不开客户的需求,随着云上业务不断发展,不管是传统行业还是新兴行业都会遇到一些新的难题。
首先,算力供需会更加多元化。目前绝大多数的客户需求都和AI计算能力相关,如车、元宇宙、视频等垂类的场景,同时对低碳、绿色能源的需求会越来越高,导致涌现出更多的计算架构。将来一个计算部件会集成多种计算架构单元,只有 “一云多芯”,才能把各种算力高效地提供给客户。
其次,对安全和数据合规性的要求越来越高。例如自动驾驶类行业对于数据收集、脱敏、标注的需求以及对数据安全性提出了高度合规要求。这部分不仅仅涉及到算力部署形态的调整,对于算力本身物理级别的安全防护能力的要求也明显提高。又如元宇宙以区块链作为基础,加之虚拟资产、混合现实社交等场景必然会对于个人或组织敏感信息产生更频繁的调用。
最后,过程数据的短时存储需求难以满足。目前互联网行业的推理、金融行业的实时反欺诈等场景,长年累月的数据量增长以及索引规模扩大对内存容量有了更大要求。另外,如生命科学场景下,特别是对于大分子类的药物合成、分子动力学场景,越来越多的客户产生了针对内存容量不足的反馈。OOM(Out Of Memory,内存溢出)问题逐渐显现,内存墙成为一部分应用的瓶颈,GPU显存容量的升级受到硬件限制,且AI加速器之间的传输速率升级无法兼顾低成本与算力的高速增长,因此必须有一种能够高效、高性价比的方式来绕开内存墙可能带来的限制。
临近结束,周磊预告了7月下旬百度智能云即将发布的一款全新的分布式云IaaS产品,能够满足用户由于一些时延、专属、安全等因素对本地化算力部署的要求,为用户提供同公有云一致的使用体验。
技术的创新没有终点。面向未来,只有解决了企业上云的后顾之忧,才能真正让企业敢上云、愿上云、易上云,把数智化落到业务的实处,把技术能力变成生产力。