全球数字经济持续稳定增长,AIGC等创新技术应用对于算力带来了巨大的需求,算力新基建成为推动数字经济发展的核心支撑力和驱动力。据国际数据公司IDC、浪潮信息、清华大学全球产业研究院联合发布的《2022—2023全球计算力指数评估报告》显示,2022年,中国整体服务器市场规模保持6.9%的正增长,占全球市场比重达25%。其中,生成式AI计算市场规模将从2022年的8.2亿美元骤增到2026年的109.9亿美元,成为驱动互联网、金融、教育、医疗和制造等行业未来创新发展的重要引擎。
在AIGC等应用的驱动下,服务器架构正在由CPU密集型转向搭载GPU、FPGA、ASIC芯片的加速计算密集型,算力呈现出多元化的发展趋势。处理器架构也呈现多元化,x86、ARM、Power、MIPS、RISC-V等处理器架构持续并存。多元算力时代下,数据中心为保障大规模服务器的可靠稳定运行,各类异构设备统一运维的挑战日益凸显。如何实现多处理器、多芯片设备高效、稳定运行,对服务器管理控制系统BMC(Baseboard Management Controller)固件的兼容性、精细度、定制化和快速迭代能力提出了一系列新的挑战。
多元算力时代,服务器稳定可靠的“第一道防线”面临全新挑战
BMC是在服务器中嵌入的复杂而独立SOC(System on Chip)系统,是互联网、通信、金融等用户数据中心集中运维管理IT设备的核心组件,对服务器安全可靠运行、远程集中管理和控制部署至关重要。
BMC由BMC硬件和BMC固件两大部分组成。在硬件上BMC是完整的计算机系统,包含嵌入式处理器、内存(DRAM)和存储芯片(Flash),外围集成丰富的物理通道,连接数百个传感器、CPU、内存、磁盘、电源、网卡、GPU、RAID卡等各类组件,实现对服务器硬件的全方位掌控。在软件上,BMC固件基于Linux内核构建强大的嵌入式操作系统,实现远程控制、故障诊断、配置部署、固件升级等各类运维管理功能,数据中心管理平台通过BMC固件提供的Redfish、IPMI、SNMP等API接口实现海量服务器远程集中运维管理和批量部署。
BMC固件以往通常依赖IBV(Independent BMCVendor,独立BMC固件提供商)设计的闭源商业方案,但伴随着数字化转型的快速,算力成为数字经济发展的关键要素,传统的BMC研发在架构的兼容性、开发周期、创新性方面存在越来越多的的局限性:
架构落后,平台兼容性差。算力基础设施呈现多元化发展,x86、ARM、Power、MIPS、RISC-V等通用处理器平台并存,同时GPU、FPGA、ASIC芯片等加速算力芯片百花齐放,传统BMC固件架构落后,可扩展性差,无法快速适配兼容各类算力芯片。
代码闭源,存在安全风险。由于代码闭源,未经过用户和广泛的同行安全检查,隐藏的安全漏洞无法及时识别;且受限于代码封闭,数据中心用户更先进的BMC固件安全策略无法应用。
开发周期长,问题处理慢。一方面,IBV Codebase代码变更频繁,已有功能、问题在产品迭代过程中延续性较差,版本稳定性也得不到保障,导致产品开发周期长;另一方面,BMC固件问题处理依赖于IBV响应速度,从用户侧反馈固件问题到问题处理完毕往往花几个月的时间,时效性无法得到保证,影响客户体验。
生态封闭,阻碍固件技术创新。在多元算力飞速发展的背景下,面向特定应用场景的服务器研发,需要更多软硬件一体化设计,用户希望参与到管理固件开发中,但是传统BMC固件受限于商业模式,代码闭源,通常附带严格的代码许可使用协议,限制用户对软件的使用和分发,阻碍了固件技术创新。
OpenBMC势不可挡,以开源开放加速融合多元算力的创新优势
由于传统BMC固件存在着诸多问题,且随着数据中心的不断壮大,运维需求越来越向精细化、定制化的趋势发展,业界开始探索更加开放先进的BMC固件发展之路——OpenBMC顺势而生。OpenBMC是一个Linux基金会项目,其目标是为BMC生成一个可定制的开源固件堆栈,该堆栈可以在服务器、网络交换机等设备上运行。OpenBMC使用Yocto、OpenEmbedded、systemd和D-Bus技术轻松构建定制的管理平台,为x86、ARM和Power等多元架构服务器平台提供统一上层接口,支撑企业、通信和云数据中心的管理服务。
OpenBMC软件架构
首先,OpenBMC生态开放,已经吸引了处理器、加速芯片、部件、服务器等产业链上下游主流厂商积极参与贡献社区,例如IBM、Intel、AMD、Ampere、NVIDIA、Aspeed、字节跳动、阿里巴巴、浪潮信息等,各厂商发挥各自优势建立了成熟稳定的社区基础代码,并且能够对代码进行广泛的评审、识别和修复安全漏洞,降低固件安全风险,为BMC固件技术创新营造了活跃的生态环境。目前,OpenBMC已经实现了一系列高级管理功能,包括远程控制、H5KVM、VNC、虚拟媒体挂载、传感器状态监控、故障诊断、固件安全升级、PID散热算法、MCTP、PLDM等功能,为系统可靠性、可用性和可维护性提供有力保障。
其次,OpenBMC应用了先进开放的软件架构,基于分层解耦的软件架构,功能模块之间通过一致的系统总线接口协议进行交互,扩展性高,能够实现灵活的模块化开发,同一套OpenBMC固件代码能够同时兼容多种处理器平台、多种算力芯片等关键部件,对于新增部件也能够快速适配兼容,大幅缩短迭代周期,提升开发效率。
第三,OpenBMC代码开源,服务器厂商和最终用户可以基于成熟、创新的社区基础代码构建安全可靠的管理固件。同时,开源有利于固件开发模式创新和技术创新,面向特定大规模应用场景,服务器厂商与最终用户进行联合固件开发,利用可扩展的软件架构开发创新功能模块,快速满足客户自定义、个性化的创新管理需求。
最后,OpenBMC开源开放有助于推动管理固件标准化。OpenBMC提供标准化的管理功能和管理接口,例如社区紧跟Redfish、MCTP、PLDM等规范演进,提供标准化管理API接口,有助于用户数据中心管理平台统一对接各厂商服务器,提升运维管理兼容性和一致性。
OpenBMC经过近十年的发展已趋于成熟,Intel、IBM、Meta(原Facebook)和Google等创始成员已经将其应用到各自产品中,国内的互联网、金融、通信、服务器、芯片等科技企业也正积极规划基于OpenBMC的BMC固件解决方案,OpenBMC应用前景势不可挡。
浪潮信息携手社区伙伴,加速OpenBMC发展
OpenBMC社区生态建设离不开业界广泛的参与和支持,作为开源技术的拥护者与重要贡献者,浪潮信息积极拥抱OpenBMC。早在2017年,浪潮信息与IBM合作贡献社区,并陆续完成多款主流服务器产品的OpenBMC适配。2022年,浪潮信息在OpenBMC社区开源代码贡献排名中保持全球第5位和中国第1位,共计贡献代码13000余行,参与社区代码审核1000余次,广泛覆盖Redfish、PLDM、LED、USB升级、OCC、时间管理、电源控制等模块,推动了社区的健康发展。
基于OpenBMC方案,浪潮信息构建起更加稳定可靠、更具扩展性且芯片级安全的开放架构通用服务器产品。以业内TOP级客户的大规模数据中心为例,其服务器规模通常高达数万或数十万台,由于需求多样,各种服务器产品配置多达400余种,每年需迭代几十次。浪潮信息通过分层解耦、模块化设计的OpenBMC方案,在BMC层面实现了软硬件的标准设计,支持服务器产品的快速、稳定迭代,从而更快、更好的满足用户资产信息管理、故障预警、远程管理和批量自动部署等需求。
充分利用OpenBMC等开源技术赋能多元算力基础设施建设,需要持续推动硬件、固件、软件、系统等多方面的协同,强化处理器、部件、管理芯片、服务器、用户各个层面的生态合作与联合优化,从开源社区中汲取能量,从而引领开放计算技术产业化落地,助力数据中心高质量发展。