包容的胸怀是我们做成很多事情的根基,也是一项产业战略、科技事业发展的关键。近几年,数据基础设施国产化,在科技自立的大背景下如火如荼。比如,以计算和存储为主要构成的HPC/AI数据基础设施事关国计民生,在以科技创新和基础科研为代表的关键领域均扮演着重要角色。但很多科技科研场景的HPC/AI数据基础设施当前都依托X86 CPU+GPU+Lustre存储+IB交换机这个大一统的抱团生态体系,且已成为业界公认的HPC/AI设施最佳性能组合之一。如何兼顾科技科研领域的效率成果与自立自强,为HPC/AI等多样性算力应用关键场景,提供最适合业务的数据底座,成为一个关键问题。
这种情况下,“海纳百川,有容乃大”的意义就凸显了出来。不久之前,在深圳一所国家重点实验室,华为OceanStor Pacific分布式存储与早期依托X86 CPU+GPU+Lustre存储+IB交换机组网构建的某大科学装置AI集群进行了综合的POC测试。其结果显示,华为OceanStor Pacific分布式存储完美兼容匹配该大科学装置的AI集群生态环境,更重要的是通过实测,其多项指标性能和功能均优于现有系统。华为与该国家重点实验室联合操作的这项POC测试意义极其深远重大,远超于一款产品或解决方案发布:它代表了一种实事求是,兼容并蓄的发展策略;是一块国产先进存储面向全球的敲门砖,一艘中国科技与全球化间的破冰船;对于科学研究,乃至更多领域的数字化、智能化进程来说,这是十分幸运的。
数据之潮,时代之需:科研场景的存储挑战
X86+GPU主导的大一统生态技术体系经过了数十年发展和构建,其大树根基在全球和中国已经十分深远。大量国际国内的数字化工具和软件应用,数字化成果都捆绑X86+GPU。这在某种程度上来说是种无奈,但也是客观存在不可回避的现实。
尤其在科研领域,HPC/AI正在全球各个学科的研究中扮演重要角色,X86+GPU算力平台可以更方便教授学者与科研从业人员接触全球最新学术动态和验证科研成果。这种强惯性的作用下,短时间内强行脱离X86生态是不现实的。因此,早期甚至当前新建的很多HPC/AI基础设施,选择建立在X86+GPU体系上。
随着HPDA的整体发展,从业务负载上而言需要考虑HPC/AI、大数据以及AI的混合叠加,需要支持应用驱动的科学计算工作流,进而推动负载以数据为中心,从计算科学发现转向数据科学发现转变。
科技科研的突破速度取决于数据基础设施的性能,特别是对数据存储性能带来极致挑战。第一个挑战是应用的数据量级从PB级正在加速走向EB级;第二个挑战是应用的负载从单一走向多样化,也就是常说的混合负载;最后一个挑战是应用类型的变化,从简单走向复杂。核心是数据与业务的耦合度在增加,数据计算需要参与整个业务流程的多个环节,且环环相扣,缺一不可。
在当前推进科技科研自立自强的大时代背景下,面对这些数据中心存储挑战和需求,以及面对X86+GPU体系暂不可完全替代,国内业界都希望看到先进的国产存储兼容X86+GPU环境的下的HPC/AI应用,也可以提供媲美Lustre存储的性能和功能。
更佳性能,更优选择:华为分布式存储的价值呈现
不久之前,华为OceanStor Pacific分布式存储与在深圳某国家重点实验室依托X86 CPU+GPU+Lustre存储+IB交换机组网构建的大科学装置AI集群进行了POC测试。从测试结果上看,整体兼容效果良好,没有出现任何兼容问题,并且使用了华为OceanStor Pacific分布式存储之后,存储在功能、性能上优于现有系统,融入计算集群的效果也更加良好。
这次测试对接的成功,表明华为在技术创新、产品兼容上的进取姿态,也表明其为科研创新,乃至更广阔计算、存储领域做出贡献的决心。科研教育与国家实验室,在一个国家的计算基础设施中具有代表性意义。与该大科学装置AI集群的成功对接,可以看作华为OceanStor Pacific分布式存储敲开了国产存储为HPC/AI提供更优选择的大门。HPC/AI应用场景下,Lustre不再独领风骚。
一般来说,多元算力包括x86、ARM、AI、GPU计算等多种计算生态,存储需要根据不同的计算场景与计算设施,为用户提供最佳体验。华为分布式存储的价值与优势,释放到HPC/AI场景,可以有效满足科研等场景中的存储需求。
具体而言,华为OceanStor Pacific分布式存储通过这样几个角度,破除HPC/AI场景的存储困局。
首先解决海量数据高性价比存储的问题:我们知道随着HPC/AI业务量的不断增长,往往最先遇到的是机房空间不足和存储成本高昂的问题。为此,华为推出了华为OceanStor Pacific分布式存储高密专用硬件,基于全新的高密架构设计,并提供更高的容量利用率,在有限的机房空间里存下更多数据,更好地满足海量数据增长的需要。叠加华为OceanStor Pacific分布式存储的智能分级存储技术,对域内热、温、冷数据进行统一管理,数据能够在热、温、冷层系统间自动迁移,无需管理员手动干预,灵活有效地管理数据全生命周期,同时有效解决海量数据的运维管理难题。
其次,提供面向混合负载的高性能:HPC/AI应用计算所涉及的数据越来越多、类型越来越丰富、任务并发性也越来越高,因此需要性能更加均衡的存储。华为OceanStor Pacific分布式存储采用OceanFS新一代并行文件系统,结合独特的大小I/O自适应数据流技术,一套存储即可同时满足极致带宽、极致IOPS和极致时延的混合负载要求。通过与分布式并行客户端(DPC)的密切配合,打破单流和单客户端的性能瓶颈,帮助企业有效应对混合工作负载的挑战。
最后,多个不同业务环节数据的高效安全流动:由于数据量的增大、数据应用的复杂化,数据在不同环节、不同系统间高效流动是HPC/AI业务面临的一个主要挑战。华为OceanStor Pacific分布式存储拥有业界领先的多协议互通能力。多个存储服务同时访问一份数据,支持 NFS、CIFS、HDFS 和 S3 等协议的按需部署,通过其中一种协议写入的数据,无需迁移即可被其他协议读取,提高跨环节、跨系统的数据分析效率。
此次面向多元算力,释放多元算力价值的全面启航,展现了华为的包容与兼顾,也展现了华为OceanStor Pacific分布式存储乃至华为存储,迈向科研+HPC/AI场景的发展方向。
面向未来,有容乃大:数据基础设施再启航
在成功完成兼容测试后,华为在市场与受众的层面获得了更广泛的认可。但华为OceanStor Pacific分布式存储与深圳知名的国家重点实验室大科学装置X86 AI集群进行的POC测试,更广泛的价值在于面向科研领域、ICT领域,展现了一种关于有容乃大的智慧。
这次测试成功,对于多方面来说都有其意义。
对于科研机构来说,X86环境的HPC/AI可以很快获得更好的存储支持,即使不在短期进行国产化计算替换,也可以实现数据可控、可信的数字化战略,从而获得更稳健、开放的科研环境。
对于HPC/AI相关项目与数据中心来说,华为OceanStor Pacific分布式存储兼容多元算力意味着更多选择,更广阔的解决方案构建空间,确保计算基础设施真正实现多样性。对于计算国产化趋势来说,我们不搞封闭和孤立,而是在开放、包容的态势中走向科技自立自强。
华为分布式存储支持多元化算力,意味着是一个真正开放兼容、自主创新的高可靠存储数据底座正在建立,具备传统超算、大数据分析及AI分析能力,应用驱动统一数据源支持全流程科学计算服务,在为科研及商业提供多样性算力同时,能够基于数据知识累积,提供高阶数据价值服务。华为OceanStor Pacific分布式存储的兼容性提升,既是一次新的启航,也是一个明确的指向:它向世界展示了中国ICT产业海纳百川的胸怀,包容万物的决心。