不被杂音误导则需回归本源,人工智能计算中心是以基于AI芯片构建的AI计算机集群为基础,涵盖了包括基建设施、硬件设备和软件应用在内的完整系统。而系统的构成,硬件部分往往最先被考量,那么我们先从AI训练芯片说起。
硬件基础设施:重点关注训练芯片
AI芯片对于人工智能有多重要?一言以蔽之,各行业、各企业数字化转型需要构建匹配自身的AI模型,而高质量AI模型则需要通过训练持续迭代优化而来。这就要求提供算力的当地人工智能计算中心具备高性能的AI芯片,以此确保充沛、稳定的算力供应。
具体到AI芯片,又分训练芯片和推理芯片,其中训练芯片是基础中的基础,因为AI首先要解决认知训练的问题,然后才是推理,这就要求训练芯片必须具备浮点运算能力,因为在复杂模型的训练过程中,需对上千亿个浮点参数进行微调数十万步,需要精细的浮点表达能力。相比之下,无浮点运算能力的芯片如用于训练将增加约40%的额外操作,以及至少4倍的内存读写次数。
软件基础设施:框架自主可控和AI使能更关键
框架是所有算法模型的开发基础,90%的AI应用开发都是基于AI框架,其重要性毋庸置疑。现阶段很多厂商采用的都是国外的AI开源框架,实际上相当于将中国人工智能发展的可控性交到了他国手中。未来国与国之间的科技竞争将愈演愈烈,一旦出现问题,我国想要重新实现安全、自主、可控的技术布局,势必要从底层将一切推倒重建,可能造成大量的人力、物力和财力损失。
与其亡羊补牢,不如防患于未然。让人工智能计算中心在建设之初就实现国产化,拥有自主可控的AI框架,目前已成为业内的基本共识。据悉,目前大多数人工智能计算中心都使用了国产自研的全场景AI计算框架MindSpore,该框架原生支持大模型训练,并支持端、边、云全场景协同,具备安全可信、高效执行、一次开发多次部署的能力。
框架之外, AI使能平台也需要关注。以武汉人工智能计算中心采用的ModelArts为例,该平台是全功能AI平台,功能丰富,具备多租户、细粒度资源管理的能力,包含一体化的集成开发环境,支持大规模训练数据管理、大模型的大规模分布式训练,并集成了自主可控的AI计算框架及第三方框架。在云管平台方面,安全、易用是关键考量:可提供公有云技术满足公共服务平台技术要求,支持多租户管理与资源隔离;源自云的服务能力,统一运维,统一计量。
辅助运营: “建起来”更要“用的好”
人工智能计算中心想要稳定运行,建设和使用之间就不能出现断层。当下的人工智能计算中心通常由地方政府牵头,技术支持厂商参与建设。但有些厂商只管建,却不管养,或者提供不了全面的辅助运营。
辅助运营是发展人工智能产业的保障,这一点是业内专家和项目实践的共识。例如武汉、西安、深圳等地的人工智能计算中心在建成之后,技术支持厂商设立生态创新中心,组建辅助运营团队,以“扶上马、送一程”的方式辅助运营公司开展计算中心算力运营和生态运营,向当地企业提供产品、客户、渠道等支持服务,并给当地企业提供科研创新、人才培养、应用孵化、产业发展等服务。这一做法确保了人工智能计算中心建起来之后,既可以高效发挥算力价值,也可以确保AI产业生态建设。
除了软硬件,全栈一体化还涵盖基建设施,同样以武汉、西安人工智能计算中心为例,技术支持厂商采用预制模块化方式建设,不到半年即完成了建设交付,其建设周期是传统楼宇方式机房建设的一半,效率对比高下立现。
当下,国内人工智能计算中心的规划与建设如火如荼,随着武汉、西安、深圳等地人工智能计算中心正式投入运营后对当地人工智能产业的口碑反馈,全栈一体化的优势将更加凸显。相信在可以预见的将来,选择全栈解决方案的人工智能计算中心会越来越多,为我国数字经济的快速发展提供更多动力。