生成式人工智能吸引了所有人的注意力,这有着充分理由。但是,从潜力到盈利并非没有风险,例如,假设部署主流企业IT基础设施的既定流程将在复杂的人工智能超级集群的新时代发挥作用。
坚实的技术基础设施一直是必不可少的。尽管如此,想要确保人工智能实现其承诺的首席信息官们需要更好地了解大规模设计、部署和管理这一基础组件所需的条件,其中包括:
1.基础设施需求
基于人工智能的环境相对较新,尝试将传统的企业计算设计和架构与高性能处理器、低延迟网络和调度器驱动的工作负载环境结合起来会带来一系列新的挑战。物理数据中心设计是基础的,不正确配置系统的无声、长尾影响可能意味着启动基于不正确的电源、冷却和网络元素的“错误启动”部署。
2.性能优化
其次是好的设计是复杂的,低延迟的GPU网络结构的影响。这些系统需要精确的配置,虽然未调优的系统仍能正常工作,但团队对人工智能工作负载的低性能水平一无所知,最终导致大量错失投资回报率。
Penguin/SGH全球营销副总裁Mark Seamans将其比作一级方程式赛车。他说:“一个配置不当的系统可能看起来就像一辆F1赛车,但只有当你把其他五辆车放在赛道上时,你才会意识到竞争对手正在超越。确保你在设计、制造和部署过程中都遵循一套规范的标准,这意味着即使你是赛道上唯一的车手,你也能达到F1赛车的全速。”
3.可扩展性、灵活性和可靠性
当考虑人工智能基础设施及其构建块的性质时,精度对于有效处理不同的人工智能工作负载变得更加重要。这就是适应不断变化的计算需求的可扩展性和灵活性。但是,正如马克所指出的,“在团队进行安全、软件和固件更新时,或者在增加新的人工智能节点以扩大集群容量的情况下,这也与稳定性有关。如果构建模块不是最优的,未来的变化可能会破坏系统的稳定。”
4.数据管理
组织习惯于这样的环境:如果一台服务器宕机,其他服务器可以接管负载。然而,人工智能系统并不以同样的方式运行。错误配置的网络、节点故障,甚至单个GPU的丢失,都可能扼杀可能已经运行了数周的作业——让用户感到沮丧,并为负担沉重的IT团队增加工作量。
Mark说:“Penguin公司为提高集群性能和可靠性开发了许多创新——包括一个隔离未决GPU故障的解决方案,我们可以撤离这些节点,在生产配置之外对其进行分类,修复问题,然后重新配置并将其作为健康节点放回集群。”
5.成本的考虑
成本始终是一个考虑因素,但与人工智能工作负载相关的影响更大。考虑一个有1000个节点的系统,每个节点由10根网线和多个复杂的网络结构连接。硬件采购、电力和冷却的大量能源消耗以及维护成本如果不能与部署时间表和性能要求相平衡,就会超出预算限制。有了这些价值数百万美元的人工智能配置,将系统投入生产的延迟会带来大量不必要的折旧成本和错失的投资回报率。
来自经验丰富的AI基础设施合作伙伴的证明点
超过25年的高性能计算经验和超过7年的大规模部署人工智能基础设施,使企鹅解决方案成为人工智能平台的首选。企鹅已经部署了5万多块GPU,像Meta公司这样的客户依赖于他们的专业知识,Penguin公司已经准备好成为值得信赖的合作伙伴,帮助每一位客户走向未来。