审校 | 重楼
您猜怎么着?云计算会议现在是生成式AI会议。怎么会这样?很简单,云提供商将生成式AI视为销售更多云服务的最佳方式了。
随着企业界转向AI驱动的生态系统,这一幕主要在云计算环境中上演。在这里您通常可以找到最先进的生成式AI系统、可扩展性、可访问性和成本效益。当我们踏上这段旅程时,企业应该如何有效地运行这些系统?我们应该考虑哪些最佳实践?
了解云端生成式AI
简而言之,生成式AI模型是从输入数据中获取模式和结构以生成新型原创内容的系统。这些内容是输出数据,它可以是任何类型的结构化或非结构化信息。
如果要在现有模式的基础上进行构建,这是一个数据操作问题。然而存在重大的差异,包括处理频繁得多,以及数据输入和输出性能决定了云端生成式AI系统的性能。
基于云的生成式AI系统的流程
不妨定义一个基本流程或一系列最佳实践。运营人员喜欢核对清单,以下是我给出的核对清单。
- 设计系统。您的AI和云解决方案必须协同扩展,生成式AI模型需要有效地管理存储和计算资源。您编写的应用程序必须尽可能地利用云原生服务。这样既经济高效,又简化了操作。这时候Devops就有了用武之地,与开发团队协作优化代码。
其想法是,如果系统一开始就设计正确,您就不需要处理操作问题。我遇到的大多数关于操作的问题都归结为系统的核心设计。
- 垃圾输入等于垃圾输出。为了从AI中获得有意义的输出,应该将高质量和适当格式的数据输入到系统。管理、验证和保护馈送到AI引擎的这些数据至关重要,从这些系统收集数据也很重要。这个阶段实现自动化将大大节省时间,包括在摄取训练数据之前检查数据质量。我发现大多数生成型AI的幻觉都源于不到位和低质量的数据。
- 定期检查。生成式AI软件不是一种安装后就可以撒手不管的工具。这项技术从一开始就需要定期的性能调优和优化。AI的动态性需要持续监控,以确保参数提供最佳的操作结果。这意味着要经常调整系统,可能每天都要调整。
- 借助严格的访问控制解决安全问题。由于您的生成式AI系统在云端,因此安全性必须包括数据加密和定期审计。最好确保那些合规策略落实到位,您在部署到生产环境期间和之后需要使这些策略实现自动化。其想法是将尽可能多的不稳定因素放到一个单独的域中,从而广泛使用策略以处理合规和安全参数。公共云上的生成式AI系统更是如此。
- 设置系统故障警报。密切关注使用模式,执行定期维护,并保持补丁和新版本的更新,这些工作必不可少。自动化可以再次发挥作用,减轻负担,并提高效率。不过,您仍得尽量提高自动化程度,以跟上需要实施的变更的数量。
准备、瞄准、开火!
先让系统正常运行起来。这意味着在部署之前做好设计和更改代码。在许多情况下,企业试图一下子推出系统,希望运营团队能够解决导致性能和稳定性问题的设计缺陷,并确保整个系统的准确性。太多的企业对云端生成式AI采取了“准备、开火、瞄准”的做法。这种做法不仅花费太多的钱,还因基本上可以避免的生产问题而降低了这些系统的价值。
我们应该通过部署第一代基于云的系统来正视这个问题,而且愿意解决许多技术问题。这些系统出差错带来的后果严重得多。我们尽量不要制造问题,不然问题在操作过程中只会愈加严重。
原文Best practices for operating cloud-based generative AI systems,作者:David Linthicum