随着市场竞争变得更加激烈,从数据中建立一个可防御的护城河可以让一切变得不同。麦肯锡公司估计,利用内部数据进行销售和营销洞察可以带来高于平均水平的市场增长,并使收入增加15%至25%。大型语言模型(LLM)提供了一种新的、独特的方式来提取这种价值,对他们进行专有数据培训,以实现特定的商业目标,可能会改变许多公司。
数据的质量大于数量
正如人工智能大师、谷歌公司前研究总监Peter Norvig曾经说过的那样,“更多的数据胜过更好的算法,但更好的数据胜过更多的数据。”随着通用人工智能模型适应于企业使用,这一点变得越来越真实。虽然前沿模型已经接受了从互联网和其他公共资源中收集的大量数据的训练,但它们在特定商业目的上的效用有限。
这些大型语言模型从数据中提取意义的能力需要与组织独有的专有数据相结合,才能实现真正的利益。一旦设定了业务目标,确保为此准备好数据是关键的一步。Gartner公司估计,为人工智能准备数据可以将业务成果提高20%,这意味着数据必须适合预期的用例,无论是结构化还是非结构化。Gartner公司声称,30%的内部人工智能项目被放弃的一个关键原因是数据质量差。这包括删除损坏的数据和重复的数据,以及填补输入不完整的空白。
虽然质量是关键,但也需要足够的数量。根据目标和LLM的调优方式,这意味着至少需要数千条记录,甚至可能更多。
使用独特的专有数据可以实现最大的竞争优势。这可能包括匿名的客户数据和购买模式、客户反馈、Web分析和供应链信息。开源数据也可以是一个有用的补充,但是根据定义,它对每个人都可用,因此它本身不是一个区分因素。使用专有数据,只要它符合隐私法规,还可以减少与数据主权相关的法律复杂性。
但是,大多数组织没有资源、财力和人力来从头开始构建和训练他们自己的领域特定模型。微调现有LLM需要大量的时间和技能,这超出了中型企业的能力,尽管它比从头开始构建需要更少的计算能力和数据。即时调优和即时工程是最常见和最直接的方法。与修改模型参数相比,这些技术消耗的资源要少得多,尽管需要专业技能,但采用起来相对容易。
在现实世界中
一些早期使用内部数据训练的LLM来自大型银行和咨询公司。例如,摩根士丹利公司使用即时调优来训练GPT-4处理与其投资银行业务流程相关的10万份文件。其目的是帮助其财务顾问为客户提供更准确、更及时的建议。波士顿咨询公司也采用了类似的方法,帮助其顾问产生见解和客户建议,同时采用迭代流程,根据用户反馈对模型进行微调。这有助于提高产出,减少幻觉的机会,而幻觉在面向消费者的GPT中更为常见。
我们现在开始看到技术密集程度较低的服务型公司使用内部数据定制LLM。园艺护理公司Scotts Miracle-Gro与谷歌云合作,创建了一个人工智能的“园艺师”,为客户提供园艺建议和产品推荐。他们已经对公司的产品目录和内部知识库进行了培训,并将很快推广到1000名现场销售人员,帮助他们向零售和市场花园客户提供价格和可用性方面的建议。预计,根据结果,它将向消费者开放,目的是推动销售和客户满意度。
就像Scotts Miracle-Gro利用人工智能为其传统的销售目录增加价值一样,美国大众汽车公司的汽车手册也是如此。这款人工智能虚拟助手接受了车辆指导的培训,并辅以客户的联网汽车数据,可以帮助司机更好地了解他们的车辆。这包括提供更换轮胎的指导,以及理解仪表盘指示灯的含义。
随着开源模型的兴起,LLM在功能集和处理能力方面变得越来越商品化,从而降低了应用程序开发人员的进入门槛,数据将变得越来越重要。内容所有者已经在反对允许OpenAI和Anthropic等公司自由收集他们的数据,此举将进一步凸显专有信息的价值。
所有规模的公司都应该开始更加谨慎地评估和保护其内部数据资产,并考虑如何通过人工智能来利用它来获得竞争优势。正如我们所看到的,即使是不起眼的产品目录或用户手册,也可以成为成熟的资产。