文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

如何突破大语言模型的最大瓶颈

2024-11-30 01:19

关注

审校 | 重楼

OpenAIGPT-4AnthropicClaude 2大语言模型(LLM)已经凭借其生成文本的功能激发了公众的想象力。企业也同样热情高涨,许多企业在探索如何利用LLM改进产品和服务。然而,一瓶颈严重制约了最先进的LLM在生产环境采用,那就是速率限制。有一些方法可以突破这种速率限制,如果没有计算资源方面的改进,真正的进步可能不会到来。

承担成本

公共LLM API允许用户访问OpenAIAnthropic等公司模型对每分钟可以处理的token(文本单位的数量、每分钟的请求数量以及每天的请求数量施加了严格的限制。

OpenAI GPT-4API调用目前限制为每分钟3个请求RPM每天200个请求,以及每分钟最多10000token(TPM。最高允许10000 RPM300000 TPM的限制。

针对每分钟需要处理数百万个token的大型生产应用程序,这速率限制使得企业使用最先进的LLM实际上行不通。请求不断增多,需要几分钟乃至几小时,无法进行任何实时处理。

大多数企业仍在竭力安全有效地大规模采用LLM。但是即使它们解决了数据敏感性和内部流程方面的挑战,速率限制也成一个顽固的障碍。随着产品使用和数据的积累,围绕LLM开发产品的初创公司很快会遇到瓶颈,但拥有庞大用户的大企业受到的限制最大。如果没有特殊的访问机制它们的应用程序根本无法运行

该怎么办

规避速率限制

条路子是完全速率限制技术。比如说,有些特定用途的生成AI模型没有LLM瓶颈。总部位于英国牛津的初创公司Diffblue依赖没有速率限制的强化学习技术。它在一件事上做得非常好,非常有效,可能覆盖数百万行代码。它自主创建Java单元测试的速度是开发人员的250倍,编译速度是开发人员的10倍。

Diffblue Cover编写的单元测试使您能够快速了解复杂的应用程序,从而使企业和初创公司都能够满怀信心地进行创新,这对于将遗留应用程序迁移到云理想选择。它还可以自主地编写新代码改进现有代码加速CI/CD管道,在不需要人工审查的情况下深入洞察与变更相关的风险。这不赖。

然,些公司不得不依赖LLM它们又有什么选择

增加计算资源

一种选择就是请求提高公司的速率限制。到目前为止这个做法不错,但潜在的问题是,许多LLM提供商实际上没有额外的能力提供。这是问题的症结所在。GPU可用性取决于来自台积电等代工厂的硅总数。占主导地位的GPU制造商英伟达无法采购足够的芯片来满足AI工作负载带来的爆炸式需求,大规模推理需要成千上万个GPU组合在一起。

增加GPU供应的最直接方法是建造新的半导体制造工厂,即所谓的晶圆厂。但是一新的晶圆厂造价高达200亿美元,需要数年才能建成。英特尔、三星代工、台积电、德州仪器等主要芯片制造商正在美国建设新的半导体生产设施。眼下所有只能等待。

因此,利用GPT-4的实际生产部署很少。真正部署GPT-4的环境范围有限,它们使用LLM作为辅助功能,而不是作为核心产品组件。大多数公司仍在评估试点和概念验证。在考虑速率限制之前,本身就需要将LLM集成到企业工作流程中。

寻找答案

GPU制约限制了GPT-4的处理能力,这促使许多公司使用其他生成式AI模型。比如说,AWS拥有自己的专门用于训练和推理的芯片一旦训练好就运行模型,从而为客户提供了更大的灵活性。重要的是,并不是每个问题都需要最强大、最昂贵的计算资源。AWS提供了一系列更便宜、更容易调的模型,比如Titan Light。一些公司在探索替代方案,比如对Meta的Llama 2开源模型进行微调。针对涉及检索增强生成RAG)、需要将上下文附加到提示并生成响应简单用例,功能较弱的模型就足够了。

另一些技术也有所帮助,比如跨多个具有高限制的旧LLM并行处理请求、数据分块和模型蒸馏。有几种技术可以降低推理的成本、提高速度。量化降低了模型中权重的精度,权重通常是32位浮点数。这不是一种新方法。比如说谷歌的推理硬件张量处理单元(TPU)只适用于权重被量化为8位整数的模型。该模型失去了一些准确性,但变得小巧得多,运行起来更快

一种名为“稀疏模型的新流行技术可以降低训练和推理的成本,耗费的人力模型蒸馏更少。LLM好比是许多较小语言模型的集合。比如说,当用法语GPT-4询问问题时,只需要使用模型的法语处理部分,稀疏模型就利用了这个特点。

可以做稀疏训练,只需要训练模型的法语子集,也可以做稀疏推理,只运行模型的法语部分。与量化一起使用时,这可以从LLM中提取更小的专用模型,这模型可以在CPU而不是GPU上运行。GPT-4之所以出名,是由于它是一个通用文本生成器,而不是更狭窄、更特定的模型。

在硬件方面,专门针对AI工作负载的新处理器架构有望提高效率。Cerebras已经研制了一巨大的晶圆级引擎,针对机器学习进行了优化,而Manticore正在改造制造商丢弃的废弃GPU芯片,以提供实用的芯片。

最终,最大的成效将来自需要更少计算的下一代LLM。结合经过优化的硬件,未来的LLM可以突破目前的速率限制障碍。目前,众多渴望的公司竞相要求利用LLM的功能,生态系统不堪重负。那些希望在AI领域开辟新道路的人可能需要等到GPU供应进一步趋缓之后。具有讽刺意味的是,这些限制可能恰恰有助于撇除围绕生成式AI的一些泡沫炒作,让这个行业有时间适应积极的模式,以便高效经济地使用它。

原文The biggest bottleneck in large language models,作者:Matt Asay

来源:51CTO内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯