审校 | 重楼
如今,很多企业高管都将人工智能视为未来发展方向,许多技术领导者也将ChatGPT视为人工智能的代名词。但是OpenAI的旗舰产品ChatGPT并不是唯一的大型语言模型——对于一些软件项目或领域来说,ChatGPT甚至可能不是一个最好的选择。几乎每天都有新的竞争者出现。似乎每家科技公司都想构建下一代人工智能工具,这些工具带来的好处和坏处取决于人们如何应用。
一些大型语言模型比其他一些模型好吗?也许。但它们都有缺陷、怪癖、故障和弱点,使用的时间越长,这些缺陷就越明显。生成式人工智能乍一看似乎很神奇,但随着时间的推移,其怪异和不可预测的一面开始显现。
衡量大型语言模型
由于大型语言模型的范围和使用方式,科学地衡量生成式人工智能回答问题的质量是很困难的。数据科学家可以输入数千甚至数百万个测试问题并评估答案,但如果测试集只关注一种类型的问题,那么其输出结果将会受到限制。咨询像Hugging Face这样的Open LLM排行榜类似的资源很有趣,但不一定准确。
如果说找到一种精确的方法来对大型语言模型进行衡量很困难,那么在它们之间切换变得越来越容易了。像OpenLLM或FastChat这样的项目使各种大型语言模型的连接变得更简单,尽管它们有不同的API和接口。开发人员可以将这些整合在一起,有时甚至可以并行运行这些模型。
构建大型语言模型的一个主要问题是成本。虽然人们很感兴趣并且投资得到爆炸式增长,但构建一个大型语言模型可能需要数月甚至数年的时间。开发团队首先收集训练数据,然后采用成本高昂的硬件消耗大量电力推送数据。最后他们制作了大型语言模型,而如何盈利以及维持这项工作的最佳方式是一个不断演变的问题。
一些企业正在尝试开源他们开发的大型语言模型,而另一些企业则依赖具有自己计费模型的服务。开源大型语言模型可能是一份真正的礼物,但前提是能够处理部署模型并保持其运行的工作。
以下是非ChatGPT的14种大型语言模型。它们可能是用户运营项目所需要的大型语言模型,也可能不是。唯一知道的方法就是把提示发给它们,并仔细评估结果。
1.Llama
Facebook(如今更名为Meta)创建了这个基础大型语言模型,然后将其发布,作为其声明的“开放科学承诺”的一部分。任何人都可以下载Llama,并将其作为为特定应用创建更精细调整模型的基础(Alpaca和Vicuna都是在Llama的基础上构建的)。该模型还有四种不同的规模。只有70亿个参数的较小版本在不太可能的地方使用。一名开发人员甚至声称Llama可以运行在只有4GB内存的Raspberry Pi上。
2.Alpaca
斯坦福大学的几位研究人员采用了Meta公司的Llama 7B,采用一组模仿ChatGPT等指令遵循模型的提示对其进行训练。这一微调产生了Alpaca 7B,这个大型语言模型将Llama LLM中编码的知识开放为人们可以通过提问和给出指令来获取的知识。据称,其轻量级大型语言模型可以在价值不到600美元的硬件上运行。
Alpaca 7B的创建者正在分发训练集和构建它的代码,任何人都可以复制模型或从不同的集合创建新的内容。
3.Vicuna
Llama的另一个后代是来自LMSYS.org的Vicuna。Vicuna团队从ShareGPT中收集了7万个不同对话的训练集,并特别注意创建多轮互动和指令跟随功能。这个大型语言模型有Vicuna-13b或Vicuna-7b两种版本,是最具价格竞争力的基本交互式聊天开放解决方案之一。
4.NodePad
并不是所有人都对大型语言模型生成“语言准确”文本的方式所吸引。NodePad的创建者认为,文本的质量往往会分散用户对潜在事实的双重检查。具有美观的用户界面的大型语言模型往往无意中美化结果,使用户更难以预测这些问题。NodePad旨在培养探索和创意,而不是生成用户几乎不会浏览的精致写作样本。这个大型语言模型的结果显示为节点和连接,就像人们在许多“思维导图工具”中看到的那样,而不像忆经完成的写作。用户可以利用该模型的百科知识来获得很好的想法,而不会在演示中迷失方向。
5.Orca
第一代大型语言模型在规模上取得了成功,随着时间的推移变得越来越大。来自微软公司研究团队的Orca扭转了这一趋势。该模型仅使用130亿个参数,使其能够在普通机器上运行。Orca的开发人员通过增强训练算法来使用“解释痕迹”、“逐步的思考过程”和“指令”来实现这一壮举。Orca并没有仅仅要求人工智能从原始材料中学习,而是提供了一套专门用于教学的训练集。换句话说,就像人类一样,人工智能在没有深入研究的情况下学习得更快。最初的结果很有希望,微软团队提供的基准测试表明,该模型的性能与更大的模型一样好。
6.Jasper
Jasper的创造者并不想创造一个聪明的多面手,他们想要的是一台专注于创造内容的聊天机器人。该系统提供了50多个模板,而不仅仅是一个开放式的聊天会话,这些模板是为特定任务设计的,例如为亚马逊这样的网站制作房地产清单或编写产品功能。其付费版本专门针对那些希望创建具有一致基调的营销文案的企业提供服务。
7.Claude
Anthropic把Claude塑造成一个乐于助人的助手,它可以处理企业的许多基于文本的业务(从研究到客户服务),输入提示,输出答案。Anthropic允许长提示来鼓励更复杂的指令,让用户对结果有更多的控制权。Anthropic目前提供两个版本:一个是名为Claude-v1的完整模型,另一个是更便宜的简化模型Claude Instant,后者的价格要便宜得多。第一种适用于需要更复杂、结构化推理的工作,而后者更快、更好地适用于分类和调节等简单任务。
8.Cerebras
当专用硬件和通用模型共同发展时,最终可以得到一个非常快速和有效的解决方案。Cerebras公司为那些想在本地运行它的用户提供了从小(1.11亿个参数)到大(130亿个参数)的各种Hugging Face大型语言模型。然而,许多人想要使用云计算服务,这些服务运行在Cerebras公司自己的集成处理器上,该处理器针对大型训练集进行了优化。
9.Falcon
全尺寸Falcon-40b和较小的Falcon-7b是由阿联酋的技术创新研究所(TII)建造的。他们在RefinedWeb上的大量通用示例上训练了Falcon模型,重点是提高推理能力。然后,他们将其与Apache 2.0一起发布,使其成为可用于实验的最开放和不受限制的大型语言模型之一。
10.ImageBind
许多人认为Meta公司是一家主导社交媒体的大公司,但该公司也是一家开源软件开发商。随着人们对人工智能的兴趣日益浓厚,该公司开始分享自己的许多创新成果也就不足为奇了。ImageBind是一个旨在展示人工智能如何同时创建多种不同类型数据的项目;在这种情况下,包括文本、音频和视频。换句话说,如果允许的话,生成人工智能可以将整个想象的世界整合在一起。
11.Gorilla
人们可能听说过很多关于使用生成式人工智能编写代码的事情。其结果往往表面上令人印象深刻,但仔细检查就会发现存在严重缺陷。其语法可能是正确的,但是API调用都是错误的,或者它们甚至可能指向一个不存在的函数。Gorilla是一个大型语言模型,它的设计是为了更好地处理编程接口。它的创建者从Llama开始,然后对其进行微调,重点关注直接从文档中截取的更深层次的编程细节。Gorilla的团队还提供了自己的以API为中心的测试成功基准集。对于希望依靠人工智能进行编码协助的程序员来说,这是一个重要的补充。
12.Ora.ai
Ora.ai是一个允许用户创建针对特定任务进行优化的目标聊天机器人的系统。LibrarianGPT尝试用一本书中的段落来回答任何问题。例如,聊天机器人可以从Carl Saga教授的所有著作中汲取灵感。人们可以创建自己的聊天机器人,也可以使用其他人已经创建的数百个聊天机器人中的一个。
13.AgentGPT
另一个将应用程序所需的所有代码整合在一起的工具是AgentGPT。它的设计目的是创建代理,这些代理可以被派去处理诸如计划度假或编写某种游戏代码之类的工作。大部分技术栈的源代码都可以在GPL3.0下获得。还有一个正在运行的版本作为服务提供。
14.FrugalGPT
FrugalGPT 并不是一个不同的模型,而是一种寻找价格更低的模型来回答特定问题的谨慎策略。FrugalGPT的研究人员认识到,回答许多问题不需要更大、更昂贵的模型。他们的算法从最简单的开始,在一系列大型语言模型中逐级移动,直到找到一个更好的答案。研究人员的实验表明,这种谨慎的方法可以节省98%的成本,因为许多问题实际上并不需要采用复杂的模型。
原文14 LLMs that aren't ChatGPT,作者:Peter Wayner