文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

复杂推理:大语言模型的北极星能力

2024-11-30 14:55

关注

在 GPT-4 发布博客中,作者写道:“在一次随意的谈话中,GPT-3.5 和 GPT-4 之间的区别可能是微妙的。当任务的复杂程度达到足够的阈值时,差异就会显现出来。” 这意味着复杂任务很可能是大型和小型语言模型的关键差异因素。

更重要的是,复杂推理为基于语言模型构建大量应用程序提供了机会,从而使语言模型有机会成为下一代计算平台 / 操作系统。这有可能从根本上改变人类与机器的交互方式,重塑整个计算生态系统。

在这篇文章中,我们将仔细分析讨论如何让大语言模型拥有强大的复杂推理能力

在天体摄影中,当使用长曝光拍摄星轨时,北极星位于星轨的中心,始终指向真正的北方。在古代,它为旅行者指引方向。

目录

1 - 动机:大语言模型作为新一代计算平台

我们研究复杂推理的原因有两个:

将语言模型视为下一代操作系统的愿景尤为有趣,因为它为构建新应用程序和创建基于语言模型的计算生态系统(可能比超级应用程序如 ChatGPT 提供更大的机会)开辟了无数可能性。复杂推理能力是基础,因为如果我们希望模型成为新的操作系统,它需要能够通过与工具、用户和外部环境的所有元素互动来完成复杂的指令。

本文研究了如何训练具有强大复杂推理能力的模型,如何进行提示工程以充分发挥模型的推理能力,以及如何评估模型的推理性能。本文的内容分为以下几部分:

2 - 增加大语言模型推理能力的方案

推理的方案与构建通用大型语言模型和聊天机器人的方案密切相关。总共有三个阶段:

我们进一步回顾了在代码上进行训练也可以提高模型推理能力的假设。因此,在我们的文献分析中,我们同时考虑推理和编码。我们将看到,就学习方法而言,这两者之间存在惊人的相关性。

2.1 - 预训练与持续训练

我们分析以下几项研究:

这些研究发现,在大量科学文献 / 代码上进行训练可以显著提高基础模型的推理/编码能力。

2.2 - 监督微调

我们分析:

目前关于指令微调的理解是:

2.3 - 强化学习

我们分析:

这两项工作都使用中间信号(对于推理,看中间步骤是否正确;对于编码,看代码是否编译)和最终信号(对于推理,最终答案是否正确;对于编码,代码是否通过测试)作为奖励。需要注意的是,这种类型的强化学习与基于人类反馈的强化学习(RLHF)有所不同,因为它不需要人类反馈。

2.4 - 推理能力和代码能力的耦合

在我们之前的讨论中,我们提出了一个假设,即在代码上进行训练可能会提高推理能力,原因如下:

从这个显著的一致性中,我们看到提高推理能力与提高编程能力非常相似。在此,我们通过强调训练大型语言模型进行推理或编码的配方相似性,深化了这个假设:

我们看到推理和代码都经历了:

这些相似性使得代码和推理之间的联系非常有趣。

3 - 复杂推理的提示工程

在讨论了如何构建具有强大推理能力的模型之后。在本节中,我们将讨论如何有效地提示模型以充分释放模型的潜力。

3.1 - 基础思维链提示工程

以下论文推荐给初学者:

3.2 - 进阶技巧及分析

以下论文讨论了高级 CoT 提示实践:

通常,对于复杂任务,首先将其分解为更简单的任务,然后逐步解决更简单的任务。

以下论文讨论了上下文学习为什么起作用

简而言之,上下文学习的要点是提示中的示例使模型进入相应的任务模式,然后执行任务。

以下论文讨论了模型在进行思维链推理时的行为

简而言之,模型只关注提示的格式,但可能不会受到提示正确性的显著影响。然而,模型在多大程度上会受到提示正确性的影响,或者提示可以在多大程度上覆盖模型的先验信念,还是一个尚待研究的问题。

以下论文讨论了如何通过改进和反馈来提高模型性能

简而言之,以自然语言形式(而非强化学习中的奖励形式)对模型进行改进和反馈非常有效,可以进一步提高语言模型的性能(无论是通过上下文学习还是微调)。

4 - 评价大语言模型的推理能力

在讨论了训练强大模型的方法和提示技巧之后,现在我们讨论对语言模型推理能力的评估。

4.1 - 评价方法的基础知识

在谈论评估时,有三个重要因素需要考虑:数据格式、能力类型和模型类型。首先,提示时有四种数据格式:

其中:

对于模型能力,有两种大致正交的能力类型:

这两个方面并不是严格正交的,因为一些推理规则也可以被视为某种形式的知识。然而,在评估时,这两种能力有明显的差异:

在实践中,因为 CoT 在达到或优于 Answer-only 的表现,而且 CoT 更加用户友好(因为它告诉用户思考过程),现代聊天机器人总是部署 CoT(无论你问 ChatGPT 什么,它都会告诉你一堆它的想法)。

最后,在评估方面,我们区分了两种类型的模型:预训练之后的 checkpoint 和指令微调之后的 checkpoint。

4.2 - Chain-of-thought Hub 简介

项目链接:https://github.com/FranxYao/chain-of-thought-hub

在讨论了所有评估基础知识之后,我们介绍 Chain-of-thought Hub,这是一个正在进行的工作,希望成为评估语言模型推理能力的统一平台。我们汇编了一个包括数学(GSM8K)、科学(MATH)、符号(BBH)、知识(MMLU)等复杂推理任务的列表,以衡量哪些模型确实更好。下面是当前的排行榜。尽管许多数字还没跑出来,但当前的内容仍然能给一个大概的模型排名:

总的来说:

进一步地,在 github 仓库中,我们包括了:

试一下吧 :)

5 - 结论

在这篇文章中,我们讨论了大型语言模型的推理能力。复杂推理不仅仅是因为它是更强模型与更弱模型之间的核心区分点,而且它还是模型成为下一代计算平台 / 操作系统的基础能力,从而有可能在大模型上建立一个新的生态系统。

我们讨论了构建具有强大推理能力的模型的方法:预训练、有监督的微调和强化学习。我们发现提高推理能力的方法与提高代码能力的方法密切相关,这加深了我们先前关于推理与代码之间密切关系的假设。我们进一步讨论了高级提示工程技巧和在执行复杂推理时模型行为的分析。最后,我们讨论了如何评估模型的推理能力,并介绍了 chain-of-thought hub,这是一个正在进行的项目,旨在统一评估语言模型的推理性能。

我们希望这篇文章能成为构建具有强大推理能力的开源模型的路线图。

人世间数百万个闲暇的小时流逝过去,方始出现一个真正的历史性时刻,人类星光闪耀的时刻  ——  《人类群星闪耀时》斯蒂芬·茨威格

附录:更多大语言模型推理的相关资源

注:文中所提论文可以在原文页面找到相应网址。

原文链接:https://yaofu.notion.site/6dafe3f8d11445ca9dcf8a2ca1c5b199

来源:机器之心内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯