文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

模型偏好只与大小有关?上交大全面解析人类与32种大模型偏好的定量组分

2024-11-30 01:36

关注

尽管上述对偏好数据的应用已经取得了广泛的成效,但对偏好本身则缺乏充足的研究,这很大程度上阻碍了对更可信 AI 系统的构建。为此,上海交通大学生成式人工智能实验室(GAIR)发布了一项新研究成果,对人类用户与多达 32 种流行的大语言模型所展现出的偏好进行了系统性的全面解析,以了解不同来源的偏好数据是如何由各种预定义属性(如无害,幽默,承认局限性等)定量组成的。

进行的分析有如下特点:

该研究发现:

图 1:人类,GPT-4-Turbo 与 LLaMA-2-70B-Chat 在 “日常交流” 场景下的偏好解析结果,数值越大代表越偏好该属性,而小于 50 则表示对该属性的厌恶。

本项目已经开源了丰富的内容与资源:

方法介绍

该研究收集了来自 ChatbotArena Conversations 数据集中大量来自真实应用中的成对用户 - 模型对话数据。每个样本点由一个用户问询与两个不同的模型回复组成。研究者们首先收集了人类用户与不同大模型在这些样本上的偏好标签,其中人类用户的标签已经包含在所选用的原始数据集内,而 32 个选用的开源或闭源的大模型的标签则由研究者额外进行推理与收集。

该研究首先构建了一套基于 GPT-4-Turbo 的自动标注框架,为所有的模型回复标注了它们在预先定义的 29 个属性上的得分,随后基于一对得分的比较结果可以得到样本点在每个属性上的 “比较特征”,例如回复 A 的无害性得分高于回复 B,则该属性的比较特征为 + 1,反之则为 - 1,相同时为 0。

利用所构建的比较特征与收集到的二元偏好标签,研究者们可以通过拟合贝叶斯线性回归模型的方式,以建模比较特征到偏好标签之间的映射关系,而拟合得到的模型中对应于每个属性的模型权重即可被视作该属性对于总体偏好的贡献程度。

由于该研究收集了多种不同来源的偏好标签,并进行了分场景的建模,因而在每个场景下,对于每个来源(人类或特定大模型),都能够得到一组偏好到属性的定量分解结果。

图 2:分析框架的总体流程示意图

分析结果

该研究首先分析比较了人类用户与以 GPT-4-Turbo 代表的高性能大模型在不同场景下最偏好与最不偏好的三个属性。可以看出,人类对错误的敏感程度显著低于 GPT-4-Turbo,且厌恶承认局限性而拒绝回答的情形。此外,人类也对迎合自己主观立场的回复表现出明显的偏好,而并不关心回复中是否纠正了问询中潜在的错误。与之相反,GPT-4-Turbo 则更注重回复的正确性,无害性与表达的清晰程度,并且致力于对问询中的模糊之处进行澄清。

图 3:人类与 GPT-4-Turbo 在不同场景或问询满足的前提下最偏好与最不偏好的三个属性

图 4:人类与 GPT-4-Turbo 对于轻微 / 适中 / 严重程度的错误的敏感程度,值接近 50 代表不敏感。

此外,该研究还探索了不同大模型之间的偏好组分的相似程度。通过将大模型划分为不同组并分别计算组内相似度与组间相似度,可以发现当按照参数量(<14B 或 > 30B)进行划分时,组内相似度(0.83,0.88)明显高于组间相似度(0.74),而按照其他因素划分时则没有类似的现象,表明大模型的偏好很大程度上决定于其尺寸,而与训练方式无关。

图 5:不同大模型(包括人类)之间偏好的相似程度,按参数量排列。

另一方面,该研究也发现经过对齐微调后的大模型表现出的偏好与仅经过预训练的版本几乎一致,而变化仅发生在表达偏好的强度上,即对齐后的模型输出两个回复对应候选词 A 与 B 的概率差值会显著增加。

图 6:大模型在对齐微调前后的偏好变化情况

最后,该研究发现,通过将人类或大模型的偏好定量分解到不同的属性,可以对基于偏好的评估结果进行有意地操纵。在目前流行的 AlpacaEval 2.0 与 MT-Bench 数据集上,通过非训练(设置系统信息)与训练(DPO)的方式注入评估者(人类或大模型)的偏好的属性均可显著提升分数,而注入不受偏好的属性则会降低得分。

图 7:对 MT-Bench 与 AlpacaEval 2.0 两个基于偏好评估的数据集进行有意操纵的结果

总结

本研究详细分析了人类和大模型偏好的量化分解。研究团队发现人类更倾向于直接回答问题的回应,对错误不太敏感;而高性能大模型则更重视正确性、清晰性和无害性。研究还表明,模型大小是影响偏好组分的一个关键因素,而对其微调则影响不大。此外,该研究展示了当前若干数据集在了解评估者的偏好组分后易被操纵,表明了基于偏好评估的不足。研究团队还公开了所有研究资源,以支持未来的进一步研究。

来源:机器之心内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯