文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

大模型数据建设探索与实践

2024-11-29 18:41

关注

一、从工程化视角看数据建设

在当前大模型技术快速发展的背景下,数据对模型效果的影响力日益增强。对于希望从零开始训练一个具有千亿参数规模的大型模型的团队来说,整个任务流程的规划和执行成为了一个重要议题。接下来详细探讨从工程化视角下的数据建设过程,包括数据准备、预训练、后训练以及数据版本的动态调整。

1. 数据准备与训练流程

理想情况下,大模型的训练流程可以分为三个阶段:数据准备、预训练与后训练。然而,实际情况远比这一理想化的模型复杂。可以将其比喻为“把大象放进冰箱”的问题,即分为三个步骤:数据收集、预训练及后训练。实际操作中,这一过程的复杂性主要体现在两个方面:

2. 影响数据版本更新的因素

影响数据版本更新的主要因素包括:

3. 先导模型在工程实践中的应用

在工程实践中,常用的方法是训练一个先导模型来监控数据变化并及时作出调整。先导模型的规模通常较小,如 1B 参数级别。当需要调整数据时,可通过先导模型进行一系列实验,包括数据去重、清洗及配比调整等,并对效果进行评估。一旦确定可行方案,即可同步应用于主模型。

在某些情况下,一级先导模型可能无法完全满足数据调整的需求,这时可能需要二级甚至多级先导模型来进行更细致的追随训练。在多级先导模型的设置中,可能需要进行二次甚至多次的先导实验,以确保决策的准确性。这种多级实验虽然增加了时间和算力成本,但在减少 token 消耗的同时,提高了实验结果的可靠性。

4. 评测指标与数据版本更新

在训练过程中,通过对先导模型进行评测,可以发现特定领域的不足之处(如数学或编程能力)。基于评测结果,可以针对性地调整数据配置,从而改善模型性能。

5. 数据处理流程

不同的数据版本更新方式会触发不同的数据处理流程。如果数据更新是由数据变化触发的,则可能需要从头到尾进行数据处理的各个步骤;如果是通过评测引导的方法来触发,则只需调整数据配比和领域选择。

二、预训练数据配比策略

在大模型的预训练过程中,数据配比对于模型性能有着至关重要的影响。通过采用 DoReMi 方法、双层优化算法以及在线领域采样权重调整等策略,可以有效提高模型的训练效率与性能。在实际应用中,还需考虑特定领域数据的重要性以及数据处理与解析的技术挑战。

1. 数据配比策略概述

我们平常提到的“数据配比”, 是指在预训练阶段对不同来源的数据配置不同权重,以期达到最优训练效果的过程。论文中通常采用的对应术语是 “数据混合”(Data Mixing)。

(1)DoReMi:一种经典的配比方法

DoReMi 方法是一种不依赖于特定任务的、在小模型上寻找最优数据混合比例的方法。该方法的基本流程如下:

DoReMi 方法相较于原始权重,在预训练效果上有明显提升。例如,下图展示了采用 DoReMi 方法找到的最优化权重与使用经验配比所得到的最终模型训练效果对比。蓝线表示采用 DoReMi 方法的结果,红线表示基线结果,可以看出,DoReMi 方法在下游任务上取得了显著的提升,且随着模型参数量的增加,依然稳定提升。

(2)DoGE:双层优化算法

另一种方法是通过双层优化算法直接训练代理模型来调整预训练数据的权重。这种方法的核心在于通过两步更新:第一步更新权重,第二步更新代理模型本身的权重。该算法更侧重于学习对整体梯度贡献较大的领域,即找出哪些领域的样本对代理模型的影响最大。这种方法不需要单独的参考模型,简化了训练流程。

(3)ODM:在线领域采样权重调整

更进一步的方法是利用多臂老虎机(Multi-Armed Bandit)算法在线调整领域采样权重。该算法在强化学习中较为常见,通过模拟拉取老虎机的不同手臂来获得奖励。在预训练模型场景中,大模型可以被视为老虎机,不同的数据集对应不同的手臂。训练过程中,根据获得的奖励(即单个样本的损失)来调整采样权重,以优化整体训练效果。

2. 现有方法特点与局限

通过分析现有方法,可以总结出以下两点特征:

3. 工程化实践中的数据配比调整

在工程化实践中,数据配比的调整是一个主动触发的过程,主要思路如下:

4. 经验总结

在实际应用中,需要考虑以下几点:

三、后训练数据的质量筛选

在大模型的训练过程中,后训练数据的选择和筛选对于模型性能的提升至关重要。随着训练数据从单纯追求数量转向重视质量,如何高效筛选出高质量的数据成为了一个关键议题。

1. 发展趋势

后训练数据筛选的发展趋势表现为从追求数据量的增加转向关注数据质量的提升。这意味着不仅要保证数据的多样性,还要确保数据的质量,使模型能够在有限的数据集上达到最佳训练效果。

2. 数据筛选方法

为了实现这一目标,研究者们提出了多种数据筛选方法,旨在从海量数据中挑选出最具价值的部分。

(1)CherryLLM

(2)Superfiltering

(3)MoDS

(4)NUGGETS

(5)LESS

3. 现有方法分类与特点

在后训练数据筛选的过程中,可以将方法大致分为两大类:模型类方法与指标类方法。

4. 理想指标的探索

在现有筛选方法的基础上,探索更为理想的筛选指标。理想指标应当具备以下特性:

5. 工程化实践

在实际应用中,后训练数据筛选涉及多个层面的考量:

6. 数学数据的重要性

使用少量数学相关的微调数据,可以促进模型在多项通用任务上获得全面的能力提升。

四、问答环节

Q1:是否存在数据量维度的 scaling law,即数据量越大,模型效果越好?

A1:在数据量和模型效果之间存在类似于模型参数量维度的 scaling law。但关键在于数据质量,高质量的数据是提升模型效果的基础。对于不同级别的模型,所需的高质量数据量可能存在底线,这一底线需要通过实验来探索。特别是对于大型模型,由于训练成本高昂,难以重复多次实验,因此在实际操作中需通过追随训练等方法逐步优化。

Q2:数学数据的来源主要是什么?

A2:数学数据主要来源于各类题库。市面上这类数据库存有限,建议可通过小模型从网页数据中提取数学知识相关内容进行扩充。

Q3:不同领域的数据进入模型训练的顺序是否影响模型效果?

A3:数据进入模型训练的顺序确实有影响,但实际操作中难以全面评估所有可能的顺序。可以通过领域细分和实验来探究这一影响,但需要大量算力支持。

Q4:先导模型与主模型在结构上需要怎样的关联?

A4:先导模型与主模型在结构上可以有所差异,但需要先导模型能够有效地反映数据质量。目前尚无明确理论指导先导模型的选择,但通常会选择在较小参数量下训练效果较好的模型作为先导模型。

Q5:PDF 文件处理有哪些难点?在选择或开发 PDF 处理工具时应注意什么?

A5:PDF 文件处理的难点在于需要同时处理公式、表格和不同版面等复杂元素。有效的 PDF 处理工具应具备多种专用模型,如版面解析、表格处理和公式识别模型。特别需要注意的是,工具应擅长处理公式与文本混排的情况。

来源:DataFunTalk内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯