文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

超长LLM时代RAG技术价值探索:顺序保持检索增强生成技术(OP-RAG)显著提高长文本问答应用性能

2024-11-29 19:04

关注

1. 引言

由于早期代大型语言模型(LLMs)的上下文窗口长度有限(例如,4096),检索增强生成(RAG)(Guu等人,2020;Lewis等人,2020)是处理大规模上下文语料库的不可或缺的选择。由于答案质量严重依赖于检索模型的性能,因此在设计RAG系统时,大量的努力都投入到提高检索召回率/精确度上。最近,最先进的LLMs支持更长的上下文窗口。例如,GPT4O(OpenAI,2023)、Claudi-3.5(Anthropic,2024)、Llama3.1(Meta,2024b)、Phi-3(Abdin等人,2024)和Mistral-Large2(AI,2024)都支持128-K上下文。Gemini-1.5-pro甚至支持1M上下文窗口。

图片

长文本LLMs的最近出现自然引出了一个问题:在长文本LLMs的时代,RAG是否还有必要?Li等人(2024)最近系统地比较了RAG与长文本(LC)LLMs(无RAG)并证明,LC LLMs在答案质量方面一致优于RAG。在这项工作中,我们重新审视了长文本答案生成中的RAG的有效性。我们观察到LLMs上下文中检索到的块的顺序对答案质量至关重要。不同于传统的RAG将检索到的块按相关性降序排列,我们提出保持检索到的块在原始文本中的顺序。我们的实验表明,所提出的顺序保持机制显著提高了RAG的答案质量。同时,使用所提出的顺序保持RAG,随着检索到的块数量的增加,答案质量最初上升然后下降。这是因为,随着检索到的块数量的增加,模型可以访问更多潜在相关的信息,这提高了检索到生成高质量答案所需的正确上下文的机会。然而,随着检索到的块数量的增加,引入不相关或分散注意力的信息的可能性也在增加。这些多余的信息可能会混淆模型,导致答案质量下降。因此,折衷在于通过检索更多上下文来提高召回率和通过限制干扰来保持精确度之间。最优点是相关和不相关信息之间的平衡最大化了答案的质量。超过这个点,引入太多不相关信息会降低模型的性能。这解释了将整个长文本上下文作为LLM输入的方法的性能较差。

与Li等人(2024)的结论不同,通过所提出的顺序保持机制,RAG实现了比完全依赖长文本LLMs的对应物更高的答案质量。如图4a所示,在∞Bench的En.QA数据集上(Zhang等人,2024),仅使用16K检索到的token,我们使用Llama3.1-70B实现了44.43 F1分数。相比之下,没有RAG,Llama3.1-70B充分利用128K上下文只实现了34.32 F1分数,GPT-4O只实现了32.36 F1分数,Gemini-1.5-Pro只获得了43.08 F1分数,如Li等人(2024)评估的。也就是说,即使在显著减少输入长度的情况下,RAG也能实现更高的F1分数。

2. 相关工作

检索增强生成。通过将外部知识作为上下文纳入,检索增强生成(RAG)(Guu等人,2020;Lewis等人,2020;Mialon等人,2023)允许语言模型访问最新和特定的信息,减少幻觉并提高事实准确性。在长文本LLMs时代之前,RAG是克服短上下文窗口限制的有前途的解决方案。长文本LLM。为了支持长序列的语言模型,许多努力都投入到提高自注意力(Choromanski等人,2020;Zaheer等人,2020;Tay等人,2020;Dao等人,2022;Dao,2024)的计算效率和提升位置编码的可扩展性(Press等人,2021;Sun等人,2022;Chen等人,2023)上。最近,像GPT-4O(OpenAI,2023)、Gemini-1.5-Pro(Reid等人,2024)、Claudi-3.5(Anthropic,2024)、Grok2(xAI,2024)和Llama3.1(Meta,2024a)这样的旗舰LLMs已经支持非常大的上下文。

随着长文本LLMs的存在,RAG不再是长文本问答任务中不可或缺的模块。最近,Li等人(2024)得出结论,使用长文本而不是RAG可以显著优于RAG。与(Li等人,2024)的结论不同,在这项工作中,我们展示了所提出的顺序保持RAG可以击败没有RAG的长文本LLMs。

3. 顺序保持RAG

让我们将长文本上下文,例如一篇长文档,表示为d。我们将d顺序均匀地分割成N个块,{ci}N i=1。索引i意味着块ci在d中的顺序,即ci−1表示ci之前的块,而ci+1表示ci之后的块。给定一个查询q,我们通过计算q的嵌入和ci的嵌入之间的余弦相似度来获得块ci的相关性分数:

si = cos(emb(q), emb(ci)), (1)

其中cos(·, ·)表示余弦相似度函数,emb(·)表示嵌入函数。我们检索与查询最相似分数最高的前k个块,并将前k个块的索引表示为J = {ji}k i=1。我们保持原始长文本上下文d中块的顺序,即我们限制

jl > jm ⇐⇒ l > m. (2)

图2展示了普通RAG和所提出的顺序保持RAG之间的差异。与普通RAG按相似度降序排列块不同,所提出的顺序保持RAG保持原始文档中块的顺序。

图片

4. 实验

4.1 数据集

我们在Bench(Zhang等人,2024)基准的EN.QA和EN.MC数据集上进行实验,这些数据集专门设计用于长文本QA评估。具体来说,En.QA包含351个人工注释的问题-答案对。平均来说,En.QA中的长上下文包含150,374个单词。我们使用F1分数作为En.QA上的评估指标。EN.MC包含224个问题-答案对,这些对的注释方式与En.QA类似,但每个问题都提供了四个答案选择。平均来说,EN.MC中的长上下文包含142,622个单词。我们使用准确率作为EN.MC上的评估指标。我们注意到还有另一个称为LongBench(Bai等人,2023)的基准。然而,LongBench的平均上下文长度低于20K单词,这不足以评估最近支持128K-token窗口大小的长文本LLMs。

4.2 实现细节

我们将所有数据集上的块大小设置为128个token。块不重叠。我们默认使用BGE-large-env1.5(Xiao等人,2023)来提取查询和块的嵌入。

4.3 消融研究

上下文长度的影响。我们评估了上下文长度对所提出的顺序保持RAG性能的影响。由于每个块包含128个token,上下文长度为128m,其中m是作为生成答案的上下文检索的块的数量。如图3所示,随着上下文长度的增加,性能最初增加。这是因为更多的上下文可能更有机会覆盖相关块。然而,随着上下文长度的进一步增加,答案质量下降,因为使用了更多的不相关块作为干扰。具体来说,Llama3.1-8B模型在EN.QA数据集和EN.MC数据集上当上下文长度为16K时达到性能峰值,而Llama3.1-70B模型在EN.QA上的最佳性能是在48K时实现的,在EN.MC上是在32K时实现的。Llama3.1-70B模型的峰值点比Llama3.1-8B模型晚可能是因为更大规模的模型具有更强的能力来从不相关的干扰中区分相关块。

图片

顺序保持RAG与普通RAG。如图4所示,当检索到的块数量较少时(例如,8),所提出的顺序保持RAG与普通RAG的优势并不显著。相反,当检索到的块数量较大时,我们的顺序保持RAG显著优于普通RAG。具体来说,在EN.QA数据集上,当检索到的块数量为128时,普通RAG仅实现了38.40 F1分数,而我们的顺序保持RAG实现了44.43 F1分数。在EN.MC数据集上,检索192个块时,普通RAG仅实现了81.22准确率,而我们的顺序保持RAG获得了88.65准确率。

图片

4.4 主要结果

我们将所提出的顺序保持RAG与两种类型的基线进行了比较。第一类方法使用没有RAG的长文本LLM。如表1所示,没有RAG,LLM作为输入采取了大量的token,这是低效和昂贵的。相比之下,所提出的顺序保持RAG不仅显著减少了token的数量,而且还显著提高了答案质量。例如,使用Llama3.1-70B模型,没有RAG的方法在EN.QA上仅实现了34.26 F1分数,平均输入了117K token。相比之下,我们的OP-RAG以48K token作为输入达到了47.25 F1分数。第二类基线采用了SELF-ROUTE机制(Li等人,2024),该机制根据模型自我反思将查询路由到RAG或长文本LLM。如表1所示,我们显著优于使用远少于LLMs输入的token。

图片


表1:长文本LLM没有RAG、SELF-ROUTE机制(Li等人,2024)和所提出的顺序保持(OP)RAG之间的比较。

5. 结论

在本文中,我们重新审视了检索增强生成(RAG)在长文本语言模型(LLMs)时代的角色。虽然最近的趋向支持长文本LLMs而不是RAG,因为它们能够整合广泛的文本序列,但我们的研究挑战了这种观点。我们认为LLMs中的极长文本上下文可能导致对相关信息的关注减少,潜在地降低问答任务中的答案质量。为了解决这个问题,我们提出了顺序保持的检索增强生成(OP-RAG)机制。我们在公共基准上的广泛实验已经证明,OP-RAG显著提高了RAG在长文本问答应用中的性能。OP-RAG的优越性能表明,有效的检索和集中的上下文利用可以胜过处理极长文本的蛮力方法。

参考资料

In Defense of RAG in the Era of Long-Context Language Models

作者:Tan Yu, Anbang Xu, Rama Akkiraju

单位:NVIDIA Santa Clara, California United States

标签:人工智能、自然语言处理、检索增强生成、长文本处理、机器学习

概述:文章探讨了在长文本语言模型(LLMs)时代,检索增强生成(RAG)的有效性,并提出了一种新的顺序保持的检索增强生成(OP-RAG)机制,以改善长文本问答应用的性能。

链接:https://arxiv.org/abs/2409.01666

来源:旺知识内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯