文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

Newbing为什么与其他生成式AI如此不同

2024-11-30 01:06

关注

我前几天发那篇关于多个公共大模型回答数据库问题的性能比较的文章后,有个朋友给我留言说用Newbing去和其他通识大模型做PK有点不公平,因为Newbing是一个工程化的系统,使用RAG+LLM的方式来提供服务,首先通过搜索查找到相关知识,再向大模型提问,性能肯定会比其他LLM要好。可能这个朋友是我对比的几种国产大模型的成员,因此他比较在意我的测试的公正性。事实确实是如此,因为其他大模型提供给我们的接口也是工程化的,不过并没有微软做得好,我也只能暂时这么比较了。

从上面的文字,很多朋友可能已经意识到了,通识大模型直接用于运维支撑,其性能是不足的,必须通过本地知识库的嵌入才能获得比较好的效果。这是因为在专业技术领域,通识大模型往往缺乏足够的专业领域知识,因此对于很多问题,它们只能照猫画虎去瞎猜,性能肯定是不足的。

图片

从去年11月份OpsEval发布运维大模型基准来看,通识大模型在OPS领域的表现不如人意。最主要的问题是幻觉问题,我们可以看出GPT 4.0的3-shot Cot这个标志Few shot思维链的指标也仅仅为88.70,只比Yi-34B-Chat这种参数规模小得多的模型搞出不到10%。这种水准无法作为权威提供服务,只能给人以参考。而对于Zero-shot的性能,就更加可怜了。Yi-34B仅仅为65%,也就是说大约1/3的大模型没有学习过的知识的回答是错误的。通识大模型对于需要精准回答的运维领域来说是能力不够的。

大模型因为训练成本昂贵并且无法增量训练(增量只能做微调),因此想要把层出不穷的新知识不断的添加到模型中去是不大现实的。通过RAG做本地知识库的向量嵌入,或者通过AutoPrompt来优化提问是弥补这一缺陷的有效办法,目前已经被大量的商用。

我前阵子也说过,对于搞技术的人来说,拥有一个能够随时给大家提供帮助的知识库十分重要。虽然说目前Newbing已经能够给我提供很好的帮助,不过在很多时候我依然觉得拥有一个私有知识库是十分必要的。

图片

从去年开始我就一直在关注着蚂蚁的开源项目DB-GPT,这个在12GB显卡上就可以进行推理的大模型框架是DBA建立自己私有智能助理的不错的选择。经过一年的迭代,这个开源项目已经较为成熟了,对于想做这方面工作的朋友,所需的就是做自己的知识库就行了。


来源:白鳝的洞穴内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯