文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

模型崩溃!泛滥的AI会反噬自身!牛津大学研究发现:用AI生成数据来二次训练大模型会产生无意义的内容!网友:问题不在于算法

2024-11-29 20:02

关注

出品 | 51CTO技术栈(微信号:blog51cto)

研究人员发现,网络上AI生成内容的积累将导致机器学习模型“崩溃”,除非该行业能够缓解这一风险。

牛津大学的研究团队发现,使用AI生成的数据集来训练未来的模型可能会产生无意义的内容,这一现象被称为模型崩溃。在一个例子中,一个模型起初是关于中世纪欧洲建筑的文本,但到了第九代时,却开始胡言乱语地谈论野兔。

在昨日发表于《自然》杂志的一篇论文中,由谷歌DeepMind和牛津大学博士后研究员Ilia Shumailov领导的研究表明,AI可能无法在训练数据集中捕捉到不太常见的文本行,这意味着基于这些输出训练的后续模型无法继承这些细微差别。以这种方式训练新模型会导致递归循环。

“对语言模型的长期中毒攻击并非新鲜事物,”论文指出。“例如,我们看到了点击、内容和欺诈工厂的创建,这是一种人类‘语言模型’,其工作是误导社交网络和搜索算法。这些中毒攻击对搜索结果产生的负面影响导致了搜索算法的变化。例如,谷歌降低了来自这些工厂的文章的排名,更加重视来自教育等可信来源的内容,而DuckDuckGo则完全移除了这些内容。与LLMs(大型语言模型)的出现不同的是,一旦自动化,这种中毒可以发生的规模。”

1.举例:什么是模型崩溃

在另一篇配套文章中,杜克大学电气与计算机工程助理教授Emily Wenger用一个生成狗图像的系统为例来说明模型崩溃。

“AI模型会倾向于在其训练数据中重新创建最常见的犬种,因此可能会过度代表金毛寻回犬,而相对于更罕见的比熊格里芬凡丁犬,”她说。

“如果后续模型是在过度代表金毛寻回犬的AI生成数据集上进行训练的,那么问题就会加剧。经过足够多的循环,模型将忘记比熊格里芬凡丁犬等稀有犬种的存在,并只生成金毛寻回犬的图片。最终,模型将崩溃,无法生成有意义的内容。”

虽然她承认过度代表金毛寻回犬可能并非坏事,但崩溃的过程对于包含不太常见想法和写作方式的有意义代表性输出来说是一个严重问题。“这是模型崩溃的核心问题,”她说。

缓解这一问题的一个现有方法是给AI生成的内容添加水印。然而,这些水印可以很容易地从AI生成的图像中移除。共享水印信息还需要AI公司之间进行大量协调,“这在实践中可能不可行或商业上不可行,”Wenger说。

Shumailov及其同事表示,使用AI生成的数据来训练模型并非不可能,但行业需要建立一种有效的数据过滤手段。

“需要将LLMs生成的数据与其他数据区分开,这引发了关于从互联网上抓取的内容的原始性的问题:目前尚不清楚如何在大规模上追踪由LLMs生成的内容,”论文指出。

“一个选择是社区范围内的协调,以确保参与LLM创建和部署的不同方面能够共享解决原始性问题所需的信息。否则,如果没有在LLM技术大规模应用之前从互联网上抓取的数据或大规模直接访问由人类生成的数据的权限,训练LLM的新版本可能会变得越来越困难。”

2.万能的网友:这是数据的第二定律

网友们对此纷纷吐槽:

想了解更多AIGC的内容,请访问:

51CTO AI.x社区

https://www.51cto.com/aigc/

来源:51CTO技术栈内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯