文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

怎样解决AI的小数据问题

2023-06-06 03:00

关注

本篇文章给大家分享的是有关怎样解决AI的小数据问题,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。

解决AI的小数据问题对深度学习算法,如果没有足够多的数据进行训练,有两种方法可以解决这个问题:生成合成数据,或者开发可利用小数据展开工作的 AI 模型。
众所周知,深度学习需要数据,其模型训练都是在大量标记数据的基础上进行的,比如,利用数以百万计的动物标记图像训练 AI 学会识别。但大量标记数据对某些应用来说并不适用,在这种情况下,从头开始训练一个 AI 模型,即使可能,也充满了困难。
一个潜在的解决方案是用合成数据扩充真实数据集。这在自动驾驶领域得到了广泛的应用。自动驾驶汽车在逼真的模拟环境中行驶数百万英里,会面临暴风雪以及行人突发行为等各种情况,而针对这些情况,我们很难获取到真实数据。

围绕数据问题的另一种解决方案是开发能够基于小数据集进行学习的 AI 模型。一种名为迁移学习(transfer learning)的方法已在计算机视觉任务中得到应用。该方法使用预先训练的 AI 算法来执行一个有大量标记数据的任务(如识别图像中的汽车),然后将该知识转移到另一个数据很少的不同任务上(如识别卡车)。使用预先训练的模型就像包饺子时使用现成的饺子皮,免去了和面的步骤。

虽然预先训练的模型在计算机视觉领域已经取得了长足的发展,但在自然语言处理(NLP)领域,由于缺乏标记数据,到目前为止,一直是一项极具挑战的工作。不过,一种名为自我监督预训练(self-supervised pre-training)的方法在自然语言处理领域中逐渐流行起来。

所谓自我监督预训练,首先要根据网络上的大量数据训练 AI 模型。例如,OpenAI 进行了一项计算极其密集的任务:用 800 万个网页作为训练数据,训练一个基于给定文本预测下一文本词汇的 AI 模型。这一方法被称为自我监督学习,因为这里不涉及“标签”:AI 通过基于句子中的其他单词预测一个隐藏的单词来学习语言。

另一个典型的例子是谷歌 BERT,其 AI 语言模型不仅可以根据前文内容进行预测,还可以基于后文展开,也就是说该模型采用了双向语言模型的方式,能够更好的融合前后文的知识。

由 Yann LeCun 领导的 Facebook AI 研究部门一直都看好自我监督。比如,他们首先会训练出一个语言模型,然后进行预训练,并对其进行微调以进行仇恨言论的识别。Facebook 还开源了其自我监督语音识别模型,很好地解决了小型研究项目对人工标记文本的需求问题。非英语语言的标注训练数据往往数量有限,针对这个问题, Facebook 开源了代码 wav2vec,这对非英语语言的语音识别尤其有用。

以上就是怎样解决AI的小数据问题,小编相信有部分知识点可能是我们日常工作会见到或用到的。希望你能通过这篇文章学到更多知识。更多详情敬请关注编程网行业资讯频道。

阅读原文内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯