本篇文章给大家分享的是有关怎样解决AI的小数据问题,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。
解决AI的小数据问题对深度学习算法,如果没有足够多的数据进行训练,有两种方法可以解决这个问题:生成合成数据,或者开发可利用小数据展开工作的 AI 模型。
众所周知,深度学习需要数据,其模型训练都是在大量标记数据的基础上进行的,比如,利用数以百万计的动物标记图像训练 AI 学会识别。但大量标记数据对某些应用来说并不适用,在这种情况下,从头开始训练一个 AI 模型,即使可能,也充满了困难。
一个潜在的解决方案是用合成数据扩充真实数据集。这在自动驾驶领域得到了广泛的应用。自动驾驶汽车在逼真的模拟环境中行驶数百万英里,会面临暴风雪以及行人突发行为等各种情况,而针对这些情况,我们很难获取到真实数据。
围绕数据问题的另一种解决方案是开发能够基于小数据集进行学习的 AI 模型。一种名为迁移学习(transfer learning)的方法已在计算机视觉任务中得到应用。该方法使用预先训练的 AI 算法来执行一个有大量标记数据的任务(如识别图像中的汽车),然后将该知识转移到另一个数据很少的不同任务上(如识别卡车)。使用预先训练的模型就像包饺子时使用现成的饺子皮,免去了和面的步骤。
虽然预先训练的模型在计算机视觉领域已经取得了长足的发展,但在自然语言处理(NLP)领域,由于缺乏标记数据,到目前为止,一直是一项极具挑战的工作。不过,一种名为自我监督预训练(self-supervised pre-training)的方法在自然语言处理领域中逐渐流行起来。
所谓自我监督预训练,首先要根据网络上的大量数据训练 AI 模型。例如,OpenAI 进行了一项计算极其密集的任务:用 800 万个网页作为训练数据,训练一个基于给定文本预测下一文本词汇的 AI 模型。这一方法被称为自我监督学习,因为这里不涉及“标签”:AI 通过基于句子中的其他单词预测一个隐藏的单词来学习语言。
另一个典型的例子是谷歌 BERT,其 AI 语言模型不仅可以根据前文内容进行预测,还可以基于后文展开,也就是说该模型采用了双向语言模型的方式,能够更好的融合前后文的知识。
由 Yann LeCun 领导的 Facebook AI 研究部门一直都看好自我监督。比如,他们首先会训练出一个语言模型,然后进行预训练,并对其进行微调以进行仇恨言论的识别。Facebook 还开源了其自我监督语音识别模型,很好地解决了小型研究项目对人工标记文本的需求问题。非英语语言的标注训练数据往往数量有限,针对这个问题, Facebook 开源了代码 wav2vec,这对非英语语言的语音识别尤其有用。
以上就是怎样解决AI的小数据问题,小编相信有部分知识点可能是我们日常工作会见到或用到的。希望你能通过这篇文章学到更多知识。更多详情敬请关注编程网行业资讯频道。