语言模型很少有人学习(GPT-3):
GPT-3取消了几个最先进的模型以在许多NLP基准测试中夺魁之后,超出了所有人的期望。庞大的1750亿参数模型在庞大的语料库上进行了训练,以生成与任务无关的解决方案,以解决许多问题。在单发学习,单发学习和零发学习下进行的评估表明,GPT-3取得了令人鼓舞的结果,通常甚至比微调模型更好。GPT-3的架构与GPT-2几乎相同,在稀疏变压器中,在变压器层中增加了交替的密集和局部带状的稀疏注意模式。
"将GPT-3的出色性能推向未来,表明生命,宇宙和万物的答案仅为4.398万亿个参数。" -图灵奖获得者Geoffrey Hinton。 |
EfficientDet:可扩展且高效的对象检测
Google Research团队今年推出了EfficientDet模型,其速度比以前的物体检测器快3至8倍。同时在模型中减少参数的情况下也可以实现!该模型引入了加权双向特征金字塔网络和一种新的复合缩放方法。该模型的研究论文被认为是最近引入的最高等级的论文之一,人们对该模型的兴趣很高。本文的代码实现。
EfficientDet可能会用于现实世界的应用程序,包括机器人技术和自动驾驶汽车,并且探测器的准确性和效率很高。
AdaBelief优化程序:根据观察梯度中的信念调整步长
亚当(Adam)和随机梯度下降(Stochastic Gradient Descent)是深度学习社区中最常用的优化器,但通常很难在两者之间进行选择。AdaBelief优化器将二者的优势结合在一起成为一个优化器!Adam优化器的收敛速度和SGD的泛化功能都可以。AdaBelief的直觉是根据可以依赖当前方向上的梯度的多少来调整步长。如果预期坡度与预测坡度有很大差异,则我们对坡度的信任度就会降低,并采取较小的步骤。如果观测到的坡度与预测相符,则置信度更高,并且将采取较大的步骤。
图像值16×16字:用于大规模图像识别的变压器
NLP变压器是该领域的一项创新性突破,大多数最新的NLP模型都采用了从变压器导出的方法。作者将与原始变压器类似的模型应用于本文中的图像,以完成图像分类任务。他们使用了所谓的视觉变压器,它是在大型数据集上经过预训练的变压器,并针对诸如NLP变压器的下游任务进行了微调。训练此模型所需的计算量大大减少,该模型可以匹配或优于基于ResNet的基线架构。这篇论文在AI世界中非常流行。
走向类似人的开放域聊天机器人
Google Research推出了一个名为Meena的聊天机器人,该聊天机器人几乎可以进行任何聊天。这是一个生成对话的26亿参数模型,训练了400亿个单词的语料库。该模型建立在进化的变压器上,在多匝对话中进行训练,其中输入序列包括上下文的所有匝,而输出序列是响应。
还引入了一种新的人类评估指标,称为敏感度和敏感度平均值(SSA),它可以测量聊天机器人在回答时具有特定性和意义的能力。
我们仅涵盖了AI 2020中完成的一些新模型和研究。我们还看到了2020年现有AI技术的应用呈指数增长,特别是在主流世界中深度学习的采用。
原文链接:
https://medium.com/dataseries/biggest-innovations-in-artificial-intelligence-in-2020-e2cc6b805464