文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

探索Transformer的演变:从基础到高级架构

2024-11-29 20:03

关注

译者 | 李睿

审校 | 重楼

Vaswani等研究人员在2017年发表的开创性论文《注意力是你所需要的一切》中介绍了Transformer架构,该架构不仅彻底改变了语音识别技术,也改变了许多其他领域。本文探讨了Transformer的演变,追溯其从最初设计到最先进模型的发展轨迹,并重点介绍这一过程中取得的重大进展。

原始Transformer

原始Transformer模型引入了几个突破性的概念:

这些元素结合在一起,创建了一个强大而灵活的架构,其性能优于之前的序列到序列(S2S)模型,特别是在机器翻译任务中。

编码器-解码器 Transformer 及其超越发展

最初的编码器-解码器架构已经被改编和修改,并取得了一些显著的进步:

BERT和预训练的兴起

谷歌公司于2018年推出的BERT(基于Transformer的双向编码器表示)是自然语言处理领域的一个重要里程碑。BERT推广并完善了在大型文本语料库上进行预训练的概念,导致了NLP任务方法的范式转变。以下了解BERT的创新及其影响。

掩码语言建模(MLM)

下句预测(NSP)

子单词令牌化

GPT:生成式预训练Transformer

OpenAI公司的生成式预训练Transformer (GPT)系列代表了语言建模方面的重大进步,重点关注用于生成任务的Transformer解码器架构。GPT的每次迭代都在规模、功能和对自然语言处理的影响方面带来了实质性的改进。

GPT-1 (2018年发布)

第一个GPT模型引入了大规模无监督语言理解的预训练概念:

GPT-2 (2019年发布)

GPT-2显著增加了模型大小,并表现出令人印象深刻的零样本学习能力:

GPT-3 (2020年发布)

GPT-3代表了规模和能力的巨大飞跃:

GPT-4 (2023年发布)

GPT-4在之前版本模型奠定的基础上,进一步拓展了语言模型的可能性。

注意力机制的创新

研究人员对注意力机制提出了各种修改,并取得了重大进展:

结论

Transformer架构的演变是显著的。从最初的介绍到现在最先进的模型,Transformer一直在突破人工智能的极限。编码器-解码器结构的多功能性,加上注意力机制和模型架构的不断创新,将继续推动NLP及其他领域的进步。随着研究的继续,人们可以期待进一步的创新,将这些强大的模型的功能和应用扩展到各个领域。

原文Exploring the Evolution of Transformers: From Basic To Advanced Architectures,作者:Suri Nuthalapati

来源:51CTO内容精选内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯