文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

微软分享超大基于Transformer架构的语言生成模型

2024-12-24 20:17

关注

本文转自雷锋网,如需转载请至雷锋网官网申请授权。

微软 AI&Research 今天分享了有史以来最大的基于 Transformer 架构的语言生成模型 Turing NLG(下文简称为T-NLG),并开源了一个名为 DeepSpeed 的深度学习库,以简化对大型模型的分布式培训。

  基于 Transformer 的架构,意味着该模型可以生成单词来完成开放式文本任务。除了完成未完成的句子外,它还可以生成对输入文档的问题和摘要的直接答案。

  去年 8 月,英伟达曾宣布已训练世界上最大的基于 Transformer 的语言模型,当时该模型使用了 83 亿个参数,比 BERT 大 24 倍,比 OpenAI 的 GPT-2 大 5 倍。

  而此次微软所分享的模型,T-NLG 的参数为 170 亿个,是英伟达的 Megatron(现在是第二大 Transformer 模型)的两倍,其参数是 OpenAI 的 GPT-2 的十倍。微软表示,T-NLG 在各种语言建模基准上均优于最新技术,并在应用于许多实际任务(包括总结和问题解答)时表现出色。

  不过,像 Google 的 Meena 一样,最初使用 GPT-2,T-NLG 最初只能在私人演示中共享。

  微软 AI 研究应用科学家 Corby Rosset 在博客文章中写道:“除了通过汇总文档和电子邮件来节省用户时间之外,T-NLG 还可以通过为作者提供写作帮助,并回答读者可能对文档提出的问题,由此来增强 Microsoft Office 套件的使用体验。” 

  具有 Transformer 架构的语言生成模型可以预测下一个单词。它们可用于编写故事,以完整的句子生成答案以及总结文本。

  微软表示,他们的目标是在任何情况下都能够像人类一样直接,准确,流畅地做出响应:以前,问题解答和摘要系统依赖于从文档中提取现有内容,这些内容可以作为备用答案或摘要,但它们通常看起来不自然或不连贯。使用T-NLG 这样的自然语言生成模型,可以自然地总结或回答有关个人文档或电子邮件主题的问题。

  来自 AI 领域的专家告诉 VentureBeat,2019 年是 NLP 模型开创性的一年——使用 Transformer 架构无疑是 2019 年最大的机器学习趋势之一,这导致了语言生成领域和 GLUE 基准测试领导者的进步,Facebook 的 RoBERTa、谷歌的 XLNet 和微软的 MT-DNN 都纷纷加入到各类基准测试榜首的争夺当中。

  同样是在今天,微软还开源了一个名为 DeepSpeed 的深度学习库。该学习库已针对开发人员进行了优化,以提供低延迟、高吞吐量的推理。

  DeepSpeed 包含零冗余优化器(ZeRO),用于大规模训练具有 1 亿个或更多参数的模型,微软过去曾用它训练T-NLG。

  微软表示,DeepSpeed 和 ZeRO 使得他们能够降低模型并行度(从 16 降低到4),将每个节点的批处理大小增加四倍,并将训练时间减少了三分之二;DeepSpeed 使用更少的 GPU 可以使大型模型的训练效率更高。

  开发人员和机器学习从业人员都可以使用 DeepSpeed 和 ZeRO,因为培训大型网络(例如利用 Transformer 架构的网络)可能会很昂贵,并且可能会遇到大规模问题。

  另外,Google 的 DeepMind 今天也发布了一种新的远程内存模型 Compressive Transformer,以及一种针对书本级语言建模的新基准 PG19。

 

来源:雷锋网内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯