文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

Meta 介绍 AI 图像编辑工具 Emu Edit / Video:使用 1000 万个数据集训练,号称远超竞品

2024-11-30 04:50

关注

官方介绍称,Emu Edit 模型仅用文字指令就可以准确编辑图像,而通过分解文字转视频(Text-to-Video,T2V)的生成过程,开发团队公布了一种名为 Emu Video 的方法,可以改善最终生成视频的品质和多样性。

据悉,Emu Edit 号称是一种创新的影像编辑方法,目的是要简化各种影音操作任务,为视频编辑提供更多功能与更高的精确度。

Emu Edit 可以接受用户指令,进行各种形式的编辑,包括区域和全局编辑、移除和添加背景,也能够调整颜色并进行矢量图转换,或进行图像构成元素的检测和分割。

Meta 表示,Emu Edit 把视觉任务作为指令,纳入到所生成模型中,进而在视频生成和编辑中,提供更好的控制能力。研究人员指出,当前的图像编辑模型,通常会过度修改图像,或是修改不足,而 Emu Edit 的优势在于能够准确按照指令进行编辑。

Meta 使用了 1000 万个合成数据集训练 Emu Edit,号称是目前同类中规模最大的数据集,从而带来了更好的图像编辑能力,其中每个样本都包含图像输入、任务描述,以及目标输出图像。可使模型忠实地执行指令,产生“比当前所有竞品都要好的结果”。

而 Emu Video 是一种简单且高效的文字转视频生成方法,该方法运用扩散模型,并以 Emu Edit 为基础。开发团队解释,这种通过生成视频的架构能够应对外界各种输入方式,包括文字、图像、图文组合等,此外 Emu Video 也能接受文字类提示词,将用户提供的图像“动画化”,从而提供了“超越过去模型的能力”。

Emu Video 将影片生成过程拆分为两个步骤,首先是根据文字提示生成图像,然后基于文字和生成图像产生视频。这种拆分步骤的影片生成方法,让研究人员可以有效地训练生成模型。

研究人员进一步解释,Emu Video 与过去 Make-A-Video 等需要一系列深度生成模型的研究不同,Emu Video 更简单,仅使用 2 个扩散模型,就能生成 512x512 分辨率、每秒 16FPS、长 4 秒钟的视频

IT之家发现,Meta 援引评估数据,证明 Emu Video 生成的视频品质以及“遵循提示词的忠实程度”相对业内竞品更好。

在品质方面,有 96%受访者偏好 Emu Video 而非此前的 Make-A-Video 方案,而对于“提示词的忠实度”方面,Emu Video 获得了 85%受访者的青睐。

来源:IT之家内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯