文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

腾讯开源视频生成新工具,论文还没发先上代码的那种

2024-11-30 00:23

关注

51CTO AI.x社区

https://www.51cto.com/aigc/

先上代码再发论文,腾讯新开源文生视频工具火了。

名为MuseV,主打基于视觉条件并行去噪的无限长度和高保真虚拟人视频生成。

老规矩,先看效果。

静态的金克丝秒秒钟就能动起来朝你抛媚眼:

画中诗圣也“活”了过来:

各种风格都能驾驭,风景图也不在话下:

更有搞笑风《微笑的骑士》:

再上难度,复杂些的弹唱也处理得比较自然:

此外,加入“骨架”控制动作、姿势也可以:

腾讯这次论文还没发直接放出训练好的模型和部署运行的代码的操作让网友眼前一亮。主页显示训练代码也即将推出。

不少人已趁热码住,GitHub获星500+。

还有网友已经玩上了:

围观网友直呼距离成为视频达人只差一个AI。

嘴唇也能同步

除了直接放出模型代码,目前MuseV还有demo可体验。

demo界面有两种玩法。

一种可以上传一张图然后加上Prompt在这张图的基础上进行视频生成;另一种是上传一个参考视频和一张图,使图片中的内容按照视频中的动作运动起来。

紧接着下方还有一些参数可以调整。可以自定义视频的时长以及视频的尺寸。

此外值得一提的是,文本、图像到视频的生成结果的所有帧直接由MuseV生成,没有时序超分辨、空间超分辨等任何后处理。

而输入视频控制姿态的生成模式下,开发团队表示需要参考视频的首帧条件和参考图像的首帧条件对齐,不然会破坏首帧的信息,效果会更差。所以一般生成流程是:

除MuseV,开发团队还表示即将发布一个实时高质量的唇同步模型——MuseTalk,可与MuseV一起搭配使用。

用上它,蒙娜丽莎也能对嘴型唱歌。

MuseV里面长啥样?

技术方面,据了解MuseV是在去年7月左右基于扩散模型实现的技术进展,受到Sora启发,开发团队决定开源MuseV,之后将转向扩散+Transformer方案。

也就是说,MuseV是基于扩散模型的虚拟人视频生成框架

模型架构如下图所示:

总的来说,MuseV具有以下特点:

首先是支持使用新颖的视觉条件并行去噪方案进行无限长度生成,不会再有误差累计的问题,尤其适用于固定相机位的场景。

并行去噪算法示意图如下:

其次,MuseV提供了基于人物类型数据集训练的虚拟人视频生成预训练模型。

而且支持图像到视频、文本到图像到视频、视频到视频的生成;兼容Stable Diffusion文图生成生态系统,包括base_model、lora、controlnet等。

还支持多参考图像技术,包括IPAdapter、ReferenceOnly、ReferenceNet、IPAdapterFaceID。

想了解更多AIGC的内容,请访问:

51CTO AI.x社区

https://www.51cto.com/aigc/

来源:量子位内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯