快手开源图生视频模型LivePortrait，等待生成时间仅需10秒，弃扩散改用隐式关键点框架技术，网友：强得可怕-编程学习网

快手开源了LivePortrait模型！

要知道，可灵的文生视频和图生视频功能不仅备受关注，还一路火到了海外。

这次开源的LivePortrait效果也十足惊艳！虽然驱动肖像生成视频的技术并不算新鲜，但还是靠效果征服了观众。

图片

网友直呼，“太可灵了”。根据推测，这个技术很可能已经在快影接入的可灵模型里应用了一段时间了。

毫无疑问，此次开源大大降低了拥有自己数字人的门槛！

更妙的是，网友尝试用开源的代码进行部署。发现生成10秒视频竟然也只需10秒，速度快得可怕。

超快的速度意味着LivePortrait的生成能力已经无限逼近实时。未来将可能在实时应用上大展拳脚，例如视频会议、社交媒体直播和实时游戏动画等场景。

可灵创作者群@guohunyo作品项目地址，感兴趣的朋友请移步GitHub：

https://github.com/KwaiVGI/LivePortrait?tab=readme-ov-file

论文地址：

https://arxiv.org/pdf/2407.03168

读了这篇《LivePortrait：具有缝合和重定向控制的高效肖像动画》论文后，我们发现快手在LivePortrait模型上进行了许多创新和改进。

其中最引人关注的是：LivePortrait放弃了我们所熟知的扩散模型，而是采用了隐式关键点框架。

被网友昵称为：挤眉弄眼模型

1.隐式关键点框架：不止于快的秘诀

LivePortrait的架构包括多个关键组件：外观特征提取器、规范隐式关键点检测器、头部姿势估计网络、表情变形估计网络、扭曲场估计器和生成器。

这些组件协同工作，将源图像的特征与驱动视频的运动特征结合起来，生成最终的动画。

不同于此前走红的阿里的EMO，其使用了稳定扩散方案来生成视频，通过逐步引入和去除噪声在潜在空间中生成一帧帧图像。

LivePortrait的隐式关键点框架使用一组抽象的特征来表示图像。这些特征重点捕捉了图像的重要信息，例如面部特征、轮廓等。

生成人物动作和表情时，LivePortrait更不容易“崩坏”。这是因为关键点通常对应于面部的特定部位，如眼角、嘴角、鼻子等，这些关键点的位置和变化可以驱动面部表情和头部运动。

因此，隐式关键点框架具备良好的灵活性。通过操作关键点，模型可以更精确地控制面部动画的细节，实现平滑和逼真的过渡效果。

图片

上图：模型可以生动地对图像进行动画化，确保无缝拼接，并提供对眼睛和嘴唇运动的精确控制。

同时，关键点的方式使得模型的泛化能力也得到提升。通过学习关键点的运动模式，LivePortrait可以更好地泛化到新的、未见过的图像上。

而扩散模型通常需要更长的推理时间，因为逐步去噪的方法注定增多了生成步骤，使得生成每一帧图像的时间较长，无法达到“实时”效果。

2.训练方法和训练数据

在训练方法上LivePortrait的训练分成了两个阶段。

第一阶段，模型在没有任何预训练的权重下，从零开始全面训练，使用了8个NVIDIA A100 GPU，训练时间约为10天。使用了ConvNeXt-V2-Tiny作为主干网络，有助于减少模型的计算负担。

第二阶段，只训练缝合和重定向模块，而保持其他参数不变。训练缝合模块可以确保动画后的肖像能够无缝地融入原始图像空间，特别是在处理多人肖像或全身图像时；而训练眼睛和嘴唇的重定向模块，以便能够根据驱动视频精确控制这些面部特征的运动。第二阶段的训练时间约为2天。

在训练数据上，LivePortrait的训练数据规模扩展到了约6900万高质量的帧，训练数据包括各种姿势和表情的4K分辨率肖像视频，以及大量的头部谈话视频。

现在，训练数据的质量越来越受到重视。LivePortrait也使用了一些“巧思”确保数据的高质量。

首先，LivePortrait使用了KVQ等工具来排除低质量的视频片段。其次，在训练数据中，将长视频分割为不超过30秒的片段，确保每个片段只包含一个人，让模型更精准的学习一个人的表情活动。此外，数据十分注重身份多样性，使用的训练数据来自约18.9K个不同的身份，有效避免对特定身份的过拟合。

3.写在最后

图生视频技术正在跑步进入下一个阶段。

在此时，腾讯却突然宣布将“数字人”驱逐出视频号。腾讯计划通过修订《视频号橱窗达人“发布低质量内容”实施细则》来进一步限制使用数字人直播，将使用AI工具生成虚拟形象进行直播等行为明确列入低质量内容。

这无疑释放了一个信号：AI等技术生成内容带来的风险仍不可小觑，内容的不可控、直播“翻车”、误导消费者等等仍然是技术尚未解决的难题。

事实正在侧面印证这一观点，每当有社会新闻诞生时，就不乏好事者用当事人的图像生成煽动性的动态图像。

这很可能倒逼平台收紧生成政策，不断叠加敏感词，抱着“宁可错杀一千不能放过一个”的方式来对待用户的prompt。

图片

技术进步并非孤立发生。本身中性的技术如果被滥用，其影响可能深远且复杂。

在这样的背景下，我们不得不深思：公众的媒介素养应该如何提升，才能追得上技术的日新月异。这不仅关乎技术生态的健康发展，更关乎文明。

想了解更多AIGC的内容，请访问：

51CTO AI.x社区

https://www.51cto.com/aigc/

文章详情

快手开源图生视频模型LivePortrait，等待生成时间仅需10秒，弃扩散改用隐式关键点框架技术，网友：强得可怕

1.隐式关键点框架：不止于快的秘诀

2.训练方法和训练数据

3.写在最后

软考中级精品资料免费领

相关文章

猜你喜欢

快手开源图生视频模型LivePortrait，等待生成时间仅需10秒，弃扩散改用隐式关键点框架技术，网友：强得可怕