从文本生成图像到为视频添加特效,AIGC的下一个爆发点是否即将到来?
相信很多人都已经了解了生成式AI技术的魅力,尤其是经历了2022年AIGC的爆发之后,以Stable Diffusion为代表的文本转图像生成技术一度风靡全球,无数用户涌入表达自己的想法。借助人工智能的艺术想象力.
与图像编辑相比,视频编辑是一个更具挑战性的课题。它需要合成新的动作,而不仅仅是修改视觉外观,还需要保持时间一致性。
也有不少企业在探索这条赛道。前段时间,Google 发布了Dreamix,将文本条件视频扩散模型(VDM)应用到视频编辑中。
最近,参与创建Stable Diffusion的公司Runway推出了一种新的人工智能模型“Gen-1”,可以通过应用文本提示或参考图像指定的任何样式将现有视频转换为新视频。
论文链接:https://arxiv.org/pdf/2302.03011
项目主页:https://research.runwayml.com/gen1
2021 年,Runway 与慕尼黑大学的研究人员合作构建了稳定扩散的第一个版本。随后,英国初创公司Stability AI 介入,资助根据更多数据训练模型所需的计算费用。 2022 年,稳定人工智能将稳定扩散带入主流,将其从一个研究项目转变为一种全球现象。
Runway 表示,它希望Gen-1 能够像稳定扩散(Stable Diffusion)为图像所做的那样,为视频提供帮助。
Runway 首席执行官兼联合创始人Cristbal Valenzuela 表示:“我们看到了图像生成模型的爆炸式增长。” “我坚信2023 年将是视频年。”
具体来说,Gen-1 支持多种编辑模式:
1.风格化。将任何图像或提示的风格转移到视频的每一帧。
2.故事板。将您的模型变成完全风格化的动画渲染。
3.面膜。隔离视频中的主题并使用简单的文本提示对其进行修改。
4. 渲染。通过应用输入图像或提示,将无纹理渲染转换为逼真的输出。
5.定制。通过自定义模型以获得更高保真度的结果,释放Gen-1 的全部功能。
在该公司官网发布的演示中,展示了Gen-1如何平滑地改变视频风格。让我们看几个例子。
比如把“街上的人”变成“泥人”,只需要一行提示:
或者把“桌上堆放的书”变成“夜晚的城市景观”:
从“雪上奔跑”到“月球行走”:
少女瞬间化身远古圣贤:
论文详情
视觉效果和视频编辑在当代媒体中无处不在。随着以视频为中心的平台越来越受欢迎,对更直观、更强大的视频编辑工具的需求也在增加。然而,由于视频数据的时间特性,这种格式的编辑仍然复杂且耗时。最先进的机器学习模型在改进编辑过程方面显示出巨大的希望,但许多方法必须在时间一致性和空间细节之间取得平衡。
由于引入了在大规模数据集上训练的扩散模型,图像合成的生成方法最近经历了质量和流行度快速增长的阶段。一些文本条件模型,例如DALL-E 2 和Stable Diffusion,使新手用户只需文本提示即可生成详细图像。潜在扩散模型提供了通过在感知压缩空间中合成来生成图像的有效方法。
在本文中,我们提出了一种可控的结构和内容感知视频传播模型,该模型在无字幕视频和配对文本图像数据的大规模数据集上进行训练。我们选择使用单目深度估计来表示结构,并使用预先训练的神经网络预测的嵌入来表示内容。
该方法在生成过程中提供了几种强大的控制模式:首先,与图像合成模型类似,我们训练模型以将推断的视频内容(例如其外观或风格)与用户提供的图像或文本提示相匹配。 (图1)。其次,受扩散过程的启发,研究人员将信息掩蔽过程应用于结构表示,以便能够选择模型对给定结构的支持程度。最后,我们通过受无分类指导启发的自定义指导方法调整推理过程,以实现对生成片段的时间一致性的控制。
总体而言,本研究的亮点如下:
通过在预训练的图像模型中引入时间层并对图像和视频进行联合训练,将潜在扩散模型扩展到视频生成领域;
提出了一种结构和内容感知模型来修改由样本图像或文本引导的视频。编辑工作完全在推理时间内完成,不需要对每个视频进行额外的训练或预处理;
表现出对时间、内容和结构一致性的完全控制。这项研究首次表明,图像和视频数据的联合训练使推理时间能够控制时间一致性。为了结构连贯性,在表示中的不同细节级别进行训练可以在推理过程中选择所需的设置;
在用户研究中,我们的方法比其他几种方法更受欢迎;
通过微调一小组图像,可以进一步定制训练后的模型,以生成更准确的特定主题视频。
方法
出于研究目的,从内容和结构角度考虑视频将很有帮助。在这里,我们所说的结构是指描述其几何形状和动力学的特征,例如其物体的形状和位置,以及它们的时间变化。对于内容,这里将其定义为描述视频的外观和语义的特征,例如对象的颜色和样式以及场景的照明。 Gen-1 模型的目标是编辑视频内容,同时保留其结构。
为了实现这一目标,我们学习视频x 的生成模型p (x|s, c),以结构表示(用s 表示)和内容表示(用c 表示)为条件。他们从输入视频中推断形状表示s,并根据描述编辑的文本提示c 对其进行修改。首先,描述了生成模型作为条件潜在视频扩散模型的实现,然后描述了形状和内容表示的选择。最后讨论了模型的优化过程。
模型结构如图2所示。
实验
为了评估该方法,研究人员使用了戴维斯的视频和各种材料。为了自动创建编辑提示,研究人员首先运行字幕模型来获取原始视频内容的描述,然后使用GPT-3 生成编辑提示。
定性研究
如图5 所示,结果证明我们的方法在许多不同的输入上表现良好。
用户研究
研究人员还使用Amazon Mechanical Turk (AMT) 对35 个代表性视频编辑提示的评估集进行了用户研究。对于每个样本,5 位注释者被要求比较基线方法和我们的方法之间视频编辑提示的保真度(“哪个视频更好地代表所提供的编辑字幕?”),然后随机顺序呈现,以多数投票来确定最终结果结果。
结果如图7所示:
定量评估
图6 显示了使用我们的框架一致性和提示一致性指标的每个模型的结果。本文模型的性能在两个方面都倾向于超越基线模型(即图中右上角较高)。研究人员还注意到,增加基线模型中的强度参数需要进行一些权衡:更大的强度缩放意味着更高的提示一致性,但代价是较低的帧一致性。他们还观察到,增加结构缩放会导致更高的提示一致性,因为内容不再由输入结构决定。
定制化
图10 显示了具有不同数量的定制步骤和不同级别的结构依赖性ts 的示例。研究人员观察到,定制提高了角色风格和外观的保真度,因此,尽管使用具有不同特征的角色的驱动视频,结合更高的ts 值,仍然可以实现准确的动画效果。
审稿人:李茜