无需微调,一张照片即可换脸、换背景,NUS等华人团队破局个性化视频生成

这项研究为个性化视频编辑领域带来了新的可能性,使得生成个性化内容变得更加简便和高效。

‍随着扩散模型的发展,基于输入文本生成高质量的图片和视频已经成为现实,但是仅使用文本生成视觉内容的可控性有限。

为了克服这个问题,研究人员们开始探索额外的控制信号和对现有内容进行编辑的方法。这两个方向在一定程度上实现了生成过程的可控性,但仍然需要依赖文本来描述目标生成内容。

在实际应用中,我们面临着一个新的需求:如果用户想要生成的内容无法用语言描述呢?

例如,用户想生成某一个普通人的视频,但仅在输入文本中使用普通人的名字是无意义的,因为语言模型无法识别不在训练语料中的个体姓名。

针对这个问题,一种可行的解决方案是基于给定个体训练个性化的模型。

例如,DreamBooth和Dreamix通过多张图片理解个体概念,从而进行个性化的内容生成,不过这两种方法需要对每个个体分别进行学习,并且需要该个体的多张训练图片和精细化调参。

最近,来自新加坡国立大学(NUS)和华为诺亚实验室的研究者们在个性化视频编辑上取得了新的进展,通过多个集成模型的协同工作,无需对个性化概念进行额外的训练和微调,仅仅需要一张目标参考图片,就能实现对已有视频的主角替换、背景替换以及特定主角的文生视频。

无需微调,一张照片即可换脸、换背景,NUS等华人团队破局个性化视频生成

这项研究为个性化视频编辑领域带来了新的可能性,使得生成个性化内容变得更加简便和高效。

无需微调,一张照片即可换脸、换背景,NUS等华人团队破局个性化视频生成

无需微调,一张照片即可换脸、换背景,NUS等华人团队破局个性化视频生成

无需微调,一张照片即可换脸、换背景,NUS等华人团队破局个性化视频生成

介绍

Make-A-Protagonist将视频分为主角和背景,对二者使用视觉或语言参考信息,从而实现主角编辑、背景编辑和特定主角的文生视频。

无需微调,一张照片即可换脸、换背景,NUS等华人团队破局个性化视频生成

主角编辑功能允许用户使用相同的场景描述,但通过参考图像来替换视频中的主角。这意味着用户可以使用自己选择的图像来替换视频中的主要角色。

无需微调,一张照片即可换脸、换背景,NUS等华人团队破局个性化视频生成

背景编辑功能允许用户使用与原始视频相同的主角描述(例「Suzuki Jimny」),并使用原始视频帧作为视觉信息,但可以更改对场景的文字描述(例如「in the rain」)。这样,用户可以保持相同的主角,但改变场景的描述,营造出不同的视觉效果。

无需微调,一张照片即可换脸、换背景,NUS等华人团队破局个性化视频生成

特定主角的文生视频功能将主角编辑和背景编辑结合起来。用户可以使用参考图像作为主角,并对场景进行描述,从而创造出全新的视频内容。此外,对于多主角视频,Make-A-Protagonist还可以对单个或多个角色进行更改。

无需微调,一张照片即可换脸、换背景,NUS等华人团队破局个性化视频生成

与DreamBooth和Dreamix不同,Make-A-Protagonist仅需要单张参考图像,不需要对每个概念进行微调,因此在应用场景上更加灵活多样。Make-A-Protagonist为用户提供了一种简便而高效的方式来实现个性化的视频编辑和生成。

方法

无需微调,一张照片即可换脸、换背景,NUS等华人团队破局个性化视频生成

Make-A-Protagonist使用多个强大的专家模型,对原视频、视觉和语言信息进行解析,并结合基于视觉语言的视频生成模型和基于掩码的去噪采样算法,实现通用视频编辑。该模型主要由三个关键部分组成:原视频解析,视觉和语言信息解析,以及视频生成。

具体来说,Make-A-Protagonist推理过程包括以下三步:首先使用BLIP-2, GroundingDINO、Segment Anything 和 XMem等模型对原视频进行解析,获得视频的主角掩码,并解析原视频的控制信号。

接下来,使用CLIP和DALL-E2Prior对视觉和语言信息进行解析。最后,使用基于视觉语言的视频生成模型和基于掩码的去噪采样算法,利用解析信息生成新的内容。

Make-A-Protagonist的创新之处在于引入了基于视觉语言的视频生成模型和基于掩码的去噪采样算法,通过整合多个专家模型并解析、融合多种信息,实现了视频编辑的突破。

这些模型的运用使得该系统更加精准地理解原视频、视觉和语言信息,并能够生成高质量的视频内容。

Make-A-Protagonist为用户提供了一款强大而灵活的工具,让他们能够轻松进行通用的视频编辑,创作出独特而令人惊艳的视觉作品。

1.原视频解析

原视频解析的目标是获取原视频的语言描述(caption)、主角文字描述、主角分割结果以及ControlNet所需的控制信号。

针对caption和主角文字描述,Make-A-Protagonist采用了BLIP-2模型。

通过对BLIP-2的图像网络进行修改,实现了对视频的解析,并使用captioning模式生成视频的描述,这些描述在训练和视频编辑中用于视频生成网络。

对于主角文字描述,Make-A-Protagonist使用VQA模式,提出问题:「视频的主角是什么?」并使用答案进一步解析原视频中的主角信息。

在原视频中的主角分割方面,Make-A-Protagonist利用上述得到的主角文字描述,在第一帧中使用GroundingDINO模型来定位相应的检测内容,并使用Segment Anything模型获得第一帧的分割掩码。然后,借助跟踪网络(XMem),Make-A-Protagonist得到整个视频序列的分割结果。

除此之外,Make-A-Protagonist利用ControlNet来保留原视频的细节和动作,因此需要提取原视频的控制信号。文中使用了深度信号和姿态信号。

通过这些创新的解析方法和技术,Make-A-Protagonist能够准确地解析原视频的语言描述、主角信息和分割结果,并提取控制信号,为后续的视频生成和编辑打下了坚实的基础。

2.视觉和语言信息解析

对于视觉信号,Make-A-Protagonist在本文中采用CLIP image embedding作为生成条件,为了去除参考图像背景的影响,类似于原视频解析,Make-A-Protagonist使用GroundingDINO和Segment Anything得到参考图像主角的分割掩码,使用掩码将分割后的图像输入CLIP视觉模型,以获取参考视觉信息。

语言信息主要用于控制背景,本文将语言信息用于两方面,一方面使用CLIP语言模型提取特征,作为注意力网络的key和value。

另一方面,使用DALL-E2Prior网络,将语言特征转化为视觉特征,从而增强表征能力。

3.视频生成

无需微调,一张照片即可换脸、换背景,NUS等华人团队破局个性化视频生成

3.1视频生成网络训练

为了充分利用视觉信息,Make-A-Protagonist使用Stable UnCLIP作为预训练模型,并对原视频进行微调,从而实现利用视觉信息进行视频生成。

在每个训练迭代中,Make-A-Protagonist提取视频中随机一帧的CLIP image embedding,将其作为视觉信息输入到Residual block中。

3.2基于掩码的去噪采样

无需微调,一张照片即可换脸、换背景,NUS等华人团队破局个性化视频生成

为融合视觉信息和语言信息,本文提出基于掩码的去噪采样,在特征空间和隐空间对两种信息进行融合。

具体来说,在特征域,Make-A-Protagonist使用原视频的主角掩码,将主角对应部分使用视觉信息,背景对应部分使用DALL-E2Prior转化后的语言信息:

无需微调,一张照片即可换脸、换背景,NUS等华人团队破局个性化视频生成

在隐空间中,Make-A-Protagonist将仅使用视觉信息的推理结果和经过特征融合的推理结果按照原视频的主角掩码进行融合:

无需微调,一张照片即可换脸、换背景,NUS等华人团队破局个性化视频生成

通过特征空间和隐空间的信息融合,生成的结果更加真实,并且与视觉语言表述更加一致。

总结

Make-A-Protagonist引领了一种全新的视频编辑框架,充分利用了视觉和语言信息。

该框架为实现对视觉和语言的独立编辑提供了解决方案,通过多个专家网络对原视频、视觉和语言信息进行解析,并采用视频生成网络和基于掩码的采样策略将这些信息融合在一起。

Make-A-Protagonist展现了出色的视频编辑能力,可广泛应用于主角编辑、背景编辑和特定主角的文生视频任务。

Make-A-Protagonist的出现为视频编辑领域带来了新的可能性。它为用户创造了一个灵活且创新的工具,让他们能够以前所未有的方式编辑和塑造视频内容。

无论是专业编辑人员还是创意爱好者,都能够通过Make-A-Protagonist打造出独特而精彩的视觉作品。

参考资料:

https://make-a-protagonist.github.io/

郑重声明:本文内容及图片均整理自互联网,不代表本站立场,版权归原作者所有,如有侵权请联系管理员(admin#wlmqw.com)删除。
(0)
用户投稿
上一篇 2023年5月26日
下一篇 2023年5月26日

相关推荐

  • 没经验怎么开广告公司新手开办广告公司应注意什么问题

    【提示】根据网络资料整理而成 一、首先需要确定,你需要开办什么类型的广告公司? 广告公司有很多类型,按照功能性可以分为: 1、代理广告客户策划广告——广告策划公司;2、为广告客户制…

    2022年11月28日
  • 夏至和立夏分别是什么意思 立夏和夏至的理解

    在夏天的节气中国,只有两个节气是有夏字的,这两个节气分别是夏至和立夏,遇见这两个节气,大家以为是同样的意思,其实夏至和立夏是两个不同的节气,那么夏至和立夏分别是什么意思呢?想知道立…

    2022年7月31日
  • 消息称3nm客户临时取消订单 台积电被逼大砍一刀

    消息称3nm客户临时取消订单 台积电被逼大砍一刀 半导体行业正在出现戏剧性的一幕,过去两年各种缺货、涨价的牛气不再,现在业界担心的是各种砍单,贵为晶圆代工一哥的台积电也不能幸免,不…

    2022年11月2日
  • 左右逢源是什么生肖图财帛(左右逢源是什么生肖)

    提起左右逢源是什么生肖,大家都知道,有人问左右逢源是什么生肖图财帛,你知道这是怎么回事?其实左右逢源是什么生肖图财帛,下面就一起来看看左右逢源是什么生肖,希望能够帮助到大家! 左右…

    2023年5月2日
  • 印方将交还一迷路的中国军人 真相曝光让人不寒而栗。

    谈,大门敞开;打,奉陪到底!中印建交70周年的2020年,两国的关系却起伏不断。10月,中印已举行第七轮军长级会谈,但结果似乎仍不算乐观。从6月的边境冲突开始,中国一直对印度采取以…

    2022年6月12日
  • 维金斯回归 离队原因水落石出 明日将场边观赛

    确切消息,维金斯回来了!据NBA知名记者Shams报道,维金斯即将飞回湾区归队,明天勇士主场对阵雷霆,维金斯不会出战,但会在场边观看比赛。 勇士会先考察维金斯的身体情况,确保他做好…

    2023年5月14日
  • 马斯克:将继续为乌免费提供“星链”网络服务

    参考消息网10月16日报道据新加坡《联合早报》网站报道,美国太空探索技术公司总裁马斯克15日宣布,该公司将继续支付乌克兰的“星链”网络服务费用。 报道称,马斯克15日在社交媒体上写…

    2022年10月19日
  • 小米售后和官方维修中心(小米手机保修期是多久)

    小米手机保修期是多久? 1、小米手机保修期是12个月,凭购机发票按购机时间计算12个月保修期。在保修期内,手机在正常使用过程中,如产品出现功能性故障或质量问题,经小米公司授权服务网…

    2023年10月25日
  • 缠住吻住春风吹住我吗是什么歌(缠住吻住春风吹住我吗音译)

    现在大家在短视频上经常可以听到许多好听的歌曲,其中有很多都是老歌,当初没火,现在大家却争相翻唱。近期有首歌比较火,也是一首老歌被人又重新翻出来的,有句歌词是“缠住吻住春风吹住我吗”…

    2023年4月14日
  • 章若楠身高年龄多少

    被大眼甜妹章若楠圈粉了,好奇章若楠个人资料简介身高年龄多少?她五官精致长得很有灵气,想问章若楠毕业于哪所大学呢?磕到了她和陈伟霆的cp,两人俊男美女真的很般配,不知道章若楠男朋友是…

    2023年6月2日

联系我们

联系邮箱:admin#wlmqw.com
工作时间:周一至周五,10:30-18:30,节假日休息