让GAN再次伟大!拽一拽关键点就能让狮子张嘴&大象转身,汤晓鸥弟子的DragGAN爆火,网友:R.I.P. Photoshop

这两天,一段AI修图视频在国内外社交媒体上传疯了。

不仅直接蹿升B站关键词联想搜索第一,视频播放上百万,微博推特也是火得一塌糊涂,转发者纷纷直呼“PS已死”。

让GAN再次伟大!拽一拽关键点就能让狮子张嘴&大象转身,汤晓鸥弟子的DragGAN爆火,网友:R.I.P. Photoshop

怎么回事?

原来,现在P图真的只需要“轻轻点两下”,AI就能彻底理解你的想法!

小到竖起狗子的耳朵:

让GAN再次伟大!拽一拽关键点就能让狮子张嘴&大象转身,汤晓鸥弟子的DragGAN爆火,网友:R.I.P. Photoshop

大到让整只狗子蹲下来,甚至让马岔开腿“跑跑步”,都只需要设置一个起始点和结束点,外加拽一拽就能搞定:

让GAN再次伟大!拽一拽关键点就能让狮子张嘴&大象转身,汤晓鸥弟子的DragGAN爆火,网友:R.I.P. Photoshop

不止是动物的调整,连像汽车这样的“非生物”,也能一键拉升底座,甚至升级成“加长豪华车”:

让GAN再次伟大!拽一拽关键点就能让狮子张嘴&大象转身,汤晓鸥弟子的DragGAN爆火,网友:R.I.P. Photoshop

这还只是AI修图的“基操”。

要是想对图像实现更精准的控制,只需画个圈给指定区域“涂白”,就能让狗子转个头看向你:

让GAN再次伟大!拽一拽关键点就能让狮子张嘴&大象转身,汤晓鸥弟子的DragGAN爆火,网友:R.I.P. Photoshop

或是让照片中的小姐姐“眨眨眼”:

让GAN再次伟大!拽一拽关键点就能让狮子张嘴&大象转身,汤晓鸥弟子的DragGAN爆火,网友:R.I.P. Photoshop

甚至是让狮子张大嘴,连牙齿都不需要作为素材放入,AI自动就能给它“安上”:

让GAN再次伟大!拽一拽关键点就能让狮子张嘴&大象转身,汤晓鸥弟子的DragGAN爆火,网友:R.I.P. Photoshop

让GAN再次伟大!拽一拽关键点就能让狮子张嘴&大象转身,汤晓鸥弟子的DragGAN爆火,网友:R.I.P. Photoshop

如此“有手就能做”的修图神器,来自一个MIT、谷歌、马普所等机构联手打造的DragGAN新模型,论文已入选SIGGRAPH2023。

让GAN再次伟大!拽一拽关键点就能让狮子张嘴&大象转身,汤晓鸥弟子的DragGAN爆火,网友:R.I.P. Photoshop

没错,在扩散模型独领风骚的时代,竟然还能有人把GAN玩出新花样!

让GAN再次伟大!拽一拽关键点就能让狮子张嘴&大象转身,汤晓鸥弟子的DragGAN爆火,网友:R.I.P. Photoshop

让GAN再次伟大!拽一拽关键点就能让狮子张嘴&大象转身,汤晓鸥弟子的DragGAN爆火,网友:R.I.P. Photoshop

目前这个项目在GitHub上已经有5k+ Star,热度还在不断上涨中(尽管一行代码还没发)。

让GAN再次伟大!拽一拽关键点就能让狮子张嘴&大象转身,汤晓鸥弟子的DragGAN爆火,网友:R.I.P. Photoshop

所以,DragGAN模型究竟长啥样?它又如何实现上述“神一般的操作”?

让GAN再次伟大!拽一拽关键点就能让狮子张嘴&大象转身,汤晓鸥弟子的DragGAN爆火,网友:R.I.P. Photoshop

拽一拽关键点,就能修改图像细节

这个名叫DragGAN的模型,本质上是为各种GAN开发的一种交互式图像操作方法。

论文以StyleGAN2架构为基础,实现了点点鼠标、拽一拽关键点就能P图的效果。

具体而言,给定StyleGAN2生成的一张图像,用户只需要设置几个控制点(红点)和目标点(蓝点),以及圈出将要移动的区域(比如狗转头,就圈狗头)。

让GAN再次伟大!拽一拽关键点就能让狮子张嘴&大象转身,汤晓鸥弟子的DragGAN爆火,网友:R.I.P. Photoshop

然后模型就将迭代执行运动监督和点跟踪这两个步骤,其中运动监督会驱动红色的控制点向蓝色的目标点移动,点跟踪则用于更新控制点来跟踪图像中的被修改对象。

这个过程一直持续到控制点到达它们对应的目标点。

让GAN再次伟大!拽一拽关键点就能让狮子张嘴&大象转身,汤晓鸥弟子的DragGAN爆火,网友:R.I.P. Photoshop

不错,运动监督和点跟踪就是我们今天要讲的重点,它是DragGAN模型中最主要的两个组件。

先说运动监督。在此之前,业界还没有太多关于如何监督GAN生成图像的点运动的研究。

在这项研究中,作者提出了一种不依赖于任何额外神经网络的运动监督损失(loss)。

其关键思想是,生成器的中间特征具有很强的鉴别能力,因此一个简单的损失就足以监督运动。

所以,DragGAN的运动监督是通过生成器特征图上的偏移补丁损失(shifted patch loss)来实现的。

如下图所示,要移动控制点p到目标点t,就要监督p点周围的一小块patch(红圈)向前移动的一小步(蓝圈)。

让GAN再次伟大!拽一拽关键点就能让狮子张嘴&大象转身,汤晓鸥弟子的DragGAN爆火,网友:R.I.P. Photoshop

再看点跟踪。

先前的运动监督会产生一个新的latent code、一个新特征图和新图像。

由于运动监督步骤不容易提供控制点的精确新位置,因此我们的目标是更新每个手柄点p使其跟踪上对象上的对应点。

此前,点跟踪通常通过光流估计模型或粒子视频方法实现。

但同样,这些额外的模型可能会严重影响效率,并且在GAN模型中存在伪影的情况下可能使模型遭受累积误差。

因此,作者提供了一种新方法,该方法通过最近邻检索在相同的特征空间上进行点跟踪。

而这主要是因为GAN模型的判别特征可以很好地捕捉到密集对应关系。

基于这以上两大组件,DragGAN就能通过精确控制像素的位置,来操纵不同类别的对象完成姿势、形状、布局等方面的变形。

作者表示,由于这些变形都是在GAN学习的图像流形上进行的,它遵从底层的目标结构,因此面对一些复杂的任务(比如有遮挡),DragGAN也能产生逼真的输出。

单张3090几秒钟出图

所以,要实现几秒钟“精准控图”的效果,是否需要巨大的算力?

nonono。大部分情况下,每一步拖拽修图,单张RTX3090GPU在数秒钟内就能搞定。

让GAN再次伟大!拽一拽关键点就能让狮子张嘴&大象转身,汤晓鸥弟子的DragGAN爆火,网友:R.I.P. Photoshop

具体到生成图像的效果上,实际评估(均方误差MSE、感知损失LPIPS)也超越了一系列类似的“AI修图”模型,包括RAFT和PIPs等等:

让GAN再次伟大!拽一拽关键点就能让狮子张嘴&大象转身,汤晓鸥弟子的DragGAN爆火,网友:R.I.P. Photoshop

如果说文字的还不太直观,具体到视觉效果上就能感受到差异了:

让GAN再次伟大!拽一拽关键点就能让狮子张嘴&大象转身,汤晓鸥弟子的DragGAN爆火,网友:R.I.P. Photoshop

值得一提的是,DragGAN的“潜力”还不止于此。

一方面,如果增加关键点的数量,还能实现更加精细的AI修图效果,用在人脸这类对修图要求比较严格的照片上,也是完全没问题:

让GAN再次伟大!拽一拽关键点就能让狮子张嘴&大象转身,汤晓鸥弟子的DragGAN爆火,网友:R.I.P. Photoshop

另一方面,不止开头展示的人物和动物,放在汽车、细胞、风景和天气等不同类型的图像上,DragGAN也都能精修搞定。

让GAN再次伟大!拽一拽关键点就能让狮子张嘴&大象转身,汤晓鸥弟子的DragGAN爆火,网友:R.I.P. Photoshop

除了不同的照片类型,从站到坐、从直立到跑步、从跨站到并腿站立这种姿势变动较大的图像,也能通过DragGAN实现:

让GAN再次伟大!拽一拽关键点就能让狮子张嘴&大象转身,汤晓鸥弟子的DragGAN爆火,网友:R.I.P. Photoshop

也难怪网友会调侃“远古的PS段子成真”,把大象转个身这种甲方需求也能实现了。

让GAN再次伟大!拽一拽关键点就能让狮子张嘴&大象转身,汤晓鸥弟子的DragGAN爆火,网友:R.I.P. Photoshop

不过,也有网友指出了DragGAN目前面临的一些问题。

例如,由于它是基于StyleGAN2生成的图像进行P图的,而后者训练成本很高,因此距离真正商业落地可能还有一段距离。

让GAN再次伟大!拽一拽关键点就能让狮子张嘴&大象转身,汤晓鸥弟子的DragGAN爆火,网友:R.I.P. Photoshop

除此之外,在论文中提到的“单卡几秒钟修图”的效果,主要还是基于256×256分辨率图像:

让GAN再次伟大!拽一拽关键点就能让狮子张嘴&大象转身,汤晓鸥弟子的DragGAN爆火,网友:R.I.P. Photoshop

至于模型是否能扩展到256×256以外图像,生成的效果又是如何,都还是未知数。

有网友表示“至少高分辨率图像从生成时间来看,肯定还要更长”。

让GAN再次伟大!拽一拽关键点就能让狮子张嘴&大象转身,汤晓鸥弟子的DragGAN爆火,网友:R.I.P. Photoshop

实际上手的效果究竟如何,我们可以等6月论文代码开源后,一测见真章。

团队介绍

DragGAN的作者一共6位,分别来自马克斯・普朗克计算机科学研究,萨尔布吕肯视觉计算、交互与AI研究中心,MIT,宾夕法尼亚大学和谷歌AR/VR部门。

让GAN再次伟大!拽一拽关键点就能让狮子张嘴&大象转身,汤晓鸥弟子的DragGAN爆火,网友:R.I.P. Photoshop

其中包括两位华人:

一作潘新钢,他本科毕业于清华大学(2016年),博士毕业于香港中文大学(2021年),师从汤晓鸥教授。

现在是马普计算机科学研究所的博士后,今年6月,他将进入南洋理工大学担任助理教授(正在招收博士学生)。

另一位是Liu Lingjie,香港大学博士毕业(2019年),后在马普信息学研究所做博士后研究,现在是宾夕法尼亚大学助理教授(也在招学生),领导该校计算机图形实验室,也是通用机器人、自动化、传感与感知 (GRASP)实验室成员。

值得一提的是,为了展示DragGAN的可控性,一作还亲自上阵,演示了生发、瘦脸和露齿笑的三连P图效果:

让GAN再次伟大!拽一拽关键点就能让狮子张嘴&大象转身,汤晓鸥弟子的DragGAN爆火,网友:R.I.P. Photoshop

是时候给自己的主页照片“修修图”了(手动狗头)。

论文地址:

https://vcai.mpi-inf.mpg.de/projects/DragGAN/data/paper.pdf

项目地址(代码6月开源):

https://github.com/XingangPan/DragGAN

参考链接:

[1]https://weibo.com/1727858283/N1iKl4zVG

[2]https://twitter.com/_akhaliq/status/1659424744490377217

[3]https://twitter.com/mrgreen/status/1659482594516377601

—完—

郑重声明:本文内容及图片均整理自互联网,不代表本站立场,版权归原作者所有,如有侵权请联系管理员(admin#wlmqw.com)删除。
(0)
用户投稿
上一篇 2023年5月22日
下一篇 2023年5月22日

相关推荐

  • 男子大三挂科退学10年后再次考上大学:期间干过外卖 自学编程

    十年前就已经考上大学,结果到学校后放飞自我,沉溺游戏世界,频频挂科无奈退学。后来在社会大学”摸爬滚打了数年后,又选择回到校园,这样的人生经历算不算走了弯路? 据报道,近日,江汉大学…

    2023年8月29日
  • 2022七月半结婚有什么说法 2022鬼节结婚会怎么样

    在我国,关于一些良辰吉日,我们大多参考黄历标注的宜忌事件,特别是对于结婚这件头等大事来说,作为一件喜庆和吉利的事情。自然在结婚日期的选择上,会经过很严格的择选。那么,如果是鬼节结婚…

    2022年7月31日
  • 2022母亲节是几号 2022母亲节日期是5月8号吗

    不少人在母亲节会给妈妈送礼物,当然送礼是过节必不可少的一个环节,也体现了孩子对妈妈的爱,想必每一个收到礼物的妈妈都会感动不已。那么,你知道2022母亲节是几号吗?2022母亲节日期…

    2022年7月28日
  • 2023年7月上映的电视剧有哪些(2023年7月上海天气预报)

    看电视剧是很多人闲暇时间都会做的事情,每个月都会有很多新上线的电视剧,马上就要到7月份了,不少小伙伴都非常关注7月上映的电视剧,那么2023年7月上映的电视剧有哪些?下面小编为大家…

    2023年6月20日
  • 国外房贷利率低于1%,比存款利率还低,傻子才会提前还房贷

    今年以来,房贷利率下调的消息屡次冲上热搜,很多地方的首套房利率都已经低于4%,只有3.8%左右。 回顾过去10年的房贷利率,从6%时代,到5%时代,再到4%时代,降幅着实不小。 那…

    2023年4月11日
  • 薇娅丈夫一日浮盈3500万

    据报道,11月4日,薇娅丈夫投资的巨子生物公司上市,当初他们入股时投资1.67亿元,目前市值约2.04亿元,已浮盈超3500万元,她只是换了个方式赚钱! 此前,薇娅虽因偷税漏税不再…

    2022年11月7日
  • 陪拍是什么?陪拍为什么会火了(拍一拍是什么)

    听说现在陪拍行业很火,尤其是在年轻人中比较流行,不少独自旅行的人都会找陪拍服务。不过,有许多人对配拍还不太了解,那么陪拍是什么?陪拍为什么会火了呢?下面小编就给大家带来关于陪拍这个…

    2023年8月10日
  • 地铁站里妈妈含泪掌掴小孩称太委屈,可这一巴掌扇碎了孩子自尊心

    6月5日,上海。地铁站里,一位妈妈因为孩子不听话,含泪掌掴小孩,孩子被打的也一直在哭。网友感慨:妈妈说孩子“满脑子想着玩”,但是看到孩子身上大包小包的资料还有乐器,也很心疼。研究证…

    2023年6月7日
  • 剁椒萝卜:清爽入味,微甜多汁 。

    剁椒萝卜   白萝卜半根剁椒2勺小葱1棵 1. 白萝卜、小葱、剁椒准备好。 2. 萝卜纵剖两半,切厚约2毫米的薄片。 3. 将萝卜片码放在蒸盒里,略微倾斜增加底部的空白,利于空气流…

    2022年5月6日
  • 男子猥亵强奸多名女学生,潜逃23年终落网!

    本文转自【中国警方在线】; 23年前,江西省赣州市寻乌县某乡镇中学发生一起强奸案。嫌疑人申某、谢某、刘某合谋窜入女生寝室,通过威逼恐吓手段,猥亵、强奸数名女生。案发后,3名嫌疑人连…

    2023年4月17日

联系我们

联系邮箱:admin#wlmqw.com
工作时间:周一至周五,10:30-18:30,节假日休息