Meta重新定义多模态!北大校友共同一作,70亿参数文生图模型击败Diffusion

【新智元导读】北大校友共同一作,meta发布史上首个单一多模态模型!7B模型击败Diffusion,完美画手难题完美解决。

meta又来炸场了!

就在刚刚,meta推出了一个基于Transformer的多模态模型——CM3leon,在文生图和图像理解领域都取得了绝对的突破,堪称同类最佳。

而且,这种将多模态组合成单一模型,在此前公开的AI系统中是前所未有的。

Meta重新定义多模态!北大校友共同一作,70亿参数文生图模型击败Diffusion

显然,meta的这项研究,为多模态AI定义了一个全新的标准,预示着AI系统完全可以在理解、编辑、生成图像、视频、文本这些任务上自由切换。

同时,CM3leon的推出,正式标志着自回归模型首次在关键基准上,与领先的生成扩散模型的性能相媲美。

Meta重新定义多模态!北大校友共同一作,70亿参数文生图模型击败Diffusion

论文地址:https://ai.meta.com/research/publications/scaling-autoregressive-multi-modal-models-pretraining-and-instruction-tuning/

此前,文生图领域最受瞩目的三大明星模型,是Stable Diffusion,DALL-E和Midjourney。而文生图技术基本上都是依赖于扩散模型。

但CM3leon的革命性意义在于:它使用的是完全不同的技术——基于tokenizer的自回归模型。

结果表面,基于tokenizer的自回归模型不仅比基于扩散模型的方法更有效,在文生图领域实现了SOTA,而且训练的计算量还比此前基于Transformer的方法少了五倍!

Meta重新定义多模态!北大校友共同一作,70亿参数文生图模型击败Diffusion

01

准备好,一大波酷炫效果来袭

光看原始性能指标,还说明不了什么。

CM3leon真正惊艳的地方,在于处理更复杂的提示和图像编辑任务。

准确渲染图像,效果惊人

比如,它可以从提示中准确渲染图像,例如「撒哈拉沙漠中戴着草帽和霓虹灯太阳镜的小仙人掌」。

Meta重新定义多模态!北大校友共同一作,70亿参数文生图模型击败Diffusion

任意prompt,随心所欲编辑图像

CM3leon还有一个独特的功能——根据任意格式的文本指令对现有图像进行编辑,比如更改天空颜色,或者在特定位置添加对象。

上面这些功能,远远超越了DALL-E2等模型所能达到的效果。

Meta重新定义多模态!北大校友共同一作,70亿参数文生图模型击败Diffusion

前所未有的多模态单一模型

CM3leon的多功能架构,让它能够在文本、图像和构图任务之间流畅地自由转换。

除了文生图的功能,CM3leon还可以为图像生成标注、回答有关图像内容的问题,甚至可以根据边界框和分割图的文本描述创建图像。

这种将模态组合成单一模型的情况,在此前在公开披露的AI系统中是前所未有的。

prompt:狗叼着什么?模型回答:棍子。

prompt:详细描述给定图像。模型回答:这张图像中,一只狗嘴里叼着一根棍子。地面上有草。图像的背景中有树。

Meta重新定义多模态!北大校友共同一作,70亿参数文生图模型击败Diffusion

给定图像边界框分割的文本描述,说明在图像的哪个地方需要一个水池、需要一个镜子,CM3leon就可以完全按prompt生成对应图像。

Meta重新定义多模态!北大校友共同一作,70亿参数文生图模型击败Diffusion

超高分辨率

一个单独的超分辨率平台可以与CM3leon输出集成,从而显著提高分辨率和细节。

输入prompt「湖中央的圆形小岛,湖周围有森林,高对比度」——

Meta重新定义多模态!北大校友共同一作,70亿参数文生图模型击败Diffusion

解决AI画手难题

连AI不会画手的老大难问题,都被CM3leon轻松解决了。

Meta重新定义多模态!北大校友共同一作,70亿参数文生图模型击败Diffusion

02

自回归模型首次击败Diffusion?

在近年来大热的文生图领域,Midjourney,DALL-E2和Stable Diffusion使用的都是扩散技术。

虽然Diffusion技术产生的结果很惊艳,但由于它是计算密集型的,这使得它的计算强度很大,运行成本很高,而且往往缺乏实时应用所需的速度。

有趣的是,OpenAI几年前曾想通过名为Image GPT的模型,来探索了Transformer作为图像生成的可能性。但它最终放弃了这个想法,转而支持Diffusion。

而CM3leon采用的是完全不同的方法。作为基于Transformer的模型,它利用注意力机制来权衡输入数据(无论是文本还是图像)的相关性。

这种架构的差异,使得CM3leon能够实现更快的训练速度和更好的并行化,因而比传统的基于扩散的方法更有效。

仅用单个TPU,CM3leon就在图像数据集上进行了有效的训练,并在MS-COCO数据集上达到了4.88的FID分数,超过了Google的文本到图像模型Parti。

与此同时,CM3leon的效率更是同类Transformer架构的5倍以上。

Meta重新定义多模态!北大校友共同一作,70亿参数文生图模型击败Diffusion

CM3leon之所以如此成功,可以归功于它独特的架构和训练方法。

它强大性能的一个关键,就是监督微调的技术(SFT)。

此前,SFT已被用于训练像ChatGPT这样的文本生成模型,效果很好,但meta认为,应用于图像领域时,它也很有用。

事实上,指令微调不仅提高了CM3Leon在图像生成方面的性能,而且提高了图像标注编写的性能,使其能够回答有关图像的问题并通过遵循文本指令(例如「将天空的颜色更改为亮蓝色」)来编辑图像。

CM3leon仅采用解码器转换器体系结构,类似于已建立的基于文本的模型,但增加了处理文本和图像的功能。

训练过程涉及检索增强,以及跨越各种图像和文本生成任务的指令微调。

通过应用跨模态的监督微调技术,meta显著提高了CM3leon在图像标注、视觉QA和文本编辑方面的性能。

尽管CM3leon只在30亿个文本token上进行了训练,但它与在多达1000亿个token上训练的其他模型的结果相当,甚至实现了超越。

作为第一个采用与文本语言模型相似的方法进行调整的多模态模型,meta在CM3leon中加入了一个大规模的检索增强预训练阶段和一个第二个多任务的监督微调(SFT)阶段。

03

CM3leon表现如何

凭借CM3leon的能力,图像生成工具可以产生更一致的图像,更好地遵循输入提示。

以下是CM3leon在各种任务中的能力展示,所有任务均由单个模型完成:

文本到图像生成

基于文本的图像编辑(例如,「将天空的颜色改为明亮蓝色」)很具挑战性,因为它要求模型能够同时理解文本指令和视觉内容。

尤其是,当涉及复杂对象或提示包含多个必须在输出中出现的约束条件时。

根据具有高度组合结构的提示文本,CM3leon可以生成一个指令跟随的图像。

Meta重新定义多模态!北大校友共同一作,70亿参数文生图模型击败Diffusion

基于文本的图像编辑

给定一张图像和一个文本提示,CM3leon可以根据文本中的指令对图像进行编辑。

由于CM3leon模型的通用性,与其他的任务一样,这是通过同一个模型实现的,而不像以前的模型(如InstructPix2Pix)只针对基于文本的图像编辑进行微调。

Meta重新定义多模态!北大校友共同一作,70亿参数文生图模型击败Diffusion

同时,CM3leon模型还可以根据一系列不同的提示来生成简短或长篇描述,并回答关于图像的问题。

举个栗子。

– 提示:

问题:这两个物体有什么共同点?

上下文:选择最佳答案。

选项:(A)闪的(B)咸的

回答:让我们逐步思考:

– CM3Leon输出:

思考每个物体。薯片有咸味。椒盐脆饼是咸的。所以答案是(B)。

Meta重新定义多模态!北大校友共同一作,70亿参数文生图模型击败Diffusion

– 提示:

详细描述给定图像中的所有物体。

– CM3Leon输出:

一个街道标志位于金属杆上。标志是蓝色的,上面有白色的文字。杆上有一个红灯。天空是明亮的蓝色。街道上停着车。街道两侧有树木。街道两侧有建筑物。

Meta重新定义多模态!北大校友共同一作,70亿参数文生图模型击败Diffusion

同样,对于下面这些「看图问答」,CM3leon都能轻松拿捏。

Meta重新定义多模态!北大校友共同一作,70亿参数文生图模型击败Diffusion

为了进一步了解CM3leon,meta在图像描述生成和视觉问答任务中,对指令微调模型进行了实证评估,并将它们与先前的SOTA基准进行了比较。

相比于Flamingo(100B)和OpenFlamingo(40B),CM3leon模型的文本数据明显较少(约3B个token)。

但在MS-COCO图片描述和VQA2问答方面,CM3leon却实现了与零样本OpenFlamingo相同的性能,甚至在VizWiz任务上击败了Flamingo近10个百分点。

Meta重新定义多模态!北大校友共同一作,70亿参数文生图模型击败Diffusion

结构引导的图像编辑

结构引导的图像编辑旨在理解和解释提供的文本指令以及结构或布局信息。

从而让CM3leon模型能够在遵循给定的结构或布局指令的同时,创建视觉上一致和语境恰当的图像编辑。

在只包含分割的图像(没有文本类别)中,生成一张图像。这里的输入表示从中提取分割的图像。

Meta重新定义多模态!北大校友共同一作,70亿参数文生图模型击败Diffusion

超分辨率

除此之外,图像生成领域还有一个常见的技巧——利用经过单独训练的超分辨率阶段,从原始模型输出生成更高分辨率的图像。

对于这类文本到图像生成任务,CM3leon表现得也非常好。

Meta重新定义多模态!北大校友共同一作,70亿参数文生图模型击败Diffusion

以及一些「奇幻」风格的生成。

Meta重新定义多模态!北大校友共同一作,70亿参数文生图模型击败Diffusion

04

如何构建CM3Leon

架构

在架构方面,CM3Leon采用了一个和成熟的文本模型相似的仅解码器Transformer。

但不同的是,CM3Leon能够输入和生成文本和图像。

训练

通过采用论文「Retrieval-Augmented Multimodal Language Modeling」中提出的训练检索增强技术,meta大大提高了CM3Leon模型的效率和可控性。

同时,meta还在各种不同的图像和文本生成任务上,对CM3Leon模型进行了指令微调。

Meta重新定义多模态!北大校友共同一作,70亿参数文生图模型击败Diffusion

随着人工智能行业的不断发展,像CM3Leon这样的生成模型变得越来越复杂。

这些模型通过对数百万个示例图像进行训练来学习视觉和文本之间的关系,但它们也可能反映出训练数据中存在的偏见。

因此,meta采用了有许可的数据集对CM3Leon进行训练。

而结果也证明,虽然数据的分布与先前的模型截然不同,但CM3Leon仍然实现了强大的性能。

对此,meta希望,通过大家的共同努力,可以创建更准确、更公正、更公平的模型。

05

为多模态语言模型铺平道路

总的来说,meta认为,CM3Leon在各种任务上的出色性能,是朝着更真实的图像生成和理解迈出的重要一步。

而这样的模型,最终可以帮助提升创造力并在元宇宙中实现更好的应用。

06

作者介绍

Lili Yu、Bowen Shi和Ramakanth Pasunuru为论文共同一作。

其中,作Lili Yu取得了北大物理系的学士学位,以及MIT电子工程和计算机科学的博士学位。

Meta重新定义多模态!北大校友共同一作,70亿参数文生图模型击败Diffusion

参考资料:

https://ai.meta.com/blog/generative-ai-text-images-cm3leon/

https://www.maginative.com/article/meta-unveils-cm3leon-a-breakthrough-ai-model-for-advanced-text-to-image-generation-and-image-understanding/

https://techcrunch.com/2023/07/14/meta-generative-transformer-art-model/

郑重声明:本文内容及图片均整理自互联网,不代表本站立场,版权归原作者所有,如有侵权请联系管理员(admin#wlmqw.com)删除。
(0)
用户投稿
上一篇 2023年7月16日
下一篇 2023年7月16日

相关推荐

  • 上海申花又输球了,0比2不敌成都蓉城

    上海申花又输球了,0比2不敌成都蓉城。看了整场比赛,完全看不出这是赛季初与三镇争榜首的那支申花,攻不进去也防守不住…… 看看申花本场的首发阵容,原恒大球员只有于汉超进入了大名单,但…

    2022年8月18日
  • 广州高风险区域多久能解除(广州高风险区域包括哪些)

    最近有关广州疫情新增情况也是比较严峻的,大家对此次广州疫情的防控措施也都十分关注,根据国家最新的疫情防控政策,目前广州已经划分多个疫情高分析地区。那么,广州高风险区域多久能解除?此…

    2022年11月21日
  • 视频 | 阿根廷队凯旋!梅西手捧大力神杯下飞机 数万球迷夹道欢迎

    据CNN报道,当地时间12月20日凌晨2时左右,卡塔尔世界杯冠军阿根廷队飞抵布宜诺斯艾利斯,数万名球迷聚集在街头翘首以待,为他们的英雄归来欢呼。首先走下飞机的是队长梅西,他面带微笑…

    2022年12月22日
  • 天津滨海新区疫情最新消息今天哪里封了(天津滨海新区疫情防控中心电话24小时电话)

    天津近来疫情也是时有阳性人员检出,据疫情最新通报,“滨海发布”微信公众号消息,滨海新区疫情防控指挥部11月2日发布通告,自通告发布即日起,滨海新区对以下区域实行静态管理,暂定3天。…

    2022年11月4日
  • 酒店订房什么软件便宜(订酒店哪个平台最便宜)

    作为旅行出差的狂魔啊,你出差或旅行的时候订酒店知道哪个平台是最便宜的吗,是不是内心就自动冒出了携程?美团?我只是想告诉你,如果你去这些平台订,你妥妥的就是一个韭菜,因为我发现了有比…

    2022年11月21日
  • 打工生活模拟器工作大全(工作大全)

    本文主要讲的是工作大全,以及和打工生活模拟器工作大全相关的知识,如果觉得本文对您有所帮助,不要忘了将本文分享给朋友。 2021个人工作总结大全 2021个人工作总结大全5篇 时间过…

    2023年5月13日
  • 郑智正式在国家队退役,孙雯为其颁奖!

    在2023年6月16日下午18点30分的,中国对阵缅甸的比赛赛前,中国足协为功勋队长举办了一个退役仪式,中国足球高管孙雯亲自为郑智颁奖。 郑智,1980年8月20日生于辽宁省沈阳市…

    2023年7月2日
  • 武夷山千年古刹瑞岩寺突发大火 火灾已灭

      武夷山千年古刹瑞岩寺突发大火,火灾已灭,3月25日上午,福建武夷山市瑞岩寺燃起大火。极目新闻记者采访获悉,大火已被扑灭,无人员伤亡。   网传视频显示,一处寺庙中的楼阁燃起熊熊…

    2022年3月27日
  • 2022石家庄车管所周末上班吗 石家庄车管所上班时间表

    对于各大车友们来说,为保证车子能够正常上路,可以说每年都不可避免的会前往车管所办理相关业务,因此大家也格外关注自己所在地车管所的上班时间安排,那么,如果对于石家庄的朋友们来说,大家…

    2022年7月27日
  • 小米14系列售价及上市时间(小米14售价内存)

    昨晚,小米14系列正式发布,这次推出的两款机型分别为小米 14 和小米14 Pro,都将首发搭载小米澎湃OS新系统。目前许多小伙伴对小米14系列的价格还不太了解,那么,小米14系列…

    2023年10月27日

联系我们

联系邮箱:admin#wlmqw.com
工作时间:周一至周五,10:30-18:30,节假日休息