CAP:多重注意力机制,有趣的细粒度分类方案 – AAAI 2021

CAP:多重注意力机制,有趣的细粒度分类方案 - AAAI 2021

论文提出细粒度分类解决方案CAP,通过上下文感知的注意力机制来帮助模型发现细微的特征变化。除了像素级别的注意力机制,还有区域级别的注意力机制以及局部特征编码方法,与以往的视觉方案很不同,值得一看

来源:晓飞的算法工程笔记 公众号

论文: Context-aware Attentional Pooling (CAP) for Fine-grained Visual Classification

  • 论文地址:https://arxiv.org/abs/2101.06635
  • 论文代码:https://github.com/ArdhenduBehera/cap

Introduction


  论文认为大多数优秀的细粒度图像识别方法通过发掘目标的局部特征来辅助识别,却没有对局部信息进行标注,而是采取弱监督或无监督的方式来定位局部特征位置。而且大部分的方法采用预训练的检测器,无法很好地捕捉目标与局部特征的关系。为了能够更好地描述图片内容,需要更细致地考虑从像素到目标到场景的信息,不仅要定位局部特征/目标的位置,还要从多个维度描述其丰富且互补的特征,从而得出完整图片/目标的内容。  论文从卷积网络的角度考虑如何描述目标,提出了context-aware attentional pooling(CAP)模块,能够高效地编码局部特征的位置信息和外观信息。该模块将卷积网络输出的特征作为输入,学习调整特征中不同区域的重要性,从而得出局部区域的丰富的外观特征及其空间特征,进而进行准确的分类。  论文的主要贡献如下:

  • 提出在细粒度图像识别领域的扩展模块CAP,能够简单地应用到各种卷积网络中,带来可观的细粒度分类性能提升。
  • 为了捕捉目标/场景间的细微差别,提出由区域特征引导的上下文相关的attention特征。
  • 提出可学习的池化操作,用于自动选择循环网络的隐藏状态构成空间和外观特征。
  • 将提出的算法在8个细粒度数据集上进行测试,获得SOTA结果。
  • 分析不同的基础网络,扩大CAP模块的应用范围。

Proposed Approach


  论文算法的整体流程如上图所示,输入图片,输出具体从属类别,包含3个组件(3组参数):

  • 基础CNN网络
  • CAP模块
  • 分类模块

Context-aware attentional pooling (CAP)

  定义卷积网络输出的特征为,CAP的模块综合考虑像素级特征、小区域特征、大区域特征以及图片级特征的上下文信息进行分类。

  • pixel-level contextual information

  像素级特征的上下文信息主要学习像素间的关联度,在计算位置的输出时根据关联度综合所有其他像素特征,直接使用self-attention实现,特征转化使用卷积。这一步直接对主干网络输出的特征进行操作,但没在整体流程图中体现。

  • Proposing integral regions

  为了更高效地学习上下文信息,论文在特征图上定义不同粒度级别的基本区域,粒度级别由区域的大小决定。假设位置上的最小的区域为为例,可通过放大宽高衍生出一系列区域,,。在不同的位置产生相似的区域合集,得到最终的区域合集。覆盖了所有的位置的不同宽高比区域,可以提供全面的上下文信息,帮助在图片的不同层级提供细微特征。

  • Bilinear pooling

  按照上一步,在特征图上得到个区域,大小从最小的到最大的,论文的目标是将不同大小的区域表示为固定大小的特征,主要采用了双线性插值。定义为坐标转换函数,为区域坐标,对应的特征值为,则转换后的图片的坐标上的值为:

  为采样函数,为核函数,这里采用的是最原始的方法,将目标坐标映射回原图,取最近的四个点,按距离进行输出,最终得到池化后的固定特征。

  • Context-aware attention

  这里,论文使用全新的注意力机制来获取上下文信息,根据与其他特征的相似性进行加权输出,使得模型能够选择性地关注更相关的区域,从而产生更全面的上下文信息。以查询项和一组关键词项,输出上下文向量:

  参数矩阵和用来将输入特征转换为查询项核关键项,为非线性组合,和为偏置项,整体的可学习参数为,而注意力项则代表两个特征之间的相似性。这样,上下文向量能够代表区域蕴含的上下文信息,这些信息是根据其与其他区域的相关程度获得的,整体的计算思想跟self-attention基本相似。

  • Spatial structure encoding

  上下文向量描述了区域的关键程度和特点,为了进一步加入空间排列相关的结构信息,论文将区域的上下文向量转为区域序列(论文按上到下、左到右的顺序),输入到循环神经网络中,使用循环神经网络的隐藏单元来表达结构特征。  区域的中间特征可表示为,采用LSTM,包含LSTM的相关参数。为了增加泛化能力和减少计算量,上下文特征由进行全局平均池化得到,最终输出上下文特征序列对应的隐藏状态序列,后续用于分类模块中。

Classification

  为了进一步引导模型分辨细微的变化,论文提出可学习的池化操作,能够通过组合响应相似的隐藏层来整合特征信息。论文借鉴NetVLAD的思想,用可导的聚类方法来对隐藏层的响应值进行转换,首先计算隐藏层响应对类簇的相关性,再加权到类簇的VLAD encoding中:

  每个类簇都有其可学习的参数和,整体思想基于softmax,将隐藏层的响应值按softmax的权重分配到不同的类簇中。在得到所有类簇的encoding向量后,使用可学习的权值和softmax进行归一化。因此,分类模块的可学习参数为。

Experiments and Discussion


  在不同的数据集上,对不同方法进行对比。

  不同主干网络下的准确率对比。

  不同模块输出特征的可视化,图b是加入CAP后,主干网络输出的特征。

Conclusion


  论文提出细粒度分类解决方案CAP,通过上下文感知的注意力机制来帮助模型发现目标的细微特征变化。除了像素级别的注意力机制,还有区域级别的注意力机制以及局部特征编码方法,与以往的视觉方案很不同,值得一看。

   

如果本文对你有帮助,麻烦点个赞或在看呗 更多内容请关注 微信公众号【晓飞的算法工程笔记】

work-life balance.

郑重声明:本文内容及图片均整理自互联网,不代表本站立场,版权归原作者所有,如有侵权请联系管理员(admin#wlmqw.com)删除。
(0)
用户投稿
上一篇 2022年6月27日
下一篇 2022年6月27日

相关推荐

  • 在逆境中更应该保持乐观

    人生没有容易二字,时时刻刻都在与困难作斗争。乐观的面对,还是悲观地接受,会对结果产生很重要的影响。当你学会苦中作乐,无论你身处何境,眼中皆是风景,心底都有自在;当你学会让自己开心,…

    2022年8月13日
  • 一加Ace Pro配置曝光:16G运存+150W快充,或3399起售

    作为一加手机下半年的首款旗舰新品,关于一加Ace Pro的消息受到了许多网友的关注。继昨天一加手机官宣一加Ace Pro将于8月3日正式发布之后,今天(7月26日)又有业内人士将一…

    2022年7月27日
  • “牛皮癣”贴上共享单车 律师:涉嫌违法 情节较重的处十至十五日拘留

    共享单车车身“牛皮癣”作为一种新形态,更难发现和查处,也不易清除,需要各方参与、齐抓共管。6月11日,记者分别采访律师及省政协委员,小广告“任性”张贴是否违法,又是否有好的意见和建…

    2022年6月13日
  • 人工智能助力发现强引力透镜候选体

      中国科学院云南天文台丽江天文观测站龙潜研究员与云南大学中国西南天文研究所宇宙学研究组尔欣中教授团队合作,利用人工智能深度学习的方法发现了38个新的强引力透镜候选体。研究成果于近…

    2022年8月16日
  • 美国再被打脸,只因拒绝一人,竟输掉5G之争?

    我们中国有着最广泛的5G网络建设基础,要知道5G的网速几乎是4G的100倍,根据《人民日报》的数据,目前我们的5G基站数量已经达到了160万个,相比之下,美国只有10万个。那么,我…

    2022年8月25日
  • 羊了个羊9.28游戏攻略 羊了个羊第二关通关截图今天攻略

    羊了个羊9.28怎么玩?羊了个羊9.28关卡已经更新了,这款游戏近期十分火爆,今天的第二关你过了吗?第二关的难度还是比较大的,很多小伙伴一直都过不了,那么羊了个羊9.28关卡怎么过…

    2022年9月28日
  • 重大变化!未实名认证将不得评论

    6月17日,国家互联网信息办公室就《互联网跟帖评论服务管理规定(修订草案征求意见稿)》向社会公开征求意见。 征求意见稿明确,在中华人民共和国境内提供、使用跟帖评论服务,应当遵守本规…

    2022年6月20日
  • 为什么有的企业不停的叫人去面试,每天能去五六十个,却没有一个人面试上?

    这种情况太夸张了,我也是做招聘工作的,我觉得企业不停的叫人去面试,每天面试五六十个人,结果一个都没有录用,这种情况不符合招募与聘用的理论和实际,所以我觉得面试的人数有所夸张。实际的…

    2022年4月19日
  • 若女性有这样的特征,很容易怀孕,看看你有几个

    身为女人的我对怀孕也是有一定了解的,当初我自己在备孕期间已经走了很多弯路,这也是因为我没有以下几个特征的原因,除了年龄大,体重不合适,大姨妈也不稳定之外,每天还总是为此着急焦虑,这…

    2022年9月19日
  • 用户协议当保护用户权益(人民时评)

    既充分激发数字经济发展活力,又注重保护用户个人信息,意味着要在商业逻辑和隐私保护之间求取平衡,这也是在数字经济领域统筹发展和安全的题中之义   点击勾选“我已阅读并同意以上条款”—…

    2022年7月3日

联系我们

联系邮箱:admin#wlmqw.com
工作时间:周一至周五,10:30-18:30,节假日休息