2022-07-01:研究室的1篇细粒度图像分类论文被ACM MM 2022接收
研究室独立完成的1篇细粒度图像分类论文被ACM MM 2022接收:Hongbo Sun, Xiangteng He and Yuxin Peng*, "SIM-Trans: Structure Information Modeling Transformer for Fine-grained Visual Categorization", 30th ACM Multimedia Conference (ACM MM), 2022。ACM MM是多媒体领域的顶级国际会议,也是CCF推荐的A类会议,本次大会共有2473篇论文提交,共录取690篇论文(录取率27.9%)。祝贺孙宏博同学!
现有的细粒度图像分类方法通常使用注意力机制直接进行图像中局部显著区域的检测和特征提取,缺少对视觉对象整体结构的建模分析,导致其难以充分全面地挖掘和突出视觉对象内的辨识性区域,影响模型的识别性能。针对上述问题,本文提出了一种基于结构信息建模Transformer的细粒度图像分类方法。首先计算视觉Transformer层中各patch的自注意力权重,实现图像中视觉对象辨识性区域的自动检测和重要性评估,计算辨识性区域的空间上下文关系,并利用图卷积网络进行结构特征提取,促使模型同时学习视觉对象的外观信息和结构信息。其次提出多层级特征增强方法,对多个Transformer层进行结构特征计算并进行特征融合以充分利用多层级特征间的互补性,同时使用对比学习进一步增强特征的辨识性,促使模型学习到更精细的特征。本文方法在细粒度图像分类任务的经典评测数据集CUB-200-2011和大规模评测数据集iNaturalist 2017上进行了验证,结果表明能够提高细粒度图像分类的准确率。