2024-09-02:研究室的1篇细粒度图像分类论文被TIP接收
研究室的1篇细粒度图像分类论文被TIP期刊接收:Hongbo Sun, Xiangteng He, Jinglin Xu and Yuxin Peng*, "SIM-OFE: Structure Information Mining and Object-aware Feature Enhancement for Fine-Grained Visual Categorization", IEEE Transactions on Image Processing (TIP), 2024。祝贺孙宏博同学!
细粒度图像分类旨在区分同一粗粒度基础类别下的不同细粒度子类别,如将鸟类(粗粒度基础类别)图像划分为西美鸥、灰背鸥、银鸥等(细粒度子类别),实现对视觉对象的精确识别,在现实生产和生活中具有重要的研究和应用价值。现有细粒度图像分类方法通常使用注意力机制挖掘不同类别间的微小差异实现细分类,该类方法通常有两个局限性:(1)忽视了视觉对象的整体结构信息。该信息描述了对象内辨识性区域的分布和空间上下文关系,对于发掘利用复杂背景下的对象部件十分重要。例如,当缺少对对象结构信息的理解能力时,模型在繁杂的树枝间定位鸟腿时很容易被欺骗,导致对鸟类的细分类性能下降。(2)忽视对不同视野下辨识性信息的综合使用。现有基于卷积操作的细粒度图像分类方法具有局部归纳先验,因此擅长于提取局部显著信息,但往往很难捕获图像块间的长程依赖关系。基于VisionTransformer的细粒度图像分类方法能够进行全图范围内的图像块信息交互,因此擅长提取全局视野下的显著信息,但很难较好地提取局部细节信息。针对上述问题,本文提出基于对象结构信息建模和对象感知特征增强的细粒度图像分类算法。首先,提出混合感知注意力模块,实现图像中视觉对象的准确定位。通过对全局视野和局部视野的图像显著性分析,实现连续的显著对象区域定位的同时能够关注到对象内的辨识性区域。其次,提出对象结构信息挖掘和表征提取模块,将视觉对象的结构信息引入到模型中,提高模型对视觉对象内辨识性区域分布及其空间上下文关系的理解,促进模型关注关键区域的显著信息从而辨别不同的细粒度子类别。最后,提出对象感知的多视野特征增强模块,利用VisionTransformer提供的图像块长程交互能力得到具有全局视野的图像显著特征,利用卷积操作提供的局部信息归纳能力提取具有局部视野的图像显著特征,基于混合感知注意力耦合两类特征获取更全面的辨识性特征,提高模型的细粒度图像分类性能。本文方法在3个广泛使用的细粒度图像分类数据集上进行了大量对比实验,实验结果证明了本文方法的有效性。
细粒度图像分类旨在区分同一粗粒度基础类别下的不同细粒度子类别,如将鸟类(粗粒度基础类别)图像划分为西美鸥、灰背鸥、银鸥等(细粒度子类别),实现对视觉对象的精确识别,在现实生产和生活中具有重要的研究和应用价值。现有细粒度图像分类方法通常使用注意力机制挖掘不同类别间的微小差异实现细分类,该类方法通常有两个局限性:(1)忽视了视觉对象的整体结构信息。该信息描述了对象内辨识性区域的分布和空间上下文关系,对于发掘利用复杂背景下的对象部件十分重要。例如,当缺少对对象结构信息的理解能力时,模型在繁杂的树枝间定位鸟腿时很容易被欺骗,导致对鸟类的细分类性能下降。(2)忽视对不同视野下辨识性信息的综合使用。现有基于卷积操作的细粒度图像分类方法具有局部归纳先验,因此擅长于提取局部显著信息,但往往很难捕获图像块间的长程依赖关系。基于VisionTransformer的细粒度图像分类方法能够进行全图范围内的图像块信息交互,因此擅长提取全局视野下的显著信息,但很难较好地提取局部细节信息。针对上述问题,本文提出基于对象结构信息建模和对象感知特征增强的细粒度图像分类算法。首先,提出混合感知注意力模块,实现图像中视觉对象的准确定位。通过对全局视野和局部视野的图像显著性分析,实现连续的显著对象区域定位的同时能够关注到对象内的辨识性区域。其次,提出对象结构信息挖掘和表征提取模块,将视觉对象的结构信息引入到模型中,提高模型对视觉对象内辨识性区域分布及其空间上下文关系的理解,促进模型关注关键区域的显著信息从而辨别不同的细粒度子类别。最后,提出对象感知的多视野特征增强模块,利用VisionTransformer提供的图像块长程交互能力得到具有全局视野的图像显著特征,利用卷积操作提供的局部信息归纳能力提取具有局部视野的图像显著特征,基于混合感知注意力耦合两类特征获取更全面的辨识性特征,提高模型的细粒度图像分类性能。本文方法在3个广泛使用的细粒度图像分类数据集上进行了大量对比实验,实验结果证明了本文方法的有效性。