细粒度视觉分析
细粒度视觉分析:对图像粗粒度的大类进行细粒度的子类识别,例如区分鸟的不同种类、车的不同型号、飞机的不同机型等。细粒度视觉分析通常面临类间差异小、类内差异大的挑战,例如对下面的大凤头京燕、阿卡迪亚京燕、蓝鹀进行图像细粒度识别难度很大。
细粒度视觉分析是多媒体内容分析领域中的重要研究方向,能够为智能产业的发展提供关键技术支撑,有着丰富的应用场景,如智能农业、智能医疗、智能零售等,具有重要的研究和应用价值。
玉米病害细分类
组内相关论文
1.针对现有图像细分类方法依赖图像级、对象级和部件级(如头部、尾部等)标注信息,标注成本巨大的问题,提出空间拓扑注意力学习方法,仅使用图像级标注信息,通过卷积激励的显著分布估计与拓扑关联约束的语义对齐,自动定位对象、部件显著区域,实现图像细粒度辨识与分类[1][2]。
方法流程图
2.针对一个训练样本条件下的图像细分类,提出了基于选择与生成的数据增广方法,通过多示例学习与对抗生成,对数据进行分割、过滤、再选择和生成,实现图像数据的多样性扩增[3]。
方法流程图
3.针对现有图像细分类方法依赖人工先验所造成的可用性和可扩展性上的局限,提出多尺度堆叠式深度强化学习方法,序列式地定位不同尺度的对象及其显著区域,并自动选择显著区域的数目,通过对原图、关键区域的不同尺度的特征学习,使得网络学习到更加精细的特征[4]。
方法流程图
4.针对图像细分类的速度问题,提出了多级注意力引导的快速辨识定位方法,通过多级注意力提取网络与辨识性定位网络,实现了细粒度分类与辨识性区域定位的协同促进,在提升分类准确率的同时,实现分类加速[5]。
方法流程图
5.针对现有的跨媒体检索工作主要聚焦于粗粒度难以满足精细化搜索需求的问题,构建细粒度跨媒体检索数据集和评测基准PKU FG-XMedia,是首个包含多达4种媒体类型(图像、文本、视频、音频)的细粒度跨媒体检索公开数据集和评测基准。涵盖200个细粒度类别(鸟大类下的200个子类,如灰翅鸥、灰背鸥、加州海鸥、黑背鸥等)[6]。
数据集示意图
[1] Tianjun Xiao, Yichong Xu, Kuiyuan Yang, Jiaxing Zhang, Yuxin Peng and Zheng Zhang, "The Application of Two-level Attention Models in Deep Convolutional Neural Network for Fine-grained Image Classification", 28th IEEE International Conference on Computer Vision and Pattern Recognition (CVPR), pp. 842-850, Boston, MA, USA, Jun. 7-12, 2015.
[2] Yuxin Peng, Xiangteng He and Junjie Zhao, "Object-Part Attention Model for Fine-grained Image Classification", IEEE Transactions on Image Processing (TIP), Vol. 27, No. 3, pp. 1487-1500, Mar. 2018.
[3] Xiangteng He and Yuxin Peng, "Only Learn One Sample: Fine-Grained Visual Categorization with One Sample Training", 26th ACM Multimedia Conference (ACM MM), pp. 1372-1380, Seoul, Korea, Oct. 22-26, 2018.(Oral)
[4] Xiangteng He, Yuxin Peng and Junjie Zhao, "Which and How Many Regions to Gaze: Focus Discriminative Regions for Fine-grained Visual Categorization", International Journal of Computer Vision (IJCV), Vol. 127, No. 9, pp. 1235-1255, Sep. 2019.
[5] Xiangteng He, Yuxin Peng and Junjie Zhao, "Fast Fine-grained Image Classification via Weakly Supervised Discriminative Localization", IEEE Transactions on Circuits and Systems for Video Technology (TCSVT), Vol. 29, No. 5, pp. 1394-1407, May. 2019.
[6] Xiangteng He, Yuxin Peng and Liu Xie, "A New Benchmark and Approach for Fine-grained Cross-media Retrieval", 27th ACM Multimedia Conference (ACM MM), pp. 1740-1748, Nice, France, Oct. 21-25, 2019.