• Jump to Content
北京大学计算机研究所多媒体信息处理研究室
[中文版] [English Version]
Document Title
主页
新闻
成员
招生方向
研究方向
主要论文
科研项目
国际评测
相关报道
发明专利
开设课程
学生荣誉
学术交流
活动休闲
2025-12-22:MIPL的1篇论文被TMM接收

  IEEE Transactions on Multimedia (TMM)是多媒体领域的国际学术期刊,是中国计算机学会(CCF)推荐的国际学术期刊。
  MIPL的1篇论文被接收,研究少样本细粒度视觉分类。
  CausalFSFG: 从因果视角重新思考少样本细粒度视觉分类
  CausalFSFG: Rethinking Few-Shot Fine-Grained Visual Categorization from Causal Perspective
  作者:杨至文(博士生),徐婧林,彭宇新
  通讯作者:彭宇新
  少样本细粒度视觉分类(Few-Shot Fine-Grained Visual Categorization, FS-FGVC)旨在仅给定少量支持样本的情况下,识别属于同一大类(如鸟类、车辆)的不同子类别。由于细粒度图像采集困难且标注昂贵,该任务在实际应用中具有重要价值。然而,现有的FS-FGVC方法大多采用元学习范式,侧重于通过特征增强来提高分类精度,忽略了支持样本集本身作为一个混淆变量会引入有偏的数据分布,从而导致模型学习到如背景、姿态等非因果的虚假相关,严重限制了模型的泛化能力。
  针对上述挑战,本文提出了一种基于因果视角的少样本细粒度分类新方法(CausalFSFG),利用结构因果模型(SCM)对FS-FGVC任务进行重构,并通过因果干预(Causal Intervention)来消除数据分布偏差。具体来说,本文首先提出了一个干预多尺度编码器(IMSE),通过条件化整合多尺度特征进行样本层面的干预,缓解选定样本带来的分布偏差;其次,本文设计了一个干预掩码特征重构模块(IMFR),通过对关键区域的掩码与重构进行特征层面的干预,迫使模型忽略背景干扰,挖掘细粒度物体本身最具判别性的因果特征。实验结果表明,本方法在CUB-200-2011、Stanford Dogs和Stanford Cars三个广泛使用的公共数据集上均取得了当前的最佳性能。
  该论文的第一作者是北京大学王选计算机研究所2022级博士生杨至文,通讯作者是彭宇新教授。
北京大学王选计算机研究所多媒体信息处理研究室