2024-07-16:研究室的6篇论文被ACM MM 2024接收
北京大学多媒体信息处理研究室(MIPL)共有6篇论文入选,成果覆盖开放词汇目标检测、文本生成3D场景、视觉语义定位、视觉提示学习、噪声终身行人重识别、在线持续学习等研究方向。
(1)SIA-OVD:弥合开放词汇目标检测中图像-区域差异的形状不变性适配器
SIA-OVD: Shape-Invariant Adapter for Bridging the Image-Region Gap in Open-Vocabulary Detection
作者:王梓烁(硕士生),周汶昊(硕士生),徐婧林,彭宇新
通讯作者:彭宇新
开放词汇目标检测(Open-Vocabulary Object Detection)旨在检测训练数据以外的类别,以实现任意类别的目标检测。现有的开放词汇目标检测方法主要以两阶段(定位阶段+分类阶段)框架为主,其中分类阶段通过图文预训练模型CLIP实现开放词汇的目标分类。然而,由于开放词汇目标检测任务中的图像-区域差异的问题,导致将CLIP用于目标检测框分类的准确率较低。
针对上述问题,本文首先分析了这种差异的来源,即检测框的形状对分类效果有明显的影响,例如对于“刀”、“领带”、“滑雪板”等细长形状的类别,CLIP的分类效果较差。本文认为RoIAlign对细长形状检测框进行特征裁剪后,不同形状的特征图均被压缩到正方形,目标物体的形状特征被破坏,导致CLIP无法正确识别。因此,本文提出了一种形状不变性适配器,缓解上述图像-区域差异以提高对检测框的分类准确率。具体而言,维护由多个轻量级特征适配器网络组成的集合,其中每一个适配器处理检测框长宽比在一个固定范围内的区域特征,将其映射为预训练CLIP能够识别的未形变特征,从而使冻结的CLIP模型能够识别该区域内的目标物体类别。实验结果表明,本文方法在常用数据集MS COCO和LVIS上均取得了很大的提升。
该论文的第一作者是北京大学王选计算机研究所2023级硕士生王梓烁,通讯作者是彭宇新教授,由2023级硕士生周汶昊(北京科技大学)、徐婧林副教授(北京科技大学)共同合作完成。
(2)RelScene:基于文本的3D场景生成与评价基准
RelScene: A Benchmark and baseline for Spatial Relations in text-driven 3D Scene Generation
作者:叶钊达(博士生),郑新瀚,刘洋,彭宇新
通讯作者:彭宇新
文本驱动的3D场景生成技术作为AIGC技术之一,旨在根据用户输入的文本描述,通过分析文本中的场景对象及其关系,自动生成与文本描述一致且具有合理布局的3D场景。基于该技术能够为设计师提供高效的辅助工具,简化了重复且冗余的手工场景布置流程。然而由于3D场景获取与标注的复杂性,当前缺少足够包含文本描述与标注的3D场景,导致基于文本控制的3D场景生成方法面临模型难以充分训练、生成准确性不高等问题。
针对上述问题,本文首先基于已有的场景数据集3D-FRONT进行扩展,为每一个场景构建了模板化描述与自然语言描述两种形式的场景标注。此外还针对3D场景生成的一致性评价问题,构建了2个新评价指标,分别从场景局部一致性与关系类别一致性两个角度评价生成的3D场景。同时针对文本控制的3D场景生成中面临的标注训练数据不足的问题,本文提出基于隐空间语义建模的小样本3D场景表示学习。具体而言,方法通过构建3D场景特征与文本描述特征的统一映射空间,将无标注的3D场景投射到统一空间后,采样获得相应的伪文本描述特征用于文本到3D场景生成的模型训练,实验结果表明该方法能够提高生成模型的生成效果与语义一致性。
该论文的第一作者是北京大学王选计算机研究所2018级博士生叶钊达,通讯作者是彭宇新教授,由2021级本科实习生郑新瀚、刘洋助理教授共同合作完成。
(3)ResVG:基于多实例关系与语义理解增强的视觉定位模型
ResVG: Enhancing Relation and Semantic Understanding in Multiple Instances for Visual Grounding
郑明航(博士生),张家华,陈庆超,彭宇新,刘洋
通讯作者:刘洋
视觉定位任务旨在根据自然语言查询在图像中定位被提及的对象。然而,当图像中存在大量与目标对象相同类别的干扰对象时,准确定位目标对象仍然是一个重大挑战。为了从多个同类别对象中区分目标对象,查询文本中往往会描述目标对象的细粒度属性(如颜色、形状等),或是描述目标对象和其他对象的空间关系(如最左边,最大等)。然而本文的实验发现,现有方法在图像中存在多个干扰对象时性能出现了明显的下降,这表明它们对查询文本中所描述的目标对象细粒度属性和对象间的空间关系理解不足。
为了解决这一问题,本文提出了一种全新的关系和语义敏感的视觉定位(ReSVG)模型。首先,为了增强模型对目标对象细粒度属性的理解,本文提出已查询文本作为提示词,利用预训练文生图模型生成和查询语义匹配的参考图像作为模型输入。这些参考图像反映了查询中描述的目标对象的细粒度属性特征,能帮助模型更好的定位目标物体。其次,为了增强模型对物体间空间关系的理解,本文提出了一种关系敏感的数据增强方法,通过合成包含多个相同类别对象的图像并基于它们空间关系构造伪查询来生成额外的训练数据。本文所提出的ReSVG模型对物体语义和空间关系有着更好的理解,显著提高了在具有多个同类别干扰实例场景中的视觉定位性能。本文在五个数据集上进行了广泛的实验来验证本文方法的有效性。
该论文的第一作者是北京大学王选计算机研究所2022级博士生郑明航,通讯作者是刘洋助理教授,由硕士生张家华、陈庆超助理教授、彭宇新教授共同合作完成。
(4)InsVP:基于原始图像的高效实例级视觉提示学习
InsVP: Efficient Instance Visual Prompting from Image Itself
作者:刘子宸(硕士生),彭宇新,周嘉欢
通讯作者:周嘉欢
近年来,“预训练-微调”范式在推动计算机视觉领域发展上发挥了重要作用。然而,随着模型规模的爆炸式增长,这种传统范式面临着巨大的存储和计算开销。因此,现有研究将提示学习技术引入到视觉模型的高效微调中,旨在保持骨干网络固定的同时,通过引入少量额外的可学习提示参数调整预训练模型使其适应下游任务。然而,现有视觉提示学习方法通常为不同样本学习相同的视觉提示,忽略了实例间信息的差异性,导致模型性能受限。
针对上述问题,本文提出了一种基于原始图像的高效实例级视觉提示学习方法,以全面和高效地利用单个实例的判别性特征。具体而言,本文首先提出实例级图像提示,从原图中提取关键和细微的判别性信息,并叠加到输入图像上。此外,本文提出实例级特征提示,以捕捉不同实例之间的共性和特性,输入到模型的中间层促进特征提取。上述实例级图像提示和特征提示协同互补,增强预训练模型对单个实例判别性特征的提取能力。在多个大规模基准上的实验表明,本文方法在参数成本更低的同时,达到领域先进水平的性能。
该论文的第一作者是北京大学王选计算机研究所2022级硕士生刘子宸,通讯作者是周嘉欢助理教授,由彭宇新教授共同合作完成。
(5)基于灾难性记忆知识持续净化的噪声终身行人重识别
Mitigate Catastrophic Remembering via Continual Knowledge Purification for Noisy Lifelong Person Re-Identification
作者:徐昆仑(博士生),张浩卓,李宇,彭宇新,周嘉欢
通讯作者:周嘉欢
当前的终身行人重识别(LReID)方法聚焦于利用正确标注的数据流进行学习。然而,实际场景中的数据往往由于人工标注错误等因素包含错误标签。当利用带有错误标签的噪声数据进行训练时,LReID模型不仅从新数据中学到错误知识,同时模型对错误历史知识的记忆作用也将干扰其对正确新知识的学习。此外,即使模型从历史数据中学到了部分正确知识,当噪声数据与模型知识发生冲突时,模型对正确历史知识的灾难性遗忘现象也将加剧。上述因素导致现有LReID模型在利用噪声标签数据学习时发生显著的性能下降。
针对上述问题,本文提出一种基于灾难性记忆知识持续净化的噪声终身行人重识别方法,在克服模型对错误知识灾难性记忆的同时,缓解其对正确知识的灾难性遗忘。首先提出基于聚类感知的数据净化模块,通过挖掘样本细粒度共享信息实现错误标注数据剔除。其次提出迭代标签修正策略,通过在训练过程中融合预测结果和原始标注来纠正错误标签。最后,提出错误知识过滤模块,通过估计旧模型特征知识的正确性,利用加权的知识蒸馏损失将正确旧知识传递给新模型。此外,本文提出一个噪声终身行人重识别数据集并开展了大量实验。实验结果表明,本文方法在不同噪声水平和噪声类型下均能显著提升模型对噪声标签数据的终身学习能力。
该论文的第一作者是北京大学王选计算机研究所2023级博士生徐昆仑,通讯作者是周嘉欢助理教授,由2021级本科实习生张浩卓、2021级本科实习生李宇、彭宇新教授共同合作完成。
(6)PPE:针对无样本保留在线持续学习中双阶段遗忘的原型特征进化方法
PPE: Progressive Prototype Evolving for Dual-Forgetting Mitigation in Non-Exemplar Online Continual Learning
作者:李其威(博士生),彭宇新,周嘉欢
通讯作者:周嘉欢
在线持续学习的目标是根据一系列分批到达的单个样本或小批量样本,学习一个可以处理所有样本类别的分类模型。该任务的难点是在学习新类别数据时需要克服对旧类别知识的遗忘(阶段间遗忘),以及对于同一类别的样本,在学习后到达批次的样本时需要克服对先前批次样本知识的遗忘(阶段内遗忘)。现有的在线持续学习方法通过保留并重放部分过去样本来解决这些问题,但这不可避免地会导致数据隐私问题,并且不符合在线学习中对数据只能被访问一次的约束。然而,在不能保留任何样本的情况下,现有方法会出现严重的知识遗忘现象,导致其性能显著下降。
针对上述问题,本文提出了一种基于原型进化的无样本保留在线持续学习方法,核心思想是在在线学习阶段逐步学习各个类别的原型特征,将类别原型特征作为类别知识进行保留,而不保留任何先前学习的样本。同时,本文充分利用当前批次样本对应的原型中积累的知识,指导模型分类头的训练,以缓解阶段内遗忘的问题。此外,本文引入了原型相似性约束损失和原型指导的梯度约束模块,通过原型特征中保留的历史知识来约束模型学习的学习过程,以抵抗阶段间遗忘的问题。实验结果表明,本文方法在三个常用数据集以及不同的持续学习场景下均达到了领域先进水平。
该论文的第一作者是北京大学王选计算机研究所2024级博士生李其威,通讯作者是周嘉欢助理教授,由彭宇新教授共同合作完成。
相关链接: 北京大学多媒体信息处理研究室的6篇论文被ACM MM 2024录用