• Jump to Content
北京大学计算机研究所多媒体信息处理研究室
[中文版] [English Version]
Document Title
主页
新闻
成员
招生方向
研究方向
主要论文
科研项目
国际评测
相关报道
发明专利
开设课程
学生荣誉
学术交流
活动休闲
2023-07-14:研究室的4篇论文被ICCV 2023接收

  第19届国际计算机视觉大会,英文全称The 19th International Conference on Computer Vision (ICCV) ,将于2023年10月2日到6日在法国巴黎举行,是CCF推荐的A类国际会议。本次会议共收到8088篇投稿,共录用2160篇论文,录用率为26.7%。
  北京大学多媒体信息处理研究室共有4篇论文入选,成果覆盖视频语义定位、人物交互检测、跨域目标检测和弱监督视觉定位等研究方向。

(1)面向长视频的端到端快速语义定位网络
  Scanning Only Once: An End-to-end Framework for Fast Temporal Grounding in Long Videos
  论文作者:Yulin Pan, Xiangteng He, Biao Gong, Yiliang Lv, Yujun Shen, Yuxin Peng, Deli Zhao
  论文链接:https://arxiv.org/abs/2303.08345
  视频语义定位旨在精确定位到查询语句在长视频(小时级)中的起止时间。尽管短视频(分钟级)语义定位近期取得了一定进展,但长视频语义定位的研究仍处于初级阶段。现有方法通常采用滑动窗口(如下图上半部分所示)将长视频组织为短视频,并在每个窗口内执行时间定位,存在以下问题:(1)训练不充足:滑动窗口一次只能扫描固定时间范围的视频内容,忽略了长范围的时间相关性;(2)预测不灵活:预测被限制在一个窗口内,难以推广到持续时间长的片段;(3)推理不够快:相邻窗口间的重叠带来了冗余计算。
  针对上述问题,本文提出了一种面向长视频的端到端快速语义定位网络SOONet,利用非重叠的视频片段间的上下文知识以及片段的内容知识,通过预排序、重排序、边界回归,一次网络推理便可对长达数小时的视频进行语义定位。除了高效率之外,本文方法的另一个优点是能够捕捉长时段的时间相关性,将整个视频作为一个整体建模,提高了定位的准确性。实验结果表明,本文方法在长视频数据集MAD和Ego4d上显著优于现有方法,分别实现了14.6倍和102.8倍的效率提升。

(2)基于遮蔽与重训练教师-学生框架的跨域目标检测方法
  Masked Retraining Teacher-Student Framework for Domain Adaptive Object Detection
  论文作者:Zijing Zhao, Sitong Wei, Qingchao Chen, Dehui Li, Yifan Yang, Yuxin Peng, Yang Liu
  使用有标签数据(源域)训练的目标检测器在实际部署环境中可能遇到数据分布漂移的情况,从而影响检测性能。无监督跨域目标检任务测旨在将检测器泛化到新的数据分布(目标域)而无需额外数据标注。目前最先进的跨域方法大多采用教师-学生框架,即使用教师模型为目标域图像生成伪标签以供学生模型训练,但这些方法在目标检测任务中面临两大问题,一是生成的伪标签(检测框)数量不足,二是伪标签中存在噪声,这两大问题影响了学生模型适应目标域的能力。
  针对上述问题,本文提出了遮蔽与重训练教师-学生框架,在原有教师-学生框架的基础上,一方面引入遮蔽自动编码机制,将目标域图像特征进行遮蔽后送入目标检测器的编码器,其预测结果再由辅助解码器重建为原有特征,利用遮蔽自动编码机制帮助编码器更好地适应目标域图像特点,在伪标签较少的初始训练阶段提升性能;另一方面引入重训练机制,在训练过程中每隔一定轮数重新初始化学生模型的部分参数,由持续更新的教师模型重新训练,使得学生模型在优化过程中能够跳出由噪声伪标签造成的局部最优。该框架在三个常用的跨域目标检测任务评测集上达到了领域最佳效果,验证了其有效性。

(3)基于概念引导记忆的高效自适应人物交互检测
  Efficient Adaptive Human-Object Interaction Detection with Concept-guided Memory
  论文作者:Ting Lei,Fabian Caba,Qingchao Chen,Hailin Jin,Yuxin Peng,Yang Liu
  人与物体交互检测任务在分别检测人和物体的基础上进一步理解人与物体的关系。基于Transformer的方法在该任务上取得了显著的进展,但这类方法普遍有如下两方面问题:(1)由于训练数据呈现长尾分布,模型在少量样本的类别上性能严重受限;(2)Transformer模型计算复杂度较高,其训练和微调均需要较高的计算和时间成本。
  针对上述问题,本文提出了基于概念引导记忆的高效自适应人与物体交互检测器(ADA-CM),该检测器同时支持免训练模式和微调模式。在免训练模式下,模型利用预训练的目标检测器和多模态模型,构建多分支的概念引导的人物交互记忆模块,来同时存储特定域视觉知识和普遍域语义知识,完成人与物体交互检测;在微调模式下,利用基于注意力机制的轻量级适配器,为模型中的视觉编码器融入实例级的先验知识,同时更新人与物体交互记忆模块中存储的知识,获得更好的人与物体编码特征。在常用数据集HICO-DET和V-COCO上的实验表明,免训练模式下的检测器仅需少量样本即可取得有竞争力的性能,而微调模式下的检测器在两个数据集上都达到了领域最佳水平。

(4)基于置信度感知的弱监督视觉定位伪标签学习
  Confidence-aware Pseudo-label Learning for Weakly Supervised Visual Grounding
  论文作者:Jiahua Zhang, Qingchao Chen, Yuxin Peng, Yang Liu
  弱监督视觉定位旨在仅有图像-文本对而没有目标物体位置标注的条件下,定位到与自然语言查询最相关的目标物体。现有的弱监督学习方法主要使用预先训练的目标检测器生成候选框,然后采用跨模态相似度得分或语言查询重建损失作为标准挑选候选框。然而,由于文本和图像间的跨模态异构差距,这些方法经常遭遇到错误跨模态关联和误差传播的问题。
  针对上述问题,本文提出了基于置信度感知的伪标签学习框架(CPL):首先利用单模态和跨模态预训练模型,并提出条件提示工程,为候选框自动生成多种多样的伪语言查询。然后,利用真实查询和伪查询之间的单模态相似度建立可靠的跨模态关联。最后,本文利用跨模态模型对建立的跨模态关联进行质量验证,从而减少错误的跨模态关联对模型性能的影响。实验表明所提CPL方法在包括RefCOCO,RefCOCO+,RefCOCOg, ReferIt Game以及Flickr 30K Entities在内的五个数据集上均展现了方法的有效性。

相关链接: 北京大学多媒体信息处理研究室的4篇论文被ICCV 2023录用
北京大学王选计算机研究所多媒体信息处理研究室