2023-10-06:王选所多媒体信息处理研究室师生参加 ICCV 2023
2023年10月2日至10月6日,国际计算机视觉大会(IEEE/CVF International Conference on Computer Vision,ICCV 2023)在法国巴黎召开。王选所多媒体信息处理研究室刘洋助理教授、博士生雷廷、硕士生赵子敬参加了此次会议。
ICCV每两年召开一次,是计算机视觉领域的顶级会议。本次会议吸引了来自学术界、工业界来自84个国家和地区共计7082人参加。会议包括了口头报告、海报展示、workshops和tutorials等环节。
本次大会共提交了8260篇论文,录取2161篇论文,录取率为26.1%。王选所多媒体信息处理研究室师生共发表4篇论文,论文信息如下:
[1] Yang Liu, Jiahua Zhang, Qingchao Chen, Yuxin Peng, Confidence-aware Pseudo-label Learning for Weakly Supervised Visual Grounding. ICCV 2023
该论文针对视觉定位任务提出基于置信度感知的伪标签学习框架(CPL):首先利用单模态和跨模态预训练模型,并提出条件提示工程,为候选框自动生成多种多样的伪查询。然后,利用真实查询和伪查询之间的单模态相似度建立可靠的跨模态关联。最后,利用跨模态模型对建立的跨模态关联进行质量验证,从而减少错误的跨模态关联对模型性能的影响。该方法能更准确地定位到与自然语言查询相关的物体区域。
[2] Ting Lei, Fabian Caba, Qingchao Chen, Hailin Ji, Yuxin Peng, Yang Liu, Efficient Adaptive Human-Object Interaction Detection with Concept-guided Memory. ICCV 2023
该论文针对人与物体交互检测任务提出了基于概念引导记忆的高效自适应人与物体交互检测器(ADA-CM),该检测器同时支持免训练模式和微调模式。在免训练模式下,模型利用预训练的目标检测器和多模态模型,构建多分支的概念引导的人物交互记忆模块,来同时存储特定域视觉知识和普遍域语义知识,完成人与物体交互检测;在微调模式下,利用基于注意力机制的轻量级适配器,为模型中的视觉编码器融入实例级的先验知识,同时更新人与物体交互记忆模块中存储的知识,获得更好的人与物体编码特征。
[3] Zijing Zhao, Sitong Wei, Qingchao Chen, Dehui Li, Yifan Yang, Yuxin Peng, Yang Liu, Masked Retraining Teacher-Student Framework for Domain Adaptive Object Detection. ICCV 2023
该论文针对跨域目标检测任务提出了掩码与重训练教师-学生框架,一方面引入掩码自编码机制,将目标域图像特征进行掩码后送入目标检测器的编码器,其预测结果再由辅助解码器重建为原有特征在伪标签较少的初始训练阶段提升性能;另一方面引入重训练机制,使得学生模型在优化过程中能够跳出由噪声伪标签造成的局部最优。实现了目标检测器领域泛化性的极大增强。
赵子敬同学做海报展示
[4] Yulin Pan, Xiangteng He, Biao Gong, Yiliang Lv, Yujun Shen, Yuxin Peng, Deli Zhao, Scanning Only Once: An End-to-end Framework for Fast Temporal Grounding in Long Videos. ICCV 2023
该论文针对视频语义定位问题提出了一种面向长视频的端到端快速语义定位网络SOONet,利用非重叠的视频片段间的上下文知识以及片段的内容知识,通过预排序、重排序、边界回归,一次网络推理便可对长达数小时的视频进行语义定位。除了高效率之外,该论文方法的另一个优点是能够捕捉长时段的时间相关性,将整个视频作为一个整体建模,提高了定位的准确性。
ICCV每两年召开一次,是计算机视觉领域的顶级会议。本次会议吸引了来自学术界、工业界来自84个国家和地区共计7082人参加。会议包括了口头报告、海报展示、workshops和tutorials等环节。
本次大会共提交了8260篇论文,录取2161篇论文,录取率为26.1%。王选所多媒体信息处理研究室师生共发表4篇论文,论文信息如下:
[1] Yang Liu, Jiahua Zhang, Qingchao Chen, Yuxin Peng, Confidence-aware Pseudo-label Learning for Weakly Supervised Visual Grounding. ICCV 2023
该论文针对视觉定位任务提出基于置信度感知的伪标签学习框架(CPL):首先利用单模态和跨模态预训练模型,并提出条件提示工程,为候选框自动生成多种多样的伪查询。然后,利用真实查询和伪查询之间的单模态相似度建立可靠的跨模态关联。最后,利用跨模态模型对建立的跨模态关联进行质量验证,从而减少错误的跨模态关联对模型性能的影响。该方法能更准确地定位到与自然语言查询相关的物体区域。
[2] Ting Lei, Fabian Caba, Qingchao Chen, Hailin Ji, Yuxin Peng, Yang Liu, Efficient Adaptive Human-Object Interaction Detection with Concept-guided Memory. ICCV 2023
该论文针对人与物体交互检测任务提出了基于概念引导记忆的高效自适应人与物体交互检测器(ADA-CM),该检测器同时支持免训练模式和微调模式。在免训练模式下,模型利用预训练的目标检测器和多模态模型,构建多分支的概念引导的人物交互记忆模块,来同时存储特定域视觉知识和普遍域语义知识,完成人与物体交互检测;在微调模式下,利用基于注意力机制的轻量级适配器,为模型中的视觉编码器融入实例级的先验知识,同时更新人与物体交互记忆模块中存储的知识,获得更好的人与物体编码特征。
[3] Zijing Zhao, Sitong Wei, Qingchao Chen, Dehui Li, Yifan Yang, Yuxin Peng, Yang Liu, Masked Retraining Teacher-Student Framework for Domain Adaptive Object Detection. ICCV 2023
该论文针对跨域目标检测任务提出了掩码与重训练教师-学生框架,一方面引入掩码自编码机制,将目标域图像特征进行掩码后送入目标检测器的编码器,其预测结果再由辅助解码器重建为原有特征在伪标签较少的初始训练阶段提升性能;另一方面引入重训练机制,使得学生模型在优化过程中能够跳出由噪声伪标签造成的局部最优。实现了目标检测器领域泛化性的极大增强。
[4] Yulin Pan, Xiangteng He, Biao Gong, Yiliang Lv, Yujun Shen, Yuxin Peng, Deli Zhao, Scanning Only Once: An End-to-end Framework for Fast Temporal Grounding in Long Videos. ICCV 2023
该论文针对视频语义定位问题提出了一种面向长视频的端到端快速语义定位网络SOONet,利用非重叠的视频片段间的上下文知识以及片段的内容知识,通过预排序、重排序、边界回归,一次网络推理便可对长达数小时的视频进行语义定位。除了高效率之外,该论文方法的另一个优点是能够捕捉长时段的时间相关性,将整个视频作为一个整体建模,提高了定位的准确性。