2023-12-09:研究室的3篇论文被AAAI 2024接收
北京大学多媒体信息处理研究室共有3篇论文入选,成果覆盖电商跨模态检索、增量图文检索、测试时自适应等研究方向。
(1)FashionERN:面向电商场景的增强-过滤融合检索模型
FashionERN: Enhance-and-Refine Network for Composed Fashion Image Retrieval
作者:陈彦哲(硕士生),钟华松,何相腾,彭宇新,周嘉欢,成乐乐
通讯作者:彭宇新
电商场景下的融合检索旨在根据输入的商品参考图像和来自用户的修改文本共同检索目标图像。现有针对融合检索的研究多使用在大规模非电商数据集上预训练的对称编码器(例如CLIP)。然而,该任务的输入呈现出非对称特性——即输入中的参考图像包含丰富的语义信息,而修改文本通常较为简短。因此,现有方法易出现“视觉主导”的现象,即检索结果被参考图像主导而忽略了修改文本,难以充分满足用户的检索需求。
针对上述问题,本文提出了一种面向电商场景的增强-过滤融合检索模型,通过增强文本语义以及过滤视觉语义来缓解“视觉主导”的现象。首先提出三分支文本语义强化模型,在文本编码器中引入两个额外的分支:通过在前融合过程中与参考图像语义进行充分交互,以及同时利用跨模态分布约束语义对齐,实现对修改文本语义的丰富;进一步提出双阶段视觉语义优化模型,通过修改文本引导和参考图像自引导的优化过程渐近地过滤参考图像中无关细节,保留关键视觉信息。以上两个模型的组合有效缓解了视觉主导现象,能够更精准、全面地满足用户的检索需求。实验结果表明,本文方法在4个常用数据集上(包括电商场景下的融合检索数据集FashionIQ等,以及普通场景下的融合检索数据集CIRR)均达到了领域先进水平。
该论文的第一作者是北京大学王选计算机研究所2022级硕士生陈彦哲,通讯作者是彭宇新教授,由何相腾助理研究员、周嘉欢助理教授、钟华松(快手公司)、成乐乐(快手公司)共同合作完成。
(2)基于动态知识纠正的增量图文检索方法
Continual Vision-Language Retrieval via Dynamic Knowledge Rectification
作者:崔振宇(博士生),彭宇新,王珣,朱曼瑜,周嘉欢
通讯作者:彭宇新
图文检索旨在通过查询文本(或图像)匹配与之语义最相关的图像(或文本)。然而,在处理实际场景中持续不断到来的新增图文数据时,现有图文检索方法通常面临未知目标类别、未知目标类别组合以及未知目标类别分布等挑战,因此现有方法难以同时保证对新旧数据的检索性能。针对上述难题,现有方法大多借助知识蒸馏技术,将图文间的相似度知识从旧模型蒸馏到新模型中,从而缓解模型对旧知识的遗忘。然而,现有方法忽略了错误相似度知识的影响,导致新数据中相似度知识难以有效获取,加剧了灾难性遗忘问题的影响。
针对上述问题,本文提出了一种基于动态知识纠正的增量图文检索方法,其核心思想是自动过滤并纠正错误的相似度知识。具体而言,首先利用固定的旧模型和持续更新的新模型分别计算图文数据样本间的旧相似度矩阵和新相似度矩阵。然后,对于可以被旧模型正确匹配的新数据样本,通过直接保留旧相似度知识来避免对旧知识的遗忘。接着,对于只可被新模型正确检索的样本,利用新模型输出的相似度来纠正旧相似度中不正确的部分,从而避免错误旧知识带来的干扰。此外,对于新旧模型均无法正确检索的样本,通过引入样本间的配对信息来同时促进新旧知识的获取。上述三种策略的结合在有效提升模型对新知识获取能力的同时,缓解了模型对旧知识的遗忘。为了评估该方法,本文构建了一个包含5个常用图文检索数据集的增量图文检索评测基准,并在上述评测基准上达到了先进的增量图文检索性能。
该论文的第一作者是北京大学王选计算机研究所2021级博士生崔振宇,通讯作者是彭宇新教授,由王珣(字节跳动)、朱曼瑜(字节跳动)和周嘉欢助理教授共同合作完成。
(3)DART:基于双模态自适应在线提示和知识保留的测试时自适应方法
DART: Dual-Modal Adaptive Online Prompting and Knowledge Retention for Test-Time Adaptation
作者:刘子宸(硕士生),孙宏博,彭宇新,周嘉欢
通讯作者:周嘉欢
现有基于CLIP的预训练视觉-语言模型推动了计算机视觉领域的发展,其通过零样本或少样本微调的方式,能够快速适应不同下游任务。然而,由于训练和测试数据分布之间存在差异,CLIP模型在测试时难以克服数据分布差异带来的领域鸿沟,性能受到限制。因此,现有研究将测试时自适应技术引入到CLIP模型中,在测试时动态调整文本提示以适应测试数据的分布。然而,上述做法忽略了重要的视觉模态信息,并且没有充分利用已见过测试样本的知识,导致模型的自适应能力受到限制,降低了CLIP模型的性能。
针对上述问题,本文提出了一种基于CLIP模型的双模态自适应在线提示和知识保留方法。首先,为了增加模型的学习能力,设计了类别特定的文本提示和实例级别的视觉提示,从两个模态充分捕获每个测试样本的知识。此外,为了充分利用已见过测试样本中的知识,采用双模态知识保留提示来自适应地保留学到的知识,进而辅助后续测试样本的预测。在多个大规模测试基准的广泛实验证明了本文方法的有效性。
该论文的第一作者是北京大学王选计算机研究所2022级硕士生刘子宸,通讯作者是周嘉欢助理教授,由2019级博士生孙宏博、彭宇新教授共同合作完成。
相关链接: 北京大学多媒体信息处理研究室的3篇论文被AAAI 2024录用