北京大学王选计算机研究所多媒体信息处理研究室

Document Title

主页

2025-01-23：研究室的2篇论文被ICLR 2025接收

第13届国际学习表征会议，英文全称 The Thirteenth International Conference on Learning Representations（ICLR 2025）将于2025年4月24日至28日在新加坡博览中心举行。本研究室有2篇论文被接收，分别是细粒度多模态大模型方向和多模态多轮组合检索方向。

（1）分析与提升多模态大模型的细粒度视觉识别能力
Analyzing and Boosting the Power of Fine-Grained Visual Recognition for Multi-modal Large Language Models
作者：何胡凌霄（博士生），李耕（博士生），耿子竣（本科生），徐婧林，彭宇新
通讯作者：彭宇新
论文链接：https://openreview.net/pdf?id=p3NKpom1VL
源代码链接：https://github.com/PKU-ICST-MIPL/Finedefics_ICLR2025
细粒度视觉识别旨在区分同一粗粒度大类下的不同细粒度子类别，如将鸟类（粗粒度大类）图像划分为西美鸥、灰背鸥、银鸥等（细粒度子类别），实现对视觉对象的精确识别，在现实生产和生活中具有重要的研究和应用价值。多模态大模型是指提取并融合文本、图像、视频等多模态数据表征，通过大语言模型进行推理，经过微调后适配到多种下游任务的基础模型。尽管现有多模态大模型在粗粒度视觉识别、问答、推理等多种任务上表现出色，但存在感知粒度粗的局限性：多模态大模型的感知能力依赖大量训练数据，但大量训练数据的细粒度类别标注成本巨大，导致现有多模态大模型无法像人一样进行细粒度视觉识别。

图1 多模态大模型细粒度视觉识别所需3项能力

为分析多模态大模型感知粒度粗的原因，本文系统分析并评估了多模态大模型细粒度视觉识别所需的3项能力，如图1所示，具体包括：（1）对象信息提取：视觉编码器能够从图像中准确并全面提取用于区分不同细粒度子类别的必要信息；（2）类别知识储备：大语言模型必须储备充分的细粒度子类别知识；（3）对象-类别对齐：基于提取的视觉信息与储备的子类别知识，进一步在大语言模型的表征空间中对齐视觉对象与子类别名称，以建立输入图像到子类别名称的细粒度映射关系。实验结果表明，“视觉对象与子类别名称未充分对齐”是限制多模态大模型细粒度视觉识别能力的关键瓶颈。

图2 细粒度视觉识别能力增强的多模态大模型（Finedefics）框架图

为缓解视觉对象与子类别名称未充分对齐的问题，本文提出了细粒度视觉识别能力增强的多模态大模型Finedefics。如图2所示，Finedefics构建过程包含2个步骤：（1）首先通过属性描述构建，利用辨识属性挖掘获得区分细粒度子类别的关键特征，例如区分猫的品种的辨识性属性“毛色”、“毛型”、“毛皮质地”等），并利用视觉属性提取获得图中对象的辨识性属性对，例如“毛色：棕褐色”、“毛型：带有斑纹”、“毛皮质地：质地柔软”等），再利用属性描述总结将属性对转化为自然语言形式的对象属性描述，例如“图中小猫的毛为棕褐色，带有斑纹，质地柔软”）；（2）然后通过属性增强对齐，将构建的对象属性描述作为视觉对象与子类别名称的共同对齐目标，通过对象-属性、属性-类别、类别-类别对比学习充分建立视觉对象与子类别名称的细粒度对应关系，再利用分类为中心的指令微调促进模型遵循细粒度视觉识别的任务指令。实验结果表明，在6个权威细粒度图像分类数据集Bird-200、Stanford Car-196、Stanford Dog-120、Flower-102、Oxford-IIIT Pet-37、FGVC-Aircraft上，本方法的平均准确率达到了76.84%，相比阿里2024年1月发布的通义千问大模型（Qwen-VL-Chat）提高了9.43%，相比Hugging Face 2024年4月发布的Idefics2大模型提高了10.89%。

图3 细粒度视觉识别能力增强的多模态大模型（Finedefics）实验结果

图4 细粒度视觉识别能力增强的多模态大模型（Finedefics）案例展示

该论文的第一作者是北京大学王选计算机研究所2023级博士生何胡凌霄，通讯作者是彭宇新教授，由2023级博士生李耕、2022级本科实习生耿子竣、徐婧林副教授（北京科技大学）共同合作完成。

（2）面向多轮组合图像检索的聚合-迭代模型
MAI: A Multi-turn Aggregation-Iteration Model for Composed Image Retrieval
作者：陈彦哲（硕士生），杨至文（博士生），徐婧林，彭宇新
通讯作者：彭宇新
论文链接：https://openreview.net/pdf?id=gXyWbl71n1
图像检索是计算机视觉的基本任务，近年来在电商等场景中广泛应用。然而，单一图像难以满足用户需求，用户通常需要修改图像以适配特定场景。为此，组合图像检索（CIR）通过结合参考图像和修改文本定位目标图像，多轮组合图像检索（MTCIR）利用用户迭代反馈，逐渐成为研究热点。然而，现有MTCIR方法通常通过串联单轮CIR数据集构建多轮数据集，存在两个不足：（1）历史上下文缺失：修改文本缺乏对历史图像的关联，导致检索偏离实际场景；（2）数据规模受限：单轮数据集规模有限，串联方式进一步压缩了多轮数据集的规模，难以满足需求。

图5 多轮聚合-迭代模型方法框架图

为解决上述问题，本文构建了新的多轮组合图像检索数据集和评测基准FashionMT。其特点包括：（1）回溯性：每轮修改文本可能涉及历史参考图像信息（如保留特定属性），要求算法回溯利用多轮历史信息；（2）多样化：FashionMT包含的电商图像数量和类别分别是MT FashionIQ的14倍和30倍，且交互轮次数量接近其27倍，提供了丰富的多模态检索场景。本文进一步提出了一种多轮关键信息感知方法，即多轮聚合-迭代模型MAI，重点关注MTCIR中的两大挑战：（1）多模态语义聚合，（2）多轮信息优化。具体而言，MAI引入了一种新的两阶段语义聚合（TSA）范式，并结合循环组合损失（CCL）。TSA通过引入描述文本作为过渡，逐步将图像与其描述文本聚合，再与修改文本聚合。CCL的循环结构进一步增强了语义一致性和模态对齐。此外，本文设计了一种无参数的多轮迭代优化（MIO）机制，动态选择具有高语义多样性的代表性标记，有效压缩了历史数据表征的存储空间。实验结果表明，本方法在所提出的新基准FashionMT的召回率上平均提升了8%，优于现有方法。

图6 多轮组合图像检索数据集和评测基准FashionMT

图7 多轮聚合-迭代模型方法实验结果

图8 多轮聚合-迭代模型方法案例展示

该论文的第一作者是北京大学王选计算机研究所2022级硕士生陈彦哲，通讯作者是彭宇新教授，由2022级博士生杨至文、徐婧林副教授（北京科技大学）共同合作完成。

相关链接：
北京大学多媒体信息处理研究室的2篇论文被ICLR 2025录用
北大彭宇新教授团队开源细粒度多模态大模型Finedefics