北京大学多媒体信息处理研究室：新闻

[English Version]

关注MIPL微信公众号

招生方向

北京大学多媒体信息处理研究室：新闻

2026-05-29：MIPL师生参加 CCIG 2026

2026年5月29日至31日，中国图像图形大会（CCIG 2026）在广东省广州市召开。MIPL彭宇新教授、博士生杨至文、都天翔、实习生许煌标参加了此次会议。
CCIG每年举办一次，是中国图象图形学学会的年度旗舰会议，涵盖图像图形各专业领域的学术盛会。本次会议吸引了4000余名科研院校师生、一线技术工程师前来参会。会议包括学术报告、主题报告和墙报展示等环节。
彭宇新教授应邀进行题为《细粒度多模态大模型》的学术报告，从类别、空间、时间三个感知维度阐释“细粒度多模态大模型”的定义，介绍近年来的主要研究进展，包括细粒度图像分类大模型、细粒度空间推理与占用预测、细粒度美学理解、细粒度运动分析等方法与技术，同时深入分析其优缺点和应用场景，最后将对细粒度多模态大模型的未来发展趋势进行展望。

彭宇新教授应邀进行题为《细粒度多模态大模型》的学术报告

MIPL师生会场合影
（从左到右：许煌标、彭宇新教授、杨至文、都天翔）

本次大会MIPL共有两篇论文被选中进行墙报展示，论文信息如下：
[1] Tianxiang Du, Hulingxiao He and Yuxin Peng*, "Venus: Benchmarking and Empowering Multimodal Large Language Models for Aesthetic Guidance and Cropping", The IEEE/CVF Conference on Computer Vision and Pattern Recognition 2026 (CVPR), Denver CO, USA, Jun. 3-7, 2026. (Accept)【pdf】【source code】【CVPR海报】【量子位报道】【CCIG海报】
该论文针对多模态大模型对照片过度正向评价、美学裁剪定位不准的问题，构建了首个美学指导数据集与评测基准AesGuide，并提出以美学指导为核心的裁剪能力激活方法Venus，实现以指导带动裁剪。首先通过渐进式审美问答，引导模型形成更接近人类的审美推理路径，赋予大模型美学指导能力；其次通过思维链裁剪推理，联合学习几何取景决策与构图逻辑，确定合理的裁剪范围。

都天翔同学墙报展示

[2] Zhiwen Yang and Yuxin Peng*, "Multi-Resolution Alignment for Voxel Sparsity in Camera-Based 3D Semantic Scene Completion", IEEE Transactions on Image Processing (TIP) , Vol. 35, pp. 1771-1785, Feb. 2026. 【pdf】【source code】【CCIG海报】
该论文针对基于相机的3D语义场景补全面临体素标签监督单一、空体素占比过高导致有效梯度传播不足的问题，提出多分辨率对齐方法 MRA。该方法通过多分辨率视角转换、立方语义各向异性建模和关键分布对齐，挖掘不同尺度3D特征间的场景级与实例级一致性，为稀疏体素监督提供辅助约束，从而提升模型优化效率和补全性能。

杨至文同学墙报展示