北京大学王选计算机研究所多媒体信息处理研究室

Jump to Content

Document Title

主要研究方向：

细粒度多模态大模型：提取并融合文本、图像、视频等多模态的数据表征，通过大语言模型进行推理，经过微调后适配到多种细粒度视觉感知任务。从人类视觉系统的“双流假设”出发，视觉感知可分解为“识别对象”、“确定位置”与“跟踪变化”三个基础阶段，分别对应细粒度多模态大模型的三个维度：（1）类别细粒度：区分同一大类下高度相似的不同子类别。例如，不仅识别出“鸟”，更能区分“小纹霸鹟”与“阿卡迪亚霸鹟”等具体鸟类物种。（2）空间细粒度：在高分辨率输入中对微小、密集或语义复杂的区域进行定位与识别。不仅检测显著物体，还能根据逻辑推理精准定位复杂场景中的特定目标或理解精细的局部细节。（3）时间细粒度：在视频中定位和理解事件或动作，不仅生成视频摘要，还能精确定位动作的时间边界，并将复杂动作分解为子动作进行时序分析。

细粒度视觉推理大模型：通过“图像思考（thinking with images）”，利用视觉模态作为推理中间步骤，赋予模型主动感知—主动聚焦—主动验证的视觉推理能力，能够自适应地执行图像缩放、裁剪、局部放大等多步操作，对图像关键区域进行逐层深入的细粒度感知，突破高分辨率图像处理及复杂场景下的小目标识别难题，使得大模型能够在保留全局视野的同时，精准捕捉局部微弱但判别性强的细节视觉线索，完成更深层次的细粒度视觉理解任务。

大模型轻量化：面向大模型在实际场景中的落地需求，研究模型剪枝、量化、低秩分解、知识蒸馏等轻量化技术，在保持模型精度的同时，大幅降低参数规模、计算开销与存储成本，实现大模型在手机、平板、智能汽车等端侧设备上的高效部署与实时推理。

AIGC：研究内容与风格可控的生成扩散模型，实现图像、视频等视觉内容的高质量、多样化生成。例如，在电商场景中，可根据商品图像与设计文案自动生成视觉美观、布局合理的宣传海报；或结合人物图像与动作描述，生成主体一致、动作自然的短视频内容。

美学理解：模拟人类的审美感知与情感响应过程，研究面向图像与视频的美学质量评价、情感语义分析及审美导向的生成与增强技术，包括影像美学分析、智能拍摄引导、构图取景优化、可控照片精修等任务。例如，给定一张照片，模型可基于摄影美学规则自动诊断画面问题，智能推荐取景范围与拍摄机位，并进一步优化画面构图布局、光影关系与色彩层次，帮助非专业用户创作出媲美专业摄影师水准的作品。

自动驾驶：综合利用激光雷达、视觉相机、毫米波雷达等多传感器数据，构建从原始传感器输入到控制信号输出的端到端模型架构，实现对复杂动态环境的精准感知、意图理解与决策规划。