北京大学多媒体信息处理研究室：新闻

[English Version]

关注MIPL微信公众号

招生方向

北京大学多媒体信息处理研究室：新闻

2026-05-20：祝贺王梓烁同学获得王选所唯一优秀硕士论文奖

2026年5月20日，在王选所106会议室举行了硕士研究生毕业答辩。今年答辩的硕士研究生为王梓烁同学，以下是他的硕士研究生学位论文介绍。5月22日，该论文经答辩和评审，荣获王选所唯一优秀硕士论文奖。

王梓烁同学和导师彭宇新教授的合影

王梓烁同学和各位答辩委员会老师的合影

个人介绍

王梓烁同学于2021年以北大大二本科实习生身份加入MIPL实验室，并于2023年免试进入王选所攻读硕士学位，师从彭宇新教授。
攻读硕士期间，王梓烁同学共发表5篇论文。其中，以第一作者发表CCF-A类论文2篇，包括ACM MM 2024和IEEE TIP 2026。获得王选所2024年、2025年优秀学生等荣誉。在项目方面，王梓烁作为主要成员参与了彭宇新教授主持的国家杰出青年科学基金项目“跨媒体分析”、国家杰青延续资助项目“跨媒体内容理解与生成”、北京市自然科学基金联合基金重点项目“面向多模态大模型端侧性能提升的知识蒸馏与量化压缩技术研究”。王梓烁在华为合作项目中，研发了端侧通用视觉模型，支持目标检测、视频定位、场景识别3项功能，提升准确率的同时降低参数量，使模型能够部署于智能手机等端侧设备。在中国航天科工合作项目中，研发无人机定位与待降区域检测技术，实现自动定位与避障，仅依靠视觉信息为无人机提供安全保障。

硕士论文：《开放域细粒度图像分类及其轻量化方法研究》

开放域细粒度图像分类及其轻量化方法研究框架

细粒度图像分类是计算机视觉领域的重要研究问题，旨在区分同一粗粒度大类下的不同细粒度子类别，例如在“鸟类”大类下识别“阿卡迪亚霸鹟”、“大冠蝇霸鹟”等不同物种，在“汽车”大类下识别“奥迪A4”、“奥迪A6”等不同型号。然而现有方法高度依赖细粒度类别标注，仅能识别数据集已有类别，难以泛化至真实世界中的数量庞大且持续新增的对象类别。同时，多模态大模型展现出开放域泛化能力，为突破细粒度图像分类的封闭域限制提供了契机，但即使是最新的多模态大模型也无法实现准确的细粒度分类，且面临着高昂的计算开销。因此，本文开展开放域细粒度图像分类及其轻量化方法研究，主要研究内容如下：（1）首先研究开放域目标检测方法，定位任意粗粒度类别的目标，为后续细粒度分类提供基础；（2）然后研究基于多模态大模型的细粒度图像分类方法，增强多模态大模型对开放域未见类别的细粒度分类能力；（3）最后研究多模态大模型推理加速方法，在保持开放域细粒度图像分类能力的同时，提高推理速度、降低计算开销，实现开放域、细粒度、轻量化的图像分类。