• Jump to Content
北京大学计算机研究所多媒体信息处理研究室
[中文版] [English Version]
Document Title
主页
新闻
成员
招生方向
研究方向
主要论文
科研项目
国际评测
相关报道
发明专利
开设课程
学生荣誉
学术交流
活动休闲
2025-11-08:研究室的2篇论文被AAAI 2026接收

   第四十届年度AAAI人工智能会议,英文全称The 40th Annual AAAl Conference on Artificial intelligence(AAAI 2026) 将于2026年1月20日至1月27日在新加坡举行,是CCF推荐的A类国际会议。本次会议共录用4176篇论文,录用率为17.6%。
  北京大学多媒体信息处理研究室(MIPL)共有2篇论文入选,研究自动驾驶语义场景补全、行人重识别。

(1)HD²-SSC: 自动驾驶中的高维度-高密度语义场景补全
  HD²-SSC: High-Dimension High-Density Semantic Scene Completion for Autonomous Driving
  作者:杨至文(博士生),彭宇新
  通讯作者:彭宇新
  论文链接:http://arxiv.org/abs/2511.07925
  源代码链接:https://github.com/PKU-ICST-MIPL/HD2-AAAI2026
  视觉语义场景补全旨在从多视角图像中重建完整的三维语义场景,即预测空间中每个体素的几何占用状态与语义类别,实现对复杂环境的精细感知与重建,在自动驾驶、机器人导航等场景中具有重要的研究和应用价值。然而,现有视觉语义场景补全方法忽视了自动驾驶道路场景中2D输入和3D输出之间的维度差异,以及人工标注和真实场景之间的密度差异,难以准确预测立体视角下的密集场景补全结果。
  针对上述问题,本文提出了自动驾驶中的高维度-高密度语义场景补全方法HD²-SSC,主要包含两个阶段:(1)针对维度差异,提出高维度语义聚合方法,通过伪体素化模块将粗粒度像素语义扩展为细粒度体素化语义特征,进一步通过语义聚合模块整合全局细粒度语义,实现像素和体素语义的对齐;(2)针对密度差异,提出高密度几何优化方法,采用“检测-优化”架构,通过粗粒度预测提取密度分数,利用几何密度优化模块识别并对齐几何和语义关键体素,确保上下文几何与语义的一致性,实现准确的语义场景补全。实验结果表明,本方法在常用自动驾驶数据集SemanticKITT和SSCBench-KITTI-360上均取得了很大的性能提升。
  该论文的第一作者是北京大学王选计算机研究所2022级博士生杨至文,通讯作者是彭宇新教授。

(2)CKDA: 跨模态知识解耦与对齐的可见光-红外终身行人重识别
  CKDA: Cross-modality Knowledge Disentanglement and Alignment for Visible-Infrared Lifelong Person Re-identification
  作者:崔振宇(博士生),周嘉欢,彭宇新
  通讯作者:彭宇新
  论文链接:http://arxiv.org/abs/2511.15016
  源代码链接:https://github.com/PKU-ICST-MIPL/CKDA-AAAI2026
  终身行人重识别旨在持续学习新增数据中不断涌现的新增行人鉴别性信息,同时保持对已知数据的识别能力。随着白天可见光图像和夜晚红外图像被不断采集,现有方法需要持续学习特定模态中的新知识(例如:仅适用于红外模态中的热辐射信息)。然而,特定模态中新知识的学习过程阻碍了模态间公共的旧知识(例如:同时适用于可见光与红外模态的人体体态信息)的保留,导致了单模态专用知识的获取与模态间公共知识的保留间的冲突,进而限制了持续学习场景下平衡不同模态中行人鉴别性知识的能力。
  针对上述挑战,本文提出一种跨模态知识解耦与对齐方法CKDA,其核心思想在于避免可见光与红外模态中知识的互相干扰,实现跨模态知识的高效平衡。具体贡献如下:(1)跨模态通用提示:通过去除仅存在于可见光或红外图像的风格信息,提取在两种模态中共存的鉴别性知识,为跨模态知识对齐奠定基础;(2)单模态专用提示:通过放大可见光-红外模态间的差异,促进特定模态知识的保留与净化,从而显式地避免可见光与红外模态中行人鉴别性知识的相互干扰;(3)跨模态知识对齐:利用旧知识原型构建了一组相互独立的模态内与模态间特征空间并分别对齐解耦后的新旧知识,提升了终身行人重识别模型对可见光-红外行人鉴别性知识的平衡能力。本文方法在多个可见光-红外终身行人重识别基准数据集中取得了优于现有方法的性能。
  该论文的第一作者是北京大学王选计算机研究所2021级博士生崔振宇,通讯作者是彭宇新教授,与周嘉欢助理教授合作完成。
北京大学王选计算机研究所多媒体信息处理研究室