• Jump to Content
北京大学计算机研究所多媒体信息处理研究室
[中文版] [English Version]
Document Title
主页
新闻
成员
招生方向
研究方向
主要论文
科研项目
国际评测
相关报道
发明专利
开设课程
学生荣誉
学术交流
活动休闲
2025-11-01:MIPL学生参加 ACM MM 2025

  2025年10月27日至10月31日,ACM国际多媒体大会(ACM International Conference on Multimedia,ACM MM 2025)在爱尔兰都柏林召开。MIPL博士生杨至文参加了此次会议。
  ACM MM每年召开一次,是CCF A类推荐的国际多媒体领域顶级会议,涵盖多媒体内容理解、生成等各专业领域。本次会议共录用1251篇论文,录用率为26.55%。
MIPL博士生杨至文

  本次大会MIPL共有4篇论文发表,信息如下:
  [1] Zhiwen Yang and Yuxin Peng*, "SPHERE: Semantic-PHysical Engaged REpresentation for 3D Semantic Scene Completion", The 33rd ACM International Conference on Multimedia (ACM MM), Dublin, Ireland, Oct. 27-31, 2025.
  本论文针对语义场景补全 (Semantic Scene Completion, SSC) 中,单一表征方法难以兼顾精度和效率的问题,提出语义-物理联合表征三维占用预测 (Semantic-PHysical Engaged REpresentation, SPHERE) 方法。本方法主要包含两个阶段:(1)语义引导的高斯初始化,首先通过体素分支和三视图分支分别提取局部与全局语义特征,并根据两者的语义一致性筛选具有辨识性语义特征的关键锚点,引导高斯表征在关键区域的高效初始化;(2)物理感知的球谐增强,进一步将高斯语义表征投影到正交球谐空间,增强局部上下文几何结构信息建模,最后通过关键体素分布对齐促进语义-几何一致性,从而实现精度与效率兼顾的三维占用预测。
杨至文同学做报告展示

  [2] Zhu Xu, Zhaowen Wang, Yuxin Peng and Yang Liu*, "Customized Human Object Interaction Image Generation", The 33rd ACM International Conference on Multimedia (ACM MM), Dublin, Ireland, Oct. 27-31, 2025.
  本论文针对定制化图像生成仅关注目标外观、缺乏交互语义控制的问题,提出定制化人类物体交互图像生成任务(CHOI),需要保持人类与物体的身份特征并精确控制其交互语义。首先为解决身份特征与交互语义难以解耦的挑战,本文构建了一个大规模CHOI数据集,包含多姿态的同一人物对交互样本,用于支持身份与交互特征的解耦学习。为实现交互语义和身份定制能力平衡,设计了两阶段模型Interact-Custom,通过生成前景交互掩码以显式建模人物空间关系,并在掩码引导下实现身份定制。

  [3] Zijing Zhao, Zhu Xu, Qingchao Chen, Yuxin Peng and Yang Liu*, "Investigating Domain Gaps for Indoor 3D Object Detection", The 33rd ACM International Conference on Multimedia (ACM MM) Dataset Track, Dublin, Ireland, Oct. 27-31, 2025.
  本文针对3D室内场景目标检测在跨域迁移中性能下降的问题,提出了两个大规模仿真数据集和一套3D室内场景域适应目标检测基准。具体贡献如下:(1)数据集:构建了两个10k规模的仿真数据集ProcTHOR-OD和ProcFront,通过多样化场景布局和物体实例缓解数据稀缺问题,支持域适应任务研究;(2)跨域基准:结合真实与仿真数据,构建了包括ScanNet、SUN RGB-D等在内的全面基准,分析不同因素对检测任务的影响;(3)基线模型:提出了包括少量样本微调、物体大小先验和无监督适应等域适应方法,为提升跨域适应能力奠定基础。

  [4] Wentao Mo, Qingchao Chen, Yuxin Peng, Siyuan Huang and Yang Liu*, "Advancing 3D Scene Understanding with MV-ScanQA Multi-View Reasoning Evaluation and TripAlign Pre-training Dataset", The 33rd ACM International Conference on Multimedia (ACM MM) Dataset Track, Dublin, Ireland, Oct. 27-31, 2025.
  本文针对现有三维视觉语言(3D-VL)学习中的数据集瓶颈,提出了多视角基准测试、对齐多物体的预训练数据集及基线模型,以推动多视角、深层次三维场景理解的发展。具体贡献如下:(1)多视角问答基准(MV-ScanQA):构建了一个新数据集,有效测试多视角组合推理能力;(2)多物体对齐预训练语料库(TripAlign):提出了一个大规模2D-3D-语言三模态数据集,包含100多万个<2D视图, 3D物体集, 文本>三元组,显式对齐文本与多物体,增强模型对复杂场景的理解;(3)基线模型(LEGO):提出基线方法LEGO,结合预训练的二维视觉语言模型与TripAlign数据集,在MV-ScanQA等基准上取得最佳性能,验证了新数据集在提升三维视觉语言理解能力上的潜力。
北京大学王选计算机研究所多媒体信息处理研究室