• Jump to Content
北京大学计算机研究所多媒体信息处理研究室
[中文版] [English Version]
Document Title
主页
新闻
成员
招生方向
研究方向
主要论文
科研项目
国际评测
相关报道
发明专利
开设课程
学生荣誉
学术交流
活动休闲
2025-08-02:研究室的2篇论文被ACM MM dataset track 2025接收

   第33届ACM国际多媒体大会,英文全称 The 33rd ACM International Conference on Multimedia(ACM MM)将于2025年10月27日至10月31日在爱尔兰都柏林举行,是CCF推荐的A类国际会议。
  北京大学多媒体信息处理研究室(MIPL)共有2篇论文入选ACM MM dataset track,成果覆盖三维场景理解、三维室内场景目标检测研究方向。

(1)MV-ScanQA与TripAlign: 通过多视角推理基准测试和多物体对齐预训练数据集推动三维场景理解
  Advancing 3D Scene Understanding with MV-ScanQA Multi-View Reasoning Evaluation and TripAlign Pre-training Dataset
  作者:莫文韬(博士生),陈庆超,彭宇新,黄思远,刘洋
  通讯作者:刘洋
  三维视觉语言(3D-VL)学习旨在让模型能够理解三维场景并根据自然语言指令进行交互。然而,现有三维视觉语言数据集的发展面临着瓶颈:(1)评估场景过于简单:现有基准测试中的问题大多(超过93%)仅需单一视角的局部信息即可解答,无法有效评估模型在真实场景中必需的、跨越多个视角的远距离空间推理能力。(2)训练数据对齐稀疏:现有的训练数据通常只将文本指令与单个物体进行关联,忽略了场景描述中普遍存在的、涉及多个物体间上下文关系的丰富信息,限制了模型学习复杂场景的能力。
  针对上述挑战,本文提出了一套全新的多视角基准测试、多物体对齐的预训练数据集和一个健壮的基线模型,旨在推动具备真正多视角、深层次三维场景理解能力的3D多模态大模型发展。具体贡献如下:(1)多视角问答基准(MV-ScanQA):构建了一个全新的三维问答数据集MV-ScanQA。其中68%的问题明确要求模型综合多个不同视角的信息才能正确回答(相比之下,现有数据集中该比例不足7%),从而对模型的多视角组合推理能力进行严格测试;(2)多物体对齐预训练语料库(TripAlign):提出了一个大规模、低成本的2D-3D-语言三模态预训练数据集TripAlign。它包含超过100万个<2D视图, 3D对象集合, 文本>三元组,通过将文本描述与一组相关的物体进行显式对齐,提供了比传统单物体标注更丰富的多目标、多模态对齐信号;(3)基线模型(LEGO):进一步提出了一个名为LEGO的基线方法,利用了预训练的二维视觉语言模型和TripAlign数据集的优势,在MV-ScanQA及多个现有3D视觉语言基准测试上均取得了当前最佳性能,验证了提出的数据集在推动模型三维视觉语言理解能力方面的潜力。
  该论文的第一作者是北京大学王选计算机研究所2022级博士生莫文韬,通讯作者是刘洋助理教授,与彭宇新教授共同合作完成。

(2)ProcTHOR-OD与ProcFront: 针对三维室内场景目标检测域差异的研究
  Investigating Domain Gaps for Indoor 3D Object Detection
  作者:赵子敬(硕士生),徐铸,陈庆超,彭宇新,刘洋
  通讯作者:刘洋
  3D室内场景目标检测作为室内场景理解的基础任务,在点云数据上已经取得了显著的进展。然而,当前的研究大多局限于在单一数据集上进行训练和测试,训练集和测试集分布一致。这使得现有的检测模型在跨域迁移,面对来自不同数据集的点云数据时,受到点云质量、物体布局、实例特征等方面域差异的影响而表现出较大的性能下降。
  针对上述挑战,本文提出了两个大规模仿真3D室内场景目标检测数据集、一套全面的3D室内场景域适应目标检测基准和针对该任务的基线模型,旨在推动3D室内场景域适应目标检测任务的发展。具体贡献如下:(1)大规模仿真3D室内场景目标检测数据集ProcTHOR-OD和ProcFront:基于仿真平台实现布局和物体实例多样化的场景生成,有效缓解3D室内场景数据稀缺的问题,利用不同物体实例源构造了2个10k的数据集,能够用于不同粒度的域适应目标检测任务研究;(2)全面的跨域基准:结合ScanNet、SUN RGB-D、3D Front以及我们新提出的ProcTHOR-OD和ProcFront构建全面基准,进行真实-仿真,高质量点云-低质量点云,不同物体布局,不同物体实例四个场景下的3D室内场景域适应物体检测,深入探究分析不同因素对该任务带来的挑战;(3)基线模型:提出了几种域适应方法,包括少量样本微调、物体大小先验和无监督适应等,以提升模型在不同数据集上的适应能力,为3D室内场景域适应目标检测任务奠定基础。
  该论文的第一作者是北京大学王选计算机研究所2022级硕士生赵子敬,通讯作者是刘洋助理教授,与彭宇新教授共同合作完成。
北京大学王选计算机研究所多媒体信息处理研究室