北京大学王选计算机研究所多媒体信息处理研究室

Document Title

主页

新闻

2024-02-06：研究室的1篇文本驱动的3D场景生成论文被TMM期刊接收

研究室的1篇文本驱动的3D场景生成论文被TMM期刊接收：Zhaoda Ye, Yang Liu, Yuxin Peng*, "MAAN: Memory-Augmented Auto-regressive Network for Text-driven 3D Indoor Scene Generation", IEEE Transactions on Multimedia (TMM), 2024。祝贺叶钊达同学！
文本驱动的3D场景生成技术，旨在根据用户输入的文本描述，通过分析文本中的场景对象及其关系，自动生成与文本描述一致且具有合理布局的3D场景。基于该技术能够为设计师提供高效的辅助工具，简化了重复且冗余的手工场景布置流程。现有的3D场景生成技术较少考虑利用文本控制3D场景生成，无法利用文本准确控制3D场景的生成，还缺乏有效的机制保证文本驱动生成的3D场景具有符合常识且合理的布局，常出现穿模等冲突。针对上述问题，本文提出了记忆增强的自回归生成网络，一方面通过记忆网络建模场景中已有对象，以辅助生成模型生成正确的对象关系；一方面通过学习已有场景中的布局知识，提升布局生成的合理性。方法首先构建了记忆增强网络来建模场景中已有对象及其空间信息，通过相关性度量帮助模型准确获取与新生成对象相关的已有对象空间信息，从而生成正确的对象大小、旋转、空间位置等属性。然后，提出了基于先验的布局预测网络，通过预训练从已有场景中学习合理的对象间组合和布局知识，在生成阶段基于预训练时学习到的知识处理对象间的空间信息，确保生成的3D场景不仅符合文本描述，还同时具有符合常识且合理的布局。本文方法在大型室内场景数据集3D-FRONT上进行了验证，结果表明本文方法相比对比方法不仅能够更加准确地利用文本控制3D场景的生成，同时生成的场景具有好的布局合理性。