北京大学王选计算机研究所多媒体信息处理研究室

Document Title

主页

新闻

2025-05-05：研究室的1篇论文被IJCAI AI, the Arts and Creativity Special Track 2025接收

2025年国际人工智能联合会议，英文全称the 34th International Joint Conference on Artificial Intelligence (IJCAI 2025)将于2025年8月16日到22日在加拿大蒙特利尔举行，是CCF推荐的A类国际会议。
MIPL有1篇论文被接收，研究广告海报自动生成。

Scan-and-Print: 内容感知海报布局生成中的图块级数据摘要与增强方法
Scan-and-Print: Patch-level Data Summarization and Augmentation for Content-aware Layout Generation in Poster Design
作者：徐筱媛（硕士生），彭宇新
通讯作者：彭宇新
论文链接：https://arxiv.org/abs/2505.20649
源代码链接：https://github.com/theKinsley/Scan-and-Print-IJCAI2025
在AI海报设计中，图文布局生成旨在根据背景图片，安排Logo、文本等图文元素的位置、大小与样式，是实现设计自动化的关键技术。然而，现有方法在感知背景图像时面临着巨大的计算瓶颈。这主要体现在两个方面：（1）性能与效率低下：为了理解图像内容，现有模型往往依赖参数量庞大的图像编码器，导致推理速度缓慢，难以满足实时性要求。（2）泛化能力不足：庞大的模型参数远超现有训练数据的规模，这不仅容易导致模型过拟合，也限制了其在多样化场景下的泛化应用能力。
针对上述挑战，本文提出了图文布局生成方法Scan-and-Print，基于分块式数据摘要与增强，进行自回归的图文布局生成。具体分为3个部分：（1）数据摘要：首先对输入图像进行扫描，仅筛选出最适合放置布局元素顶点的少量关键图像块进行精细化感知。这一机制将计算资源集中于最有效的区域，从而降低了图像编码器的计算开销。（2）数据增强：通过将不同“图像-布局”对中的图像区块与元素顶点进行混合，在每个训练周期中合成超过一倍的新样本，有效扩充了训练数据的规模与多样性，提升模型的泛化能力。（3）基于顶点的布局表示：为支撑上述数据摘要与增强操作，本文引入了一种基于顶点的布局表示方法，直接对每个元素的左上角和右下角顶点进行建模，并显式地编码了元素间的层级与归属关系，能够灵活交换和重组不同元素的顶点，生成结构更合理、变化更丰富的图文布局。实验结果表明，本方法在图文布局生成的效率和精度上均超过现有最佳方法，图像编码器的计算量（FLOPs）降低了95.2%，同时布局生成质量提升了12.2%。
该论文的第一作者是北京大学王选计算机研究所2022级硕士生徐筱媛，通讯作者是彭宇新教授。