2023-03-07:研究室的1篇文本生成图像论文被TOMM接收
研究室的1篇文本生成图像论文被TOMM接收:Zijun Deng, Xiangteng He and Yuxin Peng*, "LFR-GAN: Local Feature Refinement based Generative Adversarial Network for Text-to-Image Generation", ACM Transactions on Multimedia Computing, Communications, and Applications (TOMM), 2023。祝贺邓梓焌同学!
文本生成图像旨在根据给定的自然语言描述生成语义一致、内容真实且符合逻辑的图像。现有方法通常采用固定长度的文本编码,难以处理高度复杂、灵活的自然语言描述。这导致模型难以理解文本描述中的多个对象属性,在生成过程中遗漏生成对象的颜色和形态等细节。针对上述问题,本文提出基于局部细节编辑的文本生成图像方法,先生成初始图像,再将文本划分为若干对象属性描述并据此修改初始图像的局部细节,以实现细节可控的图像生成。首先,提出了一种属性建模方法,将输入文本划分为几个独立的对象属性描述并进行表征,为图像生成提供更丰富的细粒度信息;其次,提出了一种注意力驱动的特征定位方法,通过生成对象属性的注意力图和特征图,定位对象属性在初始图像中的对应区域,为这些属性的定向编辑提供参考;最后,提出了一种多阶段生成方法,通过形状损失、注意力损失、判别器损失分三个阶段控制对象的形态、局部特征和纹理细节,由粗到细地修改对象的属性,从而实现图像细节的可控编辑。本文在两个广泛使用的文本生成图像数据集上验证了方法的有效性。
文本生成图像旨在根据给定的自然语言描述生成语义一致、内容真实且符合逻辑的图像。现有方法通常采用固定长度的文本编码,难以处理高度复杂、灵活的自然语言描述。这导致模型难以理解文本描述中的多个对象属性,在生成过程中遗漏生成对象的颜色和形态等细节。针对上述问题,本文提出基于局部细节编辑的文本生成图像方法,先生成初始图像,再将文本划分为若干对象属性描述并据此修改初始图像的局部细节,以实现细节可控的图像生成。首先,提出了一种属性建模方法,将输入文本划分为几个独立的对象属性描述并进行表征,为图像生成提供更丰富的细粒度信息;其次,提出了一种注意力驱动的特征定位方法,通过生成对象属性的注意力图和特征图,定位对象属性在初始图像中的对应区域,为这些属性的定向编辑提供参考;最后,提出了一种多阶段生成方法,通过形状损失、注意力损失、判别器损失分三个阶段控制对象的形态、局部特征和纹理细节,由粗到细地修改对象的属性,从而实现图像细节的可控编辑。本文在两个广泛使用的文本生成图像数据集上验证了方法的有效性。