北京大学王选计算机研究所多媒体信息处理研究室

Document Title

主页

新闻

2019-11-11：研究室的1篇文本生成图像论文被TCSVT接收

研究室的1篇论文被TCSVT接收为Regular论文：Mingkuan Yuan and Yuxin Peng, "Bridge-GAN: Interpretable Representation Learning for Text-to-image Synthesis", IEEE Transactions on Circuits and Systems for Video Technology (TCSVT), 2019。祝贺袁明宽同学！
文本生成图像任务可以针对一句给定的自然语言文本生成与之内容一致的图像。近年来随着基于生成式对抗网络的图像生成方法的快速发展，很多方法已经可以生成具有高视觉真实性的图像，但是将自然语言文本转化为内容一致的图像依然具有挑战性。主要具有两个难点：视觉真实性与内容一致性。针对上述难点，本文考虑建立一个具备可解释性特征的过渡空间作为桥梁，来连接图像和文本两种不同的模态。因此本文提出一种文本生成图像方法Bridge-GAN，其包含一种类桥结构的生成式对抗网络。通过一个具备可解释性特征的过渡空间作为桥梁来提升生成图像与输入自然语言文本的内容一致性；同时本方法包含一组三元互信息目标函数，可以对过渡空间的求解进行优化，从而增强视觉真实性与内容一致性。最终通过端到端训练过程，该生成式对抗网络能够生成具备良好视觉质量与语义一致性的图像。

论文下载: Bridge-GAN: Interpretable Representation Learning for Text-to-image Synthesis【pdf】