2019-05-10:研究室的1篇文本生成视频的论文被IJCAI 2019接收
研究室独立完成的1篇论文被IJCAI 2019接收:Kangle Deng, Tianyi Fei, Xin Huang and Yuxin Peng, "IRC-GAN: Introspective Recurrent Convolutional GAN for Text-to-video Generation", 28th International Joint Conference on Artificial Intelligence(IJCAI 2019)。IJCAI是人工智能领域的顶级国际会议,也是CCF A类会议。IJCAI 2019共有4752篇论文提交,录取率为17.9%。论文的共同第一作者邓康乐、费天一都是北京大学信息学院的大学三年级学生。祝贺邓康乐、费天一同学!
文本生成视频是根据用户提供的文本,自动生成内容一致的视频,是一项很有挑战性的任务。其中视觉质量和视觉与文本的语义一致性是两个核心问题。现有方法难以利用已经生成的帧信息生成连续性更好的视频,且无法量化视频与给定文本之间的语义一致性。针对上述问题,本文提出了一种基于互信息约束的递归卷积生成网络方法。一方面提出递归卷积生成器 (Recurrent Transconvolutional Generator),将LSTM记忆单元融合于2D反卷积层内部,提高了视频每帧的清晰度以及各帧之间的连续性,提升了视觉质量。另一方面提出了基于互信息的内省式语义对齐方法 (Mutual-Information Introspection),通过互信息内省计算视频和文本之间的语义相似度,并最大化语义相似度来保证语义一致性。本文方法在三个数据集上进行了验证,实验结果验证了本文方法的有效性。
文本生成视频是根据用户提供的文本,自动生成内容一致的视频,是一项很有挑战性的任务。其中视觉质量和视觉与文本的语义一致性是两个核心问题。现有方法难以利用已经生成的帧信息生成连续性更好的视频,且无法量化视频与给定文本之间的语义一致性。针对上述问题,本文提出了一种基于互信息约束的递归卷积生成网络方法。一方面提出递归卷积生成器 (Recurrent Transconvolutional Generator),将LSTM记忆单元融合于2D反卷积层内部,提高了视频每帧的清晰度以及各帧之间的连续性,提升了视觉质量。另一方面提出了基于互信息的内省式语义对齐方法 (Mutual-Information Introspection),通过互信息内省计算视频和文本之间的语义相似度,并最大化语义相似度来保证语义一致性。本文方法在三个数据集上进行了验证,实验结果验证了本文方法的有效性。