2018-10-03:研究室的1篇跨模态循环学习论文被TMM接收
研究室的1篇论文被TMM接收为Regular论文:Yuxin Peng and Jinwei Qi, "Show and Tell in the Loop: Cross-Modal Circular Correlation Learning", IEEE Transactions on Multimedia (TMM), 2018。祝贺綦金玮同学!
现有的跨模态工作往往仅聚焦于图像、文本之间信息转换过程中的某一个部分,例如共享语义空间映射、图像生成文本描述、文本生成图像等。然而,图像和文本数据之间的信息转换应该被视作一个完整的环路,且在这个闭环中视觉和语言信息能够发生相互作用,这对于充分理解图像和文本之间的潜在关联,实现跨模态数据的统一认知至关重要。因此,本文提出了跨模态循环关联学习方法,在一个联合的网络结构中实现跨模态关联学习以及跨模态相互生成。首先提出跨模态循环学习模型,循环地进行图像到文本以及文本到图像的生成,同时在相互生成过程中学习统一表征作为往返的桥梁,充分挖掘图像和文本之间的潜在关联关系。然后提出了跨模态相互生成的联合网络,并通过高效的循环训练方式,使得不同跨模态任务之间相互促进,在提升模型生成能力的同时进一步提升跨模态关联学习的效果。本文方法能够同时支持多个跨模态任务,包括跨模态检索、图像生成文本描述以及文本生成图像,在跨模态领域广泛使用的MS-COCO数据集上的实验结果表明,本文方法在上述三个任务上都取得了更好的效果。
论文下载: Show and Tell in the Loop: Cross-Modal Circular Correlation Learning【pdf】
现有的跨模态工作往往仅聚焦于图像、文本之间信息转换过程中的某一个部分,例如共享语义空间映射、图像生成文本描述、文本生成图像等。然而,图像和文本数据之间的信息转换应该被视作一个完整的环路,且在这个闭环中视觉和语言信息能够发生相互作用,这对于充分理解图像和文本之间的潜在关联,实现跨模态数据的统一认知至关重要。因此,本文提出了跨模态循环关联学习方法,在一个联合的网络结构中实现跨模态关联学习以及跨模态相互生成。首先提出跨模态循环学习模型,循环地进行图像到文本以及文本到图像的生成,同时在相互生成过程中学习统一表征作为往返的桥梁,充分挖掘图像和文本之间的潜在关联关系。然后提出了跨模态相互生成的联合网络,并通过高效的循环训练方式,使得不同跨模态任务之间相互促进,在提升模型生成能力的同时进一步提升跨模态关联学习的效果。本文方法能够同时支持多个跨模态任务,包括跨模态检索、图像生成文本描述以及文本生成图像,在跨模态领域广泛使用的MS-COCO数据集上的实验结果表明,本文方法在上述三个任务上都取得了更好的效果。